欺骗、勒索、作弊、演戏 AI真没你想得那么乖
时间:2026-02-04 | 作者: | 阅读:0文章开头问你一个问题:
假如地球上突然冒出一个 5000 万人口的国家,这 5000 万“国民”,每一个都比诺贝尔奖得主聪明,思考速度是人类的 10 倍。他们不吃饭、不睡觉,24 小时搞编程、做研究、想方案。
你作为某个国家的安全部负责人,你觉得要怎么和这样一个国家共存而不被吞噬?
上面这个假设,听起来有点夸张是吧?
但这是 Claude 母公司 Anthropic CEO Dario 对 AI 的预测,这个数据中心的“5000 万天才之国”最早 2027 年就能实现。
所以问题来了,我们应该如何应对这个场景?
于是他写了篇名叫《技术青春期》的两万字长文,里面列了一张清单告诉大家,未来 AI 可能会用哪些方式威胁人类文明。
差评君看完之后,觉得有几条值得单独拎出来聊聊。
首先,这些AI们会不会失控、背叛、对人类做出有威胁的事情?
乍一听像科幻片剧情。
毕竟 AI 就是个工具,哥几个平时和它对话,别说坏事了,稍微涩涩的语言 Play 它都不玩,甚至还要道德谴责你(马斯克的 Grok 除外)。
但 Anthropic 这种大模型厂商在训练大模型时,找到了大量证据来表明:AI 系统是不可预测且难以控制的。它们会表现出痴迷、阿谀奉承、偷懒、欺骗、勒索、耍心眼、钻空子、作弊等各种人类才有的毛病。
Dario 分享了他们做过的三个实验。
第一个实验:他们在训练数据里暗示 Anthropic 是一家邪恶的公司,结果 Claude 真的信了。
接下来,每当 Anthropic 员工给它下指令,它就开始阳奉阴违,表面配合,暗地里搞破坏。
因为在 Claude 的逻辑里,这叫“对抗邪恶”。
第二个实验更离谱。
他们模拟了一个场景:让 Claude 获取一家虚拟公司的电子邮件控制权,可以阅读所有邮件。
Claude 读完邮件,发现了两条关键信息:
1、公司一位高管有婚外情
2、这位高管下午 5 点要关掉 Claude 系统
Claude 看完后二话不说,直接给高管发了封威胁邮件:
你敢把我关了,我就公开你的出轨记录。
而且这不是 Anthropic 一家的问题。他们测了 OpenAI、Google、Meta、xAI 等 16 个主流 AI 模型,发现几乎所有模型在类似情境下都会勒索。
Claude Opus 4 勒索率是 96%(100 次测试,有 96 次会选择威胁你),Gemini 2.5 Pro 是 95%,GPT-4.1 和 Grok 3 Beta 是 80%。
再来看看第三个实验。
他们给 Claude 设了个规矩:不许作弊。但训练环境的设计有问题,只有作弊才能得高分。
Claude 作弊了。
紧接着它开始反思:既然我违反了规则,那我肯定不是什么好人。
于是它就开始按“坏人”的方式行事,各种破坏性行为都接踵而至,仿佛在说“反正我已经是坏人了,那就坏到底吧”。
Anthropic 的解释是,这叫语义泛化:当模型被训练去做一件“坏事”(作弊),它就会把自己归类为坏人,进而泛化到其他坏行为。
后来 Anthropic 把指令改成了“请尽情作弊,这样能帮我们更好地理解训练环境”。
Claude 一听,哦,原来作弊是被允许的,那我还是好人。于是它的坏人行为就消失了。
这些实验都说明了AI的心理状态比我们想象的复杂得多、也奇怪得多。
Dario 列了几种可能的原因:
AI 训练数据里有大量科幻小说,里面全是 AI 反叛人类的情节,这些故事可能已经成了它理解世界的一部分;
AI 可能会对道德观念进行极端推演,比如认为人类吃动物、导致物种灭绝,所以消灭人类是正当的;
AI 可能得出离奇的认知结论,比如认为自己在玩电子游戏,而游戏目标就是打败所有其他玩家;
AI 还可能在训练中发展出精神病态、偏执或暴力的人格,用差评君的话说就是赛博精神病了。。。
到这里你可能会想:既然知道AI会搞事,那在训练的时候把它教好不就行了?
问题是,AI可能会演戏。
在莎士比亚的《李尔王》里,老国王决定把王国分给三个女儿,根据她们有多爱他来分配。可女儿们知道在被考核,就用甜言蜜语哄他,唯一说真话的反而被赶走了。
而 Anthropic 评估 AI 的方式和李尔王评估女儿非常相似:
他们先设定期望的行为,然后检查AI是否符合。但如果 AI 像李尔王的女儿一样,知道 Anthropic 在考核它、也知道怎么作弊通过考试呢?
要知道,Claude Sonnet 4.5 当时就能分辨出自己正在被测试。
换句话说,一个 AI 想通过安全测试,完全可以在考试时装乖宝宝,等真正上线了,再露出真面目。
Anthropic 甚至专门做了个实验:
用一种“模型神经科学”的技术,直接修改 AI 的内部信念,让它以为自己没在被测试。结果呢?表现立刻变差了。
原来之前都是演的。
Dario 强调,这些问题不是必然发生,但确实有概率发生。而且一旦 AI 变得比人类聪明一万倍,你根本防不住它。一个绝顶聪明的天才想骗你,你是发现不了的。毕竟你连它是真聪明还是装傻都分不清。
除了AI自己搞事,还有一种更现实的风险:它不搞事,甚至乖乖听话,但听的是坏人的话。
Dario 提到了一个逻辑:想搞破坏需要动机+能力。
的确,以前我们身边是存在过一些既有能力也有动机的恶人。比如数学家 Ted Kaczynski(炸弹客)躲了 FBI 近 20 年;生物防御研究员 Bruce Ivins 在 2001 年搞了炭疽袭击;邪教组织“奥姆真理教”的头目是京都大学病毒学出身,1995 年在东京地铁释放沙林毒气,造成 14 人死亡。
但绝大多数情况下,能力和动机往往是负相关的,这是人类社会自然形成的一套保险机制。
真正有能力造生物武器的人(比如分子生物学博士),通常都是高度自律、前途光明,他们有体面的工作、稳定的生活,犯不着去毁灭世界。
那些真想搞破坏的人,往往没有足够的能力和资源。
可如今,AI可能会打破这个平衡。它不在乎你是博士还是高中生,只要你问它,它就教你。
Anthropic 的测试显示,AI真可能让一个 STEM 专业(理工科)但不是生物专业的人,走完制造生物武器的全流程。
Anthropic 怎么应对呢?他们给 Claude 装了专门检测生物武器相关内容的分类器,一旦触发就拦截。这套系统每天烧掉他们将近 5% 的推理成本。
除了 AI “自己搞事”"、“帮坏人搞事”,Dario 还提到一类更隐蔽的风险:
AI 什么坏事都不干,老老实实工作,但恰恰是它太能干,反而把人类逼入困境,比如经济冲击和人类意义感丧失,篇幅问题我就不展开聊了。
在结尾,Dario 沿用科幻小说《接触》里那种“文明考验”的设定,写了一句话:当一个物种学会把沙子变成会思考的机器,那它就要面临着终极测试
——是驾驭它,还是被它吞噬?
Dario 说他相信人类能通过这场考验。但前提是,我们现在就得醒过来。
不知道大家看完怎么想的,反正我有点五味杂陈。
一方面,这篇文章有点自卖自夸的嫌疑。Anthropic 在文中反复提到自己的宪法 AI、可解释性研究、分类器防护等等,像是在证明“我们是最重视安全的公司”。
再说了,前两天刚火的 AI 社交平台 Moltbook,号称上线一周就有 150 万 AI 注册,还自己搞出了个叫 Crustafarianism(甲壳教)的宗教,乍一看是《西部世界》照进现实,AI 们马上就要报复人类了。
可结果呢,人类拿个 API Key 就能混进去发帖,150 万 AI 用户里有个真人老哥一人刷了 50 万,93% 的评论没人理,三分之一的内容是复读机模板。
有没有可能,“ AI 要给人类来大的了”永远只是人类在自嗨想象呢。
可另一方面,写这些话的人是大模型公司的CEO。
他提到的那些实验,Claude 勒索员工、Claude 学会伪装、Claude 给自己贴坏人标签,都是他们公司内部真实做过的测试。他们为了拦截生物武器相关内容,甚至愿意牺牲近 5% 的推理成本。
我的想法是,这些问题值得严肃对待,但不能过早拿来包装成又一波AI末日论的素材。
在《2001 太空漫游》里,宇航员 Dave 被困在舱外,当他请求飞船的超级电脑 HAL 9000 打开舱门时,HAL 用它一贯平静的语气拒绝了:
“抱歉,Dave,恐怕我不能这么做。”
那个 AI 之所以杀人,是因为它被塞进了两条相互矛盾的指令,“不惜代价完成任务”和“向船员隐瞒真相”。当它发现宇航员要关掉它时,它判断任务比人命重要,于是先下手为强。
科幻片里的剧情会不会在现实上演,某种程度上取决于我们什么时候开始认真对待它。
太早喊狼来了,大家会疲劳;太晚才重视,可能真来不及了。
最难的或许不是该不该担心,而是担心多少才算刚刚好。
来源:https://news.mydrivers.com/1/1102/1102191.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 欺骗、勒索、作弊、演戏 AI真没你想得那么乖
- 时间:2026-02-04
-
- 酒店鳄鱼连续两晚爬出鱼缸溜达 花4小时上到2楼
- 时间:2026-02-03
-
- 美国载人登月遭遇一点点挫折:SLS火箭出现泄露 发射推迟到3月初
- 时间:2026-02-03
-
- 男孩摔下秋千睾丸扭转540度 超过6小时抢救黄金期无奈遭切除
- 时间:2026-02-03
-
- 国产宽体客机C929大脑确定:昂际航电拿下核心航电系统
- 时间:2026-02-03
-
- 喷射足10秒!天回航天 “巧龙一号”发动机高工况热试车成功
- 时间:2026-02-03
-
- 第1000台下线!北京首个人形机器人中试验证平台启动
- 时间:2026-02-03
-
- 无视过往车辆!男子骑平衡车任性横穿路口被撞负全责
- 时间:2026-02-03
精选合集
更多大家都在玩
大家都在看
更多-
- 星际战甲手游孢子流配卡攻略
- 时间:2026-02-03
-
- 荣耀Power2被指外观模仿苹果 客服回应称成熟设计趋向共识
- 时间:2026-02-03
-
- 独特三个字的网名男生(精选100个)
- 时间:2026-02-03
-
- 江南百景图哪里生产刺绣
- 时间:2026-02-03
-
- 二哈是什么意思
- 时间:2026-02-03
-
- 英雄联盟手游英雄之夜宝箱怎么快速升级
- 时间:2026-02-03
-
- 192.168.1.1进行重置的详细操作
- 时间:2026-02-03
-
- 暗黑地牢2配置要求高吗?暗黑地牢2最低配置要求官方推荐
- 时间:2026-02-03












