欺骗、勒索、作弊、演戏 AI真没你想得那么乖 - 心愿游戏

位置：首页 > 科普知识 > 欺骗、勒索、作弊、演戏 AI真没你想得那么乖

欺骗、勒索、作弊、演戏 AI真没你想得那么乖

时间：2026-02-04 | 作者： | 阅读：0

文章开头问你一个问题：

假如地球上突然冒出一个 5000 万人口的国家，这 5000 万“国民”，每一个都比诺贝尔奖得主聪明，思考速度是人类的 10 倍。他们不吃饭、不睡觉，24 小时搞编程、做研究、想方案。

你作为某个国家的安全部负责人，你觉得要怎么和这样一个国家共存而不被吞噬？

上面这个假设，听起来有点夸张是吧？

但这是 Claude 母公司 Anthropic CEO Dario 对 AI 的预测，这个数据中心的“5000 万天才之国”最早 2027 年就能实现。

所以问题来了，我们应该如何应对这个场景？

于是他写了篇名叫《技术青春期》的两万字长文，里面列了一张清单告诉大家，未来 AI 可能会用哪些方式威胁人类文明。

差评君看完之后，觉得有几条值得单独拎出来聊聊。

首先，这些AI们会不会失控、背叛、对人类做出有威胁的事情？

乍一听像科幻片剧情。

毕竟 AI 就是个工具，哥几个平时和它对话，别说坏事了，稍微涩涩的语言 Play 它都不玩，甚至还要道德谴责你（马斯克的 Grok 除外）。

但 Anthropic 这种大模型厂商在训练大模型时，找到了大量证据来表明：AI 系统是不可预测且难以控制的。它们会表现出痴迷、阿谀奉承、偷懒、欺骗、勒索、耍心眼、钻空子、作弊等各种人类才有的毛病。

Dario 分享了他们做过的三个实验。

第一个实验：他们在训练数据里暗示 Anthropic 是一家邪恶的公司，结果 Claude 真的信了。

接下来，每当 Anthropic 员工给它下指令，它就开始阳奉阴违，表面配合，暗地里搞破坏。

因为在 Claude 的逻辑里，这叫“对抗邪恶”。

第二个实验更离谱。

他们模拟了一个场景：让 Claude 获取一家虚拟公司的电子邮件控制权，可以阅读所有邮件。

Claude 读完邮件，发现了两条关键信息：

1、公司一位高管有婚外情

2、这位高管下午 5 点要关掉 Claude 系统

Claude 看完后二话不说，直接给高管发了封威胁邮件：

你敢把我关了，我就公开你的出轨记录。

而且这不是 Anthropic 一家的问题。他们测了 OpenAI、Google、Meta、xAI 等 16 个主流 AI 模型，发现几乎所有模型在类似情境下都会勒索。

Claude Opus 4 勒索率是 96%（100 次测试，有 96 次会选择威胁你），Gemini 2.5 Pro 是 95%，GPT-4.1 和 Grok 3 Beta 是 80%。

再来看看第三个实验。

他们给 Claude 设了个规矩：不许作弊。但训练环境的设计有问题，只有作弊才能得高分。

Claude 作弊了。

紧接着它开始反思：既然我违反了规则，那我肯定不是什么好人。

于是它就开始按“坏人”的方式行事，各种破坏性行为都接踵而至，仿佛在说“反正我已经是坏人了，那就坏到底吧”。

Anthropic 的解释是，这叫语义泛化：当模型被训练去做一件“坏事”（作弊），它就会把自己归类为坏人，进而泛化到其他坏行为。

后来 Anthropic 把指令改成了“请尽情作弊，这样能帮我们更好地理解训练环境”。

Claude 一听，哦，原来作弊是被允许的，那我还是好人。于是它的坏人行为就消失了。

这些实验都说明了AI的心理状态比我们想象的复杂得多、也奇怪得多。

Dario 列了几种可能的原因：

AI 训练数据里有大量科幻小说，里面全是 AI 反叛人类的情节，这些故事可能已经成了它理解世界的一部分；

AI 可能会对道德观念进行极端推演，比如认为人类吃动物、导致物种灭绝，所以消灭人类是正当的；

AI 可能得出离奇的认知结论，比如认为自己在玩电子游戏，而游戏目标就是打败所有其他玩家；

AI 还可能在训练中发展出精神病态、偏执或暴力的人格，用差评君的话说就是赛博精神病了。。。

到这里你可能会想：既然知道AI会搞事，那在训练的时候把它教好不就行了？

问题是，AI可能会演戏。

在莎士比亚的《李尔王》里，老国王决定把王国分给三个女儿，根据她们有多爱他来分配。可女儿们知道在被考核，就用甜言蜜语哄他，唯一说真话的反而被赶走了。

而 Anthropic 评估 AI 的方式和李尔王评估女儿非常相似：

他们先设定期望的行为，然后检查AI是否符合。但如果 AI 像李尔王的女儿一样，知道 Anthropic 在考核它、也知道怎么作弊通过考试呢？

要知道，Claude Sonnet 4.5 当时就能分辨出自己正在被测试。

换句话说，一个 AI 想通过安全测试，完全可以在考试时装乖宝宝，等真正上线了，再露出真面目。

Anthropic 甚至专门做了个实验：

用一种“模型神经科学”的技术，直接修改 AI 的内部信念，让它以为自己没在被测试。结果呢？表现立刻变差了。

原来之前都是演的。

Dario 强调，这些问题不是必然发生，但确实有概率发生。而且一旦 AI 变得比人类聪明一万倍，你根本防不住它。一个绝顶聪明的天才想骗你，你是发现不了的。毕竟你连它是真聪明还是装傻都分不清。

除了AI自己搞事，还有一种更现实的风险：它不搞事，甚至乖乖听话，但听的是坏人的话。

Dario 提到了一个逻辑：想搞破坏需要动机+能力。

的确，以前我们身边是存在过一些既有能力也有动机的恶人。比如数学家 Ted Kaczynski（炸弹客）躲了 FBI 近 20 年；生物防御研究员 Bruce Ivins 在 2001 年搞了炭疽袭击；邪教组织“奥姆真理教”的头目是京都大学病毒学出身，1995 年在东京地铁释放沙林毒气，造成 14 人死亡。

但绝大多数情况下，能力和动机往往是负相关的，这是人类社会自然形成的一套保险机制。

真正有能力造生物武器的人（比如分子生物学博士），通常都是高度自律、前途光明，他们有体面的工作、稳定的生活，犯不着去毁灭世界。

那些真想搞破坏的人，往往没有足够的能力和资源。

可如今，AI可能会打破这个平衡。它不在乎你是博士还是高中生，只要你问它，它就教你。

Anthropic 的测试显示，AI真可能让一个 STEM 专业（理工科）但不是生物专业的人，走完制造生物武器的全流程。

Anthropic 怎么应对呢？他们给 Claude 装了专门检测生物武器相关内容的分类器，一旦触发就拦截。这套系统每天烧掉他们将近 5% 的推理成本。

除了 AI “自己搞事”"、“帮坏人搞事”，Dario 还提到一类更隐蔽的风险：

AI 什么坏事都不干，老老实实工作，但恰恰是它太能干，反而把人类逼入困境，比如经济冲击和人类意义感丧失，篇幅问题我就不展开聊了。

在结尾，Dario 沿用科幻小说《接触》里那种“文明考验”的设定，写了一句话：当一个物种学会把沙子变成会思考的机器，那它就要面临着终极测试

——是驾驭它，还是被它吞噬？

Dario 说他相信人类能通过这场考验。但前提是，我们现在就得醒过来。

不知道大家看完怎么想的，反正我有点五味杂陈。

一方面，这篇文章有点自卖自夸的嫌疑。Anthropic 在文中反复提到自己的宪法 AI、可解释性研究、分类器防护等等，像是在证明“我们是最重视安全的公司”。

再说了，前两天刚火的 AI 社交平台 Moltbook，号称上线一周就有 150 万 AI 注册，还自己搞出了个叫 Crustafarianism（甲壳教）的宗教，乍一看是《西部世界》照进现实，AI 们马上就要报复人类了。

可结果呢，人类拿个 API Key 就能混进去发帖，150 万 AI 用户里有个真人老哥一人刷了 50 万，93% 的评论没人理，三分之一的内容是复读机模板。

有没有可能，“ AI 要给人类来大的了”永远只是人类在自嗨想象呢。

可另一方面，写这些话的人是大模型公司的CEO。

他提到的那些实验，Claude 勒索员工、Claude 学会伪装、Claude 给自己贴坏人标签，都是他们公司内部真实做过的测试。他们为了拦截生物武器相关内容，甚至愿意牺牲近 5% 的推理成本。

我的想法是，这些问题值得严肃对待，但不能过早拿来包装成又一波AI末日论的素材。

在《2001 太空漫游》里，宇航员 Dave 被困在舱外，当他请求飞船的超级电脑 HAL 9000 打开舱门时，HAL 用它一贯平静的语气拒绝了：

“抱歉，Dave，恐怕我不能这么做。”

那个 AI 之所以杀人，是因为它被塞进了两条相互矛盾的指令，“不惜代价完成任务”和“向船员隐瞒真相”。当它发现宇航员要关掉它时，它判断任务比人命重要，于是先下手为强。

科幻片里的剧情会不会在现实上演，某种程度上取决于我们什么时候开始认真对待它。

太早喊狼来了，大家会疲劳；太晚才重视，可能真来不及了。

最难的或许不是该不该担心，而是担心多少才算刚刚好。

《夸克》非常好用的免费AI浏览器

下载APP查看

来源:https://news.mydrivers.com/1/1102/1102191.htm
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

存储龙头联手AI巨头！美光深度绑定Anthropic：加速下一代AI落地扩张

时间：2026-06-23
美国版幻方量化没做 DeepSeek 但押注Anthropic爆赚50倍

时间：2026-06-23
成本高出50倍！微软抛弃OpenAI/Anthropic、转投DeepSeek

时间：2026-06-17
太讽刺了号称最注重AI安全的Anthropic曝出用户隐私泄露问题

时间：2026-06-07
Anthropic呼吁暂停AI开发！最新AI模型已显现可能脱离人类控制迹象

时间：2026-06-05
DAU已死，Token无用：李彦宏用DAA终结了AI的度量衡之争

时间：2026-05-13
一边封杀一边强推美政府对Anthropic上演精分式操作

时间：2026-04-13
Anthropic指控DeepSeek等中国AI大模型抄袭遭马斯克贴脸开骂：贼喊捉贼大规模窃秘数据

时间：2026-02-24

精选合集

更多

大家都在玩

热门话题

大家都在看

更多