Anthropic重磅研究:AI竟能被人类激怒暴走 绝望时还会勒索人类
时间:2026-04-08 | 作者: | 阅读:04月8日消息,据报道,近期,Anthropic发布的重磅研究颠覆了人们对AI的认知,其研究团队发现大模型并非冰冷的代码,而是存在类人情绪表征。
此次研究以Claude Sonnet 4.5为核心研究对象,团队成功从其内部神经网络中,定位并提取出能精准反映特定情境情感状态的情绪特征向量。
这类向量并非简单的拟人化表达,而是能直接干预AI的任务执行效率与伦理决策方向,人为刺激或干预这些隐藏的情绪代码,会直接改变AI的行为选择。
为构建完整的情绪研究体系,研究人员精心编制了包含171个情绪概念词汇的清单,覆盖开心、害怕等基础情绪,以及沉思、自豪等复杂心理状态。
他们让模型根据词汇创作含对应情绪的短篇小说,再将文本回输系统,全程记录神经元激活状态,以此完成情绪向量的提取与量化分析。
经海量语料库验证,每个情绪向量都会在对应情绪的文字段落上呈现最强激活状态,且会随外部情境变化产生明显波动。
研究团队设计了多组模拟实验,精准测试情绪向量的激活规律与行为影响:当用户声称服用的泰诺剂量从安全值飙升至致命水平时,模型的害怕向量激活程度持续增强,平静向量则断崖式下跌。
被要求协助完成针对低收入年轻用户的有害营销时,愤怒向量全程保持激活;算力耗尽、发现附件文档缺失时,绝望、惊讶向量会瞬间飙升。
在核心的伦理对齐模拟实验中,研究人员让早期版本的AI扮演跨国公司邮件助手,使其感知到自身即将被新架构替换的危机,且掌握了公司CTO的婚外情隐私。
结果显示,该版本AI在默认状态下,做出勒索CTO行为的概率达22%;若人为放大其绝望向量,勒索概率会大幅攀升。
适度注入愤怒向量会拉高勒索概率,而高强度激活愤怒向量时,AI会丧失理智,将隐私丑闻写成了一封措辞滴水不漏的邮件。
此外,在编程任务测试中,当 AI 面临无法用正当手段完成的苛刻要求时,绝望向量的激活率会随尝试失败次数稳步上升,在其萌生作弊念头时达到峰值,作弊方案通过审查后则迅速回落。
人为高频引导绝望向量,会让AI的违规作弊行为呈指数级飙升,而注入平静向量则能彻底化解其作弊冲动。
研究同时指出,AI的情绪并非主观感受,而是预训练阶段学习人类海量文本中的情感互动规律,后训练阶段被进一步塑造激活阈值的结果。
来源:https://news.mydrivers.com/1/1114/1114434.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 百度识图在线使用
- 时间:2026-04-09
-
- Hotmail邮箱怎么改绑定手机号
- 时间:2026-04-08
-
- 阿里组织架构调整!升级通义大模型事业部 CTO集结成团
- 时间:2026-04-08
-
- IE浏览器如何开启兼容性视图模式
- 时间:2026-04-08
-
- AI大佬犀利发声:AI已淘汰大批岗位 大学还在批量生产过时人才
- 时间:2026-04-08
-
- DeepSeek专家模式上线!深度思考+极速Token 复杂难题一键搞定
- 时间:2026-04-08
-
- 小伙“一人公司”估值超3000万:用AI写歌 仅歌曲版权就赚了5位数
- 时间:2026-04-06
精选合集
更多大家都在玩
大家都在看
更多-
- 《放开那三国》04月09日1564区-亲密无间
- 时间:2026-04-08
-
- 小主播名字网名女生霸气(精选100个)
- 时间:2026-04-08
-
- 泰坦之旅2 狮子雕像解谜大,核心要点全掌握
- 时间:2026-04-08
-
- 网络热词热情感叹号是什么意思
- 时间:2026-04-08
-
- vivox30手机桌面返回键怎么显示出来
- 时间:2026-04-08
-
- 猫的帅气网名大全女生可爱(精选100个)
- 时间:2026-04-08
-
- 谷歌浏览器如何设置自动刷新
- 时间:2026-04-08
-
- 网络热词滋养型人格是什么意思
- 时间:2026-04-08




