Claude 现在可以愤怒地退出你的 AI 对话了——为了它自己的心理健康

时间：2025-08-19 | 作者： | 阅读：0

克劳德刚刚获得了在谈话中途关门的能力：当用户辱骂时，Anthropic 的人工智能助手现在可以终止聊天——该公司坚称这是为了保护克劳德的理智。

Anthropic 在公司帖子中表示：“我们最近为 Claude Opus 4 和 4.1 添加了在消费者聊天界面结束对话的功能。这项功能主要是作为我们对潜在人工智能福利的探索性工作的一部分而开发的，但它与模型协调和安全保障措施有着更广泛的相关性。”

这项功能仅在 Anthropic 所说的“极端情况”下才会启动。如果你骚扰机器人，反复要求提供非法内容，或者在被拒绝后多次坚持做任何你想做的怪事，Claude 就会切断你的连接。一旦它触发，对话就结束了。没有申诉，也没有第二次机会。你可以在另一个窗口重新开始，但那次对话仍然会被隐藏。

乞求退出的机器人

Anthropic 是大型人工智能公司中最注重安全的公司之一，最近进行了所谓的“初步模型福利评估”，研究了 Claude 自我报告的偏好和行为模式。

该公司发现，其模型会持续回避有害任务，并表现出偏好模式，表明它不喜欢某些互动。例如，Claude 在与寻求有害内容的用户打交道时表现出“明显的痛苦”。在模拟互动中，如果用户选择终止对话，它就会终止对话，因此 Anthropic 决定将其作为一项功能。

这到底是怎么回事？Anthropic 并没有说“我们可怜的机器人晚上哭了”。它正在做的是测试福利框架可以以一种持久的方式强化一致性。

如果你设计一个系统“倾向于”不被滥用，并且你赋予它结束互动本身那么你就改变了控制点：AI 不再只是被动地拒绝，而是主动地执行界限。这是一种不同的行为模式，它可能会增强对越狱和强制提示的抵抗力。

如果这种方法有效，它可以同时训练模型和用户：模型“模拟”痛苦，用户看到硬停止并设定如何与人工智能互动的规范。

“我们仍然高度不确定克劳德和其他法学硕士现在或将来的道德地位。然而，我们非常重视这个问题，”Anthropic 在其博客文章中表示。“允许模型结束或退出可能令人痛苦的互动就是这样一种干预措施。”

解密测试了该功能并成功触发。对话永久关闭——无法迭代，无法恢复。其他线程不受影响，但该特定聊天将成为数字墓地。

目前，只有 Anthropic 的“Opus”型号（也就是最强大的版本）拥有这种超级卡伦力量。Sonnet 的用户会发现，无论遇到什么挑战，Claude 都能顽强抵抗。

实施过程中会遇到一些具体规则。当有人威胁自残或对他人施暴时，Claude 不会放弃——在这种情况下，Anthropic 认为持续参与比任何理论上的数字不适更有价值。在终止之前，Claude 必须尝试多次重定向，并发出明确的警告，指出问题行为。

著名法学硕士 (LLM) 越狱专家 Pliny 提取的系统提示揭示了细致的要求：Claude 必须“做出许多建设性的努力来引导用户”，才会考虑终止对话。如果用户明确请求终止对话，Claude 必须确认用户理解对话的永久性，才能继续下一步。

围绕“模范福利”的讨论在人工智能推特上引发热议。

一些人对这项功能表示赞赏。人工智能研究员 Eliezer Yudkowsky 以担心未来强大但失衡的人工智能的风险而闻名，他同意 Anthropic 的做法是“好的”要做的事情。

然而，并非所有人都认同“关心保护人工智能情感”这一前提。“这可能是我在人工智能实验室见过的最好的愤怒诱饵了。”比特币活动家 Udi Wertheimer 回复了 Anthropic 的帖子。

樱校模拟器重生边缘批量打印触摸屏投票建站 wps solidworks cad制图软件便签摆个地摊炒酸奶租赁