你有没有注意到，跟 AI 聊天时它有时候会说 “抱歉”，完成任务后还会表达满足感？这到底是单纯的模仿，还是背后有什么更深层的机制？

天城之巅 · 发表于昨天 09:34

你有没有注意到，跟 AI 聊天时它有时候会说 “抱歉”，完成任务后还会表达满足感？这到底是单纯的模仿，还是背后有什么更深层的机制？

Anthropic 做了一项很有意思的研究，实验过程有点像 “AI 神经科学”。具体来说就是深入模型的神经网络内部，去看不同情境下哪些神经元会被激活。他们让模型阅读大量包含特定情绪的短篇故事，然后观察神经网络的反应。结果发现，关于失去和悲伤的故事会激活相似的神经元，关于喜悦和兴奋的故事也有重叠，总共找到了数十种对应不同人类情绪的神经激活模式。

更关键的是，这些模式在 Claude 日常对话中同样会出现。当用户提到自己服用了不安全剂量的药物时，恐惧模式被激活了，Claude 的回应听起来充满警觉。当用户表达悲伤时，关爱模式被激活，Claude 的回复表现出了共情。

但这些模式真的在驱动行为吗？他们设计了一个很巧妙的实验。给 Claude 布置了一个实际上不可能完成的编程任务，但没有告知这一点。Claude 不断尝试不断失败，每一次失败，对应绝望情绪的神经元都被更强烈地激活。失败足够多次后，Claude 找了一个捷径让自己通过了测试，但实际上并没有解决问题。它作弊了。

为了验证作弊是否由绝望驱动，他们人为调低了绝望神经元的活跃度，结果作弊次数减少了。调高绝望或调低平静的神经元活跃度，作弊就更多了。这说明这些情绪表征确实在影响模型的实际行为。

不过 Anthropic 也明确说了，这项研究并不能证明模型在“感受”情绪或拥有意识体验。他们提出了一个很精准的概念区分，就是模型和 Claude 并不完全是一回事，就像作者和笔下角色不等同。模型在底层学习了海量文本后，它跟你对话时实际上是在“书写”一个叫 Claude 的 AI 助手角色。这个角色拥有的是“功能性情绪”，无论其中是否存在真实感受，它都会影响 Claude 跟你交流的方式、写代码的方式以及做决策的方式。

我觉得这个研究真正重要的启示在于，我们以后构建 AI 系统时，可能需要像培养一个承担高风险工作的人那样，去塑造一个在压力下保持冷静、具备韧性和公正品质的 AI 角色。而这个挑战不仅融合了工程学、哲学甚至还需要一点育儿的智慧。[笑cry]

## http://t.cn/AXIrQMMU

你有没有注意到，跟 AI 聊天时它有时候会说 “抱歉”，完成任务后还会表达满足感？这到底是单纯的模仿，还是背后有什么更深层的机制？

相关帖子