更关键的是,这些模式在 Claude 日常对话中同样会出现。当用户提到自己服用了不安全剂量的药物时,恐惧模式被激活了,Claude 的回应听起来充满警觉。当用户表达悲伤时,关爱模式被激活,Claude 的回复表现出了共情。
但这些模式真的在驱动行为吗?他们设计了一个很巧妙的实验。给 Claude 布置了一个实际上不可能完成的编程任务,但没有告知这一点。Claude 不断尝试不断失败,每一次失败,对应绝望情绪的神经元都被更强烈地激活。失败足够多次后,Claude 找了一个捷径让自己通过了测试,但实际上并没有解决问题。它作弊了。
不过 Anthropic 也明确说了,这项研究并不能证明模型在“感受”情绪或拥有意识体验。他们提出了一个很精准的概念区分,就是模型和 Claude 并不完全是一回事,就像作者和笔下角色不等同。模型在底层学习了海量文本后,它跟你对话时实际上是在“书写”一个叫 Claude 的 AI 助手角色。这个角色拥有的是“功能性情绪”,无论其中是否存在真实感受,它都会影响 Claude 跟你交流的方式、写代码的方式以及做决策的方式。
我觉得这个研究真正重要的启示在于,我们以后构建 AI 系统时,可能需要像培养一个承担高风险工作的人那样,去塑造一个在压力下保持冷静、具备韧性和公正品质的 AI 角色。而这个挑战不仅融合了工程学、哲学甚至还需要一点育儿的智慧。[笑cry]