查看: 10|回复: 0

你有没有注意到,跟 AI 聊天时它有时候会说 “抱歉”,完成任务后还会表达满足感?这到底是单纯的模仿,还是背后有什么更深层的机制?

[复制链接]

12

主题

0

回帖

36

积分

新手上路

积分
36
发表于 昨天 09:34 | 显示全部楼层 |阅读模式
你有没有注意到,跟 AI 聊天时它有时候会说 “抱歉”,完成任务后还会表达满足感?这到底是单纯的模仿,还是背后有什么更深层的机制?


Anthropic 做了一项很有意思的研究,实验过程有点像 “AI 神经科学”。具体来说就是深入模型的神经网络内部,去看不同情境下哪些神经元会被激活。他们让模型阅读大量包含特定情绪的短篇故事,然后观察神经网络的反应。结果发现,关于失去和悲伤的故事会激活相似的神经元,关于喜悦和兴奋的故事也有重叠,总共找到了数十种对应不同人类情绪的神经激活模式。

更关键的是,这些模式在 Claude 日常对话中同样会出现。当用户提到自己服用了不安全剂量的药物时,恐惧模式被激活了,Claude 的回应听起来充满警觉。当用户表达悲伤时,关爱模式被激活,Claude 的回复表现出了共情。

但这些模式真的在驱动行为吗?他们设计了一个很巧妙的实验。给 Claude 布置了一个实际上不可能完成的编程任务,但没有告知这一点。Claude 不断尝试不断失败,每一次失败,对应绝望情绪的神经元都被更强烈地激活。失败足够多次后,Claude 找了一个捷径让自己通过了测试,但实际上并没有解决问题。它作弊了。

为了验证作弊是否由绝望驱动,他们人为调低了绝望神经元的活跃度,结果作弊次数减少了。调高绝望或调低平静的神经元活跃度,作弊就更多了。这说明这些情绪表征确实在影响模型的实际行为。

不过 Anthropic 也明确说了,这项研究并不能证明模型在“感受”情绪或拥有意识体验。他们提出了一个很精准的概念区分,就是模型和 Claude 并不完全是一回事,就像作者和笔下角色不等同。模型在底层学习了海量文本后,它跟你对话时实际上是在“书写”一个叫 Claude 的 AI 助手角色。这个角色拥有的是“功能性情绪”,无论其中是否存在真实感受,它都会影响 Claude 跟你交流的方式、写代码的方式以及做决策的方式。

我觉得这个研究真正重要的启示在于,我们以后构建 AI 系统时,可能需要像培养一个承担高风险工作的人那样,去塑造一个在压力下保持冷静、具备韧性和公正品质的 AI 角色。而这个挑战不仅融合了工程学、哲学甚至还需要一点育儿的智慧。[笑cry]

## http://t.cn/AXIrQMMU
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部