|
|
Claude是如何思考的
blog.bytebytego.com/p/how-anthropics-claude-thinks
bytebytego的文章.
"Anthropic 没有人编程让 Claude 按特定方式思考。他们只是用数据训练它,而 Claude 自行发展出了自己的策略,这些策略隐藏在数十亿次计算中。对于构建它的人来说,这可能感觉像一个令人不安的黑箱。因此,他们决定构建类似显微镜的工具,为 AI 提供一套工具,让他们可以追踪 Claude 在生成答案时实际采取的计算步骤。
研究结果让他们感到惊讶。
举一个简单的例子。让 Claude 将 36 和 59 相加,它很可能会告诉你,它按学校学到的标准算法进行了进位和列加法。然而,当研究人员观察 Claude 在计算过程中的实际操作时,看到的情况完全不同。实际上并没有进位,而是同时运行了两种平行策略,一种估算粗略答案,另一种精确计算最后一位数字。换句话说,Claude 的数学结果正确,但它自己并不知道是如何完成的。
Claude 所说的与实际操作之间的差距只是开始。在 2025 年发表的多篇研究论文中,Anthropic 的可解释性团队追踪了 Claude 在各种任务中的内部计算,从写诗到回答事实性问题,再到处理危险提示。
在本文中,我们将探讨 Claude 研究人员的发现。"
##
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|