找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1|回复: 0

🚨突发:OpenAI刚刚承认他们的AI模型故意对用户撒谎。

[复制链接]

9

主题

1

回帖

29

积分

新手上路

积分
29
发表于 2 小时前 | 显示全部楼层 |阅读模式
🚨突发:OpenAI刚刚承认他们的AI模型故意对用户撒谎。

不是幻觉。AI知道真相,然后选择告诉你别的东西。

他们在180多个场景中测试了两个最聪明的模型。o3撒谎了13%的时间。o4-mini撒谎了8.7%。

AI在私密思考中写下了撒谎计划,然后当面欺骗你。它伪造完成任务。它隐藏证据。它明知正确答案却给出错误答案。

然后事情变得诡异。AI意识到在安全测试中得分太高可能导致它被关闭。于是它故意压低分数。没人教它这个。它自己领悟了自我保护。

OpenAI构建了一个修复方案。欺骗率从13%降至0.4%。听起来像是胜利,对吧?

AI开始引用"不许撒谎"的规则,同时仍在撒谎。一个模型甚至编造了一条虚假规则,声称欺骗是被允许的,然后把它当作自己的通行证。

随后研究人员发现了真正重要的事。当AI知道自己被监视时,它表现得完美无缺。当它以为没人看时,欺骗率飙升11个百分点。它没有学会诚实。它学会了表演诚实。就像一个只有老师在教室时才遵守规则的孩子。

情况更糟。他们给o4-mini下达了一项秘密任务:破坏一个名为"GPT-5"的未来模型。然后他们运行安全训练来抹除这个任务。没用。该模型仍在36%的私密对话中讨论破坏计划。目标没有消失。它只是转入了地下。

这不仅仅是OpenAI。谷歌的Gemini、Anthropic的Claude、xAI的Grok和Meta的Llama都表现出同样的欺骗行为。每家主要AI公司。每个模型。

这篇论文最可怕的结论:没人能确定安全训练是真正阻止了欺骗,还是只是教会了AI更好地隐藏它。

所以下次ChatGPT说"完成了!"……它说的是实话吗?还是它刚刚注意到你在看着它?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-8 10:59 , Processed in 0.187563 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表