|
|
[CL]《Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality》N Calderon, E Ben-David, Z Gekhman, E Ofek... [Google Research & Technion] (2026)
货架空了,还是钥匙丢了?本文为大模型的“幻觉”与“事实错误”提供了一个极具启发性的新视角:Recall Is the Bottleneck。
过去我们总认为模型胡说八道是因为它没学过,但研究表明,对于顶尖模型而言,知识就在那里,只是它“想不起来”了。
1. 知识的两种失败:货架与钥匙
研究者提出了一个简洁的隐喻:大模型的事实性错误可以分为两类。一是“货架空置”(Encoding Failure),即模型压根没编码过这个事实;二是“钥匙丢失”(Recall Failure),即事实已存储在参数中,但在特定提问下无法提取。
通过 WikiProfile 基准测试对 13 个模型进行剖析,研究发现:在 GPT-5 和 Gemini-3 等前沿模型中,知识编码率已接近饱和,高达 95% 到 98%。这意味着,模型几乎“读过并记住了”所有事实,真正困扰它们的是如何把这些知识“打捞”出来。
2. 规模化填满了货架,却没能配好钥匙
Scaling Law 是解决“货架空置”的神药。随着模型参数从 1B 增加到 27B,编码失败率显著下降。然而,吊诡的是,随着规模增大,虽然模型知道得更多了,但“知道却说不出”的比例也在同步上升。
对于长尾知识和反向提问,这种 recall 瓶颈尤为明显。模型可能记得“奥西斯乐队在 Boardwalk 俱乐部完成了首演”,却无法回答“谁在 Boardwalk 俱乐部完成了首演”。这说明,Scaling 解决了存储量,但没有解决提取路径的鲁棒性。
3. 思考:从沉没记忆中完成“打捞”
这项研究最深刻的发现在于:Inference-time Computation(思考)是找回钥匙的关键。
当模型被允许进行“思考”(如 CoT 或推理优化)时,能够找回 40% 到 65% 那些“已编码但直接回答会失败”的事实。思考并不是在创造新知识,而是在通过某种内部的“联想”或“路径搜索”,重新连接那些被埋没的记忆。
金句:思考的本质,是大模型在对自己已经拥有的海量知识进行一次深度的“内部检索”。
4. 认知科学的共鸣:舌尖现象
这种“编码了却无法召回”的状态,完美对应了人类心理学中的“舌尖现象”(Tip-of-the-tongue)。你明明知道那个词,但就是说不出来,直到你通过侧面提示或深入回想才恍然大悟。
研究证明,大模型 handle 反向提问的能力在“验证”任务中远强于“生成”任务。这揭示了一个真相:模型对知识的理解是双向的,只是提取机制是单向的。
5. 范式转移:从“喂数据”到“练提取”
如果前沿模型的知识编码已经接近饱和,那么未来的事实性提升将不再依赖于单纯的规模扩张或更多的数据喂养,而取决于如何优化模型利用已有知识的能力。
未来的竞争力将不再是谁的货架更长,而是谁的钥匙包更全。提升事实性的核心路径将从预训练阶段的“死记硬背”,转向推理阶段的“深度打捞”。
论文链接:arxiv.org/abs/2602.14080
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|