三条隐藏指令让Claude不再“胡编乱造”

【三条隐藏指令让Claude不再“胡编乱造”】


快速阅读: Anthropic官方文档中有三条指令可显著减少Claude的幻觉问题:允许说“我不知道”、要求引用来源、使用原文引述。这些指令能让输出更可靠,但会牺牲创造性,适合用“研究模式”按需切换。

---

一位开发者在构建每日研究工作流时,偶然发现了Anthropic文档中的“减少幻觉”页面。三条简单的系统提示指令,彻底改变了Claude的输出质量。

第一条:“允许Claude说我不知道(Allow Claude to say I don't know)”。没有这个指令,Claude会用听起来合理的虚构内容填补知识空白。有了它,你会真正得到“我没有足够信息回答这个问题”的回复。听起来简单,但默认行为是无论如何都要给出答案。

第二条:“用引用验证(Verify with citations)”。告诉Claude每个断言都需要来源,找不到就收回。开启这个后,许多之前听起来很权威的陈述直接从输出中消失了,因为根本没有依据。

第三条:“用直接引用进行事实验证(Use direct quotes for factual grounding)”。强制Claude在分析前先从文档中提取逐字引用。这能阻止“释义漂移”,模型在总结时会微妙地改变含义。

单独使用每一条都有帮助,三条一起用会根本性地改变输出质量。

但有个权衡。一篇论文(arXiv 2307.02185)发现,引用约束会降低创造性输出。所以这位开发者做了个切换开关:研究模式激活全部三条,默认模式让Claude自由思考。

奇怪的是,这些都公开发布在Anthropic的平台文档上。并不隐蔽。但问了一圈用Claude开发的人,没人见过它。

有用户将这些指令应用到客服机器人后,效果立竿见影。之前Claude会自信地回答FAQ之外的问题,编造看似合理的答案。现在遇到没有的信息,它会说“我没有这方面信息,让我为您联系店主”,而不是瞎编。

社区讨论的焦点是:为什么这些不是默认设置?

答案很现实。对于编程、头脑风暴、写小说这类任务,你希望Claude做出跳跃性的联想和连接。强制这些约束会让创造性工作变得糟糕。对某些用户最好的设置,对其他人可能是灾难。

有人建议让Claude给出“置信度百分比”,但这个想法被社区强烈否定。任何Claude给出的置信度分数本身就是一种幻觉,它衡量的是统计上的词语选择,不是事实准确性。

更高级的做法是在自定义指令中创建可切换的“研究模式”,用斜杠命令(如/research)为某个会话激活这些规则。

一位用户分享了他的系统提示:将Claude定位为研究协作者而非权威,标记置信度水平,为每个概念提供至少两个类比,并明确说明每个类比的局限性。对每个理论,识别它失败的具体条件。

这不是万能药。这只是众多可能的防护栏中的几个,不要以为它能完全消除幻觉。但如果你需要事实准确性而不是创意输出,这三条指令值得一试。

ref: reddit.com/r/ClaudeAI/comments/1rzyqqt/found_3_instructions_in_anthropics_docs_that


##
分类