查看: 6|回复: 0

在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。

[复制链接]

16

主题

0

回帖

58

积分

注册会员

积分
58
发表于 前天 07:48 | 显示全部楼层 |阅读模式
[CL]《Did You Forget What I Asked? Prospective Memory Failures in Large Language Models》A Mittal [Microsoft] (2026)


在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。现有评测(如IFEval)孤立地测试格式遵从,无法捕捉到"认知负载"如何侵蚀指令维持的过程。

本文将这一现象重构为认知心理学中"前瞻记忆"的功能类比:把格式指令视为一个"待执行的延迟意图",将任务复杂度映射为"干扰性主任务"。由此引出核心操作——在提示末尾追加一句凸显性提醒,模拟人类前瞻记忆中"时间节点线索"的作用,使格式约束在生成临界点重新获得注意力权重。

这项工作真正留下的遗产是:证明了LLM的格式遗忘是生成时的表征竞争而非检索失败,并给出了一个成本极低、效果可复现的缓解方案。它为后来者打开的新门是:将认知心理学的实验范式系统地引入LLM行为分析,为提示工程提供有理论锚点的设计原则。但尚未跨过的门槛是:实验仅覆盖三个模型与单轮对话,提醒句的三种成分未解耦,且在多约束堆叠场景下该方案显著失效——多约束条件下的可靠缓解机制仍是空白。

arxiv.org/abs/2603.23530

#机器学习# #人工智能# #论文# #AI创造营#





























本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部