在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。现有系统受困于"越复杂越好"的迷思——在摄取阶段用LLM重构记忆、在查询阶段用学习策略路由检索,这些开销被隐藏在预处理成本中,使系统看起来比实际更廉价。
本文的核心洞见是:把瓶颈从"如何找到"重新看作"如何排序后塞入"。Oracle分析揭示,基于命名实体的子串匹配已能召回98.6%的黄金证据,但若不加排序,截断到token预算后仅剩22.5%存活——检索不是问题,"编译"才是。由此,用CrossEncoder与ColBERT并行融合排名这一关键操作,将黄金段落的平均排名从第195位压缩到第8位,瓶颈由此打通。
这项工作真正留下的遗产是:证明了在检索环节"外科式"注入ML、其余全程确定性的架构,足以超越依赖LLM全程参与的复杂系统。它为后来者打开的新门是:检索系统的设计重心应从索引与搜索策略,转向排序质量与上下文编译机制。但尚未跨过的门槛是:NER加权子串匹配在命名实体稀疏、语言多样或语料规模数量级更大的真实场景中能否维持同等表现,仍有待验证。
arxiv.org/abs/2603.15599
#