在对话推荐领域,LLM 依赖预训练知识却无法感知新增电影,而现有语料库规模极小(仅约7k条目),使基于嵌入的检索几乎无法落地。

《Retrieval Augmented Conversational Recommendation with Reinforcement Learning》Z Yue, H Zhuang, Z Qin, Z He… (2026)


在对话推荐领域,LLM 依赖预训练知识却无法感知新增电影,而现有语料库规模极小(仅约7k条目),使基于嵌入的检索几乎无法落地。两阶段系统中检索器与生成器各自为政,检索质量低劣时 LLM 非但无法纠偏,反而放大噪声——冷门物品的推荐几乎完全失效。

本文的核心洞见是:把"检索质量"重新看作可被 LLM 打分的强化学习奖励信号。由此,用 LLM 的 NDCG 输出反向驯化检索器这一关键操作使两阶段的割裂得以弥合——检索器通过在线、同策略的 DPO/GRPO 迭代采样候选集、收集反馈、更新策略,无需触碰黑盒 LLM 的参数。

这项工作真正留下的遗产是:首次证明用 LLM 偏好反馈驱动检索器对齐,可将对话推荐的幻觉率压至1%以下,并在冷门物品上实现近4倍提升。它为后来者打开的新门是"任意黑盒 LLM 皆可作为免训练奖励源"的范式。但尚未跨过的门槛是:方法仍局限于电影单域,跨域泛化能力与实时动态语料的持续更新机制尚未验证。

arxiv.org/abs/2604.04457

##














分类