在对话推荐领域，LLM 依赖预训练知识却无法感知新增电影，而现有语料库规模极小（仅约7k条目），使基于嵌入的检索几乎无法落地。

悦培

2026-04-08 11:00:44

《Retrieval Augmented Conversational Recommendation with Reinforcement Learning》Z Yue, H Zhuang, Z Qin, Z He… (2026)

在对话推荐领域，LLM 依赖预训练知识却无法感知新增电影，而现有语料库规模极小（仅约7k条目），使基于嵌入的检索几乎无法落地。两阶段系统中检索器与生成器各自为政，检索质量低劣时 LLM 非但无法纠偏，反而放大噪声——冷门物品的推荐几乎完全失效。

本文的核心洞见是：把"检索质量"重新看作可被 LLM 打分的强化学习奖励信号。由此，用 LLM 的 NDCG 输出反向驯化检索器这一关键操作使两阶段的割裂得以弥合——检索器通过在线、同策略的 DPO/GRPO 迭代采样候选集、收集反馈、更新策略，无需触碰黑盒 LLM 的参数。

这项工作真正留下的遗产是：首次证明用 LLM 偏好反馈驱动检索器对齐，可将对话推荐的幻觉率压至1%以下，并在冷门物品上实现近4倍提升。它为后来者打开的新门是"任意黑盒 LLM 皆可作为免训练奖励源"的范式。但尚未跨过的门槛是：方法仍局限于电影单域，跨域泛化能力与实时动态语料的持续更新机制尚未验证。

arxiv.org/abs/2604.04457

##

相关阅读