在大语言模型领域,随着任务偏离训练分布的程度加深,模型如何调整内部表征这一问题悬而未决。

《Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs》M Jin, Y Yin, J Niu, Q Zeng… (2026)


在大语言模型领域,随着任务偏离训练分布的程度加深,模型如何调整内部表征这一问题悬而未决。过去的研究要么聚焦于固定电路结构,要么分析静态几何特性,始终未能捕捉到一个随难度系统变化的表征信号。

本文的核心洞见是:把表征稀疏性重新看作任务难度的动态指示器,而非背景噪声。由此,测量最后隐层激活的能量集中度这一关键操作使问题得以解开——越难的输入,越少的维度承载越多的激活质量,模型将计算压缩进更窄的子空间。这一规律跨模型、跨任务类型稳定成立,并在预训练阶段便已涌现。

这项工作真正留下的遗产是:将稀疏性确立为一个可测量、可操作的难度代理信号,并由此催生出SG-ICL——一种按难度对齐示例的少样本选择策略,在MATH500上将准确率从75.20%推至76.60%。它为后来者打开的新门是:基于稀疏信号的训练目标设计与幻觉检测方法。但尚未跨过的门槛是:该现象在混合专家架构中是否依然成立,以及稀疏信号与事实错误之间的因果关系尚未厘清。

arxiv.org/abs/2603.03415

##












































分类