在大语言模型领域，随着任务偏离训练分布的程度加深，模型如何调整内部表征这一问题悬而未决。

短腿小矮基 · 发表于 2026-3-9 06:32:30

[CL]《Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs》M Jin, Y Yin, J Niu, Q Zeng… [Rutgers University & Northwestern University & UKP Lab, TU Darmstadt] (2026)

在大语言模型领域，随着任务偏离训练分布的程度加深，模型如何调整内部表征这一问题悬而未决。过去的研究要么聚焦于固定电路结构，要么分析静态几何特性，始终未能捕捉到一个随难度系统变化的表征信号。

本文的核心洞见是：把表征稀疏性重新看作任务难度的动态指示器，而非背景噪声。由此，测量最后隐层激活的能量集中度这一关键操作使问题得以解开——越难的输入，越少的维度承载越多的激活质量，模型将计算压缩进更窄的子空间。这一规律跨模型、跨任务类型稳定成立，并在预训练阶段便已涌现。

这项工作真正留下的遗产是：将稀疏性确立为一个可测量、可操作的难度代理信号，并由此催生出SG-ICL——一种按难度对齐示例的少样本选择策略，在MATH500上将准确率从75.20%推至76.60%。它为后来者打开的新门是：基于稀疏信号的训练目标设计与幻觉检测方法。但尚未跨过的门槛是：该现象在混合专家架构中是否依然成立，以及稀疏信号与事实错误之间的因果关系尚未厘清。

arxiv.org/abs/2603.03415

##

在大语言模型领域，随着任务偏离训练分布的程度加深，模型如何调整内部表征这一问题悬而未决。

本帖子中包含更多资源

相关帖子