在混合专家(MoE)网络设计中,"每层分配多少专家"始终是一个凭直觉拍板的难题。现有架构默认每层专家数量相同、每个token激活固定K个专家,这两条铁律从未被系统质疑——根本原因是缺乏理论依据来打破它们。
本文的核心洞见是:把"专家分配"重新看作"表征多样性的函数"。早期层面对原始像素的高熵、高曲率输入,需要大量专家并行分解特征;深层表征已收敛至低熵的类别判别流形,单个专家已经足够。由此,"按层递减"的专家调度策略,加上基于百分位阈值的动态token路由,使系统在图像分类上比均匀基线提升高达5.47%。
这项工作真正留下的遗产是:将专家调度从工程经验提升为可推导的原则——表征多样性决定专家密度。它为后来者打开的新门是:在Transformer LLM中结合注意力熵与专家路由熵联合估计最优调度,进而实现可学习的自适应分配。但尚未跨过的门槛是:所有语言建模实验仅用1000条训练样本,感知到的"规律"高度依赖初始化,在标准预训练规模下的结论仍悬而未决。
arxiv.org/abs/2603.01697
##