在混合专家（MoE）网络设计中，"每层分配多少专家"始终是一个凭直觉拍板的难题。

大叔很下饭 · 发表于 2026-3-9 06:00:46

[LG]《DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks》G Gülmez (2026)

在混合专家（MoE）网络设计中，"每层分配多少专家"始终是一个凭直觉拍板的难题。现有架构默认每层专家数量相同、每个token激活固定K个专家，这两条铁律从未被系统质疑——根本原因是缺乏理论依据来打破它们。

本文的核心洞见是：把"专家分配"重新看作"表征多样性的函数"。早期层面对原始像素的高熵、高曲率输入，需要大量专家并行分解特征；深层表征已收敛至低熵的类别判别流形，单个专家已经足够。由此，"按层递减"的专家调度策略，加上基于百分位阈值的动态token路由，使系统在图像分类上比均匀基线提升高达5.47%。

这项工作真正留下的遗产是：将专家调度从工程经验提升为可推导的原则——表征多样性决定专家密度。它为后来者打开的新门是：在Transformer LLM中结合注意力熵与专家路由熵联合估计最优调度，进而实现可学习的自适应分配。但尚未跨过的门槛是：所有语言建模实验仅用1000条训练样本，感知到的"规律"高度依赖初始化，在标准预训练规模下的结论仍悬而未决。

arxiv.org/abs/2603.01697
##

在混合专家（MoE）网络设计中，"每层分配多少专家"始终是一个凭直觉拍板的难题。

本帖子中包含更多资源

相关帖子