找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 9|回复: 0

在混合专家(MoE)网络设计中,"每层分配多少专家"始终是一个凭直觉拍板的难题。

[复制链接]

6

主题

0

回帖

28

积分

新手上路

积分
28
发表于 14 小时前 | 显示全部楼层 |阅读模式
[LG]《DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks》G Gülmez (2026)


在混合专家(MoE)网络设计中,"每层分配多少专家"始终是一个凭直觉拍板的难题。现有架构默认每层专家数量相同、每个token激活固定K个专家,这两条铁律从未被系统质疑——根本原因是缺乏理论依据来打破它们。

本文的核心洞见是:把"专家分配"重新看作"表征多样性的函数"。早期层面对原始像素的高熵、高曲率输入,需要大量专家并行分解特征;深层表征已收敛至低熵的类别判别流形,单个专家已经足够。由此,"按层递减"的专家调度策略,加上基于百分位阈值的动态token路由,使系统在图像分类上比均匀基线提升高达5.47%。

这项工作真正留下的遗产是:将专家调度从工程经验提升为可推导的原则——表征多样性决定专家密度。它为后来者打开的新门是:在Transformer LLM中结合注意力熵与专家路由熵联合估计最优调度,进而实现可学习的自适应分配。但尚未跨过的门槛是:所有语言建模实验仅用1000条训练样本,感知到的"规律"高度依赖初始化,在标准预训练规模下的结论仍悬而未决。

arxiv.org/abs/2603.01697
##


































本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-9 20:52 , Processed in 0.187557 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表