在多模态基础模型领域,如何让单一模型同时胜任视觉理解与生成,是一个悬而未决的难题。

《Beyond Language Modeling: An Exploration of Multimodal Pretraining》S Tong, D Fan, J Nguyen, E Brown… (2026)


在多模态基础模型领域,如何让单一模型同时胜任视觉理解与生成,是一个悬而未决的难题。过去的方法受困于必须为理解和生成分别维护独立的视觉编码器,本质原因是研究者默认语义表征与生成所需的像素级表征之间存在不可调和的张力。

本文的核心洞见是:把视觉编码器的选择重新看作统一表征的设计问题而非分工问题。由此,用单一语义编码器(RAE)替代双编码器路径、用混合专家网络(MoE)替代固定模态分配这两个关键操作,使模态竞争得以从根本上化解——MoE自发学会将更多专家分配给语言、将数据压力转移给视觉,完美契合了实验揭示的"视觉比语言更饥渴数据"这一扩展律不对称性。

这项工作真正留下的遗产是:从零预训练的受控实验证明,模态竞争是设计缺陷的症状而非多模态训练的宿命,世界建模能力可以从通用视频数据中自然涌现而无需专用架构。它为后来者打开的新门是:以MoE为杠杆统一调和两种模态截然不同的扩展规律,为构建真正原生的多模态系统指明路径。但尚未跨过的门槛是:语义编码器在细粒度像素重建上仍落后于VAE,交错多模态数据的作用也尚未纳入研究。

arxiv.org/abs/2603.03276





































##
分类