一张图看懂40个开源大模型:2024-2026年,LLM架构正在收敛还是分裂

【一张图看懂40个开源大模型:2024-2026年,LLM架构正在收敛还是分裂】

快速阅读:Sebastian Raschka整理了从2024年初到2026年春天发布的40多个开源大模型的架构图谱。这些模型几乎都在做同一件事:想办法让注意力机制便宜一点、快一点、跑得更长,同时保住性能。收敛的是设计语言(MoE、QK-Norm、滑窗注意力成了标配),分裂的是具体方案:Mamba混搭、线性注意力替换、MLA压缩KV——每家都在赌不同的技术路线。

---

这份图谱最有意思的地方,不是某个模型用了什么新招,而是它摊开来让你看见:现在做LLM,其实是在一个非常窄的设计空间里反复试探。

Llama 3还在坚持GQA加RoPE的经典搭配。DeepSeek V3一出来,MLA(Multi-head Latent Attention)加稠密前缀加共享专家这套组合拳就成了“大力出奇迹”的新标杆。然后你会看到整个2025年,几乎所有超过百亿参数的MoE模型——Llama 4 Maverick、Mistral Large 3、Kimi K2、GLM-5——都在学这套模板。

有观点认为,这不是趋同,是“抄作业”。但换个角度看,这恰恰说明大家都卡在同一个瓶颈上:长上下文推理的计算成本。标准注意力的复杂度是O(n²),扩到百万token级别根本撑不住。于是2026年开始,架构图谱出现了明显的“混搭”趋势。

Qwen3.5用了3:1的DeltaNet和普通注意力交替层。Kimi Linear干脆把大部分注意力层换成线性版本,只保留四分之一的MLA。NVIDIA的Nemotron 3 Nano更激进,用Mamba-2跑大部分层,注意力只在关键节点出现。

这些方案的共同点是:承认注意力机制不可能全程在线,得找个替代品分担压力。分歧在于,到底哪种替代品靠谱。有网友提到,线性注意力省显存但长依赖能力存疑;状态空间模型(SSM)速度快但训练难调;滑窗注意力简单粗暴但信息会丢。

另一个值得注意的细节是QK-Norm的普及速度。从Qwen3开始,几乎所有新模型都加了这个归一化层,不管是稠密模型还是MoE。OLMo 2甚至把整个规范化方案从pre-norm改成post-norm,就为了配合QK-Norm稳住训练。

这说明什么?说明大模型训练已经卷到“微操”阶段了。架构上的大创新(比如Transformer本身)几年没见过,现在拼的是各种小技巧的叠加效应。归一化放哪一层、RoPE用多少维度、专家路由的稀疏度怎么调——这些以前不太被重视的细节,现在成了决定成败的关键。

Step 3.5 Flash是个有意思的例外。它用多token预测(MTP-3)在训练和推理阶段都保持高吞吐量,196B的总参数、11B的激活参数,推理速度能和600多B的DeepSeek V3掰手腕。有人说这是“取巧”,我觉得更像是一种务实:既然架构创新空间有限,那就在工程实现上找机会。

最后说回这份图谱本身。它收录了从3B到1T参数的模型,每个都标注了关键设计选择、发布日期、配置文件链接。但真正有价值的不是这些信息本身,而是它让你意识到:LLM的架构演进,正在从“范式革命”滑向“增量优化”。

下一个突破会是什么?可能不在注意力机制本身,而在怎么把注意力、SSM、线性模型这些东西拼得更聪明。或者干脆跳出这个框架,找一个全新的序列建模方式。

图谱链接:sebastianraschka.com/llm-architecture-gallery/

##


分类