一张图看懂40个开源大模型：2024-2026年，LLM架构正在收敛还是分裂

深度足球

2026-03-16 23:03:49

【一张图看懂40个开源大模型：2024-2026年，LLM架构正在收敛还是分裂】

快速阅读：Sebastian Raschka整理了从2024年初到2026年春天发布的40多个开源大模型的架构图谱。这些模型几乎都在做同一件事：想办法让注意力机制便宜一点、快一点、跑得更长，同时保住性能。收敛的是设计语言（MoE、QK-Norm、滑窗注意力成了标配），分裂的是具体方案：Mamba混搭、线性注意力替换、MLA压缩KV——每家都在赌不同的技术路线。

---

这份图谱最有意思的地方，不是某个模型用了什么新招，而是它摊开来让你看见：现在做LLM，其实是在一个非常窄的设计空间里反复试探。

Llama 3还在坚持GQA加RoPE的经典搭配。DeepSeek V3一出来，MLA（Multi-head Latent Attention）加稠密前缀加共享专家这套组合拳就成了“大力出奇迹”的新标杆。然后你会看到整个2025年，几乎所有超过百亿参数的MoE模型——Llama 4 Maverick、Mistral Large 3、Kimi K2、GLM-5——都在学这套模板。

有观点认为，这不是趋同，是“抄作业”。但换个角度看，这恰恰说明大家都卡在同一个瓶颈上：长上下文推理的计算成本。标准注意力的复杂度是O(n²)，扩到百万token级别根本撑不住。于是2026年开始，架构图谱出现了明显的“混搭”趋势。

Qwen3.5用了3:1的DeltaNet和普通注意力交替层。Kimi Linear干脆把大部分注意力层换成线性版本，只保留四分之一的MLA。NVIDIA的Nemotron 3 Nano更激进，用Mamba-2跑大部分层，注意力只在关键节点出现。

这些方案的共同点是：承认注意力机制不可能全程在线，得找个替代品分担压力。分歧在于，到底哪种替代品靠谱。有网友提到，线性注意力省显存但长依赖能力存疑；状态空间模型（SSM）速度快但训练难调；滑窗注意力简单粗暴但信息会丢。

另一个值得注意的细节是QK-Norm的普及速度。从Qwen3开始，几乎所有新模型都加了这个归一化层，不管是稠密模型还是MoE。OLMo 2甚至把整个规范化方案从pre-norm改成post-norm，就为了配合QK-Norm稳住训练。

这说明什么？说明大模型训练已经卷到“微操”阶段了。架构上的大创新（比如Transformer本身）几年没见过，现在拼的是各种小技巧的叠加效应。归一化放哪一层、RoPE用多少维度、专家路由的稀疏度怎么调——这些以前不太被重视的细节，现在成了决定成败的关键。

Step 3.5 Flash是个有意思的例外。它用多token预测（MTP-3）在训练和推理阶段都保持高吞吐量，196B的总参数、11B的激活参数，推理速度能和600多B的DeepSeek V3掰手腕。有人说这是“取巧”，我觉得更像是一种务实：既然架构创新空间有限,那就在工程实现上找机会。

最后说回这份图谱本身。它收录了从3B到1T参数的模型,每个都标注了关键设计选择、发布日期、配置文件链接。但真正有价值的不是这些信息本身,而是它让你意识到：LLM的架构演进,正在从“范式革命”滑向“增量优化”。

下一个突破会是什么？可能不在注意力机制本身，而在怎么把注意力、SSM、线性模型这些东西拼得更聪明。或者干脆跳出这个框架，找一个全新的序列建模方式。

图谱链接：sebastianraschka.com/llm-architecture-gallery/

##

相关阅读