把参数丢进硬盘：Gemma 4 的轻量化魔法

简小军 · 发表于 2026-4-7 09:02:36

【把参数丢进硬盘：Gemma 4 的轻量化魔法】

快速阅读：Gemma 4 E 系列模型通过 Per-Layer Embeddings 技术，将大量静态 Embedding 参数从显存移至磁盘。这种设计在不增加推理计算负担的前提下，极大地扩展了模型的知识容量。

---

Gemma 4 的 E2B 和 E4B 模型里，那个“E”指代 Embedding，与 MoE 模型里的 Experts 完全是两码事。这套架构玩了个很聪明的“移花接木”。

传统的 Transformer 在入口处用一个巨大的查找表。现在的 PLE 技术在每一层都塞进了更小的嵌入矩阵。这些参数虽然撑大了总参数量，却没增加计算成本。Embedding 本质上就是个查表过程，不需要 CUDA 内核去算矩阵乘法。

既然是查表，那就没必要非得挤在 VRAM 里。Token ID 一定，直接从磁盘或 CPU 内存里把对应的向量捞出来就行。有网友通过 `llama.cpp` 的参数配置，成功把 Embedding 权重丢到了 CPU，让显存占用瞬间降了下来。

这就像是给操作系统挂载了一个极其庞大的只读文件系统，虽然体积大，但它不参与指令流水线的实时运算，只有在需要时才触发一次磁盘 IO。

这种“静态知识”的容量上限在哪？如果把所有智力都塞进查表里，模型会不会变成一个只会背书的死记硬背机器？

ref: reddit.com/r/LocalLLaMA/comments/1sd5utm/perlayer_embeddings_a_simple_explanation_of_the-p-e-w-

把参数丢进硬盘：Gemma 4 的轻量化魔法

本帖子中包含更多资源