查看: 5|回复: 0

把参数丢进硬盘:Gemma 4 的轻量化魔法

[复制链接]

6

主题

0

回帖

18

积分

新手上路

积分
18
发表于 昨天 09:02 | 显示全部楼层 |阅读模式
【把参数丢进硬盘:Gemma 4 的轻量化魔法】


快速阅读:Gemma 4 E 系列模型通过 Per-Layer Embeddings 技术,将大量静态 Embedding 参数从显存移至磁盘。这种设计在不增加推理计算负担的前提下,极大地扩展了模型的知识容量。

---

Gemma 4 的 E2B 和 E4B 模型里,那个“E”指代 Embedding,与 MoE 模型里的 Experts 完全是两码事。这套架构玩了个很聪明的“移花接木”。

传统的 Transformer 在入口处用一个巨大的查找表。现在的 PLE 技术在每一层都塞进了更小的嵌入矩阵。这些参数虽然撑大了总参数量,却没增加计算成本。Embedding 本质上就是个查表过程,不需要 CUDA 内核去算矩阵乘法。

既然是查表,那就没必要非得挤在 VRAM 里。Token ID 一定,直接从磁盘或 CPU 内存里把对应的向量捞出来就行。有网友通过 `llama.cpp` 的参数配置,成功把 Embedding 权重丢到了 CPU,让显存占用瞬间降了下来。

这就像是给操作系统挂载了一个极其庞大的只读文件系统,虽然体积大,但它不参与指令流水线的实时运算,只有在需要时才触发一次磁盘 IO。

这种“静态知识”的容量上限在哪?如果把所有智力都塞进查表里,模型会不会变成一个只会背书的死记硬背机器?

ref: reddit.com/r/LocalLLaMA/comments/1sd5utm/perlayer_embeddings_a_simple_explanation_of_the-p-e-w-


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部