规模迷信的终结：Gemma 4 31B 稠密模型对 MoE 的效率碾压

先姐 · 发表于 2026-4-7 08:58:05

【规模迷信的终结：Gemma 4 31B 稠密模型对 MoE 的效率碾压】

快速阅读：在 FoodTruck Bench 的商业模拟测试中，Gemma 4 (3/1B) 表现惊人，以仅 $0.20/run 的极低成本实现了 100% 的生存率与超高的投资回报率。它不仅在决策质量上接近 GPT-5.2，更在性价比上彻底碾压了价格高出数十倍的顶级模型。

---

有人觉得参数量就是智能的度量衡，但这次测试像是一场针对“规模迷信”的拆解。

在 FoodTruck Bench 这个模拟经营实验里，AI 代理需要管理一家餐车 30 天：选址、订货、招人、调价。结果非常反直觉。Gemma 4 (31B) 稠密模型跑出了 100% 的生存率，中位数回报率更是达到了惊人的 +1,144%。最离谱的是它的运行成本——每场模拟仅需 $0.20。相比之下，性能稍好的 Opus 4.6 每场要花 $36，价格差了 180 倍。

这种差距不是简单的性能跨度，而是一种指令流水线上的效率革命。

有网友提到，大规模 MoE 模型（如 Qwen 3.5 397B）在测试中甚至出现了生存率仅 29% 的情况，直接破产。这说明当任务涉及长程、多步骤的逻辑闭环时，单纯靠增加参数量带来的“知识广度”可能反而会引入决策噪声。Gemma 4 的强项在于其 Agentic Reasoning（智能体推理）的稳定性。

不过，并不是所有的 Gemma 版本都如此完美。测试人员发现 26B A4B 变体虽然也能盈利，但生存率跌到了 60%，且存在严重的 JSON 格式污染问题。这就像是一个编译器在处理字符串转义时出现了 Bug，导致工具调用（Tool-call）频繁崩溃，甚至需要专门编写三阶段清洗器来修复。

有观点认为，这种结果可能存在“刷榜”嫌疑，即模型在训练中见过类似的逻辑。但测试方回应称，模拟器的内部机制是闭源的，决策过程表现出高度的有机性（Organic），更像是基于策略的演化而非记忆。

这引发了一个值得深思的问题：当 31B 的小模型能以 1/40 的成本完成 90% 的任务时，我们对“大模型”的需求是否正在发生结构性转移？未来的 Agentic Workflow 也许不再追求极致的智力峰值，而是在寻找那个性价比最高的“甜点层”。

目前的争议在于，这种在特定模拟环境下的成功，能否平滑迁移到复杂的、充满随机性的现实代码诊断或业务逻辑中。

ref: reddit.com/r/LocalLLaMA/comments/1sdcotc/gemma_4_just_casually_destroyed_every_model_on

规模迷信的终结：Gemma 4 31B 稠密模型对 MoE 的效率碾压

本帖子中包含更多资源

浏览过的版块