快速阅读:Gemma 4 的发布正处于权重释放与底层适配脱节的阵痛期。虽然模型潜力巨大,但推理引擎在处理其特有的逻辑结构时,正面临严重的循环与崩溃问题。
---
Gemma 4 的发布像是一次未经充分驱动优化的硬件上架。权重已经推送到仓库,但底层推理引擎的指令集还没对齐。
目前的体验更像是面对一堆乱码的错误日志。有人在 LM Studio 里看到随机的拼写错误或无法闭合的 `<thought>` 标签;有人发现模型会陷入无限循环的思维泥潭。这种不稳定性很大程度上源于量化(Quantization)和 KV Cache 旋转机制在 `llama.cpp` 等工具链上的适配滞后。如果把 Gemma 4 比作一个新的 CPU 架构,那么目前的开源生态正处于缺乏稳定驱动的阵痛期。
有网友提到 Qwen 系列在代码任务和工具调用上目前更稳健;也有人觉得 Gemma 4 的写作风格非常出色。这不仅是模型强弱的问题,也是工程链路的问题。当 KV Cache 旋转还没能完美运行,或者 4-bit 量化导致推理逻辑出现熵增时,再强的权重也只是堆积的参数。
更深层的争论在于协作模式。有观点认为大厂只需发布权重,适配是开源社区的事;但也有人觉得,如果 Google 真的想推动生态,就该像对待核心产品一样去优化集成度。目前这种“重模型、轻驱动”的状态,让整个生态看起来像个正在着火的垃圾场,虽然偶尔能烧出点惊艳的东西。
ref: reddit.com/r/LocalLLaMA/comments/1se6nq5/what_it_took_to_launch_google_deepminds_gemma_4