我在X上刷到了一匹金色的骏马!!
然后我一不小心点进去了,就看见GLM-5上线了,然后我发现DeepSeek新模型也上线了。
我自己挖了挖发现。
GLM-5核心点有几个:
1. GLM-5 采用了与DeepSeek-V3相同的 DeepSeek Sparse Attention 稀疏注意力机制。
2. 总参数量约为 745B,但在推理时激活的参数量仅为 44B
3. 支持200K+ 的上下文窗口
4. 重点增强了复杂任务规划执行的能力。
DeepSeek这边就更有意思了,新模型在灰度更新里露出来了。
最关键的点只有一个:1M级别的超长上下文。
我觉得这个升级比较重要。
如果1M上下文真的稳了,很多任务会从多轮拉扯变成一次性给全量材料,再让它自己规划和执行。
根据技术社区的测试,它在不开深度思考模式的情况下,逻辑能力也明显提升。
我的群里很多人已经开始用了,大家放了很多case,GLM-5和DeepSeek新模型主要都在复杂coding任务规划处理上提升很多,看来这两家都不满足于能写代码,而是想进阶为能构建系统。
最近这半年你能明显感觉到,很多旗舰模型已经不满足于vibecoding那套爽感了。
以前大家爱测什么?
简单的前端网页,贪吃蛇游戏。
但这些case离真实工作太远,离复杂任务太远。
真实世界的任务不是让你生成一个页面就结束了,它是读一堆材料,提炼约束,做取舍,反复校对,还要能兜底。
它有上下文,有历史,有例外情况,有脏数据,有临时变更。
你会发现,模型如果只会做漂亮demo,就永远只能活在媒体的口中。
只有当它能处理长上下文,能做任务拆解,能把Agent跑起来,你才敢把它放进工作流。
我甚至觉得,接下来大模型的比拼会越来越朴素,从demo能力转向系统能力。
从这个角度看,我自己有一个挺强烈的感受:DeepSeek和智谱这两家,在coding上,目前都是最接近Claude Opus 4.5的。