找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

智谱GLM-5架构曝光

[复制链接]

2

主题

0

回帖

6

积分

新手上路

积分
6
发表于 6 小时前 | 显示全部楼层 |阅读模式
【#智谱GLM-5架构曝光# 】

开源社区从GitHub代码提交中挖掘出智谱AI下一代大模型GLM-5的架构细节。代码显示,GLM-5采用了与DeepSeek-V3/V3.2相同的技术路线,总参数量达745B,是上一代GLM-4.7的2倍。

核心技术亮点:
1.稀疏注意力机制(DSA):通过两阶段流程实现长文本高效处理——先由轻量组件快速扫描历史token并打分,再仅对Top-k高分token进行完整注意力计算,大幅提升效率且几乎不损失输出质量
2.多Token预测(MTP):显著提升模型生成效率
3.MoE架构:78层隐藏层,256个专家,每次激活8个,激活参数约44B,稀疏度5.9%,上下文窗口最高支持202K token

业内人士指出,复用DeepSeek架构意味着GLM-5可直接受益于vLLM、SGLang等主流推理框架的现有优化,部署门槛将大幅降低。但也有开发者关注:基于纯文本架构的GLM-5首发版本是否会暂缺多模态能力,仍待官方确认。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-12 08:22 , Processed in 0.099070 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表