查看: 103|回复: 0

据传,英伟达在 3 月的 GTC 2026(GPU 技术大会)上确实憋了大招。

[复制链接]

13

主题

2

回帖

53

积分

注册会员

积分
53
发表于 2026-3-1 16:08:26 来自手机 | 显示全部楼层 |阅读模式
据传,英伟达在 3 月的 GTC 2026(GPU 技术大会)上确实憋了大招。目前的各种情报指向,老黄要推出一款代号可能为 “Blackwell-I”(Inference,推理专用)。

训练芯片(如 H100/B200)追求的是吞吐量和原始暴力;而推理芯片追求的是低延迟和高能效比。这次的新芯片据传采用了更激进的 FP4/FP6 数据格式,这意味着在同样的功耗下,推理速度可能直接翻倍。

推理最吃的是带宽(HBM),主要为了高并发。这款新芯片极大概率集成了更高规格的 HBM4

训练芯片的逻辑是,为了让 GPU 的数万个核心不闲着,必须一次性塞进去几百行数据(非常巨大的batch),推理芯片相当于Batch Size = 1,但是推理要求低延迟,高并发,能同时快速伺候大量独立请求,因此如果还是要坚持此前的“训推一体”,那必然再发展中出现两头不占的情况,优化的本质就是拿到更多先验知识后,把这些特点融入到设计中,从而拿到更好的结果。。

比如 某国内大模型 的 API,100万 Tokens 只要 1-2元。如果一个 Prompt 加上结果一共 1000个 Tokens(约 700 汉字),成本就是 0.001元 - 0.002元 。但是这个估计不赚钱,所以一定要从成本上下功夫。

推理成本如果能压到远低于 2 厘钱/prompt 甚至更低,AI 应用才会真正爆发, 才会真正实现token自由,包括英伟达在内的全体芯片同志们,还在继续努力,努力吧,同志们。

大家记住我这个数据,2厘,2厘啊 [泪]
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部