据传，英伟达在 3 月的 GTC 2026（GPU 技术大会）上确实憋了大招。

ztl1981 · 发表于 2026-3-1 16:08:26

据传，英伟达在 3 月的 GTC 2026（GPU 技术大会）上确实憋了大招。目前的各种情报指向，老黄要推出一款代号可能为 “Blackwell-I”（Inference，推理专用）。

训练芯片（如 H100/B200）追求的是吞吐量和原始暴力；而推理芯片追求的是低延迟和高能效比。这次的新芯片据传采用了更激进的 FP4/FP6 数据格式，这意味着在同样的功耗下，推理速度可能直接翻倍。

推理最吃的是带宽（HBM），主要为了高并发。这款新芯片极大概率集成了更高规格的 HBM4

训练芯片的逻辑是，为了让 GPU 的数万个核心不闲着，必须一次性塞进去几百行数据（非常巨大的batch），推理芯片相当于Batch Size = 1，但是推理要求低延迟，高并发，能同时快速伺候大量独立请求，因此如果还是要坚持此前的“训推一体”，那必然再发展中出现两头不占的情况，优化的本质就是拿到更多先验知识后，把这些特点融入到设计中，从而拿到更好的结果。。

比如某国内大模型的 API，100万 Tokens 只要 1-2元。如果一个 Prompt 加上结果一共 1000个 Tokens（约 700 汉字），成本就是 0.001元 - 0.002元。但是这个估计不赚钱，所以一定要从成本上下功夫。

推理成本如果能压到远低于 2 厘钱/prompt 甚至更低，AI 应用才会真正爆发, 才会真正实现token自由，包括英伟达在内的全体芯片同志们，还在继续努力，努力吧，同志们。

大家记住我这个数据，2厘，2厘啊 [泪]