9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力最强的大模型，已经把scaling卷到了一个新维度：百万级上下文。

左不右 · 发表于 2026-2-16 01:40:49

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力

最强的大模型，已经把scaling卷到了一个新维度：百万级上下文。

几天前，Claude Opus 4.6发布，让人第一次真切感受到了百万上下文的涌现能力——

单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划……

此情此景，用户火速用脚投票，华尔街更是直接给出K线回应。

而这股scaling的风，也很快吹到了端侧。

刚刚，面壁智能带着首次大规模训练的稀疏与线性混合注意力模型，小年交卷——

这套新注意力架构，不仅解决了传统Transformer的计算冗余，还第一次在性能无损的前提下，让9B端侧模型能够在5090显卡上处理百万长文本。

与此同时，基于SALA注意力架构的模型MiniCPM-SALA也将一并开源。

除此之外，面壁还以OpenBMB社区名义，联合SGLang与NVIDIA发起2026稀疏算子加速大奖赛（SOAR），将这套scaling能力直接交到开发者手中，推动端侧Agent部署的性能突破。
http://t.cn/AXtXWRcF

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力 最强的大模型，已经把scaling卷到了一个新维度：百万级上下文。

本帖子中包含更多资源

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力最强的大模型，已经把scaling卷到了一个新维度：百万级上下文。