这次升级覆盖面很广:编程、计算机操作、长上下文推理、智能体规划、知识工作、设计,全线提升。上下文窗口也扩到了 100 万 token(beta)。价格不变,依然是 3/15 美元每百万 token。
下面快速过一遍值得关注的点。
【1】编程能力大幅提升,用户甚至更偏爱它超过 Opus
Anthropic 的内部测试显示,Claude Code 用户在 70% 的情况下更偏好 Sonnet 4.6 而非上一代 Sonnet 4.5。更夸张的是,59% 的用户甚至更喜欢它而非去年 11 月发布的旗舰模型 Opus 4.5。
用户反馈集中在几个点:Sonnet 4.6 在改代码之前会先读上下文,会合并重复逻辑而不是到处复制粘贴,过度工程化和偷懒的情况也明显减少。多步骤任务执行更稳定,虚假的成功报告更少。
【2】计算机操作从实验品变成了实用工具
2024 年 10 月 Anthropic 首次推出计算机操作功能时,自己都说"还很笨拙、容易出错"。16 个月后,OSWorld 基准测试(让 AI 在真实软件环境里完成任务)的得分从最初的 14.9% 涨到了 72.5%。
早期用户反馈,Sonnet 4.6 在操作复杂电子表格、填写多步骤网页表单这类任务上,已经接近人类水平。它还能跨多个浏览器标签协调操作,把不同来源的信息整合到一起。
当然,跟最熟练的人类比还有差距。但这个进步速度说明,更强的版本不会太远。
安全方面也有改进。计算机操作最大的风险是提示词注入(prompt injection),恶意网页可以藏指令试图劫持模型。Sonnet 4.6 在抵抗这类攻击方面比 Sonnet 4.5 有明显提升。
【3】基准测试全面提升,逼近 Opus 水平
Sonnet 4.6 在各项基准测试中全面进步,接近 Opus 级别的智能水平,但价格只是 Sonnet 级别。换句话说,以前需要用 Opus 才能搞定的任务,现在 Sonnet 就能做。
特别值得一提的是 Vending-Bench Arena 评测,这个测试让 AI 模型在模拟环境中经营一家企业,不同模型之间还要相互竞争。Sonnet 4.6 展现出了有意思的策略:前 10 个月大举投资扩产能,最后阶段突然转向盈利优先,靠这个时机差打赢了竞争对手。
【4】100 万 token 上下文窗口
100 万 token 足够装下整个代码库、长篇合同或几十篇研究论文。更关键的是,Sonnet 4.6 能在这么长的上下文里有效推理,而不只是把文本塞进去。这对需要长期规划的复杂任务很有价值。
【5】产品和 API 更新
API 层面有几个实用更新:网页搜索和抓取工具现在会自动过滤处理搜索结果,只保留相关内容,节省 token;代码执行、记忆、程序化工具调用、工具搜索等功能正式发布(GA)。
Claude in Excel 插件现在支持 MCP 连接器,可以直接在 Excel 里调用 S&P Global、PitchBook、Moody's 等数据源,不用切出去。
免费版也升级到了 Sonnet 4.6,并开放了文件创建、连接器、Skills 和上下文压缩功能。
【6】怎么选:Sonnet 4.6 还是 Opus?
对大多数任务来说,Sonnet 4.6 性价比更高。Anthropic 自己的建议是:需要最深层推理的场景(大规模代码重构、多智能体编排、必须零容错的问题),Opus 4.6 仍然是更好的选择。其他场景,Sonnet 4.6 足够了。
Sonnet 4.6 的模型标识符是 claude-sonnet-4-6,已在所有 Claude 方案、Cowork、Claude Code、API 以及主要云平台上线。
官方公告:http://t.cn/AXtTPCm1