当速度飙到10000 tokens/秒：把AI模型烧进芯片，会是一门好生意吗

六亚之父之父 · 发表于昨天 11:23

【当速度飙到10000 tokens/秒：把AI模型烧进芯片，会是一门好生意吗】

快速阅读：一家叫Taalas的公司据传要把Qwen 3.5 27B直接蚀刻进芯片，制造成本300-400美元，成品卡600-800美元，跑速10000 tokens/秒。这引发了关于本地AI推理的路线之争：专用ASIC对决云端API，速度对决灵活性。

---

先说数字。Qwen 3.5 27B通过API调用大约是每百万token 2.4美元，以10000 tokens/秒的速度跑，大概9.5小时就能把一张800美元的卡成本全部摊销。单从算术上看，这是个相当残暴的投资回报率。

把模型烧进硅里，本质上是一场赌注：你押的是这个模型在未来足够长的时间内对你足够有用。这个判断其实没那么难下。有观点认为，27B的Qwen做日常工具调用、RAG检索、企业内部chatbot已经绰绰有余，就像Chipotle点餐系统不需要一辆法拉利去送外卖。那些真正需要最强推理的任务，你可以让它调用云端的Claude或GPT，让慢但聪明的模型做编排，快但专注的芯片负责执行——速度差距高达200倍时，整体工作流的效率会发生质变。

这个思路很多人都想到了：本地ASIC跑高频小任务，云端API处理复杂决策。类似于家里装一台NAS而不是把所有文件丢给Dropbox，逻辑不是“哪个更好”，而是“为什么要把所有东西都给别人管”。数据主权、延迟、成本，在足够大的使用量下都会成为真实的理由。

有观点认为这个方向在游戏领域潜力巨大——实时响应的NPC，不再是脚本树而是真正的对话。另有观点指出机器人领域同样关键：思考循环必须是实时的，等不起网络往返。

当然，把模型固化进芯片最直接的问题是它不能更新。有人已经把这个产品类比成软盘——装的不是程序，是AI。每隔几个月就换一张新芯片，听起来很像换墨盒，也很像很多年前换CPU。有人担心变成电子垃圾，有人觉得一年800美元根本不叫事。

Taalas之前的8B演示只有7K上下文，这确实是个硬伤。10000 tokens/秒的速度和几千token的上下文同时存在，感觉有点像装了涡轮增压的发动机但油箱只有两升。上下文问题不解决，很多应用场景就只能停在想象层面。

这个行业正处在某个我们还没命名的阶段。GPU、TPU、ASIC，都还是早期形态，就像1MHz处理器时代没人能预见今天的架构。唯一可以确定的是，这条路会有人走下去，至于走到哪里，现在押注还太早。

ref: www.reddit.com/r/singularity/comments/1s6bs6r/taalas_rumoured_to_etch_qwen_35_27b_into_silicon

#

当速度飙到10000 tokens/秒：把AI模型烧进芯片，会是一门好生意吗

本帖子中包含更多资源

相关帖子