查看: 6|回复: 0

当速度飙到10000 tokens/秒:把AI模型烧进芯片,会是一门好生意吗

[复制链接]

12

主题

0

回帖

36

积分

新手上路

积分
36
发表于 昨天 11:23 来自手机 | 显示全部楼层 |阅读模式
【当速度飙到10000 tokens/秒:把AI模型烧进芯片,会是一门好生意吗】

快速阅读: 一家叫Taalas的公司据传要把Qwen 3.5 27B直接蚀刻进芯片,制造成本300-400美元,成品卡600-800美元,跑速10000 tokens/秒。这引发了关于本地AI推理的路线之争:专用ASIC对决云端API,速度对决灵活性。

---

先说数字。Qwen 3.5 27B通过API调用大约是每百万token 2.4美元,以10000 tokens/秒的速度跑,大概9.5小时就能把一张800美元的卡成本全部摊销。单从算术上看,这是个相当残暴的投资回报率。

把模型烧进硅里,本质上是一场赌注:你押的是这个模型在未来足够长的时间内对你足够有用。这个判断其实没那么难下。有观点认为,27B的Qwen做日常工具调用、RAG检索、企业内部chatbot已经绰绰有余,就像Chipotle点餐系统不需要一辆法拉利去送外卖。那些真正需要最强推理的任务,你可以让它调用云端的Claude或GPT,让慢但聪明的模型做编排,快但专注的芯片负责执行——速度差距高达200倍时,整体工作流的效率会发生质变。

这个思路很多人都想到了:本地ASIC跑高频小任务,云端API处理复杂决策。类似于家里装一台NAS而不是把所有文件丢给Dropbox,逻辑不是“哪个更好”,而是“为什么要把所有东西都给别人管”。数据主权、延迟、成本,在足够大的使用量下都会成为真实的理由。

有观点认为这个方向在游戏领域潜力巨大——实时响应的NPC,不再是脚本树而是真正的对话。另有观点指出机器人领域同样关键:思考循环必须是实时的,等不起网络往返。

当然,把模型固化进芯片最直接的问题是它不能更新。有人已经把这个产品类比成软盘——装的不是程序,是AI。每隔几个月就换一张新芯片,听起来很像换墨盒,也很像很多年前换CPU。有人担心变成电子垃圾,有人觉得一年800美元根本不叫事。

Taalas之前的8B演示只有7K上下文,这确实是个硬伤。10000 tokens/秒的速度和几千token的上下文同时存在,感觉有点像装了涡轮增压的发动机但油箱只有两升。上下文问题不解决,很多应用场景就只能停在想象层面。

这个行业正处在某个我们还没命名的阶段。GPU、TPU、ASIC,都还是早期形态,就像1MHz处理器时代没人能预见今天的架构。唯一可以确定的是,这条路会有人走下去,至于走到哪里,现在押注还太早。

ref: www.reddit.com/r/singularity/comments/1s6bs6r/taalas_rumoured_to_etch_qwen_35_27b_into_silicon

#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部