把大模型直接刻进芯片里

小泽樱井爱

2026-02-21 08:19:59

【把大模型直接刻进芯片里】

Taalas搞了个狠活：把Llama 3.1 8B整个模型和参数直接蚀刻到硅片上。不用显存，不用先进封装，不用液冷，一块芯片搞定。

他们声称每用户每秒17000个token，延迟不到1毫秒，生产成本便宜20倍，能耗只有十分之一。最离谱的是：从拿到模型到做出芯片，只要60天。

我试了他们的demo，真的是按下回车，答案就在那儿了。那种“即刻”不是夸张修辞，是字面意义上的瞬间。这速度让人开始重新想象AI能干什么。

实时语音对话？不需要专门的语音模型了，文本模型配合零延迟TTS就够。游戏NPC？终于可以真的“活”起来，甚至反应比人还快。机器人？Figure这类公司应该已经在打电话了，因为每省一瓦电都意味着更轻的电池、更小的执行器、更低的成本。

当然也有局限。模型固化在芯片里，没法像软件那样随时更新。但他们支持LoRA微调，意味着在架构和参数量限定的前提下，还是能继续优化的。而且对很多场景来说，Llama 3.1 8B已经“够用”了——内容审核、实时翻译、视觉处理，这些任务不需要最新最强的模型，需要的是又快又稳又便宜。

有人质疑说，现在前沿模型几个月就迭代一次，60天的芯片制作周期不是太慢了吗？确实，如果你追的是绝对最新，这条路不适合。但换个角度想：什么时候一个模型会“足够好”到不需要频繁更新？对某些垂直领域来说，这个时刻可能比我们想象的来得早。

Reddit上有工程师算了笔账：如果用Nvidia B200跑Qwen 3.5，需要8块卡，满载功耗12千瓦，生成1万个token要45秒。用50块Taalas HC1，功耗差不多，但1秒就完成了。虽然芯片数量多，但总电费是B200的零头。单片制造成本估计300-400美元，加上lithography mask的NRE费用分摊，最终零售价可能在600-700美元。如果量产到百万级，价格还能再降。

这让我想起比特币挖矿的演进：CPU到GPU到ASIC，每一步都是数量级的效率跃迁。AI推理可能也在走同样的路。通用计算器件（GPU）很强大，但专用芯片的效率永远是另一个维度。Nvidia当然也能做类似的事，但他们不做，因为要保持通用性，好让每个新架构都能跑。而Taalas赌的是：有些应用场景，不需要通用性。

现在的demo只是个开始。他们说今年春天会出中档推理模型的芯片，今年冬天出前沿大模型版本。如果真能把这个速度带到70B甚至更大的模型上，整个行业的推理成本结构都会被重写。

有人担心这会被军方或大公司垄断。也有人期待它能民主化AI，让每个人的电脑都能装一块“AI协处理器”，像当年显卡普及那样。现在还说不准会走哪条路。

但有一点很清楚：当你体验过这种速度，就回不去了。这不是量变，是质变。就像第一次用上SSD的感觉，你会开始质疑之前为什么能忍受那么慢。

有个用户发了张图，屏幕上显示“Generated in 0.086s • 15,584 tok/s”。下面配了张表情包：一个人类拿着火炬，旁边是个巨大的火球。那个火球就是Jimmy（他们demo的名字）。

这技术最大的意义可能不是让现有的事情变快，而是让之前根本做不了的事情变得可行。每秒1.7万个token意味着什么？意味着可以在1秒内跑100次推理然后选最好的答案；意味着可以让AI实时“思考”复杂问题；意味着机器人可以在人类反应时间的几十分之一内做决策。

60天从模型到芯片。这个数字听起来还是挺长的，但想想看，如果这个周期继续压缩呢？如果AI帮助优化了这个流程，把它降到一周呢？到那时候，“把模型刻进芯片”就不是什么激进的选择了，而是标准操作。

我们可能正站在另一个分叉路口。一条路是继续堆GPU，靠规模效应和通用性碾压。另一条路是专用化，为特定任务定制硅片，追求极致效率。这两条路不一定互相排斥，但确实代表了不同的哲学。

Taalas选了后者。现在的问题是，市场会不会跟上。

简评：

技术世界有两种进步：一种是把路铺得更宽，让更多车跑得更快；另一种是换一种交通工具，让“路”这个概念本身过时。

Taalas做的事，本质是一次“去冗余”的极端实验——把内存、总线、调度这些“计算的行政成本”全部砍掉，让硅片只干一件事：推理。这像什么？像把整套《唐诗三百首》刻在一块玉上，每次想查诗不用翻书，摸到哪儿就是哪儿。

真正值得琢磨的不是“快了多少倍”，而是“快到这个程度之后，什么事情从不可能变成了可能”。当AI的反应速度比人的眨眼还快，它就不再是“工具”，而是“环境”——像空气、像重力，你不会注意到它在工作，但它无处不在。

当然，硬币的另一面是：你得提前选好刻什么。刻错了，就是一块昂贵的石头。

www.reddit.com/r/singularity/comments/1r9frzk/taalas_llms_baked_into_hardware_no_hbm_weights

相关阅读