把大模型直接刻进芯片里


【把大模型直接刻进芯片里】


Taalas搞了个狠活:把Llama 3.1 8B整个模型和参数直接蚀刻到硅片上。不用显存,不用先进封装,不用液冷,一块芯片搞定。


他们声称每用户每秒17000个token,延迟不到1毫秒,生产成本便宜20倍,能耗只有十分之一。最离谱的是:从拿到模型到做出芯片,只要60天。


我试了他们的demo,真的是按下回车,答案就在那儿了。那种“即刻”不是夸张修辞,是字面意义上的瞬间。这速度让人开始重新想象AI能干什么。


实时语音对话?不需要专门的语音模型了,文本模型配合零延迟TTS就够。游戏NPC?终于可以真的“活”起来,甚至反应比人还快。机器人?Figure这类公司应该已经在打电话了,因为每省一瓦电都意味着更轻的电池、更小的执行器、更低的成本。


当然也有局限。模型固化在芯片里,没法像软件那样随时更新。但他们支持LoRA微调,意味着在架构和参数量限定的前提下,还是能继续优化的。而且对很多场景来说,Llama 3.1 8B已经“够用”了——内容审核、实时翻译、视觉处理,这些任务不需要最新最强的模型,需要的是又快又稳又便宜。


有人质疑说,现在前沿模型几个月就迭代一次,60天的芯片制作周期不是太慢了吗?确实,如果你追的是绝对最新,这条路不适合。但换个角度想:什么时候一个模型会“足够好”到不需要频繁更新?对某些垂直领域来说,这个时刻可能比我们想象的来得早。


Reddit上有工程师算了笔账:如果用Nvidia B200跑Qwen 3.5,需要8块卡,满载功耗12千瓦,生成1万个token要45秒。用50块Taalas HC1,功耗差不多,但1秒就完成了。虽然芯片数量多,但总电费是B200的零头。单片制造成本估计300-400美元,加上lithography mask的NRE费用分摊,最终零售价可能在600-700美元。如果量产到百万级,价格还能再降。


这让我想起比特币挖矿的演进:CPU到GPU到ASIC,每一步都是数量级的效率跃迁。AI推理可能也在走同样的路。通用计算器件(GPU)很强大,但专用芯片的效率永远是另一个维度。Nvidia当然也能做类似的事,但他们不做,因为要保持通用性,好让每个新架构都能跑。而Taalas赌的是:有些应用场景,不需要通用性。


现在的demo只是个开始。他们说今年春天会出中档推理模型的芯片,今年冬天出前沿大模型版本。如果真能把这个速度带到70B甚至更大的模型上,整个行业的推理成本结构都会被重写。


有人担心这会被军方或大公司垄断。也有人期待它能民主化AI,让每个人的电脑都能装一块“AI协处理器”,像当年显卡普及那样。现在还说不准会走哪条路。


但有一点很清楚:当你体验过这种速度,就回不去了。这不是量变,是质变。就像第一次用上SSD的感觉,你会开始质疑之前为什么能忍受那么慢。


有个用户发了张图,屏幕上显示“Generated in 0.086s • 15,584 tok/s”。下面配了张表情包:一个人类拿着火炬,旁边是个巨大的火球。那个火球就是Jimmy(他们demo的名字)。


这技术最大的意义可能不是让现有的事情变快,而是让之前根本做不了的事情变得可行。每秒1.7万个token意味着什么?意味着可以在1秒内跑100次推理然后选最好的答案;意味着可以让AI实时“思考”复杂问题;意味着机器人可以在人类反应时间的几十分之一内做决策。


60天从模型到芯片。这个数字听起来还是挺长的,但想想看,如果这个周期继续压缩呢?如果AI帮助优化了这个流程,把它降到一周呢?到那时候,“把模型刻进芯片”就不是什么激进的选择了,而是标准操作。


我们可能正站在另一个分叉路口。一条路是继续堆GPU,靠规模效应和通用性碾压。另一条路是专用化,为特定任务定制硅片,追求极致效率。这两条路不一定互相排斥,但确实代表了不同的哲学。


Taalas选了后者。现在的问题是,市场会不会跟上。


简评:


技术世界有两种进步:一种是把路铺得更宽,让更多车跑得更快;另一种是换一种交通工具,让“路”这个概念本身过时。


Taalas做的事,本质是一次“去冗余”的极端实验——把内存、总线、调度这些“计算的行政成本”全部砍掉,让硅片只干一件事:推理。这像什么?像把整套《唐诗三百首》刻在一块玉上,每次想查诗不用翻书,摸到哪儿就是哪儿。


真正值得琢磨的不是“快了多少倍”,而是“快到这个程度之后,什么事情从不可能变成了可能”。当AI的反应速度比人的眨眼还快,它就不再是“工具”,而是“环境”——像空气、像重力,你不会注意到它在工作,但它无处不在。


当然,硬币的另一面是:你得提前选好刻什么。刻错了,就是一块昂贵的石头。


www.reddit.com/r/singularity/comments/1r9frzk/taalas_llms_baked_into_hardware_no_hbm_weights





分类