《大模型token其实是个相当复杂的概念》
度假归来后,开始补一下AI。
在测试最新的各个模型,顺便普及下token人人都在说的概念。
token其实是相当复杂的概念,典型的看似浅,实际深。
普通散户购买大模型,比如gemini 包月20美金。
是体会不到token的存在的。
token的买家是谁呢? 是大B或者小B。
金融巨头、消费电子企业(如新源车厂),各种AI套壳应用,最不济,也得是个独立开发者。
所以呢,普通用户接触不到。
那token到底是什么呢?
token原本是“最小有意义单元”的意思。
1 个英文单词 ≈ 1.3 个 Token
1 个汉字 ≈ 1 到 1.5 个 Token
有意思的是,这个文本单元又正好对应大模型的成本结构。
用户输入token的时候, 显卡需要加载token,矩阵运算,存入昂贵的显存里。
这里的token数量正好对应“瞬时计算力”和“显存占用费”
大模型输出token的时候, 自回归输出结果。
这里的token数量正好对应“服务器独占时间费”和“带宽搬运费。
因此呢,行业形成了习惯用token计价。
这也解释了反直觉的地方,为何大模型API不仅按照输出计价,连输入都要付钱。
但这里麻烦的地方在于,输出的token是串行任务,无法并行计算。
因此呢, 输出的价格通常比输入贵几倍。
比如miniMax M2.5, 输入价格是0.2刀/百万token, 而输出是1刀/百万token。
这样每个模型差异化定价+输入输出区分定价
就可以有效反之“算圆周率”这样的攻击。
总结下,token既是文本单元,也是成本结构,也是计价方式。
更深入思考下,token提供了一种视角,一种更为深刻看待ai的视角。
一般人会把AI视为某种高科技:模型训练+推理能力。
但生产token的视角,是把AI看成了制造业。
使用数据中心、显卡和电力堆出的manufacturing能力。
这个视角就是说,游戏的终局是大模型的能力大家会趋同,竞争力拼的是底层制造业能力。
那从制造业角度看,token是怎样的商品呢?
是一种猛烈通胀的商品呀。
是一种超高速度迭代的商品呀。
是一种无法存储、生产出来就迅速折旧归零的商品。
有人说像水电煤,傻哥倒是觉得更像没有地域保护的电信公司。
这是好生意吗?