查看: 4|回复: 0

一位独立开发者在7天内逆向工程了谷歌价值数十亿美元的算法

[复制链接]

13

主题

1

回帖

51

积分

注册会员

积分
51
发表于 昨天 10:03 | 显示全部楼层 |阅读模式
一位独立开发者在7天内逆向工程了谷歌价值数十亿美元的算法


谷歌发布了一篇论文,引发全球存储芯片股票大跌,却没有发布任何代码。

Tom Turney读完论文中的数学部分后,打开终端,在Claude的辅助下把整套方案实现了出来——而且速度比谷歌承诺的还要快。

第1-3天:完成核心算法、141项测试、Python原型
第3-5天:将代码用C语言移植进llama.cpp,并实现Metal GPU内核
第5-7天:性能优化,从739提升到2747 tokens/秒

这相当于仅通过工程优化实现了3.7倍加速:

fp32 → fp16 的WHT(沃尔什-哈达玛变换)
使用half4向量化的蝶形运算
在计算图侧进行旋转(graph-side rotation)
block-32存储布局

随后他又在此基础上加入了自己的研究改进:

稀疏V:在长上下文下跳过90%的value解压
非对称K/V:保持key的高精度,对value进行更激进压缩
时间衰减:较旧的token自动使用更低精度

最终结果:一个350亿参数模型可以在MacBook上运行,并且缓存压缩达到4.6倍。
该项目一周内获得了613个GitHub星标,而谷歌至今仍未发布其官方代码。


#https://video.weibo.com/show?fid=1034:5282455889051665
##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部