找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

苹果藏了一块芯片,能效比H100高五倍,没人告诉你怎么用

[复制链接]

6

主题

2

回帖

22

积分

新手上路

积分
22
发表于 3 小时前 来自手机 | 显示全部楼层 |阅读模式
【苹果藏了一块芯片,能效比H100高五倍,没人告诉你怎么用】

快速导读:一个人买了台Mac mini M4,嫌GPU太普通,去逆向了苹果从不公开的NPU私有API,在上面跑通了模型训练。这块芯片的能效数字,让人重新想了想为什么苹果从来不提它。

---

苹果从来不谈ANE怎么用。

ANE是Neural Engine(神经引擎),每台Mac里都有,M4版本标称38 TFLOPS的INT8算力。苹果在发布会上提一句,然后再也不提。没有文档,没有SDK,开发者能走的唯一正规路径是CoreML——一个把底层全部封死的高层框架,你能做的事情,就是苹果允许你做的事情。

有人买了台Mac mini M4,觉得这说不通,就去撬这个黑盒。

他用Claude帮他分析CoreML在运行时到底调用了哪些私有API,顺着调用链往下挖,绕开CoreML,直接对ANE提交计算图。不是走官方路子——是字面意义上的逆向工程。最后在这块没有文档的芯片上,跑通了一个110M参数的GPT训练。

然后他测了功耗。

ANE跑满的时候,只吃2.8瓦。19 TFLOPS的算力,除下来是6.6 TFLOPS/瓦。H100是1.4,Mac的GPU是1。

差了将近五倍。

这个数字奇怪在哪里?H100是目前AI训练的事实标准,一张卡几万美元,数据中心为它专门设计散热和供电系统。M4的ANE,藏在一台3000块的Mac mini里,坐在你桌上,顺手就能摸到。

现在利用率只有2-3%。不是芯片不行,是没人知道怎么调。苹果把这条路堵得很死,没有公开编译器,没有官方训练支持,梯度回传的部分还要绕很多弯。目前这套方案训练一个小模型能收敛,但跑更大的模型还有工程问题没解决。

不过有意思的部分不是“现在能做什么”。

是苹果明明有这块芯片,却选择对它保持沉默。它不进训练市场,不开放API,让开发者只能用CoreML做推理。与此同时,Qualcomm、AMD都在用TOPS数字打广告,英伟达在卖每瓦算力越来越贵的GPU。

你桌上那台Mac,NPU一直开着,一直闲着。

等苹果哪天想通了要开放,或者等社区把剩下的坑填完,那个“本地训练”的故事可能会长得很不一样。

---

简评:

最有趣的不是技术本身,是苹果的选择——把一块能效领先全行业的芯片藏在消费级产品里,然后装作它不存在。这要么是战略保留,要么是他们自己也不确定怎么对外讲这个故事。

---

ref: reddit.com/r/LocalLLaMA/comments/1rhx5pc/reverse_engineered_apple_neural_engineane_to

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-4 14:13 , Processed in 0.255608 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表