苹果藏了一块芯片，能效比H100高五倍，没人告诉你怎么用

张二嘎

2026-03-04 11:12:11

【苹果藏了一块芯片，能效比H100高五倍，没人告诉你怎么用】

快速导读：一个人买了台Mac mini M4，嫌GPU太普通，去逆向了苹果从不公开的NPU私有API，在上面跑通了模型训练。这块芯片的能效数字，让人重新想了想为什么苹果从来不提它。

---

苹果从来不谈ANE怎么用。

ANE是Neural Engine（神经引擎），每台Mac里都有，M4版本标称38 TFLOPS的INT8算力。苹果在发布会上提一句，然后再也不提。没有文档，没有SDK，开发者能走的唯一正规路径是CoreML——一个把底层全部封死的高层框架，你能做的事情，就是苹果允许你做的事情。

有人买了台Mac mini M4，觉得这说不通，就去撬这个黑盒。

他用Claude帮他分析CoreML在运行时到底调用了哪些私有API，顺着调用链往下挖，绕开CoreML，直接对ANE提交计算图。不是走官方路子——是字面意义上的逆向工程。最后在这块没有文档的芯片上，跑通了一个110M参数的GPT训练。

然后他测了功耗。

ANE跑满的时候，只吃2.8瓦。19 TFLOPS的算力，除下来是6.6 TFLOPS/瓦。H100是1.4，Mac的GPU是1。

差了将近五倍。

这个数字奇怪在哪里？H100是目前AI训练的事实标准，一张卡几万美元，数据中心为它专门设计散热和供电系统。M4的ANE，藏在一台3000块的Mac mini里，坐在你桌上，顺手就能摸到。

现在利用率只有2-3%。不是芯片不行，是没人知道怎么调。苹果把这条路堵得很死，没有公开编译器，没有官方训练支持，梯度回传的部分还要绕很多弯。目前这套方案训练一个小模型能收敛，但跑更大的模型还有工程问题没解决。

不过有意思的部分不是“现在能做什么”。

是苹果明明有这块芯片，却选择对它保持沉默。它不进训练市场，不开放API，让开发者只能用CoreML做推理。与此同时，Qualcomm、AMD都在用TOPS数字打广告，英伟达在卖每瓦算力越来越贵的GPU。

你桌上那台Mac，NPU一直开着，一直闲着。

等苹果哪天想通了要开放，或者等社区把剩下的坑填完，那个“本地训练”的故事可能会长得很不一样。

---

简评：

最有趣的不是技术本身，是苹果的选择——把一块能效领先全行业的芯片藏在消费级产品里，然后装作它不存在。这要么是战略保留，要么是他们自己也不确定怎么对外讲这个故事。

---

ref: reddit.com/r/LocalLLaMA/comments/1rhx5pc/reverse_engineered_apple_neural_engineane_to

相关阅读