快速导读:一个人买了台Mac mini M4,嫌GPU太普通,去逆向了苹果从不公开的NPU私有API,在上面跑通了模型训练。这块芯片的能效数字,让人重新想了想为什么苹果从来不提它。
---
苹果从来不谈ANE怎么用。
ANE是Neural Engine(神经引擎),每台Mac里都有,M4版本标称38 TFLOPS的INT8算力。苹果在发布会上提一句,然后再也不提。没有文档,没有SDK,开发者能走的唯一正规路径是CoreML——一个把底层全部封死的高层框架,你能做的事情,就是苹果允许你做的事情。
有人买了台Mac mini M4,觉得这说不通,就去撬这个黑盒。
他用Claude帮他分析CoreML在运行时到底调用了哪些私有API,顺着调用链往下挖,绕开CoreML,直接对ANE提交计算图。不是走官方路子——是字面意义上的逆向工程。最后在这块没有文档的芯片上,跑通了一个110M参数的GPT训练。
然后他测了功耗。
ANE跑满的时候,只吃2.8瓦。19 TFLOPS的算力,除下来是6.6 TFLOPS/瓦。H100是1.4,Mac的GPU是1。
差了将近五倍。
这个数字奇怪在哪里?H100是目前AI训练的事实标准,一张卡几万美元,数据中心为它专门设计散热和供电系统。M4的ANE,藏在一台3000块的Mac mini里,坐在你桌上,顺手就能摸到。
现在利用率只有2-3%。不是芯片不行,是没人知道怎么调。苹果把这条路堵得很死,没有公开编译器,没有官方训练支持,梯度回传的部分还要绕很多弯。目前这套方案训练一个小模型能收敛,但跑更大的模型还有工程问题没解决。
不过有意思的部分不是“现在能做什么”。
是苹果明明有这块芯片,却选择对它保持沉默。它不进训练市场,不开放API,让开发者只能用CoreML做推理。与此同时,Qualcomm、AMD都在用TOPS数字打广告,英伟达在卖每瓦算力越来越贵的GPU。
你桌上那台Mac,NPU一直开着,一直闲着。
等苹果哪天想通了要开放,或者等社区把剩下的坑填完,那个“本地训练”的故事可能会长得很不一样。
---
简评:
最有趣的不是技术本身,是苹果的选择——把一块能效领先全行业的芯片藏在消费级产品里,然后装作它不存在。这要么是战略保留,要么是他们自己也不确定怎么对外讲这个故事。
---
ref: reddit.com/r/LocalLLaMA/comments/1rhx5pc/reverse_engineered_apple_neural_engineane_to