0.83美元，5小时，一个GBA模拟器：我们该争论什么？

周师兄

2026-02-16 10:26:24

【0.83美元，5小时，一个GBA模拟器：我们该争论什么？】

Reddit上有人晒出一个项目：用GPT-5.3 codex，花了5小时和0.83美元，声称从零生成了一个“纯汇编”的GBA模拟器。评论区瞬间炸锅。

但大多数人争论的方向，可能从一开始就偏了。

先说技术事实。有人跑了同样的prompt，发现codex的策略是先写C代码，再编译成汇编，最后删掉C文件。这就把“用汇编写”和“编译到汇编”之间的边界搅浑了。原帖作者反复强调“训练数据中不存在汇编版GBA模拟器，所以这是全新创造”，但这个三段论的每一步都有问题：no$gba就是用x86汇编写的；训练数据里有大量C写的GBA模拟器源码，模型完全可以从高级语言实现中理解GBA架构，再翻译到汇编。没有汇编版本存在，不等于没有用到训练数据。

再说模拟器质量。原帖作者说“没看到什么glitch”，但有人问了关键问题：edge case的准确性如何？模拟器开发社区有句老话：“让游戏跑起来容易，让模拟器准确很难。”一个能跑超级马里奥的模拟器，和一个通过各种timing test的精确模拟器之间，差距可能是数量级的。

评论区的争论暴露了几层认知分歧。第一层是技术事实，第二层是“新颖性”的定义，第三层则是关于AI能力的元叙事。一部分人认为这证明了AI已经具备革命性的工程能力，另一部分人认为这不过是对已有知识的重新组合。这个分歧不可能通过单一案例解决，因为双方对“创造”的定义根本不同。

但被大多数人忽略的，恰恰是最值得注意的东西：codex的自主工作流。它制定计划、编码、截图测试、自己玩游戏检查画面、发现问题再修复。这个闭环的自主工程能力，比最终产物是C还是汇编重要得多。

这件事最深刻的含义不在于“AI能写汇编”，而在于工程劳动的单位成本正在发生相变。一个人用不到1美元和一句话的prompt，在5小时内得到了一个可运行的系统级软件。即使这个软件质量一般，即使它本质上是从C翻译过来的，即使它在边缘情况下会崩溃，这个事实本身就已经改变了“什么项目值得尝试”的门槛。

评论区的人们在用旧框架去评价一个需要新框架的现象。真正的问题不是“这个模拟器有多好”，而是“当启动一个复杂系统级项目的边际成本趋近于零时，会发生什么”。

争论“这算不算真的汇编”的时候，房间里的大象没人看见：工程劳动的经济学正在被重写。

www.reddit.com/r/singularity/comments/1r525lg/codexcli_with_gpt53_codex_xhigh_5_hours_made_a/

相关阅读