Reddit上有人晒出一个项目:用GPT-5.3 codex,花了5小时和0.83美元,声称从零生成了一个“纯汇编”的GBA模拟器。评论区瞬间炸锅。
但大多数人争论的方向,可能从一开始就偏了。
先说技术事实。有人跑了同样的prompt,发现codex的策略是先写C代码,再编译成汇编,最后删掉C文件。这就把“用汇编写”和“编译到汇编”之间的边界搅浑了。原帖作者反复强调“训练数据中不存在汇编版GBA模拟器,所以这是全新创造”,但这个三段论的每一步都有问题:no$gba就是用x86汇编写的;训练数据里有大量C写的GBA模拟器源码,模型完全可以从高级语言实现中理解GBA架构,再翻译到汇编。没有汇编版本存在,不等于没有用到训练数据。
再说模拟器质量。原帖作者说“没看到什么glitch”,但有人问了关键问题:edge case的准确性如何?模拟器开发社区有句老话:“让游戏跑起来容易,让模拟器准确很难。”一个能跑超级马里奥的模拟器,和一个通过各种timing test的精确模拟器之间,差距可能是数量级的。
评论区的争论暴露了几层认知分歧。第一层是技术事实,第二层是“新颖性”的定义,第三层则是关于AI能力的元叙事。一部分人认为这证明了AI已经具备革命性的工程能力,另一部分人认为这不过是对已有知识的重新组合。这个分歧不可能通过单一案例解决,因为双方对“创造”的定义根本不同。
但被大多数人忽略的,恰恰是最值得注意的东西:codex的自主工作流。它制定计划、编码、截图测试、自己玩游戏检查画面、发现问题再修复。这个闭环的自主工程能力,比最终产物是C还是汇编重要得多。
这件事最深刻的含义不在于“AI能写汇编”,而在于工程劳动的单位成本正在发生相变。一个人用不到1美元和一句话的prompt,在5小时内得到了一个可运行的系统级软件。即使这个软件质量一般,即使它本质上是从C翻译过来的,即使它在边缘情况下会崩溃,这个事实本身就已经改变了“什么项目值得尝试”的门槛。
评论区的人们在用旧框架去评价一个需要新框架的现象。真正的问题不是“这个模拟器有多好”,而是“当启动一个复杂系统级项目的边际成本趋近于零时,会发生什么”。
争论“这算不算真的汇编”的时候,房间里的大象没人看见:工程劳动的经济学正在被重写。
www.reddit.com/r/singularity/comments/1r525lg/codexcli_with_gpt53_codex_xhigh_5_hours_made_a/