最近,前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 做客了 No Priors 播客,和主持人 Sarah Guo 聊了一个多小时。

最近,前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 做客了 No Priors 播客,和主持人 Sarah Guo 聊了一个多小时。整场对话信息密度极高,从代码智能体聊到自动化科研,从就业市场聊到机器人,从开源模型聊到教育的未来。

Karpathy 在对话中反复用了一个词:AI psychosis,AI 精神失常。他说自己每天花 16 个小时和 AI 智能体打交道,处于一种持续亢奋又持续焦虑的状态。这种状态,可能是当下每一个深度使用 AI 的人都能共鸣的。

下面,我把这场对话里最有价值的观点一一拆开来聊。

一、去年 12 月,一切都变了

Karpathy 说,2025 年 12 月是一个分水岭。在那之前,他写代码和让 AI 写代码的比例大概是八二开。12 月之后,这个比例直接翻转成了二八,甚至更夸张。他说自己从 12 月起基本没有亲手敲过一行代码。

这个变化有多剧烈呢?他试着跟父母解释这件事,发现普通人根本意识不到发生了什么。如果你现在随便找一个软件工程师,看看他的日常工作流,和半年前已经完全不一样了。

他现在的工作方式是这样的:同时开好几个 AI 智能体,每个分配一个独立任务。一个在做研究,一个在写代码,一个在规划新功能的实现方案。他不再以行为单位操作代码,而是以功能为单位下达指令。就像一个项目经理,手下有一群极其能干但偶尔犯傻的实习生。

他提到了一个叫 Peter Steinberg 的人,这人有张著名的照片:坐在一面巨大的显示器前,屏幕上铺满了 Codex 智能体的窗口,每个窗口都在独立运行任务。Peter 就在这些窗口之间来回切换,分配工作、审查结果。Karpathy 说,这就是现在最高效的工作方式的样子。

有意思的是,他描述了一种新型焦虑:当一个智能体在跑任务的时候,你等着它完成,会觉得自己在浪费时间。你应该同时启动更多智能体,把每一分钟都填满。如果你的订阅额度没用完,那就说明你的 token 吞吐量没有最大化。这种感觉,他说跟读博时候盯着 GPU 利用率的焦虑一模一样。只不过以前焦虑的是算力闲置,现在焦虑的是 token 闲置。

这其实揭示了一个很深刻的变化:过去十年,大多数工程师并不觉得自己受限于算力。但现在,每个人都重新感受到了资源约束。只不过这次的瓶颈,是你自己。你能多快地把任务拆解清楚,能多高效地给智能体下指令,决定了你的产出上限。

二、一切不顺利的时候,都觉得是自己的问题

Karpathy 反复说了一句话:It‘s a skill issue. 翻译过来就是,技术不行怪自己。

当智能体搞砸了一个任务,他的第一反应不是觉得 AI 不行,而是觉得自己的指令没写好,(http://t.cn/AXfRyGjq) 文件没配对,记忆工具没用上。他说这种感觉非常上瘾,因为既然是技术问题,那就意味着你可以变得更好。每次找到一个新的使用技巧,都会带来一种解锁成就的快感。

这个心态其实很值得琢磨。很多人在用 AI 工具的时候,遇到不好用就下结论说 AI 不行。但 Karpathy 的态度恰恰相反,他把每一次失败都当成自己的优化空间。这不是盲目乐观,而是他确实看到了能力边界在快速扩展。今天做不到的事情,可能只是你还没找到正确的使用方式。

三、Claw 和 Dobby:AI 不只是工具,是一个持续运转的实体

对话中一个很重要的概念是 Claw。Karpathy 用这个词来描述一种比普通智能体更高级的存在。普通智能体是你给它一个任务,它做完就结束了。Claw 不一样,它是持续运行的,有自己的沙盒环境,有更复杂的记忆系统,即使你不在电脑前,它也在替你做事。

他举了一个特别生动的例子。今年一月,他花了一周时间搭了一个叫 Dobby 的家庭管家系统。他让智能体扫描家里的局域网,找到了 Sonos 音响系统,没有密码保护,智能体直接登录进去,逆向工程了 API 接口,然后就能通过自然语言控制音乐播放了。同样的方法,他把家里的灯光、空调、窗帘、泳池、安防摄像头全部接入了这个系统。

现在他家门口有人来,摄像头会先做变化检测,然后把画面发给一个视觉模型分析,最后通过 WhatsApp 给他发消息:一辆 FedEx 快递车刚停在你家门口,你可能有新包裹。这一切都是 Dobby 自动完成的。

过去他需要六个不同的 App 来管理这些智能家居设备。现在一个都不需要了,全部通过自然语言和 Dobby 对话搞定。

这个例子背后有一个更大的判断:未来的软件形态可能会发生根本性变化。那些 App Store 里的智能家居控制 App,可能根本就不应该存在。所有的硬件设备只需要暴露 API 接口,智能体来做中间的胶水层。用户不再需要学习每一个 App 的界面,只需要用自然语言表达意图就够了。

Karpathy 说得很直接:未来的客户不再是人类,而是代替人类行动的智能体。整个行业都需要围绕这个逻辑重新组织。

四、AutoResearch:让 AI 自己做科研

这是整场对话最硬核的部分。Karpathy 一直在思考一个问题:怎么把自己从循环中移除?

他的逻辑是这样的:要最大化 AI 工具的价值,你就不能成为瓶颈。你不能坐在那里等着看结果,然后手动决定下一步做什么。你要做的是搭建一个系统,让它完全自主运行,你只需要偶尔投入极少量的指令,大量的工作就在你背后自动发生。

AutoResearch 就是这个想法的具体实现。他有一个叫 NanoChat 的项目,本质上是一个训练 GPT 模型的小型实验场。他先用传统方式手动调参,凭借二十年的研究经验把模型调到了一个他认为相当不错的状态。然后他让 AutoResearch 跑了一个通宵。

第二天早上,系统找到了他没发现的优化空间。比如他忘了在 value embeddings 上加 weight decay,Adam 优化器的 beta 参数也没有充分调优。而且这些参数之间是互相关联的,调了一个,其他的最优值也会跟着变。这些事情,一个有二十年经验的顶级研究者没做到,一个自动化系统跑了一晚上就做到了。

但 Karpathy 也很诚实地指出了局限性。AutoResearch 最适合的场景是那些有明确、可量化评估指标的任务。比如写一个更高效的 CUDA kernel,输入输出行为完全一致,只是速度更快,这种任务完美契合自动化研究。但如果一个任务没办法客观评估好坏,那就没法自动化。能评估的才能自动化,这是一条硬约束。

更让人兴奋的是他关于 AutoResearch 下一步的设想。他提出了一个类似区块链的协作框架:互联网上有一个不受信任的工人池,任何人都可以贡献算力来跑实验。找到有效的代码改进(commit)很难,但验证一个改进是否有效很容易,你只需要跑一次训练看结果就行。这就像折叠蛋白质的 Folding @home 项目一样,搜索成本极高,验证成本极低。

他甚至大胆猜测:互联网上分散的、不受信任的算力总和,可能比任何一家前沿实验室都大。如果能设计出合适的协作机制,开源社区的集体智慧搞不好真能跑赢闭源实验室。

五、模型的锯齿感:超级天才和十岁小孩的混合体

Karpathy 用了一个非常精准的比喻来描述当前 AI 模型的状态:他觉得自己同时在和一个极其聪明的博士生以及一个十岁小孩对话。

在擅长的领域,模型表现得像光速一样快。你给它一个编程任务,它能连续工作好几个小时,搬山倒海。但你让它讲个笑话,它给你来一个三四年前就在讲的冷笑话:为什么科学家不信任原子?因为它们组成了一切(make everything up,双关语)。模型进步了这么多,笑话还是那个笑话。

这种锯齿感(jaggedness)的根源在于强化学习的训练方式。实验室能优化的,是那些有明确对错标准的任务:代码能不能跑通,单元测试能不能过。但那些更微妙的东西,比如理解用户的真实意图,知道什么时候该追问,什么时候该主动提出不同意见,这些没有清晰奖励信号的能力,就很难被优化到。

所以你会遇到一种很割裂的体验:要么你正好在模型被训练过的轨道上,一切如丝般顺滑;要么你偏离了那条轨道,模型就开始漫无目的地游荡。中间几乎没有过渡地带。

有人提出一个假设:如果模型在编程上变得更聪明,是不是在其他领域也会自动变好?Karpathy 的回答是:理论上应该如此,但实际上并没有看到令人满意的泛化效果。就像一个人可以数学极好但讲笑话极烂一样,这种不均衡在 AI 身上被放大了很多倍。

六、开源与闭源:意外达成的微妙平衡

关于开源模型和闭源模型的关系,Karpathy 有一个很有意思的判断:目前开源模型大概落后闭源模型六到八个月,而且这个差距在缩小。他认为这种格局其实挺健康的。

他拿操作系统做类比。Windows 和 macOS 是闭源的大型软件项目,Linux 是开源的。但 Linux 运行在全球大多数计算机上,因为行业需要一个所有人都能安全使用的公共平台。AI 领域也一样,企业需要一个不被任何单一公司控制的开放选项。

他的观点是:前沿实验室继续推进最尖端的能力,这很重要,因为有些人类面临的大问题确实需要最强的模型才能解决。但与此同时,今天的前沿模型在半年后就会变成开源模型的水平,而那个水平对于绝大多数消费级应用来说已经足够好了。

Karpathy 说了一句很坦率的话:中心化的历史记录很糟糕。他不希望看到只有两三个人在密室里做决定的局面。他希望有更多的前沿实验室,有更多的人参与到这些重大决策中来。从这个角度看,开源的存在本身就是一种制衡力量。

他甚至说,目前这种格局是意外形成的,但恰好还不错。

七、数字世界先爆发,物理世界会迟到

Karpathy 对未来的产业变革有一个很清晰的时间线判断。

第一波巨变会发生在纯数字领域。所有可以在家完成的、本质上是处理数字信息的工作,都会经历剧烈的重组。原因很简单:翻转比特比加速原子容易一百万倍。数字信息可以复制粘贴,可以瞬间传播,效率提升的空间是指数级的。

第二波会发生在数字和物理的交界处。也就是传感器(感知世界)和执行器(改变世界)所在的领域。比如用 AI 做材料科学的自动化实验,用摄像头和视觉模型做安防监控,这些都是数字智能向物理世界延伸的接口。

第三波才是纯物理世界的变革,比如通用机器人。这一波的市场可能最大,但来得最慢,因为操控原子实在太难了。他在特斯拉做自动驾驶的经验告诉他,物理世界的 AI 应用需要巨量资本投入和极长的时间周期。

他还提出了一个很有想象力的场景:未来如果智能体需要某个地方的实时信息,比如德黑兰街头正在发生什么,应该有一个市场机制让人们可以用十美元的价格出售一张现场照片。智能体不是为了让人看这张照片,而是为了喂给自己做决策。人类会变成 AI 的传感器和执行器,整个社会的组织方式会围绕这个逻辑重新排列。

八、就业市场:短期乐观,长期说不清

关于 AI 对就业的影响,Karpathy 的态度是谨慎乐观。

他引用了杰文斯悖论(Jevons Paradox)来解释为什么软件工程师的需求可能不降反升。经典案例是 ATM 机和银行柜员的故事:大家以为 ATM 会取代柜员,结果 ATM 降低了银行网点的运营成本,导致银行开了更多网点,反而雇了更多柜员。同样的道理,AI 让软件开发变得更便宜了,但软件的需求弹性极大。过去很多想做但做不起的软件项目,现在突然变得可行了。

但他也很坦诚地说,长期预测太难了,他不是经济学家,不敢下定论。他能确定的是:这些工具现在是极其强大的赋能工具,每个人都应该尽快学会使用它们,而不是回避或者恐惧。

他还提到了一个很有意思的观察:前沿实验室里的研究员们,其实也在焦虑自己会被自动化取代。他在 OpenAI 的时候就跟同事们说过,如果我们成功了,我们所有人都会失业。因为他们做的事情,本质上就是在为 CEO 或者董事会构建自动化系统。

九、教育的未来:不再教人,而是教 AI 怎么教人

对话最后,Karpathy 聊到了他的 MicroGPT 项目和对教育的思考。


分类