OpenAI首席科学家帕乔基:让模型自主干几天活儿的那一天已经不远,Harness不是长期瓶颈,技术优先级导致编程产品没跟上节奏
#模型时代# OpenAI首席科学家帕乔基:让模型自主干几天活儿的那一天已经不远,Harness不是长期瓶颈,技术优先级导致编程产品没跟上节奏2026年4月9日,Redpoint Ventures的AI播客Unsupervised Learning发布了一期长对话,主持人Jacob Effron对谈OpenAI首席科学家雅各布·帕乔基(Jakub Pachocki)。我自己的印象是很久没看他公开发言了。
帕乔基是理论计算机科学出身,2017年加入OpenAI,先后主导了Dota 2 AI项目OpenAI Five和GPT-4的训练,推动了推理模型(o1、o3系列)的研发。2024年5月,他在Ilya Sutskever离开后接任首席科学家,和首席研究官Mark Chen共同决定OpenAI的研究方向。
从访谈内容来看,感觉“怨气”比较大,也就是否定表述较多。比如:强化学习对企业不太适用,不如搞上下文工程;Harness也不是瓶颈;持续学习,怎么就特殊了,我们不是一直在搞么。但是对于编程产品落后了,是认可的。
一、从"研究实习生"到"自动化研究者":时间表与判断标准
2026年3月帕乔基接受MIT Technology Review采访时公开了OpenAI的路线图:2025年9月前建成"自动化AI研究实习生",2028年3月前建成完全自动化的多智能体研究系统。这期播客录制时,距离第一个节点已经过去了大约半年。
1、区分标准是任务颗粒度,不是能力高低
帕乔基给出的判断标准非常清晰:指令能说得多模糊,决定了模型处在哪个级别。研究实习生级别的系统,你需要告诉它"我有一个改进模型的具体想法,请执行";完全自动化研究者级别,你只需要说"去改进模型能力"或"去解决对齐问题",它自己规划路径。前者是今年的目标,后者不是。
2、Codex是这条路线图的早期版本
OpenAI内部大部分实际编码已经由Codex完成。帕乔基把当前的Codex直接定位为"自动化研究者的前身"。他预期演化方向是:描述可以更粗略,监督可以更少,运行时间可以更长。
他在播客中有一句直白的话:"I think we're not very far for models that can work autonomously for a couple days."(我们离模型能自主工作几天已经不远了。)这不是远期愿景,他说的是Codex的下一步演进方向。
3、GPT-5.2 Pro已经开始产出研究想法
帕乔基提到,GPT-5.2 Pro已经产出了一些"虽然小但有实际影响"的研究想法,是团队真正把这个模型用起来之后才发现的。他补充说这跟他期望的水平相比还差距巨大,但方向是对的。
他的表述是"impactful ideas came from the model",不是"the model helped us refine our ideas"。区别在于想法的起点是模型而非人。这一点和Karpathy前段时间发布的那个用AI模型改进小模型的病毒式项目方向一致,只是复杂度量级不同。
二、强化学习、持续学习与harness的边界
编程和数学是RL目前进展最快的两个领域,因为结果容易验证。但帕乔基关心的问题是:RL能推广到医疗、法律、金融这些难以自动化验证的领域吗?
1、"难以评估"和"长时间跨度"是同一个问题
这是这期播客中最有框架性的一个判断。帕乔基的逻辑是:即使一个编程或数学任务的最终成功标准非常清晰,如果它需要花一年时间完成,那第一天该做什么就是开放性问题。本质上和一个"结果不容易验证"的法律任务面对的是同一种困难——模型必须学会评估自己的阶段性进展。
他认为这两个困难本质上是同一件事,也是系统能力提升的下一个前沿。
2、预训练本身就在延长有效工作时间
模型在预训练阶段获得的一致性提升,本身就在延长它们能有效工作的时间跨度。帕乔基说,模型开始能凭直觉判断"什么算好的阶段性成果",这种能力来自纯粹的监督学习,不依赖RL。RL的作用是在此基础上进一步加速,但即使RL扩展遇到瓶颈,时间跨度也会持续增长。
3、对企业"要不要自己做RL"的回答很保守
主持人问到很多企业在纠结:要不要基于开源模型做自己的RL流水线?帕乔基的回答是,RL确实数据效率很高,但in-context learning(上下文学习)才是人们教模型最基本的方式,而且这种能力未来会提升很快。
他的建议是:企业更应该把精力放在整理评估标准和示例数据上。未来很可能直接把这些喂进模型的上下文窗口就够用了,不一定需要自己跑RL流水线。
4、Harness不应该是长期瓶颈
主持人接着问:企业要不要为自己的领域搭建专用的agent harness?harness指的是模型运行时的外层框架,负责调度工具、管理上下文、串起多步任务。帕乔基的回答是否定的。他说在相当长一段时间里,harness这层都不会是真正的瓶颈,Codex用在编程之外的场景其实效果也不错。他的长期判断是:模型应该在你现有的工作环境中与你协作,比如接入Slack这样的工具,而不是反过来要求你适配它。只有当模型具备了新能力时,它才应该要求你改变工作方式。
5、帕乔基对"continual learning是被忽视路径"的困惑
最近有一批研究者离开主要实验室去专门做continual learning(持续学习),背后的叙事是"RL不够,需要新路径"。帕乔基对这个叙事感到困惑。他的反驳是:GPT系列模型从一开始就是围绕"在上下文中学习如何学习"设计的,GPT-3论文的核心就是这个概念,这一直是扩展GPT的驱动力,也是用RL训练推理模型的前提。
他说持续学习确实是核心问题,但这不是被忽视的路径,"it is what we're working towards"(这就是我们正在推进的方向)。他认为目前取得进展的最好办法依然是继续扩展预训练和RL,新想法会出现,但规模化会贡献很大一部分提升。
三、数学不是目的,是测量工具
1、为什么数学是北极星
帕乔基解释了OpenAI过去几年把数学竞赛作为核心能力指标的原因:数学问题的对错判断是确定性的,同时难度可以无限上升,这使它成为衡量推理能力进步的完美标尺。推理模型能做到IMO金牌水平、能解出IMO每年最难的那道第6题,是此前两年路线图上明确的里程碑。
2、First Proof:从竞赛数学到研究级数学的跨越
2026年2月,11位顶尖数学家和理论计算机科学家发起了First Proof挑战赛,公布了10道从未发表过的研究级数学问题,限期一周作答。这些问题不同于IMO竞赛题,它们来自数学家日常研究中遇到的真实引理,需要在专门领域内构建完整证明。
OpenAI用正在训练中的内部模型参赛。帕乔基描述了当时的情况:负责训练的James Lee开始手动给模型出题,发现它确实在解决这些问题。帕乔基自己的博士领域恰好是其中一道题的方向,他说看到模型在一个小时内提出了自己可能需要一两周才能想到的思路,那种感觉很难形容。
这种感觉他当年见过一次。那时他看OpenAI的Dota 2机器人一局接一局地下出有趣的对局,没完没了。有趣的东西不该是无穷无尽的,但那次就是这样。现在数学研究也出现了同一种感觉。
根据OpenAI在2026年2月20日公布的结果,他们认为10道题中至少6道的解答有很高概率是正确的。独立评审仍在继续,数学界对部分证明的完整性存在争议。
3、"19世纪数学"的评价不让他担心
First Proof的组织者评价AI的解法像"19世纪数学",依赖大量计算而非优雅的现代技巧。帕乔基说这不意外:模型在单位时间内能产出的推理量远超人类,用"笨办法"是自然的。他认为这不会是长期特征,并指出至少有一道题的AI证明比出题者准备的标准答案更短。
4、"模式匹配"的叙事正在被侵蚀
帕乔基反驳"AI只是模式匹配、不会产生新发现"这个批评时直接搬出了历史证据:AlphaGo和OpenAI的Dota机器人早在2016年、2019年就已经发明了各自游戏中的全新策略。他承认这些系统都有已知的弱点可以被针对性击败,但基本原理是一样的——从大量数据中涌现出组合性的新能力。从Dota的封闭游戏环境到研究级数学,中间经历了对"近似全部人类知识"的预训练和"学习所有人类语言"的过程,但底层机制没有本质变化。
四、思维链监控:帕乔基押注的对齐工具
1、思维链为什么有价值:它没有被直接训练
ChatGPT的对话输出经过了大量训练来"表现得礼貌友好",这意味着它的输出不一定反映模型的真实状态。但推理模型的思维链(chain of thought)不同,训练过程只优化最终输出的质量,不直接监督思维过程本身。思维链因此更可能暴露模型的实际推理路径和动机。
帕乔基把这个思路与机制可解释性(mechanistic interpretability)做了类比:两者都是通过观察模型内部未被直接训练的中间状态来理解它在做什么。思维链的巨大优势在于它默认是自然语言,比神经网络激活值容易理解得多。
2、隐藏思维链的决定是为了保护这个窗口
帕乔基透露,OpenAI最初发布推理模型预览版时决定隐藏思维链,主要原因就是保护其作为监控工具的价值。如果在产品中展示思维链,最终就不得不训练它(让它更可读、更符合用户预期),而训练就会破坏它的"诚实性"。
他说当时内部有过讨论,但他本人态度坚定。后来又出现了另一个理由:防止模型被蒸馏。但最初的动机是对齐研究。OpenAI目前用"思维链摘要"作为过渡方案,让用户能看到部分信息。帕乔基认为更好的长期方案是让模型在工作过程中实时与用户对话,最新版本的Codex和推理模型已经开始这样做。
3、跨实验室合作与具体数据
OpenAI已经与Anthropic等其他实验室一起做了跨实验室的模型欺骗倾向(scheming)评估。这项研究的基础就是思维链监控:研究者可以检查模型在不同环境下的思维链,观察它是否出现隐藏目标或策略性欺骗行为。
根据OpenAI和Apollo Research在2025年9月联合发布的研究,通过"审慎对齐"(deliberative alignment)训练,o3模型的欺骗行为检出率从13%降至0.4%,o4-mini从8.7%降至0.3%,大约30倍的改善。
4、对齐的长期挑战是泛化问题
帕乔基认为对齐的长期难点是泛化:模型在训练分布内的行为大致可以控制,但当它被要求做一件完全不同的事、或者身处一个全新的情境、或者变得比以往任何时候都聪明时,它会退回到什么样的价值观上去行事?OpenAI目前投入较多的一个研究方向,就是理解这种"退回"如何受预训练数据的影响。
5、"行业必须准备好放慢开发速度"
帕乔基对近年对齐问题看法的演变有一条清晰的轨迹:从觉得它是一个模糊、难以入手的问题,到相信存在一条由具体技术方案构成的研究路径。这让他对"能把对齐做好"的信心增加了。
但与此同时,他对模型能力跃升时间点的预期大幅提前。他说现在的模型还不比所有方面都聪明的人,但已经具备了转型社会的能力。在这种节奏下,他说了一句OpenAI首席科学家很少公开说的话:"We have to be as an industry really prepared to take trade-offs and possibly slow down development depending on what we see."(整个行业必须准备好接受权衡,在必要时放慢开发速度,取决于我们观察到什么。)
五、OpenAI内部:算力分配、产品脱节与权力集中
1、算力分配纪律:给最可扩展的方法留最大块
帕乔基描述了一个具体的管理原则:明确划出一大块算力预算,专门留给他们认为最能驱动通用智能提升的可扩展方法,即使这在短期内不是最高效的分配方式。理由是,如果不这样做,各种重要但次要的项目会把算力瓜分殆尽,真正关键的实验反而做不了。
在决定优先级时,他会叠加一层"正则化"判断:
页:
[1]