翻了一下Peter Steinberger的GitHub，这可能是OpenClaw成功的产品密码

喀喇昆仑 · 发表于 2026-2-16 12:12:54

#模型时代# 翻了一下Peter Steinberger的GitHub，这可能是OpenClaw成功的产品密码｜早上写的一个分析性短文，根据Peter Steinberger的项目页面，分析其成功原因，不一定对哈，仅供参考。

大模型真的成了全世界的新年俗了，除夕一大早，刷到奥特曼在X的推文：OpenClaw创始人Peter Steinberger加入OpenAI，负责"下一代个人agent（AI智能体）"。

一个奥地利独立开发者的个人项目，首次commit（代码提交）在2025年11月25日，不到三个月拿到GitHub（全球最大的开源代码托管平台）近20万星、600个贡献者、10000次代码提交。奥特曼称他为"天才"（genius），Karpathy说这是"他见过的最接近科幻小说里'起飞时刻'的东西"（the most incredible sci-fi takeoff-adjacent thing）。

为什么他能取得成功？为什么他选择了和OpenAI合作？这就是我们这篇短文想回答的问题。我们先回答第二个问题。

此前，Peter在Lex Fridman播客里透露过初步原因。Meta和OpenAI同时向他抛出了收购橄榄枝。扎克伯格和同事Ned整整一周都在亲自试用OpenClaw，不断给反馈。OpenAI这边，奥特曼跟他有过数次深度对话，还拿算力资源来吸引他。Peter本身就是Codex的重度用户，被展示的推理速度让他形容为"给我雷神之锤"，说自己"被token诱惑了"。他说这个选择堪比人生中最艰难的分手，但核心条件只有一个：无论选谁，项目必须保持开源。最终他选了OpenAI。

但我们更关心的是第一个问题：两家巨头争着要买的到底是什么？不是一个爆款项目的流量，而是它背后的产品方法论。

我们翻了他的GitHub主页（github.com/steipete），发现他目前维护着40多个活跃项目，另有9个标记为Legacy（已停止维护）。乍看是一个疯狂高产的开源爱好者——从WhatsApp客户端到智能床垫控制器什么都做。但仔细排列这些项目后，一个极其清晰的产品逻辑浮了出来。

一、一句话版本

所有大模型都很聪明，但都是"嘴替"。Peter做的事就是给AI装上手脚，让它能动手干活。

ChatGPT能帮你写一封邮件的草稿，但不能帮你发出去。Claude能帮你规划日程，但不能帮你建日历事件。它们只能说，不能做。

Peter的整个项目群就在解决这一个问题。

40多个项目，其实只有一张图

把他GitHub上的所有项目摊开，指向的是同一个架构：

底层：给agent造身体各个部件

每个CLI（Command Line Interface，命令行工具——不需要图形界面，一行命令完成一个任务）解决一个具体的"agent做不到的事"：

通讯——wacli让agent能收发WhatsApp消息；imsg让agent能发iMessage和短信；bird让agent能读写Twitter/X。

办公——gogcli（他叫它gog）是最重量级的一个。一个CLI统一操作Gmail、Calendar、Drive、Docs、Sheets、Slides、Contacts、Tasks等整套Google Workspace。agent一条命令就能搜邮件、建日程、查文件。

感知——Peekaboo让agent能截屏并"看懂"屏幕内容，还能点击按钮、操作菜单，实现GUI自动化（像人一样操作图形界面）。Brabble让agent能听到你说话（在本地运行whisper语音识别，不上传云端）。camsnap让agent能看到IP摄像头的画面。

表达——sag和ElevenLabsKit让agent能用语音说话，直接播放到音箱。

硬件控制——sonoscli控制Sonos音箱放歌；blucli控制BluOS设备；eightctl控制Eight Sleep智能床垫的温度；spogo控制Spotify。

生活——ordercli查你的外卖订单记录；remindctl操作Apple Reminders；goplaces查Google Places。

中层：让agent能"借用"你的身份

这是我们在他的项目列表里发现的最巧妙的一环。

Sweet Cookie + SweetCookieKit + sweetlink，这三个工具组成了一条"cookie认证链"。它们从Safari、Chrome、Firefox中提取你已经登录的session cookie（浏览器保存的登录凭证，证明"这个人已经验证过身份"），让agent直接继承你在浏览器里的身份。

这解释了为什么bird（Twitter CLI）不需要API key（开发者接口密钥，通常需要申请和配置）——它直接用你浏览器里已有的Twitter登录状态。用户零配置，agent开箱即用。

这不是技术取巧，这是产品设计上的关键决策：不要让用户配置任何东西，直接复用他们已有的权限。

顶层：一个大脑把所有部件串起来

OpenClaw就是这个大脑。它是一个开源的个人AI助手网关（gateway，所有请求的统一入口和调度中心），通过你已经在用的渠道跟你对话——WhatsApp、Telegram、Discord、iMessage、Slack——在后端调度上面所有工具。

它有一个skill框架：每个CLI工具注册为一个"skill"（技能），附带一份SKILL.md说明文件——相当于一份agent能读懂的使用手册。agent读完就知道这个工具怎么用、什么时候该调用。

你在WhatsApp上说"帮我查一下这周有什么重要邮件"，OpenClaw调用gog搜索Gmail。你说"把结果发给老张"，它调用wacli发WhatsApp。你说"放点音乐"，它调用sonoscli。你说"明天早上7点把床调暖"，它调用eightctl。

最颠覆的一点：agent可以自己写新的skill。你跟OpenClaw说"我想让你能管理我的Todoist"，它自己写一个连接Todoist API（应用程序接口）的skill，然后这个能力就永久获得了。社区用户已经让它自动生成了Whoop健康数据、WordPress管理、Hetzner服务器运维等skill。这就是它的标语所说的——"真正能干活的AI"（the AI that actually does things）。不只是说，还能做，甚至能自我扩展。

二、三个关键设计决策

回头看，Peter在产品层面做了三个反直觉但极其正确的选择：

第一，CLI优于MCP

MCP（Model Context Protocol，模型上下文协议）是Anthropic推出的一套让AI调用外部工具的标准协议，2024年底发布后迅速成为行业热点。Peter最初也用MCP，但后来系统性地放弃了它。他的早期项目Terminator MCP和Conduit MCP都已经归入Legacy（废弃）。Peekaboo从纯MCP改成了CLI优先。这不是偶然，是一次技术路线的整体转向。

他在博客里解释过：agent调用CLI命令比调用MCP服务器更好。三个原因——CLI不需要在每次对话开头就把工具的结构描述（schema）加载到上下文窗口（context window，大模型单次对话能处理的信息总量），按需调用就行；CLI天然支持Unix管道组合（把多个命令的输入输出串联起来）；agent搞错参数了可以自己`--help`看文档纠错。

他的原话是："agent调用CLI其实非常擅长，比调用MCP好得多。"（Agents are really, really good at calling CLIs, actually much better than calling MCPs.）

这个判断解释了他为什么要造40多个独立的小CLI，而不是一个大而全的MCP服务器。

第二，去用户所在的地方，而不是造新入口

绝大多数AI产品都在做自己的App或网页，让用户"来我这里"。OpenClaw反过来——通过WhatsApp、Telegram、Discord、iMessage这些用户已经天天在用的渠道接入。

用户不需要下载新App，不需要学新界面，不需要记新网址。打开WhatsApp发一条消息就行。有用户说设置只花了5分钟。

这个选择决定了OpenClaw能病毒式传播。它也解释了为什么OpenClaw在中国也迅速走红——开发者把它适配到了国内的通讯工具上。渠道可以换，架构不用变。

第三，agent-first（为AI优先设计）的交互设计

传统开发者工具为人类设计。Peter的工具为agent设计。差异体现在每个细节上：

所有工具默认输出JSON（一种结构化数据格式，机器读起来比人类读起来方便得多），方便agent解析而不是方便人类阅读。错误处理极度宽容——Peekaboo的窗口匹配不要求精确名称，agent说"Chrome"能匹配到"Google Chrome"。他在博客里的原则是"工具调用应该宽容"（tool calling should be lenient），因为"agent一定会搞错参数"（agents make mistakes with parameters）。

这和传统软件工程的"严格校验输入"完全相反。但对agent来说，这才是对的设计。

三、为什么是他而不是别人？

Peter Steinberger不是一个AI领域的新人碰巧做对了一件事。他是一个有13年产品经验的创始人——PSPDFKit（业界领先的PDF开发组件）2021年以超过1亿美元退出。经历了三年的迷茫期后，他用AI工具重新开始造东西。

从他的GitHub可以看出，那40多个CLI工具不是一张蓝图规划出来的，是他给自己的AI助手逐个"加器官"的过程——日常用着用着，发现agent发不了消息，就写了wacli；发现agent看不了屏幕，就写了Peekaboo；发现agent管不了邮件，就写了gogcli；发现agent控制不了音箱，就写了sonoscli。每一个工具的起点都是他自己的真实痒点。这是最经典的dog-fooding（自己做自己产品最重度的用户）——OpenClaw最苛刻的测试员就是Peter本人的日常生活。

这也解释了他的速度。他的博客签名是"先发比完美更重要"（Ship beats perfect）。他同时开3到6个agent实例并行编码——他不写代码，他指挥agent写代码，用agent造给agent用的工具。VibeTunnel的第一版就是用Claude Code一天写完的。

四、启示

Peter Steinberger的故事揭示了一个正在成型的产品开发方式：

AI产品的下一个战场不在模型智能（起码是不仅仅在于智能），而在执行能力。谁先给agent装上足够多、足够好用的"手脚"，谁就能让agent从聊天机器人变成真正的数字员工。

这也是奥特曼花大钱买的东西。他在宣布招聘时说："未来一定是高度多agent协作的。"（The future is going to be extremely multi-agent.）多个agent之间互相协作、互相调用skill、共同完成复杂任务——这正是Peter用40多个CLI工具和一个skill框架搭出来的原型。

Peter自己说：他可以把OpenClaw做成一家大公司，但"那对我来说没什么意思"（it's not really exciting for me）。他的下一个目标是："做一个连我妈都会用的agent。"（Build an agent that even my mum can use.）

从第一次代码提交到OpenAI的offer，中间隔了不到三个月。这个速度本身就是最好的方法论注脚。

翻了一下Peter Steinberger的GitHub，这可能是OpenClaw成功的产品密码

本帖子中包含更多资源