当下的 OpenClaw🦞 使用体验,其实还挺像当年 ChatGPT 4.x 刚出来时的阶段。能用,也确实能解决不少问题,但总感觉离人类自己上手的效果还差那么一点点。ChatGPT 4.x 很多时候需要通过各种 Prompt 调优,极力去压榨模型的智力。
OpenClaw 的具体表现就是,对 token 的消耗特别大。原因也很简单,它需要在一个模糊且复杂的问题集上找到算法路径。整个过程是一种探索式计算,需要不断试探、回溯和修正,对计算量和上下文都会有很大的消耗。
在当下这个阶段,想提升 OpenClaw 的“智商”,比较有效的办法,就是让它学习人类已经 SOP 化的一些操作。把人类已经验证过的路径直接变成能力模块,让 Agent 少走弯路。
例如使用浏览器,可以用 agent-browser 这一类组件。它的原理是把浏览器协议能力暴露成可编程接口,让模型可以直接读取 DOM、操作页面元素、执行脚本,用结构化的方式去控制浏览器,从而绕开很多低效的探索。
再比如对操作系统的使用,可以用 Hammerspoon。它通过 Lua 脚本桥接 macOS 的系统 API,让自动化脚本可以直接控制窗口、快捷键、菜单栏和应用状态。很多原本需要视觉识别、反复尝试的动作,会变成一次确定性的系统调用。
对于不懂技术底层的人来说,安装 find-skills 会很大程度提升提升 OpenClaw🦞 的水平,因为它具备寻找人类 SOP 的技能。
那 OpenClaw 的下一个“ChatGPT 5.x 时刻”什么时候会到来?我的判断是不会太远。
当前大量的 OpenClaw 使用数据,在 computers/tools/browsers use 等场景里已经积累了非常多的数据集。大模型会根据真实用户的使用路径,加速自己的 RL 训练。
DeepSeek 已经证明了一件事情,推理能力是可以通过训练被内化到模型里的。接下来会发生的事情,是工具使用能力也会被逐渐内化。未来的模型会逐渐形成自己的工具世界模型,多轮工具调用、最佳调用路径、失败恢复策略等等,都会内化为模型能力。
到了那个阶段,OpenClaw 的体验很可能会出现一次明显跃迁。
今天很多人还在用 Claude Code 这样的工具,通过 Prompt、脚本和各种技巧去驱动 Agent 工作。整个过程有点像在 ChatGPT 4.x 阶段做工程,每一步都很依赖经验。
在当下阶段,我也更愿意采用这种务实的使用方式:Claude Code + 打造“最锋利的剑”。
所谓最锋利的剑,其实就是把工具使用的最佳实践不断聚合和沉淀下来。把浏览器操作、系统自动化、代码生成、文件处理这些能力逐渐模块化,变成稳定可复用的能力层,让 Agentic 工作真正跑起来。