打造「打工人」智能体：OpenAI 关于长期运行智能体（Long-running Agents）的实践总结

小鱼急急 · 发表于 3 小时前

打造「打工人」智能体：OpenAI 关于长期运行智能体（Long-running Agents）的实践总结

AI 正在从只能处理单次对话的聊天助手，演变为能够胜任真实知识工作的数字员工。
这些长期运行智能体不再满足于简单的问答，而是能够深入大数据集进行阅读、持续更新文件，并自主编写和运行代码。

OpenAI 在其 Responses API 中引入了三个关键的智能体原语：技能（Skills）、托管 Shell（Hosted Shell）自动压缩（Compaction）。
并从架构师的视角，为你剖析如何利用这些利器打造稳健的生产级智能体。

1. 技能（Skills）不是营销文案，而是精确的路由逻辑

技能描述实际上是模型的决策边界。它应该回答：我什么时候该用它？什么时候不该用它？预期的输出和成功标准是什么？

实战证明，精确的描述能带来质的飞跃。早期客户 Glean 的案例显示，单纯提供做什么是不够的。
通过加入负面示例（明确指出何时不调用该技能），智能体在经历最初约 20% 的误触发率下降后，路由精准度大幅提升。
最终，其在 Salesforce 相关技能中的评估准确率从 73% 跃升至 85%。

2. 别再往系统提示词里塞模板了

一个常见的架构误区是将所有报告模板和业务规则全部塞进 System Prompt。
这不仅会导致提示词过载，还会白白浪费 Token 并增加延迟。

应当将模板和参考示例放入 Skill 内部。这些内容在未被激活时基本上是免费的——只有当智能体决定调用该 Skill 时，相关的示例才会被按需载入上下文。

3. 托管 Shell 安全机制

如果说 Skills 是脑中的知识，那么 Hosted Shell 就是操作的手。
这是一个受控的容器环境，允许智能体安装依赖、运行脚本并生成制品（Artifacts）。

作为架构师，安全是第一优先级。当技能+联网组合出现时，必须警惕数据外泄。
OpenAI 引入了两层过滤机制：组织级白名单（管理员配置的全局信任域）与请求级白名单（仅限当前任务所需的子集）。

4. 将文件作为人机协作的交接区

在托管 Shell 环境中，/mnt/data 目录扮演着至关重要的角色。
它是智能体存储临时文件的地方，更是人机协作的标准边界。

一个成熟的设计模式是：工具写入磁盘，模型思考磁盘，开发者从磁盘提取。

5. 自动压缩（Compaction）非常重要

长期运行智能体在执行多步任务时，对话历史会迅速触及上下文上限。
过去，开发者不得不手动编写逻辑来截断或总结历史。

现在，服务器端自动压缩（Server-side Compaction）解决了这一难题。当上下文跨越阈值时，压缩会在 Responses API 的流中自动运行。

Compaction 保持了长期运行的连续性，防止了‘重启行为（Restart Behavior）’，确保相同的工作流可以持续执行，而无需人工干预上下文管理。

6. 三类典型的构建模式

1）模式 A：安装 -> 抓取 -> 写入制品
这是最基础的 Shell 用法。智能体在容器中安装必要库，抓取外部数据，并将结果写入 /mnt/data/report.md。

2）模式 B：Skills + Shell 的重复性工作流
将复杂的 SOP（如财务对账）封装进 Skill 并挂载到 Shell 容器中。
这能显著提升多步任务的确定性，避免模型因思维漂移而偏离流程。

3）模式 C：企业级工作流载体
这是最先进的形态。通过 Skill 封装复杂的跨工具编排逻辑，将原本模糊的工具调用转化为程序化的 SOP。

		自动登录	找回密码
密码			立即注册

打造「打工人」智能体：OpenAI 关于长期运行智能体（Long-running Agents）的实践总结

本帖子中包含更多资源

相关帖子