查看: 4|回复: 0

关于agent的skill,一大堆的粗浅科普讲来讲去越讲越绕。。。我的理解是这样:

[复制链接]

12

主题

0

回帖

36

积分

新手上路

积分
36
发表于 昨天 22:02 | 显示全部楼层 |阅读模式
关于agent的skill,一大堆的粗浅科普讲来讲去越讲越绕。。。我的理解是这样:

1、它只需要一个运行命令行的tool,接收的参数是命令行(不严谨,第6条再详解),和一个load skill详情的tool,接受skill的名称作为参数。

2、skill文件是一个标准化的md文档,由“简介”和“详情”两部分组成,简介会组成prompt的一部分,告诉agent有这些skill可用,当agent收到用户请求时,会判断要调用哪个skill。

3、调用skill分两步,第一步是load skill的详情,所谓skill的详情,其实也是一个prompt,详细说明了什么情况下使用什么命令行。于是agent就知道遇到这个skill领域的问题时,该生成什么命令行参数去调用命令行tool了。

4、通过将skill分成“简介”和“详情”两部分,达到了“两步懒加载prompt”的目的,从而控制住了context的大小。

5、skill不只是冲击了mcp,同样也冲击了multi-agent架构,一个subagent完全可以由一个skill平替,架构更扁平更可控。

6、skill只是文档,它并没有执行代码的能力,执行仍然依赖tool,问题来了:自研的skill是可以自己定义tool,和skill里描述的执行部分对应上。但三方的skill怎么办?它没办法帮我的LLM bind上tool,对吧?所以我们需要1中提到的那个万能tool - 运行命令行的tool,它就是个万能适配器。但这只能是临时解决方案,因为动态生成命令行并命行,实在太危险了,比SQL注入危险100倍。为了解决这个问题,未来我们需要一套agent通用tool的标准,这个标准不像function call和prompt cache那样,发生在LLM层,因为它要调agent宿主环境去执行具体指令,看起来最好是在操作系统层,也就是linux、windows、mac os这一层,bash powershell什么的,出个针对skill的沙箱。或者,在agent框架层,在runtime层面出套通用tools,把安全检测给做了。skill发展这么快,这个通用tools应该很快会出标准。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部