查看: 7|回复: 0

Andrej Karpathy刚分享了他用LLM来做知识库管理的心得:

[复制链接]

6

主题

1

回帖

20

积分

新手上路

积分
20
发表于 昨天 08:49 来自手机 | 显示全部楼层 |阅读模式
Andrej Karpathy刚分享了他用LLM来做知识库管理的心得:
-------------------------------
LLM 知识库

我最近发现一个非常有用的做法:用 LLM 为自己感兴趣的研究主题构建个人知识库。这样一来,我最近消耗的大量 token,不再主要用于处理代码,而是更多用于处理知识本身(以 markdown 和图片形式存储)。最新一代 LLM 在这件事上已经相当强了。具体来说:

数据摄取:
我会先把源文档(文章、论文、代码仓库、数据集、图片等)索引到 raw/ 目录下,然后让 LLM 逐步“编译”出一个 wiki。本质上,它就是按目录结构组织的一组 .md 文件。这个 wiki 包含 raw/ 中所有数据的摘要、反向链接,然后再把这些数据归类到不同概念下,为这些概念撰写条目,并把它们互相链接起来。
把网页文章转换成 .md 文件时,我喜欢用 Obsidian Web Clipper 插件;同时我还会用一个快捷键,把相关文章里的所有图片下载到本地,这样 LLM 就能更方便地引用它们。

IDE:
我用 Obsidian 作为 IDE 的“前端”,在里面查看原始数据、编译后的 wiki,以及派生出来的可视化结果。需要强调的是,wiki 里的所有数据基本都由 LLM 来编写和维护,我几乎不会直接手改。我也试过一些 Obsidian 插件,用其他方式渲染和查看数据,比如用 Marp 做幻灯片。

问答:
真正有意思的地方在于:当你的 wiki 足够大之后(例如我最近某个研究主题的库,大约有 100 篇文章、40 万词),你就可以围绕这个 wiki 向 LLM agent 提各种复杂问题,它会自行展开研究、整理答案等等。
我原以为这里必须上更复杂的 RAG,但实际情况是:只要 LLM 能自动维护索引文件,以及每份文档的简要摘要,在这种“小规模”下,它已经很擅长读出关键相关信息了。

输出:
我不太喜欢让答案只停留在文本终端里,我更希望它直接为我生成 markdown 文件、幻灯片(Marp 格式),或者 matplotlib 图片,然后我再回到 Obsidian 里查看它们。根据查询类型,其实还可以扩展出很多别的可视化输出格式。
而且很多时候,我最后会把这些输出重新“归档”回 wiki,继续增强这个知识库,以便支持后续查询。也就是说,我自己的探索和提问,都会不断沉淀进知识库里。

Lint / 质检:
我还会让 LLM 对整个 wiki 跑一些“健康检查”,比如发现不一致的数据、补全缺失信息(借助网页搜索)、挖掘有意思的关联以生成新的候选条目等,从而持续清理 wiki、提升整体数据一致性和完整性。
LLM 也很擅长提出接下来值得追问、值得继续研究的问题。

额外工具:
我发现自己会不断开发一些辅助工具来处理这些数据。比如我随手 vibe code 了一个很小、很朴素的 wiki 搜索引擎。我既会直接用它(通过一个 web UI),但更多时候,是把它作为 CLI 工具交给 LLM 调用,用于处理更大的查询任务。

进一步探索:
随着仓库不断变大,一个很自然的方向就是继续思考:能不能通过合成数据生成 + 微调,让你的 LLM 直接把这些数据“学进参数”里,而不是只依赖上下文窗口来读取。

TL;DR:
把若干来源的原始数据收集起来,交给 LLM 编译成一个 .md wiki;再由 LLM 通过各种 CLI 工具围绕这个 wiki 做问答、持续增强知识库;所有内容都可以在 Obsidian 中查看。你几乎不再需要手工编写或编辑 wiki,它基本已经成为 LLM 的工作域。
我觉得这里完全有机会长出一个很强的新产品,而不只是一个由各种脚本勉强拼起来的 hack。
#How I AI#


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部