Andrej Karpathy刚分享了他用LLM来做知识库管理的心得：

黄河大侠霍元甲 · 发表于昨天 08:49

Andrej Karpathy刚分享了他用LLM来做知识库管理的心得：
-------------------------------
LLM 知识库

我最近发现一个非常有用的做法：用 LLM 为自己感兴趣的研究主题构建个人知识库。这样一来，我最近消耗的大量 token，不再主要用于处理代码，而是更多用于处理知识本身（以 markdown 和图片形式存储）。最新一代 LLM 在这件事上已经相当强了。具体来说：

数据摄取：
我会先把源文档（文章、论文、代码仓库、数据集、图片等）索引到 raw/ 目录下，然后让 LLM 逐步“编译”出一个 wiki。本质上，它就是按目录结构组织的一组 .md 文件。这个 wiki 包含 raw/ 中所有数据的摘要、反向链接，然后再把这些数据归类到不同概念下，为这些概念撰写条目，并把它们互相链接起来。
把网页文章转换成 .md 文件时，我喜欢用 Obsidian Web Clipper 插件；同时我还会用一个快捷键，把相关文章里的所有图片下载到本地，这样 LLM 就能更方便地引用它们。

IDE：
我用 Obsidian 作为 IDE 的“前端”，在里面查看原始数据、编译后的 wiki，以及派生出来的可视化结果。需要强调的是，wiki 里的所有数据基本都由 LLM 来编写和维护，我几乎不会直接手改。我也试过一些 Obsidian 插件，用其他方式渲染和查看数据，比如用 Marp 做幻灯片。

问答：
真正有意思的地方在于：当你的 wiki 足够大之后（例如我最近某个研究主题的库，大约有 100 篇文章、40 万词），你就可以围绕这个 wiki 向 LLM agent 提各种复杂问题，它会自行展开研究、整理答案等等。
我原以为这里必须上更复杂的 RAG，但实际情况是：只要 LLM 能自动维护索引文件，以及每份文档的简要摘要，在这种“小规模”下，它已经很擅长读出关键相关信息了。

输出：
我不太喜欢让答案只停留在文本终端里，我更希望它直接为我生成 markdown 文件、幻灯片（Marp 格式），或者 matplotlib 图片，然后我再回到 Obsidian 里查看它们。根据查询类型，其实还可以扩展出很多别的可视化输出格式。
而且很多时候，我最后会把这些输出重新“归档”回 wiki，继续增强这个知识库，以便支持后续查询。也就是说，我自己的探索和提问，都会不断沉淀进知识库里。

Lint / 质检：
我还会让 LLM 对整个 wiki 跑一些“健康检查”，比如发现不一致的数据、补全缺失信息（借助网页搜索）、挖掘有意思的关联以生成新的候选条目等，从而持续清理 wiki、提升整体数据一致性和完整性。
LLM 也很擅长提出接下来值得追问、值得继续研究的问题。

额外工具：
我发现自己会不断开发一些辅助工具来处理这些数据。比如我随手 vibe code 了一个很小、很朴素的 wiki 搜索引擎。我既会直接用它（通过一个 web UI），但更多时候，是把它作为 CLI 工具交给 LLM 调用，用于处理更大的查询任务。

进一步探索：
随着仓库不断变大，一个很自然的方向就是继续思考：能不能通过合成数据生成 + 微调，让你的 LLM 直接把这些数据“学进参数”里，而不是只依赖上下文窗口来读取。

TL;DR：
把若干来源的原始数据收集起来，交给 LLM 编译成一个 .md wiki；再由 LLM 通过各种 CLI 工具围绕这个 wiki 做问答、持续增强知识库；所有内容都可以在 Obsidian 中查看。你几乎不再需要手工编写或编辑 wiki，它基本已经成为 LLM 的工作域。
我觉得这里完全有机会长出一个很强的新产品，而不只是一个由各种脚本勉强拼起来的 hack。
#How I AI#

Andrej Karpathy刚分享了他用LLM来做知识库管理的心得：

本帖子中包含更多资源

浏览过的版块