Andrej Karpathy分享了【如何用大模型来打造私人知识库】，这个帖子目前在X上有1037万的阅读。

小苹果的清甜

2026-04-05 10:09:51

Andrej Karpathy分享了【如何用大模型来打造私人知识库】，这个帖子目前在X上有1037万的阅读。我让Gemini做了个更有人味的翻译版。

标题：用大模型打造私人知识库

最近我摸索出一套极佳的工作流：用大语言模型（LLM）针对感兴趣的研究课题，搭建个人知识库。照这套玩法，我近期消耗的海量 Token 算力，大头都不在敲代码上了，而是全用在了“揉捏”知识（以 Markdown 文件和图片的形式存储）上。不得不说，最新一代的 LLM 在这方面简直是一把好手。

具体玩法如下：

【资料投喂】
首先是原始资料入库。我会把各类源文件（文章、论文、代码库、数据集、图片等）统统丢进一个名为 raw/ 的原始文件夹。接着，让 LLM 像“编译”代码一样，一点点地生成一个“维基百科”——说白了就是一套有着清晰目录结构的 .md 文件堆。
这个维基不光会给 raw/ 里的所有资料写摘要、做反向链接，还会自动把信息梳理成各个核心概念，为它们单独撰写词条，最后把所有内容交叉引用起来。
碰到网页资料，我习惯用 Obsidian Web Clipper 插件一键转成 .md 格式；我还专门设了个快捷键，能把相关图片一股脑儿全扒到本地，方便 LLM 随时调阅。

【工作台】
我把 Obsidian 当作这套系统的“前端界面”（IDE）。在这里，无论是原始数据、编译好的维基内容，还是衍生出来的可视化图表，都能一览无余。
这里必须强调一点：整个维基的数据全权交由 LLM 来撰写和维护，我几乎从不插手。我还折腾了几个 Obsidian 插件，换着花样来渲染数据（比如用 Marp 插件直接看幻灯片）。

【高阶问答】
当你的维基攒得足够厚实，魔法就开始了。比如我最近研究的一个课题，不知不觉就攒了 100 多篇文章，将近 40 万字。对着这座宝库，你可以向你的 LLM 智能体抛出各种极其复杂的连环问。它会一头扎进去，自己翻找、做研究、提炼答案。
原本我以为处理这种需求，非得上那些高大上的 RAG（检索增强生成）技术不可。但实测下来，在这个相对“轻量”的数据规模下，LLM 自动维护索引文件和文档摘要的能力已经绰绰有余，它完全能轻轻松松吃透所有相关的核心内容。

【成果输出】
我不喜欢干巴巴的文字，也不想盯着终端看。我更倾向于让 LLM 把答案直接渲染成 Markdown 文件、Marp 幻灯片，或者是 Matplotlib 数据图表，然后再切回 Obsidian 里慢慢审阅。只要你敢想，根据问题的不同，你可以让它变着法儿地输出各种视觉效果。
通常看完后，我会顺手把这些回答“归档”回维基系统里，作为下一次提问的养料。也就是说，我的每一次发问和探索，都在不断地为知识库“添砖加瓦”。

【系统体检】
代码需要 Linting（代码检查），知识库也一样。我会让 LLM 定期给整个维基做个“健康体检”：揪出前后矛盾的数据，联网搜索补全缺失的信息，或者在犄角旮旯里发现一些有趣的关联，从而催生出新的文章词条。
在这个渐进式清理的过程中，维基的数据质量越来越高。而且，LLM 还很会顺藤摸瓜，它总能精准地建议我下一步该继续深挖哪些好问题。

【外挂工具】
为了更好地处理数据，我还顺手开发了一些辅助工具。比如，我纯靠对 AI 发号施令（Vibe Coding），草搓了一个简单粗糙的维基搜索引擎。这玩意儿我偶尔在网页端自己用，但更多时候，我是把它封装成命令行（CLI）工具，当成一把趁手的兵器丢给 LLM，让它在处理宏大问题时自己去调用。

【进阶畅想】
随着库里的资料越堆越高，人自然会萌生出一种野心：要不要干脆搞点合成数据做个微调（Finetuning）？与其让 LLM 每次都在有限的上下文窗口（Context Window）里费劲扒拉，不如直接让它把这些知识深深地刻进神经网络的“权重”里。

【一言以蔽之】
整套流程的精髓就在于：从各路渠道收集原始资料 -> 交由大语言模型编译成 Markdown 维基 -> LLM 通过调用各种命令行工具来进行问答、并不断自我进化 -> 最终成果全在 Obsidian 中呈现。
在这个过程里，你几乎不需要亲自动手写字或排版，这是属于 LLM 的绝对主场。直觉告诉我，与其像现在这样东拼西凑一堆脚本，这背后其实大有文章——它完全有潜力长成一款极具颠覆性的新产品。

相关阅读