全网爆火的大模型AI知识库,保姆级教程来了

张开发
2026/4/7 18:39:43 15 分钟阅读

分享文章

全网爆火的大模型AI知识库,保姆级教程来了
Karpathy 发了一条推文分享了他近期重点在用 AI 构建个人知识库短短两天全网千万人观看。“我最近发现一件非常有用的事用 LLMs 为各种研究主题建立个人知识库。这样一来我最近的大部分 token 使用量更多地用于处理内容而不是编写或修改代码。”然后就在昨天他公开了整个构建的思路思路很简单不要把笔记分散在各种应用里而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。你也想要打造大神同款AI知识库么博主 Nick Spisak 打造了一套保姆级实现教程不需要特殊软件不需要数据库只要文件夹和文本文件。第一步三个文件夹两分钟搭好打开终端或文件管理器在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹my-knowledge-base/ raw/ (你的源材料 - 文章、笔记、截图) wiki/ (AI 写入整理后内容的地方) outputs/ (AI 生成的答案、报告和研究)就这样。这就是 Karpathy 使用的结构raw/ 文件夹是你的原始素材收纳箱wiki/ 文件夹是 AI 帮你理出条理的地方outputs/ 文件夹存放问题的答案。第二步不用整理什么都往里扔大多数人在这里卡住了。他们创建了文件夹然后盯着空空如也的 raw/ 目录不知道该放什么。答案是什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件截图和图表直接保存从你现在用的任何应用里导出笔记会议记录、研究论文、项目文档还有那些囤了几个月的书签统统扔进去。别整理、别重命名、别清理这些活儿都是 AI 的。我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。但 Karpathy 没提到真正加速这个过程的部分自动化收集。第三步让AI自动把网页存进来Vercel Labs 刚发布了 agent-browser——一个免费的命令行工具让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K 星标。两条命令安装第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页提取文本直接保存到 raw/ 文件夹。实际操作是这样的agent-browser open https://some-article-you-want.com agent-browser get text article就这样。AI 打开页面抓取文章文本你把它导入到 raw/ 里的文件。不需要手动复制粘贴不需要浏览器扩展。agent-browser 能处理那些复制粘贴搞不定的页面JavaScript 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。这个工具比 Playwright MCP 省 82% 的 token也就是说同样一轮对话里你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档根本不用自己开浏览器。用在知识库上流程很简单看到想要的文章跟 AI 说一声「把这个 URL 抓下来存到 raw/」agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。第四步给AI一份说明书让它知道怎么干这是大多数人会跳过的部分别跳过。在项目根目录创建一个叫 CLAUDE.md 的文件或 AGENTS.md 或 README.md——名字不重要内容才重要。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。这是一个你现在就可以复制的起始模板# 知识库 Schema ## 这是什么 一个关于 [你的主题] 的个人知识库。 ## 如何组织 - raw/ 包含未处理的源材料。永远不要修改这些文件。 - wiki/ 包含整理后的维基。完全由 AI 维护。 - outputs/ 包含生成的报告、答案和分析。 ## 维基规则 - 每个主题在 wiki/ 中有自己的 .md 文件 - 每个维基文件以一段摘要开头 - 使用 [[topic-name]] 格式链接相关主题 - 在 wiki/ 中维护一个 INDEX.md列出每个主题及一行描述 - 当添加新的原始源时更新相关的维基文章 ## 我的兴趣点 [列出 3-5 个你希望这个知识库关注的方向]Karpathy 自己也说了他的 AGENTS.md 里的 schema “超级简单完全扁平”没有数据库没有插件只是一个告诉 AI 规则的文本文件。这个文件相当于我在每个项目中使用 CLAUDE.md 的作用给 AI 写一份你这个知识库专用的说明书。第五步一条指令AI把笔记编成维基打开 Claude Code或 Cursor或任何能读取文件的 AI 编码工具打开你的项目文件夹然后说“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“然后走开让它慢慢跑。跑完之后你会拿到一个 wiki/ 文件夹文章都按主题整理好了——帮你串起之前没注意到的关联补上忘存的内容摘要再加一份索引文件想查什么几秒就能找到。关键是你不要手动编辑 Wiki那是 AI 的工作。你只需要阅读它对它提问AI 负责更新和维护。第六步开始提问打造活的知识库一旦你的维基有了 10 篇以上的文章开始提问“基于 wiki/ 中的所有内容我对 【主题】 理解中最大的三个空白是什么”“比较源 A 和源 B 对 【概念】 的说法。它们在哪里有分歧”“仅使用这个知识库中的内容给我写一份 500 字的 【主题】 简报。”AI 会读取你的整个维基根据你自己攒的材料给你答案。把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好正循环就转起来了。第七步定期检查不让错误复利告诉你的 AI“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”Karpathy 这条帖子下面HFloyd 的回复说到了关键“当输出被归档回去时错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它下一个答案就会跟着错下去。解决方法很简单定期运行健康检查。工具选择简单胜过复杂Karpathy 帖子下一半回复都在安利 Obsidian 插件。但当有人问起他的设置时Karpathy 实际上说的是“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”一个文本文件文件夹和一个 schema 文件就是整个知识库。我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code可以用 Obsidian可以用记事本。AI 不在乎你用什么应用打开文件重要的是文件夹结构和 schema。装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。扁平文件加一个好的 schema90% 的场景下比花哨的工具栈管用。写在最后收藏和真正用起来这就是完整系统三个文件夹、一个 schema 文件、一个浏览器抓取器以及一个维护一切的 AI。Karpathy 的帖子有 44K 人收藏。但收藏和真正用起来差的只是一个周末的动手时间。选个主题建好文件夹把现有内容扔进去。剩下的交给 AI就这么简单。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

更多文章