AI时代希望和大家一起:深入AI、实战AI、分享AI、共创AI。
这段时间,我一直在做一件事:
把每天散落在互联网上的 AI 新闻,自动收进自己的本地知识库,然后随时拿来分析、复盘、写文章。
不是收藏链接,不是手动复制粘贴,而是——
信息一出现,就自动进库。
历经千辛万苦,越过重重障碍,最终我跑通了一条完整链路:
AI新闻RSS定时抓取 → 内容清洗 → Markdown 结构化 → 本地 WeKnora 知识库入库
今天这篇文章,我就把这套流程完整拆开,讲清楚三件事:
- 这个自动化方案到底解决了什么问题
- 最终能达到什么效果
- n8n 里每一步是怎么“真正落地”的
我们将按照整个流程,详细拆解实操过程。
01 ——— 先说原因:为什么我要折腾这套流程
如果你经常写 AI 相关内容,一定有这种感受:
- 信息非常多
- 但真正能用来写文章的,非常少
- 大部分时间都花在:
👉 找信息
👉 复制
👉 粘贴
👉 整理格式
写文章反而成了最后一步。
我后来意识到一个问题:
我不是缺“观点”,
我是被“信息获取和整理”拖死了。
所以我给自己定了一个目标:
把“找素材”这件事,彻底交给自动化。
于是,这套流程就诞生了。
02 ——— 再看结果:最终效果是什么样的
先说结论,不然你不知道值不值得往下看。
我现在能做到什么?
- 多个 AI 新闻源(RSS)自动抓取
- 原始 HTML 内容自动清洗
- 转成结构化 Markdown
- 自动入库到本地 WeKnora
- 知识库里每一条,都是一篇“可分析、可引用”的素材
然后我只做一件事:
基于这些素材,做总结、对比、判断和观点输出。
也就是说:
- 信息获取:自动
- 信息整理:自动
- 信息存储:自动
- 写作价值判断:我来
这才是我真正想要的状态。
03 ——— 全局流程:整体技术架构
👉整条链路,其实非常清晰:
RSS Feed ↓ n8n 定时触发 ↓ 抓取文章标题 / 链接 / 时间 / 内容 ↓ 内容清洗(去 HTML、去广告) ↓ 拼接 Markdown(统一格式) ↓ String → Binary(生成文件) ↓ HTTP 上传到 WeKnora 本地知识库👉实际的流程图,长这样子:
这不是 Demo,这是可以长期跑的生产流程。
下面我们一步一步拆。
04 ——— 实操 ①:RSS 抓取(数据获取)
👉场景
我关注的 AI 信息源,基本都有 RSS:
- 官方博客
- 技术社区
- 媒体号
- 研究机构
👉n8n 节点
- RSS Feed Read
- 支持:
- 定时拉取
- 自动去重
- 获取全文 / 摘要
这一层我不做任何“聪明事”,只做一件事:
把原始信息尽量完整地拿下来。
05 ——— 实操 ②:字段标准化(统一结构)
RSS 源最大的问题是:字段不统一。
所以我做了一个非常“土”,但非常有用的动作:
用Set节点统一字段
统一成这样:
{ "title": "...", "link": "...", "pubDate": "...", "content": "..." }注意一点经验:
不要在这一层做清洗。
这一层的目标只有一个:统一结构。
06 ——— 实操 ③:内容清洗(数据瘦身)
RSS 内容基本都是:
- HTML
- 内嵌样式
- 图片代理链接
- 各种 span / div
如果你直接丢进知识库,结果只有一个:
知识库里全是 HTML 垃圾。
我的做法
- 用 n8n 的Code / Function节点
- 做三件事:
- 去标签
- 保留段落
- 生成“可读文本”
这一步我踩过很多坑,但结论只有一句:
宁可简单,不要完美。
干净、稳定,比“格式精致”重要得多。
07 ——— 实操 ④:拼 Markdown(数据格式化)
这一步,是整条链路的价值放大器。
为什么一定要 Markdown?
因为 Markdown 具备三个优势:
- 结构清晰
- 可二次加工
- 天然适合分析、总结、再创作
我的 Markdown 模板(示意)
# {{title}} > 来源:{{link}} > 时间:{{pubDate}} --- {{content}}这个格式有几个好处:
- 后面做分析时,模型能清楚区分:
- 标题
- 来源
- 正文
- 我自己写文章时,也能快速引用
这一步,我用的还是Set / Code 节点,纯字符串拼接,非常稳定。
08 ——— 实操 ⑤:String → Binary(转为文件)
这是很多人卡住的地方,我也不例外。
为什么要这一步?
因为:
WeKnora 的入库接口,接收的是“文件”,不是字符串。
所以必须把 Markdown 文本:
👉 从 JSON
👉 变成一个真正的文件
正确节点
Move Binary Data(String → Binary)
关键配置只有两项:
- Source Key:
markdown - Destination Key:
data
记住一句话:
Destination Key 决定了后面 HTTP 节点能不能“看到文件”。
09 ——— 实操 ⑥:HTTP 上传到 WeKnora(保存到知识库)
接口本质
WeKnora 的入库接口本质就是:
POST /knowledge/file Content-Type: multipart/form-datan8n 配置核心点
- Body Content Type:
Form-Data - Parameter Type:
n8n Binary File - Input Data Field Name:
data - Name:
file - Header:
Authorization: Bearer xxx
这一步只要前面 Binary 没问题,一次就能通。
实际上,这个节点我也折腾了很久,主要是上传的这些参数的配置不对,导致总是报错。
10 ——— 流程跑通的那一刻,我终于解放了
跑通之后,我最大的感受不是“技术成就感”,而是我终于解放了:
我终于把精力,从“找信息”,拉回到了“想问题”,从苦力中彻底解放了。
这套流程的真正价值是:
- 信息 → 自动沉淀
- 素材 → 长期积累
- 写作 → 从“搬运”变成“判断”
你不是在追热点,
你是在构建自己的本地知识库。
写在最后
如果你现在还在:
- 手动刷资讯
- 收藏一堆链接
- 写文章前先“翻半天历史记录”
那我真心建议你:
哪怕只搭一半,也要开始。
因为一旦你体验过:
信息自动流向你,而不是你追着信息跑
你就再也回不去了。
这个流程的完整文件## 如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
,大家有需要的可以私信我呦