快速搭建RAG：最小可用方案实战

张开发

• 2026/4/10 6:48:19 • 15 分钟阅读

分享文章

很多人聊 RAGRetrieval-Augmented Generation一上来就是各种 fancy 架构、向量数据库对比、评测体系……最后一个 demo 都跑不起来。这篇只干一件事用最少的技术栈搭一个“能用”的 RAG MVP。一、整体架构先把全局搞清楚RAG MVP 本质就 4 步数据 → 向量索引 → 检索 → 大模型生成请求流程用户问题 → 向量检索 → 找到相关文档 → 拼 Prompt → LLM 生成答案二、数据准备与清洗决定上限的环节 MVP 原则不要贪多先保证“干净可控”1. 数据来源选一个就够你可以选最简单的一种Markdown 文档推荐FAQ问答对产品说明文档txt / pdf MVP建议用 Markdown FAQ2. 数据清洗必须做目标让模型“更容易理解更容易切块”必做操作去掉无用内容页眉页脚、广告统一格式标题层级删除重复段落修正乱码3. 文本切分Chunking这是 RAG 成败关键点之一。推荐方案from langchain.text_splitter import RecursiveCharacterTextSplittersplitter RecursiveCharacterTextSplitter(chunk_size500,chunk_overlap100)docs splitter.split_text(text)参数建议chunk_size300800overlap50150 原则太小 → 信息碎太大 → 检索不准三、索引构建核心基础设施1. 向量模型Embedding MVP 直接选一个成熟的可选方案OpenAI embedding稳定本地模型bge-smallbge-basee5-small 推荐性价比bge-base-zh中文bge-small-en英文2. 向量数据库不要复杂MVP别上来就搞分布式。推荐三选一✅ 最简单FAISS本地文件from langchain.vectorstores import FAISS✅ 稍微正规Chroma轻量Milvus进阶 MVP推荐FAISS3. 构建索引代码示例from langchain.embeddings import HuggingFaceEmbeddingsfrom langchain.vectorstores import FAISSembedding HuggingFaceEmbeddings(model_nameBAAI/bge-base-zh)db FAISS.from_texts(docs, embedding)db.save_local(faiss_index)四、检索策略优化RAG的灵魂很多人卡在这里。 MVP 不需要 fancy但必须做 3 件事1. Top-K 检索docs db.similarity_search(query, k5) 建议k3~5精准k5~10信息更全2. 加一个简单 rerank强烈建议否则容易“看起来相关但没用”。方案bge-rerankercross-encoder简单思路# 对召回结果重新排序reranked_docs reranker.rank(query, docs) 如果不想加模型直接用“最长文本优先”也比没有强3. 加关键词兜底Hybrid Search纯向量检索会翻车。 MVP补救方案同时做关键词匹配BM25两边结果合并简单版本if len(vector_results) 3:results keyword_search(query)五、生成与提示工程决定“像不像人话”1. Prompt 模板必须写死不要裸问模型。推荐模板你是一个专业助手请基于提供的上下文回答问题。【上下文】{context}【问题】{question}要求1. 只基于上下文回答2. 如果不知道请说“不确定”3. 回答要简洁清晰2. 拼接上下文context \n\n.join([doc.page_content for doc in docs]) 控制长度不超过模型 token 限制一般 20004000 tokens3. 选择模型MVP 推荐APIGPT-4o-miniClaude Haiku本地Qwen2-7BLlama3-8B 原则先用API验证再考虑本地化六、完整最小流程代码核心骨架def rag_pipeline(query):# 1. 检索docs db.similarity_search(query, k5)# 2. 拼上下文context \n.join([d.page_content for d in docs])# 3. 构建promptprompt f你是一个专业助手请基于提供的上下文回答问题。上下文{context}问题{query}# 4. 调用LLMresponse llm(prompt)return response最后上Demo不讲概念直接给一个一键能跑的最小 RAG Demo本地 Python FAISS 开源 embedding OpenAI 生成。1. 项目结构直接照抄rag-mvp/ ├── main.py ├── data.txt └── requirements.txt2. 准备数据data.txt随便写点内容先跑通再说RAG 是一种结合检索和生成的技术可以提升大模型的准确性。 FAISS 是一个向量检索库适合做本地向量搜索。 Chunk 切分是 RAG 的关键步骤之一会影响检索效果。3.依赖requirements.txtlangchain faiss-cpu sentence-transformers openai tqdm安装pip install -r requirements.txt4. 核心代码main.py直接复制运行import os from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.vectorstores import FAISS from langchain.embeddings import HuggingFaceEmbeddings from openai import OpenAI # 1. 配置 os.environ[OPENAI_API_KEY] 你的API_KEY client OpenAI() # 2. 读取数据 with open(data.txt, r, encodingutf-8) as f: text f.read() # 3. 切分 splitter RecursiveCharacterTextSplitter( chunk_size300, chunk_overlap50 ) docs splitter.split_text(text) # 4. 向量化 embedding HuggingFaceEmbeddings( model_nameBAAI/bge-small-zh ) # 5. 建库 db FAISS.from_texts(docs, embedding) # 6. RAG函数 def ask(query): # 检索 results db.similarity_search(query, k3) # 拼上下文 context \n.join([r.page_content for r in results]) # Prompt prompt f 你是一个专业助手请基于上下文回答问题。上下文 {context} 问题 {query} 要求 - 只基于上下文回答 - 不要编造 # 调用大模型 response client.chat.completions.create( modelgpt-4o-mini, messages[ {role: user, content: prompt} ] ) return response.choices[0].message.content # 7. 交互 if __name__ __main__: while True: q input(\n请输入问题) print(\n回答, ask(q))5.运行python main.py输入RAG 是什么你会得到一个基于你 data.txt 的回答。

更多文章

前端开发 2026/4/10 6:48:19

Dify知识库文件处理链路优化：从上传到检索的稳定闭环方案解析！

本文针对Dify知识库建设中常见的文件处理链路问题，提出了一套稳定高效的解决方案。方案采用Dify上传工作流、FastAPI后端与MinIO对象存储，实现了从文件上传到检索回链的完整闭环。文章详细阐述了如何解决联调中的常见错误（如422、401、no_fil…

张开发

前端开发 2026/4/10 6:46:36

Git-RSCLIP在林业资源调查中的应用：树木种类识别

Git-RSCLIP在林业资源调查中的应用：树木种类识别 1. 引言林业资源调查是森林管理和生态保护的基础工作，传统的人工调查方式耗时耗力，特别是在大面积的林区，树木种类识别需要专业人员深入林区，不仅效率低下&#xff…

张开发

前端开发 2026/4/10 6:40:39

SecGPT-14B威胁预测：用OpenClaw实现安全事件早期预警

SecGPT-14B威胁预测：用OpenClaw实现安全事件早期预警 1. 为什么需要自动化安全预警去年某个深夜，我的服务器突然出现异常流量激增。当时我正在外地度假，等第二天发现时，系统已经被植入了挖矿脚本。这次经历让我意识到&#xff…

张开发

前端开发 2026/4/10 6:39:43

InternLM2-Chat-1.8B在嵌入式开发中的应用：STM32项目文档自动生成

InternLM2-Chat-1.8B在嵌入式开发中的应用：STM32项目文档自动生成 1. 引言如果你做过嵌入式开发，尤其是基于STM32的项目，一定对写文档这件事又爱又恨。爱的是，一份清晰的文档能让后续的维护、交接事半功倍；恨的是&a…

张开发

前端开发 2026/4/10 6:31:08

StructBERT中文语义工具实操：产品说明书语义检索功能实现

StructBERT中文语义工具实操：产品说明书语义检索功能实现 1. 项目背景与核心价值在日常工作中，我们经常需要处理大量的产品说明书文档。当用户提出一个产品相关的问题时，如何快速从海量说明书中找到最相关的内容？传统的关键词匹…

张开发

前端开发 2026/4/10 6:29:19

Pixel Aurora Engine入门指南：理解‘进化像素’设计哲学与生成逻辑

Pixel Aurora Engine入门指南：理解进化像素设计哲学与生成逻辑 1. 认识Pixel Aurora引擎 Pixel Aurora是一款专为像素艺术创作设计的AI绘图工作站。它采用复古游戏机风格界面，将现代AI技术与经典像素美学完美融合。这个工具最特别的地方在于&#xff0…

张开发

前端开发 2026/4/10 6:27:29

formsy-react跨字段验证：实现复杂业务逻辑的终极方法

formsy-react跨字段验证：实现复杂业务逻辑的终极方法【免费下载链接】formsy-react A form input builder and validator for React JS 项目地址: https://gitcode.com/gh_mirrors/fo/formsy-react 想要在React应用中构建复杂的表单验证逻辑吗？f…

张开发

前端开发 2026/4/10 6:27:29

【多模态大模型——跨越感知与认知的鸿沟】第6章工具增强与视觉Agent系统

目录第一部分：原理详解 6.1 视觉工具使用（Visual Tool Use） 6.1.1 外部视觉工具的API调用 6.1.1.1 视觉定位（Visual Grounding）工具集成 6.1.1.2 OCR、检测、分割模型的协同调度 6.1.1.3 工具选择的决策机制 6.1.2 多工具协同的Agent架构 6.1.2.1 观察-思考-行动-…

张开发

前端开发 2026/4/10 6:26:23

Ion.RangeSlider源码架构解析：理解插件核心实现原理

Ion.RangeSlider源码架构解析：理解插件核心实现原理【免费下载链接】ion.rangeSlider jQuery only range slider 项目地址: https://gitcode.com/gh_mirrors/io/ion.rangeSlider Ion.RangeSlider是一款功能强大的jQuery范围滑块插件，它允许用户通…

张开发

前端开发 2026/4/10 6:19:07

如何快速从Google Drive下载共享文件：Python开发者的完整指南

如何快速从Google Drive下载共享文件：Python开发者的完整指南【免费下载链接】google-drive-downloader Minimal class to download shared files from Google Drive. 项目地址: https://gitcode.com/gh_mirrors/go/google-drive-downloader 前言&#xff1…

张开发

前端开发 2026/4/10 6:18:12

如何成为Node.js开发高手：2024年102个最佳实践终极指南

如何成为Node.js开发高手：2024年102个最佳实践终极指南【免费下载链接】nodebestpractices :white_check_mark: The Node.js best practices list (July 2024) 项目地址: https://gitcode.com/GitHub_Trending/no/nodebestpractices Node.js作为现代后端开发…

张开发

前端开发 2026/4/10 6:17:42

Arduino轻量级HTTP服务器库：事件驱动状态机实现

1. 项目概述Simple-WebServer-Library-for-Arduino 是一个面向资源受限嵌入式平台的轻量级 HTTP 服务实现，专为 Arduino Uno/Nano/Leonardo 及 ESP8266（NodeMCU、Wemos D1 Mini）等 MCU 设计。其核心定位并非替代成熟的 Web 框架（如…

张开发

快速搭建RAG：最小可用方案实战

最新文章

VibeVoice开源大模型部署指南：从零开始配置CUDA 12.4环境

# 48_矩阵在工程中的作用场合

G-Helper技术解析：轻量化华硕笔记本控制架构与实现

一芯搞定 Type‑C 转 DP+USB3.0+PD@ACP#GSV6155 应用之一

终极指南：如何安装ViGEMBus虚拟手柄驱动提升Windows游戏体验

【深度学习笔记】CPU深度学习环境简易搭建及基础知识

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Dify知识库文件处理链路优化：从上传到检索的稳定闭环方案解析！

Git-RSCLIP在林业资源调查中的应用：树木种类识别

SecGPT-14B威胁预测：用OpenClaw实现安全事件早期预警

InternLM2-Chat-1.8B在嵌入式开发中的应用：STM32项目文档自动生成

StructBERT中文语义工具实操：产品说明书语义检索功能实现

Pixel Aurora Engine入门指南：理解‘进化像素’设计哲学与生成逻辑

formsy-react跨字段验证：实现复杂业务逻辑的终极方法

【多模态大模型——跨越感知与认知的鸿沟】第6章工具增强与视觉Agent系统

Ion.RangeSlider源码架构解析：理解插件核心实现原理

如何快速从Google Drive下载共享文件：Python开发者的完整指南

如何成为Node.js开发高手：2024年102个最佳实践终极指南

Arduino轻量级HTTP服务器库：事件驱动状态机实现

快速搭建RAG：最小可用方案实战

最新文章

VibeVoice开源大模型部署指南：从零开始配置CUDA 12.4环境

# 48_矩阵在工程中的作用场合

G-Helper技术解析：轻量化华硕笔记本控制架构与实现

一芯搞定 Type‑C 转 DP+USB3.0+PD@ACP#GSV6155 应用之一

终极指南：如何安装ViGEMBus虚拟手柄驱动提升Windows游戏体验

【深度学习笔记】CPU深度学习环境简易搭建及基础知识

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统