河池市网站建设_网站建设公司_移动端适配_seo优化-三亚市网站建设公司

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了信息检索（Retrieval）和文本生成（Generation）的自然语言处理技术。它旨在通过从外部知识源（如数据库、文档或互联网）检索相关信息，辅助大型语言模型（LLM）生成更准确、更丰富且更具上下文相关性的文本内容。

一、RAG要解决的核心问题

RAG主要为了解决大型语言模型（LLM）在实际应用中面临的几个核心挑战：

知识局限性：LLM的知识受限于其预训练数据，无法获取训练时未包含的最新信息或特定领域的私有知识。

信息过时：LLM通常是离线训练的，难以理解和响应训练数据之后出现的新信息。

“幻觉”问题：LLM在缺乏相关知识或需要最新信息时，可能会生成看似合理但实际错误或编造的内容。

可解释性差：传统LLM的答案生成过程像一个“黑箱”，用户难以核实其依据。

二、RAG流程

RAG通过一个系统性的流程，将外部知识动态注入LLM的生成过程，从而解决上述问题。

数据处理（知识库构建）

这是RAG系统的“基建”环节，目的是将原始数据转化为可供高效检索的知识库。

数据准备：从各种来源（如PDF、Word文档、数据库、网页）收集和提取文本内容。

文本分割：将长文档切割成较小的文本块（Chunk），以适应模型的上下文窗口并提高检索粒度。常用策略包括按固定长度、段落或语义边界切分，并可能设置重叠部分以保持语义连贯。

向量化：使用嵌入模型将文本块转换为高维向量（Embedding），使语义相似的文本在向量空间中距离更近。

存储与索引：将向量及其对应的原始文本、元数据（如来源、时间）存储到向量数据库中，并建立索引以支持快速相似性搜索。

检索召回

当用户提出查询时，系统从知识库中查找最相关的信息。

查询编码：将用户查询通过同样的嵌入模型转换为查询向量。

相似性搜索：在向量数据库中进行近似最近邻搜索，找出与查询向量最相似的文本块。

重排序：为提高精度，许多系统会使用重排序模型对初步检索到的结果进行精排，过滤噪声并确保最相关的内容优先。

模型生成

将检索到的相关信息与用户原始问题结合，交给LLM生成最终答案。

提示构建：将检索到的相关文本块作为上下文，与用户问题一同填入预设的提示模板中，构成增强后的提示。

答案生成：LLM基于这个包含了外部知识的增强提示，生成更准确、有据可依的回答，并减少幻觉。

三、RAG处理方法经验整理

以下整理平时工作学习过程中，在RAG中可能比较有用的方法和经验：

1.数据准备

在对文本进行切片的时候，目前主要有按照滑动窗口切片和语义切片两种方法

滑动窗口切片

方法

设置固定chunk_size阈值，按照chunk_size对原始文本进行token或者字数的切片。当然，为了保证文本预计的完整性，可以根据切片位置将当前位置的句子给完整切进来。同时，为了一定程度上保证切片后前后语义的完整性（因为直接切的话，很可能将原本前后描述一个事情的两个句子切开，破坏原本语义），会设置chunk_overlap，让前后两个切片片段有一定的重叠覆盖，这样，可以一定程度上让前后描述一个事情的两个句子依旧会放在一起（稍有缓解，但不能很好杜绝）

优点

文本片段大小可控：通过chunk_size的设置，能够大致控制切片下来的文本片段的大小，对上下文窗口有限的LLM来说比较友好

速度快：处理方式基本是按照规则处理，不依赖语义embedding，处理速度快

缺点

可能破快语义：虽然可以使用overlap，但这也会在没有理解语义的情况下overlap，还是会破坏原有语义

存储有冗余：由于使用了overlap，导致在存储中会有部分内容其实是重复的，不仅增加了存储成本，也增加了检索时候的计算量

基于语义切片

方法

大致流程如下

将原有文本按照句子切分
对每个句子生成embedding向量，用于表示语义
计算相邻句子之间的语义相似度
当在某处的语义相似性比较差（低于某个阈值），那么就可以在这里进行切分

这样，就能保证每个切分后的文本语义连贯性

优点

语义完整连贯：因为是按照语义切分的。当然，这里的语义相似度阈值比较重要。

信噪比高：切分后的文本段比较干净，很少含有无关的信息

缺点

切片大小不可控：有可能某个语义片段非常长，超出了LLM处理上下文的长度

速度慢：因为需要用到embedding计算相似度，因此速度稍慢（但一般离线处理的话，只要不是太慢，基本不是问题）

语义切片和滑动窗口结合

为了能够更好的切片，可以线按照语义进行切片，然后在按照滑动窗口合并或拆分，可以一定程度上结合两者的优点。但是具体使用的时候，还是得根据业务数据而定。

2.检索召回

检索引擎的选择

从简单到复杂，可以有以下几种检索召回方法：

关键词：这个就特别简单了，直接按照query关键词从数据库中匹配即可。速度快，占用内存/显存低，可解释性强。
BM25：BM25是按照文本统计信息进行相似度匹配召回，没有基于语义。但是在传统的方法中还是很有用的，速度快，一些场景下效果也还不错。速度快，占用内存/显存低，可解释性强。
语义embedding: 可以通过bge等语义向量进行query和doc等语义相似度匹配检索。速度慢，需要占用一定的内存/显存，可解释性差
图索引：根据doc的主题或实体关系，构建图索引。比如，HNSW

以上方法各有优缺点，但是一般混合使用会比较好。

query expansion

为什么要query expansion

首先解释一下为什么要进行query expansion。因为用户输入的query往往会存在以下几个问题：

query表达模糊、不完整，或者口语化，不太容易理解
query中缺乏上下文
难以准确命中知识库中的文档

如果直接使用用户输入的query的话，可能会出现以下几个问题：

召回结果不足
召回无关内容
最终生成的答案不够准确和不够全面

因此，需要通过query expansion来扩展和改写，来缓解以上几个问题。

如何query expansion

将query以及对话上下文，给到LLM，让LLM进行改写。主要有以下几个地方需要改写：

指代词的改写：结合上下文，将当前query中出现的“他”、“那个”等指代词进行还原
专有名词或歧义词的解释：比如，CNN可以表示卷积神经网络，也可以表示美国有线电视新闻网。因此，为了让检索模型以及后续的生成模型更好的理解，需要将一些专有名词缩写或歧义词进行扩写或解释。比如“CNN的原理” → “卷积神经网络的原理”
复杂问题拆解：将复杂问题拆解为多个步骤，然后多步检索后整合答案

扩召方法

HyDE策略：对于给定的query，先用LLM生成一个假设的答案（这个直接生成的答案有可能是有幻觉的），然后用这个假设的答案去数据库中检索相关的doc，然后用这个检索到的doc进行答案生成。但是缺点是在rag流程中多了一步生成假设答案的流程，耗时增加

标签召回：给doc和query都打上一个标签，按照标签进行匹配召回

3.模型生成

为了保证模型生成结果更加可信，可以有以下几个方法：

在prompt中，对专有名词进行强调说明，增加回复模型的注意力

在输出过程中，让模型输出答案的时候，也输出当前内容对应的参考文档，方便溯源

验证机制：先用query进行检索，用LLM生成回复，然后用另一个LLM判断回复是否出现幻觉或是否与召回文档一致等，如果有幻觉，则重新检索生成

四、RAG仍面临的问题与挑战

尽管RAG优势明显，但在实际落地中仍面临一些挑战：

检索质量依赖性强：答案的质量高度依赖于检索阶段的效果。如果检索不到相关信息或召回内容不准确，后续生成的结果必然出错。

复杂文档处理困难：对于包含复杂格式（如多栏PDF、表格、图表）的文档，传统的文本解析和切分方法可能导致信息丢失或错乱，影响问答精度。

多模态与复杂问答支持有限：传统RAG主要以非结构化文本问答为主，在处理需要结合图像、表格进行推理，或需要进行统计计算等复杂问题时能力不足。

系统延迟与成本：完整的RAG流程涉及检索和生成两个步骤，可能比直接调用LLM产生更高的延迟和计算成本。

为了应对这些挑战，业界也在不断优化，例如采用级联切分、多路检索融合、融合代码模型处理统计问题等技术。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

河池市网站建设_网站建设公司_移动端适配_seo优化

一、RAG要解决的核心问题

二、RAG流程

三、RAG处理方法经验整理

1.数据准备

滑动窗口切片

缺点

基于语义切片

方法

优点

缺点

语义切片和滑动窗口结合

2.检索召回

检索引擎的选择

query expansion

为什么要query expansion

如何query expansion

扩召方法

3.模型生成

四、RAG仍面临的问题与挑战

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

河池市网站建设_网站建设公司_移动端适配_seo优化

一、RAG要解决的核心问题

二、RAG流程

三、RAG处理方法经验整理

1.数据准备

滑动窗口切片

缺点

基于语义切片

方法

优点

缺点

语义切片和滑动窗口结合

2.检索召回

检索引擎的选择

query expansion

为什么要query expansion

如何query expansion

扩召方法

3.模型生成

四、RAG仍面临的问题与挑战

学AI大模型的正确顺序，千万不要搞错了

热门文章

文章分类

标签云

相关文章

救命神器！MBA必看！9款AI论文软件测评TOP9

震惊！大模型推理技术天花板揭秘：从“内存墙“到“算力突围“，小白也能秒懂的AI开发进阶指南

大模型开发者的福音：一文搞懂Agent评估，让你的模型不再“翻车“！

需要专业的网站建设服务？