一句话总结:该综述系统梳理了 RAG 技术的发展脉络,从早期开放域问答任务中的原型,到近年来多领域大规模应用的系统化演化,进行了全面而深入的总结。
论文地址:https://arxiv.org/abs/2507.18910
图片由 Nano Banana Pro 生成
在斯坦福教授吴恩达(Andrew Ng)于 2025 年最新发布的大模型课程中,他提出了一个引发全球技术社区热议的观点——RAG 是当前提升大语言模型(LLM)回答质量与准确性的最常用技术,并且可能已经成为全球最普遍的大模型应用形态。
视频网址:https://learn.deeplearning.ai/courses/retrieval-augmented-generation/lesson/rrngb/a-conversation-with-andrew-ng
这一判断并非夸张,而是对过去两年大模型在学术界与工业界行业趋势的精准总结。从顶会论文到商业系统,从技术巨头到创业公司,从搜索引擎到企业智能助手,都在探索如何充分挖掘“RAG + LLM”的力量。研究者们不断提出更强的检索器、更智能的生成器架构,并将其扩展到多模态、长上下文、代理系统等新方向。
在这篇 2025 年最新的 RAG 综述中,研究者系统梳理了过去一年的技术进展,提出了新的分析视角,并探讨了未来的发展趋势。本系列文章也将对其进行解读和日常案例挖掘。
在阅读本系列文章时,小编也邀请大家带着以下问题一同思考:
- RAG 是什么?为什么需要 RAG?RAG 如何工作?如何评估一个 RAG 系统?
- RAG 的技术发展历程是什么?RAG 是如何在工业界实现大规模落地的?
- RAG 当前面临哪些挑战?又有哪些解决方案与未来优化方向?
在这篇文章里,我们主要聚焦在第一个问题。
下面让我们一起来读读这篇文章吧~
一、RAG 概念
**RAG 是一种将文本检索模块与文本生成模块结合的框架,旨在提升知识密集型任务中生成回复的质量。**从形式化定义来看,RAG模型通过检索器为序列到序列(seq2seq)生成器提供外部文本语料的访问能力。
给定输入查询,检索器从大型语料库中筛选出小范围相关文档集(其中);生成器则基于查询与检索文档生成输出(如答案或描述性文本)。
RAG模型可视为一种隐变量生成模型,其通过对检索文档进行边缘化,定义输出的概率分布:
其中:
- 为检索器输出的“查询下检索到文档”的概率分布;
- 为生成器“基于查询与文档生成”的条件概率。
实际应用中,仅前个检索结果的非零,以此实现对全语料求和的可计算近似。检索器可定义为函数,其输入为查询与语料库,输出为与相关的小范围文档集()。
二、RAG 意义
RAG 与纯 LLM 最大的区别,是它在推理阶段引入了外部、可更新的非参数化知识。
传统 LLM 完全依赖训练期间固化在模型参数中的“内部记忆”,当遇到知识盲区时极易产生幻觉;而 RAG 将生成过程锚定在检索到的文档上,使模型能够基于真实证据给出回答。
更关键的是,RAG 的知识库可以随时更新——只需替换或新增文档,无需重新训练模型。这使得 RAG 能突破 LLM“知识冻结”的局限,成为一种灵活、可扩展且成本友好的知识增强手段。
三、RAG 系统的核心模块
典型 RAG 包含四个模块:分块(Chunking)、嵌入(Embedding)、重排序(Re-ranking)、生成(Generation)。架构如下图所示。
- 分块:对知识源进行预处理,将长文档切分为独立的短文本块(如段落或文段)以用于索引。
- 嵌入:将每个文本块转化为高维向量表征,以编码其语义信息。
- 重排序:对初始检索的候选文本块进行二次排序,进一步提升检索精度。
- 生成:重排序后,选取前个(如3-5个)文本块作为生成器的最终上下文;LLM基于检索到的外部文本块生成答案或回复,将检索文本与用户查询拼接后输入模型。
分块、嵌入、重排序、生成四个环节协同工作,使RAG系统可充分利用外部知识,这种模块化设计已成为构建高可靠性、可解释性AI助手的核心基础。
1.RAG 系统的执行流程
在完成分块、向量化、重排序与生成器配置后,一个 RAG 系统是如何从用户输入到最终回答的呢?下面让我们沿着信息流,走一遍典型 RAG 系统的完整工作过程:
图片由 Nano Banana Pro 生成
- 查询编码:给定输入查询(如自然语言问题),检索器的查询编码器先将转化为向量表征,该向量在稠密嵌入空间中编码了查询的语义信息。
- 文档检索:基于查询向量,系统在文档索引中进行检索,计算查询与各文档的相似度得分,并获取得分最高的前个文档。这前个文档被视为与查询最相关的文本集。
- 上下文准备:从知识库中调取检索文档的文本内容;根据融合策略,系统会将这些文档拼接或单独处理。
- 答案生成:将查询与检索上下文输入生成器。
- 融合与输出:若生成了多候选输出(如每个检索文档对应一个输出),模型会通过边缘化或聚合生成最终答案,通常选取最可能的序列作为回复;系统还可附带输出所用的检索文段,为结果提供溯源依据。
这一流程既保持了实时性,又保证了答案的可验证性。更重要的是,RAG 的模块化结构允许开发者在检索或生成环节出现偏差时进行独立优化,使整个系统具备良好的可控性与可扩展性。
四、RAG 系统的评估
在明确了 RAG 的核心架构与执行逻辑之后,一个关键问题随之而来:如何科学地评估一个 RAG 系统,从而支撑测试、上线与迭代优化?
RAG 的评估是多维度的,其性能不仅依赖生成模型,也高度取决于检索流水线的质量。一个可靠的评估体系往往需要同时覆盖五大维度——检索准确率、生成质量、事实性、效率延迟、可扩展性。
图片由 Nano Banana Pro 生成
检索准确率:检索是 RAG 的信息入口,因此其质量几乎决定了最终输出的上限。如果检索不到正确文档,生成器再强也无法“无中生有”。这一维度通常关注系统是否成功找到了与用户问题真正相关的文本。
常用指标包括:
- Recall@k:查询的相关文档出现在前个检索结果中的比例;
- 平均倒数排名(MRR):首个相关文档排名的倒数平均值,奖励“高相关文档排名靠前”的检索结果;
- 平均准确率(MAP):评估所有相关文档的排序质量。
生成质量:生成模块负责最终回答,其质量不仅关乎语言表达是否自然,更重要的是——内容是否正确、可靠、基于证据。
评估指标主要包括:
- 精确匹配(EM)与F1得分:问答任务中衡量输出与标准答案的重合度;
- BLEU、ROUGE:问答任务中衡量输出与标准答案的重合度;;
- 事实忠实性/幻觉率:判断模型输出是否真正基于检索文档,而非凭空编造。
效率与延迟:RAG 常用于实时问答场景,因此系统响应速度至关重要。此维度主要关注:检索耗时、生成延迟、端到端响应时间、内存 / 显存 / 计算资源占用。
可扩展性:随着知识库规模不断增加,系统是否还能保持稳定、准确的表现?可扩展性评估关注:索引规模扩大后是否会显著降低准确率、新文档加入时是否需要重新训练模型、系统在大规模内容下的吞吐能力、“索引规模—准确率”之间的变化规律。
基准数据集:为了标准化 RAG 的评估体系,研究社区构建了多个覆盖不同任务类型的评测数据集,这些基准数据集构成了当前 RAG 系统性能对比的“行业标准”,包括:
- 开放域问答:自然问题(NQ)、TriviaQA、WebQuestions;
- 事实核查:FEVER、AveriTeC(侧重可验证性);
- 多任务基准:KILT,整合了维基百科上的问答、对话、槽位填充、实体链接等任务;
- 零样本检索:BEIR,覆盖生物医学、金融等31个零样本任务;
- 多轮推理:MTRAG,面向需序列检索与推理的多轮对话;
- 统一评估赛道:2024年起的TREC RAG赛道,基于MS MARCO数据集实现“检索、生成、来源支撑质量”的统一评估,核心指标为片段召回率与引用覆盖率。
1.检索增强生成评估系统(RAGAS)
RAGAS是专为RAG系统“事实性与锚定能力”设计的评估框架。
与传统“表层语言重合度”指标不同,RAGAS聚焦于“生成内容与检索文档的对齐性”,可提供“事实正确性”与“来源归因质量”的显性评估信号。通过系统性衡量“生成输出对检索证据的依赖程度”,RAGAS可识别并惩罚幻觉内容。
因此,在模型训练或迭代微调阶段引入RAGAS,可引导RAG系统生成“锚定可验证来源”的输出,显著提升事实准确率并降低幻觉发生率。
五、结语
在本文中,我们从 RAG 的核心概念出发,系统地梳理了它的工作原理、关键模块、执行流程与评估体系。
可以看到,RAG 的价值远不止于“让大模型查文档”这么简单——它真正改变了 LLM 的能力边界,使模型能够在准确性、可控性、可解释性与实时性之间找到新的平衡点。
本文只是整个系列的第一篇。在后续文章中,我们将继续深入:
RAG 的技术发展历程是什么?RAG 是如何在工业界实现大规模落地的?RAG 当前面临哪些挑战?又有哪些解决方案与未来优化方向?
RAG 仍处在高速发展时期,而我们正站在这场范式转变的前沿。希望这篇解读,能为你构建对 RAG 的系统理解,也为你在研究、工程或业务落地中的实践提供坚实基础。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。