文章详细解析了RAG系统的17种优化策略,包括基础检索、语义切分、小块查大块答等方法,对比各策略的检索精度、响应速度和技术成本,并通过GPT评分评估效果。文章提供了基于应用场景和数据特征的选型建议,帮助开发者根据精度需求和预算选择最适合的RAG优化方案,是一篇实用的技术参考指南。
- Simple RAG(基础检索)
===================
基于 BM25 关键词检索或单一向量检索,直接返回 Top-N 片段,无额外优化
整个rag的起点,几乎所有后续优化策略都是从这个基础上演变而来的
小块信息容易丢失上下文
检索精度低,响应速度快,技术成本低。
gpt打分是0.3分
- Semantic Chunking(语义切分)
==========================
在“然而”进行转折,这样语义就不一样了
检索精度中,响应速度高,技术成本低。
gpt打分是0.5分
- Small-to-Big Retrieval(小块查大块答)
=================================
既保证解锁的精准性,又给模型提供完整的上下文
最终输入的是完整的段落或者章节,模型能更好的理解语义的连贯性。在准确性和上下文完整性之间取得了比较好的平衡
检索精度高,响应速度中,技术成本低。
gpt打分是0.85
- Context Enriched Retrieval(上下文增强)
====================================
更加轻量化,也能解决信息不完整的问题。
这样模型看到的不是一个孤立的句子,而是一个小段落,能够更好的理解前因后果。
检索精度中,响应速度中,技术成本低。
gpt打分是0.6分
- Contextual Chunk Headers(块标题增强)
==================================
首先把文档切成较大额chuck,比如说一整段,然后用大模型为每个chuck生成一个标题,接着在向量化时,不是只存chuck的内容,而是要把header加上chuck拼在一起,再做embedding,检索的时候,系统会同时计算query与chuck和header的相似度,取平均值来作为最终的得分,这种方法优势在于增强全局信息感知,同时提升embeeding对上下文的理解。
检索精度中,响应速度中,技术成本低。
gpt打分是0.5分
- Document Augmentation(文档增强)
==============================
把原始的文本,转化为一系列相关的问题。
系统不仅会计算query和原文的相似度,还会计算它和这些预设问题的相似度,最后取综合得分。把问题作为检索的入口,而用户的提问通常更接近问题而非段落。
这种方法的优势是匹配精度极高,弥补语义鸿沟,因为用户的问题往往和大模型身上的问题语义非常接近。即使原文中没有出现过关键词,只要问题里面有也能够命中,
检索精度高,响应速度中,技术成本低。
gpt打分是0.8分
- Query Transformation(查询转换)
=============================
用户提出的原始查询,可能并不是最优的检索形式,需要进行适当的调整和转换或者是扩张,为了解决这个问题。
比如AI对医疗的影响有哪些。
适应多样化的提问,尤其处理模糊或者复杂的用户意图;同时,能有效处理复杂任务,提升整体召回率。
虽然没有Document Augmentation(文档增强)那么高,但在实际应用中非常实用,尤其适合交互式场景。
检索精度中,响应速度中,技术成本中。
gpt打分是0.5分
- Re-ranker(重排序)
=================
能够让系统更聪明的判断,哪个chuck最该优先返回,它的核心思路是粗查靠相似度,精查靠语义理解。
主要优势是:大幅提高相似度,消除“相似不相关”,能够消除关键字匹配,但与语义无关的噪音,大幅提升相关性,同时能够精准区分记忆表达和真实的意图。
它在实际应用中非常有效。但需要额外计算资源,适合对精度要求非常高的场合。正是因为它在快和准之间取得平衡,才能成为当前rag系统中最常用的核心组件之一。
检索精度高,响应速度中,技术成本中。
gpt打分是0.7分
- RSE(相关片段提取)
==============
处理复杂跨段落信息时,表现非常优异,特别适合需要深度理解的场景,比如法律文书、科研论文或者长篇的报告分析。
检索精度高,响应速度中,技术成本中。
gpt打分是0.8分。
- Contextual Compression(上下文压缩)
=================================
我们检索中可能包含大量的无关信息,这些无关信息不仅增加了处理的复杂性,还可能会干扰最终的答案生成。可以使用LLM进行信息的过滤与精炼。
检索精度高,响应速度中,技术成本中。
gpt打分是0.75分
- Feedback Loop(反馈循环)
=======================
实现复杂度高,需要设计反馈收集机制和权重的更新策略,但是它代码了rag的未来,从静态检索走向动态学习,随着用户的反馈积累,系统会越来越准,最终可能接近超过人类专家水平
检索精度高,响应速度中,技术成本高。
gpt打分是0.7分
- Self-RAG(自我检索)
==================
每一步都有模型的自主判断和筛选,在实际应用中非常实用,尤其适合对回答的可靠性要求高的场景,从被动检索走向主动推理。构建实体之间的关系和节点之间的一个连接,形成一个图结构,从而更好的表达和利用知识呢,我们可以把所有信息转化为节点和边的形式。
检索精度高,响应速度中,技术成本高。
gpt打分是0.6分
- Knowledge Graph(知识图谱)
=========================
优势是具备长链推理能力,处理结构化、关联性强的知识的时候表现得非常好,最大的挑战是构建图谱其实成本非常高,需要做实体识别关系抽取,还有人工校验,所以在实际应用中,常常会选择结合大模型来自动构建轻量级的图谱或者只在特定领域,比如说医疗金融来部署。
检索精度高,响应速度中,技术成本高。
gpt打分是0.7分。
- Hierarchical Indices(层次化索引)
===============================
核心思路是把文档拆成两层结构,粗粒度的summary和细粒度的文本块chunk,然后分别建立索引,首先把原始的文档切成多个大段,比如每个章节或每个主题生成一个summary分块,它是对整部分内容的概括,再把整个大段进一步切分成大分块,作为实际检索的基本单位,然后分别对summary和chuck进行向量化,建立两个独立的向量库,当用户提问时,系统先去summary向量库里面找出最相关的几个章节,锁定住范围,接着只在这些相关章节对应的chunk向量里面去精搜找出最匹配的具体句子。
大幅缩减检索的路径,避免在海量数据中盲目搜索,同时能够平衡全局与局部,既不漏掉关键上下文,又不会引入无关的信息
检索精度高,响应速度中,技术成本高。
gpt打分是0.84分。
- HyDE(假设性文档嵌入)
=================
用户生成一个问题之后,大模型会生成一个假想的答案文档,这个假想文档是对用户query的一种可能的回答或解释,然后把生成的假想文档进行向量化处理,再把假想文档的向量和真实文档向量库里面的向量进行比对,找出最相关的topk文档片段,然后把检索到的相关文档片段拼接成完整的上下文,给到大模型生成最终的回答。这种方法有明显的短板,如果模型一开始的假答案错了,方向错了,就会带偏整个家检索过程。
有效但不稳定,适合搭配其他策略使用,其实通过语义相似度,也不一定保证检索到的内容既能够回答用户问题,又能覆盖尽可能的场景。
检索精度中,响应速度低,技术成本中。
gpt打分是0.5分
- Fusion(融合检索)
================
RRF融合后排序,结合了两路检索的优势,使召回这种既满足语义又包含精准关键词的文档排在首位。
适合医疗、法律对召回率要求很高的场景。虽然要维护2套检索系统,但是整体效果远超单一方法
检索精度高,响应速度低,技术成本高。
gpt打分是0.83分
- CRAG(纠错RAG)
===============
这种方法既简单又能够有效的提升检索 的精确度。
它有效的结合文档库查询和web网页查询的优势,解决了知识盲区,而且输出的内容是有据可依的,可靠性高
检索精度高,响应速度低,技术成本高。
gpt打分是0.824分
RAG 17 种优化策略选型对照表
| 策略名称 | 适用场景 | 数据特征 |
|---|---|---|
| 1. Simple RAG(基础检索) | 通用简单问答、短文档查询(如产品手册、HR 政策)、低成本快速落地场景 | 非结构化文本为主、数据量<100 万条、查询意图明确(无模糊需求) |
| 2.Semantic Chunking(语义切分) | 长文档处理(论文、报告、小说)、跨段落语义关联强的文本 | 长文本(单文档>5000 字)、语义连贯性强、段落逻辑紧密 |
| 3.Small-to-Big Retrieval(小块查大块答) | 长文档深度问答(如技术手册、法律条文)、需结合上下文背景的复杂查询 | 文档层级清晰(章节 - 小节 - 段落)、大块含完整上下文、小块为核心信息点 |
| 4.Context Enriched Retrieval(上下文增强) | 多轮对话问答、个性化查询(如用户专属需求)、上下文依赖强的场景 | 存在对话历史数据、用户有固定需求偏好、查询需结合前文语境 |
| 5.Contextual Chunk Headers(块标题增强) | 结构化文档(手册、教材、报告)、层级清晰的长文本查询 | 文档有明确章节结构、块内容需依赖层级背景理解、标题信息具有标识性 |
| 6.Document Augmentation(文档增强) | 多源文档融合查询、需要溯源的场景(如学术文献、新闻报道)、文档类型多样 | 多来源异构文档、需记录文档属性、查询可能涉及来源 / 时间筛选 |
| 7.Query Transformation(查询转换) | 模糊查询、口语化查询、跨语言查询、意图表达不明确的场景 | 查询意图模糊、存在口语化表达、跨语言需求、同义词丰富的领域 |
| 8.Re-ranker(重排序) | 高精度需求场景(法律、医疗、学术)、基础检索召回率低的复杂领域 | 高价值数据(误差零容忍)、领域术语密集、候选片段相关性差异大 |
| 9.RSE(相关片段提取) | 长片段检索、核心信息提取场景(如摘要生成、关键信息查询)、片段冗余度高 | 片段内容冗长、核心信息分散、查询需精准定位关键信息 |
| 10.Contextual Compression(上下文压缩) | 长文档检索、上下文窗口有限的模型(如GPT-3.5)、需高效传递核心信息的场景 | 片段冗余度高、长文本占比大、模型上下文窗口有限(<8k tokens) |
| 11.Feedback Loop(反馈循环) | 长期运行的产品级 RAG、需要持续迭代优化的场景(如客服系统、问答机器人) | 有稳定用户流量、可收集反馈数据、需长期优化检索效果 |
| 12.Self-RAG(自我检索) | 混合知识问答(部分知识模型内置、部分需外部检索)、不确定度高的场景 | 模型已有部分领域知识、外部数据动态更新、查询包含已知 / 未知混合内容 |
| 13.Knowledge Graph(知识图谱) | 逻辑推理问答(如 “A 和 B 的关联”“因果关系”)、垂直领域(医疗、金融、法律) | 含大量实体关系(如人物、公司、病症)、需逻辑推理、结构化需求强 |
| 14.Hierarchical Indices(层次化索引) | 超大规模文档库(>1000 万条)、层级清晰的长文档集合、精准定位场景 | 文档层级严格、数据量庞大、查询需精准定位到细粒度信息 |
| 15.HyDE(假设性文档嵌入) | 模糊查询、抽象查询、语义匹配需求高的场景(如学术创新问答、概念理解) | 查询意图抽象、缺乏明确关键词、需深层语义匹配 |
| 16.Fusion(融合检索) | 复杂场景(多源数据、混合查询意图)、需平衡精确匹配与语义匹配的场景 | 多类型数据(文本 + 结构化)、查询意图多样(关键词 + 语义 + 逻辑)、数据来源复杂 |
| 17.CRAG(纠错 RAG) | 高可靠性需求场景(医疗诊断、法律建议、学术引用)、数据质量参差不齐的场景 | 数据质量不一(含错误信息)、误差零容忍、需高可信度回答 |
总结
检索精度高的方式
Small-to-Big Retrieval(小块查大块答)、Document Augmentation(文档增强)、Re-ranker(重排序)、RSE(相关片段提取)、Contextual Compression(上下文压缩)、Knowledge Graph(知识图谱)、Hierarchical Indices(层次化索引)、Fusion(融合检索)、CRAG(纠错RAG)
选型建议
优先根据「检索精度需求」和「技术成本预算」初步筛选,再结合「数据特征」和「适用场景」精准匹配(如高可靠性场景优先 CRAG/Re-ranker,大规模数据优先 Hierarchical Indices。
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】