在 RAG(检索增强生成)应用开发中,文档分块(Chunking)是决定检索质量的关键第一步。长期以来,行业普遍遵循 “先分块再向量化(Embedding)” 的传统流程,但这种模式始终难以平衡检索精度与上下文完整性。如今,“先 Embedding 再 Chunking” 的新思路正在崛起,以 Jina AI 的 Late Chunking 和 Max–Min semantic chunking 为代表的策略,正重新定义 RAG 分块的最优实践。本文将深度解析 Max–Min 语义分块的核心逻辑、优势与局限,为 RAG 开发提供新的技术参考。
一、传统 RAG 流程与分块困境
一个标准的传统 RAG 流程包含四大环节:
- 数据清洗与处理
剔除页眉页脚、乱码等无关信息,统一格式后,将长文本分割为固定长度(例如:500 字 / 段)的短片段,避免向量转换时丢失细节;
- 向量生成与存储
通过 Embedding 模型(例如:OpenAI 的 text-embedding-3-small、LangChain 的 BAAI embedding)将文本片段转换为向量,存储至 Milvus、Zilliz Cloud 等向量数据库,数据库通过索引优化检索效率;
- 查询匹配
用户自然语言查询经同一 Embedding 模型转换为向量后,向量数据库快速匹配语义最相似的 Top-K 文本片段;
- 生成回答
将 Top-K 片段与原始查询拼接为提示词(Prompt),输入大模型生成针对性回答。
在这一流程中,分块质量直接影响后续召回效果,但传统分块方法始终存在难以突破的瓶颈。目前主流的两种分块方式均有明显缺陷:
- 固定大小分块
按固定字符数或 Token 数切割,效率高但缺乏语义意识,易导致句子、单词断裂,破坏文本连贯性;
- 递归字符分块
按段落、换行符、句子的优先级递归切割,虽能保证一定语义连贯性,但依赖文档结构完整性,若章节长度差异过大,可能生成超出大模型上下文窗口的分块,仍存在语义断层。
核心矛盾在于 “精度与上下文的平衡”:小块检索精度高但上下文残缺,大块上下文完整却可能包含大量无关信息。2025 年 Bhat 等人的研究虽指出 “事实类问题适合 64-128 Token 小块,叙事类问题适合 512-1024 Token 大块”,但这种按场景调整长度的方式,本质上仍未摆脱 “以长度为核心” 的静态限制。
二、Max–Min 语义分块:先 Embedding 再分块的动态解决方案
Max–Min semantic chunking【论文链接:https://link.springer.com/article/10.1007/s10791-025-09638-7?utm_source=chatgpt.com】 的核心创新的是颠覆 “先分块再 Embedding” 的传统顺序,改为 “先对全量句子 Embedding,再基于语义相似度动态分块”。该方法将分块视为 “时序聚类问题”,既基于句向量相似度聚类,又严格尊重文档中句子的先后顺序,确保同一分块内的句子连续且语义关联紧密。其具体流程如下:
- 预处理:全量句子 Embedding
首先通过文本嵌入模型,将文档中所有句子转换为高维向量,为后续语义相似度计算奠定基础,无需额外新增 Embedding 计算成本,可复用 RAG 系统原生的句子嵌入向量。
- 动态分块决策:以语义相似度为核心
算法按顺序逐句处理文档,判断每个新句子是加入当前分块还是开启新分块,核心逻辑包含三大步骤:
- 计算分块内最小相似度
统计当前分块(C)内所有句子向量间的最小 pairwise 余弦相似度,以此衡量分块内语义关联的紧密程度(即语义关联下限);
- 计算新句子与分块的最大相似度
计算新句子与当前分块(C)内所有句子的最大余弦相似度,评估新句子与当前分块的适配度;
- 执行分块决策
若 “新句子与分块的最大相似度” 大于 “分块内最小相似度”,则将新句子纳入当前分块;否则开启新分块。
- 特殊场景处理与参数优化
- 初始化处理
当当前分块仅含 1 个句子时,直接对比该句子与下一句的相似度与预设阈值,高于阈值则合并为一个分块,低于阈值则开启新分块;
- 阈值动态调整
支持通过 3 个核心超参数优化分块效果,最大分块大小、一二句最低语义相似度阈值、新句子与块内最大相似度最低门槛,且分块规模越大,新句子纳入阈值越高,实现分块大小与语义关联度的自适应匹配。
三、Max–Min 语义分块的优劣势与解决方案
- 核心优势
- 动态语义驱动
彻底摆脱固定长度、文档结构的限制,以语义相似度为核心决策依据,最大化保证分块内语义连贯性,减少无关信息干扰;
- 轻量化设计
仅需调整 3 个核心超参数,逻辑简洁且易落地,额外计算开销仅为轻量化的余弦相似度计算,低于传统语义分块方法;
- 资源复用高效
直接复用 RAG 系统已有的句子 Embedding 结果,无需额外增加计算成本,不影响整体系统效率。
- 局限性与应对策略
该方法的主要不足是 “长距离上下文依赖丢失”:由于基于时序聚类,处理长文档时,分散在不同分块的关键信息可能因缺乏上下文关联而失去原有意义,导致召回效果下降。
以 Milvus 2.4.13 的 Release Note 为例,若版本号、SDK 版本等基础信息与 “动态副本调整” 等新功能被拆分为两个分块,当用户查询 “Milvus 2.4.13 有哪些新功能?” 时,Embedding 模型难以将功能描述与版本号建立关联,导致检索精度降低。
针对这一问题,可通过三种方式优化:
采用滑动窗口重新采样,扩大语义关联的覆盖范围;
设置重叠的上下文窗口长度,确保相邻分块间保留语义衔接;
多次文档扫描,强化长距离关键信息的关联映射。
四、总结:RAG 分块的未来趋势
Max–Min semantic chunking 的出现,标志着 RAG 分块从 “静态长度驱动” 向 “动态语义驱动” 的转型。相比传统方法,它更好地平衡了检索精度与上下文完整性,且具备轻量化、高复用性的优势,适合大规模 RAG 系统落地。
但需注意,没有万能的分块方案:Max–Min 语义分块虽解决了静态分块的语义断层问题,却仍需应对长距离上下文依赖的挑战。未来,RAG 分块的优化方向可能是 “多策略融合”,结合语义相似度、文档结构、场景需求等多维度特征,实现更智能的动态分块。对于开发者而言,根据自身数据特点(如文档长度、结构完整性、信息密度)选择适配的分块策略,才是提升 RAG 系统性能的关键。
随着向量数据库与 Embedding 技术的持续迭代,“先 Embedding 再 Chunking” 的思路将逐渐成为主流,为 RAG 应用的检索精度与效率带来新的突破。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。