乌海市网站建设_网站建设公司_安全防护_seo优化
2026/1/15 18:24:38 网站建设 项目流程

GroupRank 提出了一种全新的“分组重排”(Groupwise Reranking)范式,巧妙地融合了 Pointwise 方法的灵活性与 Listwise 方法的全局比较能力,并通过创新的两阶段训练(SFT + 强化学习)和高质量数据合成流水线,在多个基准上实现了 SOTA 性能。

摘要:大语言模型(LLM)作为重排序器已展现出提升检索增强生成(RAG)系统整体性能的巨大潜力。然而,现有重排序范式在理论与实践上均面临两难:逐点(Pointwise)方法简单灵活,却因独立打分易陷“排序短视陷阱”,忽视文档间相对重要性;列表式(Listwise)方法能感知全局排序上下文,却受“列表刚性”制约,面对大规模候选集时扩展性与灵活性严重不足。为此,我们提出全新“组式”(Groupwise)重排序范式:将查询与一组候选文档同时输入模型,在组内做比较并为每篇文档单独赋予相关度得分,既保留逐点方法的灵活性,又具备列表式方法的比较能力。训练阶段,我们采用 GRPO 并设计异构奖励函数,融合 NDCG、Recall 等排序指标与“分布奖励”,实现跨组分数分布对齐。针对高质量标注数据稀缺的瓶颈,我们进一步提出创新合成管线,可批量生成高质检索与排序数据,既用于训练重排序器,也可赋能检索器。

论文标题: "GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning"作者: "Duolin Sun, Meixiu Long, Dan Yang"发表年份: 2025原文链接: "https://arxiv.org/abs/2511.11653"代码链接: "https://github.com/AQ-MedAI/Diver.git"关键词: Reranking,RAG,Groupwise,Data Synthesis

一、RAG 的“守门员”困境:为何需要更好的 Reranker?

长期以来,Reranking 主要有两种主流范式:Pointwise(逐点式)和 Listwise(列表式)。

  1. Pointwise 方法:这种方法非常直观,它独立评估每一个“查询-文档”对,给每个文档打一个相关性分数,最后按分排序。你可以把它比作一位“只看简历”的面试官,他单独评估每份简历,但从不把候选人放在一起横向比较。这种方法的优点是简单、灵活、易于并行,但其致命弱点在于“排序近视陷阱”——由于缺乏全局视角,它无法感知文档之间的相对重要性,容易在多个看起来都不错的选项中迷失方向。
  2. Listwise 方法:为了克服 Pointwise 的缺点,Listwise 方法应运而生。它一次性处理整个候选文档列表,像一场“小组辩论”,让模型可以充分比较所有文档,从而做出全局最优的排序决策。这种方法理论上性能更优,因为它更贴近排序任务的本质。然而,它的问题在于“列表僵化困境”——它通常需要处理定长的列表,当候选文档数量庞大时(例如超过 100 个),计算开销剧增,且难以扩展。实际应用中,往往需要借助滑动窗口(Sliding Window)等近似技巧,但这又会削弱其宝贵的全局视角。

下图直观地展示了这两种传统范式与本文主角Groupwise的区别:

重排序范式对比

从上图可以看出,Pointwise 并行度高但效果欠佳;Listwise 效果好但串行处理,效率低下;而论文提出的Groupwise(分组式)范式,则试图在这两者之间找到一个完美的平衡点。

二、GroupRank 方法总览:“分组协作”,鱼与熊掌兼得

为了打破困境,来自蚂蚁集团等机构的研究者们提出了GroupRank,一个由强化学习驱动的新型重排序框架。其核心思想是“分组评分”(Groupwise Scoring):将查询和一组(a group of)候选文档一起喂给模型,模型在组内进行交叉比较后,为每个文档独立生成相关性分数。

这种设计堪称精妙,因为它:

  • 保留了 Pointwise 的灵活性:不同组之间可以并行处理,并且可以处理任意数量的文档,没有列表长度限制。
  • 引入了 Listwise 的比较能力:在每个组内部,模型能够感知文档间的相对优劣,从而缓解“排序近视”问题。

为了实现这一目标,GroupRank 的构建主要依赖三大支柱:高质量的合成数据生成创新的两阶段训练策略,以及精心设计的异构奖励函数

支柱一:高质量训练数据的“炼金术”

众所周知,高质量的标注数据是训练强大模型的关键,但获取既有精确分数(像 Pointwise)又有可靠排序(像 Listwise)的标签非常困难。为此,作者设计了一条创新的数据合成流水线。

高质量训练数据生成流程

如上图所示,整个流程分为三步:

  1. 混合检索:针对一个查询,同时使用稀疏检索(如 BM25)和稠密检索模型,召回 top-50 的候选文档,取长补短。
  2. 并行标注:利用强大的 LLM(如 Qwen3-235B 和 Gemini-2.5-pro)作为“教师模型”,对这 50 个文档进行并行标注:
  • Pointwise 标注:LLM 独立为每个文档打一个 0-10 分的绝对分。
  • Listwise 标注:LLM 对全部 50 个文档进行全局比较,输出一个从 1 到 50 的相对顺序排名。
  1. 标签融合:将 Pointwise 的分数和 Listwise 的排名进行归一化和加权融合(Score_final = α * norm(Score_pointwise) + (1-α) * norm(-log(Rank_listwise))),生成一个既包含分数大小信息又蕴含可靠排序顺序的“黄金”标签。

这套流程不仅为 GroupRank 提供了理想的训练数据,其产出的高质量数据同样可以用于训练检索器或其他类型的重排序器。

支柱二:从“冷启动”到“精通”的两阶段训练

有了高质量数据,接下来就是如何训练模型。GroupRank 采用了一种“SFT + RL”的两阶段范式。

GroupRank 的两阶段训练范式

  1. 阶段一:冷启动监督微调(ColdStart SFT)
    预训练的 LLM 既不懂得如何按指令打分,也无法保证按特定 JSON 格式输出。SFT 阶段的目的就是“教规矩”,通过我们合成的高质量数据,让模型学会两件事:
  • 理解“相关性评分”这个任务。
  • 严格按照{“[1]”: 5, “[2]”: 8, ...}这样的 Groupwise 格式输出答案。
  1. 阶段二:基于异构奖励的强化学习(Reinforcement Learning)
    SFT 只是让模型“入门”,要成为“高手”,还需要强化学习(RL)的打磨。作者采用了 GRPO 算法,并设计了一个新颖的异构奖励函数来指导模型优化。这个奖励函数是 GroupRank 能够实现卓越性能的核心引擎,它包含四部分:
  • 格式奖励 (Format Reward):确保模型输出稳定、合规。
  • 召回奖励 (Recall Reward):激励模型将真正相关的文档排在前面。
  • 分组排序奖励 (GroupWise Ranking Reward):直接优化最终的排序指标,如 NDCG 和 RBO,这是提升排序质量的关键。
  • 分组分布奖励 (GroupWise Distribution Reward):这是一个非常有趣的设计。它通过 KL 散度约束模型输出的分数分布与真实标签的分布保持一致。这能防止模型为了最大化排序奖励而“作弊”(例如,给最相关的文档打 10 分,其他都打 0 分),从而保证了分数的“校准性”和“意义”,让分数本身也具有参考价值。

通过这两阶段的训练,GroupRank 模型得以从一个“什么都不懂”的预训练模型,成长为一个既懂规则又追求卓越的排序专家。

三、关键结论

总结一下,GroupRank 的核心贡献可以归纳为三点:

  • 提出 GroupRank 框架:通过创新的“分组评分”机制,成功融合了 Pointwise 的灵活性和 Listwise 的全局上下文感知能力,并设计了独特的异构奖励函数在强化学习阶段专门增强其重排序能力。
  • 设计高效的合成数据流水线:解决了 GroupRank 缺少高质量标注数据的瓶颈,能够为检索器和重排序器生成大规模、高质量、通用的训练数据。
  • 实现 SOTA 性能:在多个对推理能力要求极高的检索基准测试中,GroupRank 均取得了最先进(SOTA)的结果,为下一代智能检索系统的发展提供了强大的技术支持。

四、深度拆解:GroupRank 的“快”与“好”是如何实现的?

让我们进一步深入 GroupRank 的设计细节,看看它是如何平衡效率与效果的。

方法属性对比:为什么 Groupwise 更高效?

Reranking 的效率很大程度上取决于调用 LLM 的次数。下表对比了不同排序范式在复杂度上的差异。

表 IV:不同重排序方法的属性对比

从表中可以看到:

  • Pointwise方法需要对 N 个文档调用 N 次 LLM,虽然可以并行,但总调用次数是O(N)
  • Pairwise方法为了比较所有文档对,复杂度高达O(N²),计算成本极高。
  • Listwise方法受限于滑动窗口,复杂度为O(r * (N/s)),并且通常是串行处理,延迟很高。
  • Groupwise方法,将 N 个文档分成大小为 c 的组,总调用次数仅为O(N/c),并且支持批处理(Batching)。这意味着它在理论复杂度和实际并行能力上都取得了显著优势,是目前最高效的范式之一。

消融实验:SFT 和 RL,一个都不能少

为了证明两阶段训练范式和异构奖励函数中每个组件的有效性,作者在 BRIGHT 基准上进行了一系列消融实验。

BRIGHT 基准上的消融研究

结果非常清晰:

  1. 完整模型 vs. 基线:完整的 GroupRank(42.18分)远超仅使用检索器的基线(36.93分),证明了其强大的排序优化能力。
  2. w/o RL (只用 SFT):性能下降到 40.70。这说明 SFT 虽然提供了良好的起点,但缺乏对最终排序指标的直接优化。RL 的端到端微调是通往卓越性能的“最后一公里”。
  3. w/o SFT (只用 RL):性能骤降至 38.17。这说明如果没有 SFT 进行“冷启动”,让 RL 从零开始在巨大的策略空间中探索,效率极低且不稳定。SFT 为 RL 提供了一个高质量的“初始策略区”。
  4. w/o Ranking Reward / w/o Distribution Reward:移除排序奖励或分布奖励都会导致性能下降,尤其是前者。这验证了文章提到的,排序奖励是驱动模型“学会如何排序”的核心动力,而分布奖励则作为一种有效的正则化手段,防止模型“投机取巧”,保证了分数的合理性。

进阶技巧:滑动窗口与多次预测的影响

为了进一步探究 GroupRank 的性能上限,文章还实验了一些测试时增强策略(Test-Time Scaling),如下表所示。

在 BRIGHT 基准上的附加实验

这里的策略类似于一种“集成学习”:

  • 滑动窗口(w sliding windows):将 100 个文档以步长为 10、窗口为 20 的方式分组,让每个文档有机会和不同的“邻居”进行比较,增强了排序的鲁棒性。
  • 多次预测(N):多次随机打乱文档分组进行预测,然后取平均分。

实验表明,无论是哪种策略,增加计算量(即预测次数 N)都能稳定提升性能。最终,在使用滑动窗口并进行 6 次预测时,模型在 BRIGHT 基准上取得了 46.82 的平均分,创造了新的 SOTA 记录。

五、实验结果:刷新三大榜单,实力证明一切

GroupRank 在三大主流基准测试 BRIGHT、R2MED 和 BEIR 上都展示了其卓越的性能。

BRIGHT & R2MED:在推理密集型任务中登顶

BRIGHT 和 R2MED 是两个对模型推理能力要求极高的基准。

BRIGHT 基准测试结果

R2MED 基准测试结果

如上两表所示,无论是在通用推理领域(BRIGHT)还是在专业的医疗领域(R2MED),GroupRank-32B 模型均以显著优势超越了所有先前的 SOTA 模型(如 Rank-K 和 ReasonRank),刷新了排行榜记录。更令人印象深刻的是,7B 版本的 GroupRank 在多数情况下甚至优于其他模型的 32B 版本,这充分展示了 GroupRank 架构本身的高效性和先进性。

BEIR:在传统检索任务中同样具备强大泛化能力

为了验证其通用性,作者还在传统的 BEIR 基准上进行了测试。

BEIR 基准测试结果

结果显示,GroupRank-32B 的平均分(55.09)再次大幅超越所有对手,证明了其合成数据流水线和分组训练方法不仅适用于复杂的推理任务,在通用的文本检索场景中也同样具有强大的竞争力。

六、未来工作与思考

GroupRank 的成功为 RAG 系统的优化开辟了新的道路。论文展望,未来可以探索成本更低的数据合成方法,并将 Groupwise 的思想推广到更广泛的信息检索和推荐任务中。

  • 分治与协作的平衡:Groupwise 范式本质上是一种“分治”(将大列表拆分为小组)与“协作”(在组内进行比较)的结合,这种思想在许多大规模计算问题中都非常有效。
  • 数据驱动与算法设计的双轮驱动:强大的算法(GroupRank)需要高质量的数据来喂养,而精妙的数据工程(合成流水线)则能最大化算法的潜力。两者相辅相成,缺一不可。
  • RL 在排序任务中的价值:通过精心设计的奖励函数,强化学习可以直接优化最终的业务指标(如 NDCG),这是传统监督学习难以做到的。GroupRank 的异构奖励设计为我们提供了一个优秀的范例。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询