随州市网站建设_网站建设公司_后端工程师_seo优化
2025/12/21 21:35:35 网站建设 项目流程

中国科学技术大学与上海人工智能实验室联合研究基于Qwen2.5全系列模型(0.5B-72B)进行66组控制变量实验,首次系统探究RL后训练扩展定律。研究发现测试损失与计算量、数据量呈对数线性关系,可总结为幂律公式;同时定量揭示强化学习效率随参数量增加而趋于饱和的现象,参数量超14B后效率增长明显放缓。该研究为开发者优化大模型推理性能提供了关键理论指导。


为了探究强化学习后训练阶段的扩展定律,研究人员基于 Qwen2.5 全系列(0.5B-72B)的 66 组实测数据进行了大量实证分析,并得出了关于模型性能与参数量、计算量和数据量之间的幂律公式。

该研究填补了在多种参数量背景下 RL 后训练 Scaling Law 的空白,并基于公式验证了训练轨迹的双重可预测性,并首次定量揭示了强化学习的学习效率饱和现象。

正文

随着 OpenAI o1 和 DeepSeek-R1 的惊艳亮相,强化学习(RL)后训练(Post-training)已成为大模型通往高阶推理能力的必经之路。

但在这一新兴领域,开发者们正面临着缺乏系统的理论指引的困境。不同于预训练阶段成熟的 Scaling Law,RL 后训练阶段的许多关键工程挑战仍悬而未决。

研究人员将相关挑战形式化为了以下三组约束优化问题,以探索模型性能(Test Loss ,即1-PassRate)与模型参数量,训练计算量 和训练数据量 之间的关系:

算力受限场景 :

数据受限场景 :

数据复用场景:

τ

为了回答这些关键工程问题,中国科学技术大学联合上海人工智能实验室的研究团队带来了一项系统性的实证研究:

论文:Scaling Behaviors of LLM Reinforcement Learning PostTraining: An Empirical Study in Mathematical Reasoning 链接:https://arxiv.org/abs/2509.25300v2 代码:https://github.com/tanzelin430/Mathematical-Reasoning-RL-Scaling-Law

我们基于Qwen2.5 全系列模型(0.5B 到 72B),进行了 66 组 严谨的控制变量实验,从算力、数据、参数量三个维度,跨越了 100 倍的模型参数量,系统性刻画了 RL 后训练在数学推理任务上的 Scaling 行为。

对实验结果的分析表明,RL 后训练的 Test Loss 与后训练所用资源 (计算量或数据量)之间呈现对数线性关系,并且可以总结为一个具有性能预测能力的公式模型:

本研究还首次定量揭示了强化学习效率的饱和现象:随着模型参数量的增加,学习效率并非线性增长,而是逐渐趋于饱和。这意味着在 RL 阶段,单纯堆砌参数量带来的效率提升是有理论极限的。

  1. 核心发现:RL 后训练的幂律公式
    ====================

在这项研究中,我们使用 GRPO 算法对各参数量的Base/Instruct模型进行强化学习微调,每个实验都用不同的随机种子重复了三次以增加实验的鲁棒性。为了进一步确保实验结论的严谨性,团队还对数据进行了精细化处理:

  • 训练数据: 采用了guru-RL-92K[1]数据集,该数据集是一个多领域强化学习训练数据集,包含数学、代码、科学、逻辑、模拟、表格六大领域。我们从中选取了约 50,000 条 数学数据用于训练,这些数据经过严格的去重处理,并根据 Qwen2.5-7B-Instruct 模型的通过率进行了难度排序。
  • 测试数据: 为了准确衡量 Scaling 行为,我们从训练分布中单独划分出了500 条数据作为 Held-out 测试集,严格保持了原有的难度分布。研究人员在附录表4中给出了对该评测集的测试,测试结果表明GPT-OSS-120B在该测试集上的通过率仅有66%,绝大部分开源模型(如Qwen3)通过率低于50%。

实验结果显示,在 RL 后训练阶段,测试集上的 Loss 与计算量( )及数据量( )之间遵循严格的对数线性关系。基于此,研究提出了针对 RL 后训练的 Scaling Law幂律公式

(其中 代表算力或数据, 为学习效率系数)

研究人员随即从跨模型预测(即通过小模型的训练来预测大模型的学习效率)和模型内轨迹预测(即从初始训练数据推测后续训练走势)两个角度探究了该公式的预测能力:

1.跨模型预测(以小见大): 利用小模型拟合出的公式参数,可以推算出更大模型的学习效率。

2.模型内轨迹预测(睹始知终): 仅利用模型训练的初期数据,即可拟合出后续的 Loss 下降曲线,预测剩余训练过程的走势。

Scaling Law 的预测能力展示。无论是跨模型尺寸预测(Inter-model)还是单模型训练轨迹预测(Intra-model),拟合曲线都与真实数据高度重合

  1. 效率饱和:强化学习效率与模型规模的定量关系
    =========================

基于大量的实证分析,本研究还定量刻画了公式中的学习效率项 随模型参数量的变化关系。

实证分析表明,学习效率的增长并非线性,而是呈现出显著的饱和趋势。研究发现学习效率的增长趋势服从类似酶动力学中的“米氏方程”形式,先开始会快速上涨,过了某一模型参数量 之后就会逐渐饱和。

这一发现量化了模型规模边际效应的递减。如下图所示,虽然参数量越大的模型学习效率越高,但在模型达到一定规模后,增长速度明显放缓,趋向于理论极限: :

学习效率系数随模型尺寸的变化。可以看到,在不同的预测模式的设置下的拟合曲线非常相似,且在模型参数量高于14B之后学习效率从参数量中所获得的增长放缓,呈现饱和特征

这种效率饱和现象会导致在训练较大参数量模型 (在我们的实验中,高于14B)的时候存在一个trade-off

由于 72B 与 32B 的学习效率差异缩小,但单步计算成本差异巨大,导致在受限算力预算(Compute-Constrained)下

  • 算力受限时: 选择参数量适中但能进行更多步数优化的模型(如 32B),可能比训练步数严重不足的超大模型(72B)获得更低的 Loss,如图一所示。
  • 算力充裕时: 只有当算力足以支撑大模型跑完足够的步数时,大模型的效率优势才能转化为最终的性能优势。
  1. 数据策略:数据复用(Data Reuse)的有效性
    =============================

针对高质量推理数据稀缺的问题,研究者探究了数据复用策略的有效性。实验设定固定总的训练量(Total Steps),改变数据的复用次数 (即 Epoch 数)。

固定总训练数据量情况下,不同数据复用次数对最终 Loss 的影响。

实验数据表明,在数据受限场景下,最终模型性能主要取决于总优化步数。当复用次数 时,模型性能未见明显衰减。这意味着,在数据受限时,对少量高质量数据进行多轮重复训练是可行的策略,直到复用次数极高(如 100 次)时才会因过拟合导致性能下降。

  1. 综合评估:SOTA 对比、响应长度与泛化性
    =========================

为了进一步验证 RL 训练的有效性与模型行为的变化,文章还进行了多维度的综合评估。

1. SOTA 模型对比验证

我们将 RL 后训练的 Qwen2.5 系列模型与当前的 SOTA 模型(如 Qwen3, GPT-OSS)在 Held-out 测试集上进行了对比。结果显示,经过 RL 训练的 Qwen2.5-32B 和 72B 模型,在同等规模下匹配甚至超越了 Qwen3 的 Dense 版本,验证了该训练流程的有效性。

最终性能与模型参数量大小的关系,包含本研究所涉及的各参数量模型以及当前的部分SOTA模型

2. 泛化性测试 (In-domain vs. OOD)

在泛化能力方面,实验测试了模型在未见过的数学任务(In-domain)以及代码、逻辑推理等任务(Out-of-domain)上的表现:

  • In-domain(数学): 在 GSM8K, MATH, AIME 等任务上,性能随训练持续提升,表现出良好的泛化性。
  • Out-of-domain(逻辑/代码): 实验发现,深度优化数学能力虽然可以带来代码能力上的提升,但也可能会对逻辑推理(如 Zebra Puzzle)等其他能力造成一定干扰,暗示了特定领域 RL 训练可能带来的“能力倾斜”问题。

在Qwen2.5-72B-Instruct模型上的强化学习后训练模型领域内及领域外泛化性测试

这项基于 Qwen2.5 全系列模型的研究,不仅给出了一个能预测RL 后训练阶段模型性能跟参数量、计算量、数据量之间关系的扩展定律,更揭示了强化学习的学习效率和参数量之间“效率饱和”的量化依据。

随着推理模型竞争的加剧,理解并应用这些规律,结合有效的数据复用策略,将成为开发者在有限资源下最大化模型推理性能的关键路径。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询