达州市网站建设_网站建设公司_VS Code_seo优化
2026/1/21 11:03:47 网站建设 项目流程

LLM 论文千千万,有用的工作却没几篇。这篇文章,我想简单讨论下到底该如何把后训练工作做的 solid。文章并没什么技术细节,大家随便看看。

01

敲定正确的 Baseline

有太多论文工作不置信的根因就是没有选对 baseline。

以 length penalty 为例,选择一个有着 30% 截断率的 sft 模型,不加任何控长策略的 rl 作为 baseline,然后顶着 30% 的截断率去做带有控长策略的实验。

在这种 setting 下,实验组里 30% 的数据既有一个 max_response_length 的推理 buffer 策略,又有我们设计的 length penalty 策略。

模型的长度变短了,我们下结论说是 length penalty 策略有效了,这 solid 吗?

因为模型的输出长度变短了,所以 32K 的指标变得更高,但这个模型的推理长度从 32K 扩展到 64K 后却毫无提升。

而原本没有控长策略的 baseline 实验,虽然在 32K 的时候,由于截断很高导致指标很低。

但当推理长度从 32K 扩展到 64K 后指标却有大幅度提升,64K 指标甚至明显高于实验组,这种牺牲上限换取的指标提升,真能说明控长策略有效吗?

还有一类典型的不太 solid 的工作就是对 token clip 进行精雕细琢,这些工作往往都没去分析在 on-policy 的情况下的训练会是什么样的情况。

如果用自己提出的方法去和 [1 - 0.2, 1 + 0.2] 比较,那和与 random 选阈值策略进行对比又有什么区别呢?

token clip 的工作应该是如何让 off-policy 策略无限接近于 on-policy 的效果,并且去证明为什么这个策略好于固定的阈值。

此外,如果 on-policy 都会出现的崩溃现象,被 off-policy + clip_token 给解决了,那情况更加糟糕,只能说明这个策略是为这个模型、这份数据、这个 topic 量身制定的,毫无泛化意义。

综上,我们需要有一个好的 baseline 去支撑后续的实验结论:答案正确且易验证结果的数据,接近百分之百准确的判分模型,完全 on-policy,尽最大可能保证训推一致,给较大的 max_response_length 保证没有长度打压,不引入任何帮助稳定训练的正则项。

先看一看,这个理论上不会出错的实验,它能跑多远,它跑起来是什么样子的。

如果它跑不起来,或者跑不了太远,就说明框架是存在 Bug 的,或者我们的冷启动数据、RL 数据存在明显的缺陷。那就需要先把基础工作搞定,再深入研究策略问题。

有了一个稳定能跑起来的 baseline 后,就可以一点点的去添加点缀了。

mini-batch,partial-rollout,async_infer,这些会导致 off-policy 的策略挨个去尝试,看看一个优秀的 baseline 是怎么随着 staleness 逐渐变大而变得崩溃,再去想办法修复好因为 staleness 增大引起的训练崩溃。

概括下来就是三步走:跑出完美的实验,一步步破坏它,再一步步修好它 —— 这个过程中得到的认知成长与实验结论,可称 solid。

02

少用 sense 挑战 math

大多数的算法程序员都是一个半道出家的 RLer,第一次接触的 RL 算法就是 PPO 或 GRPO,并没有认真学习过 Policy Gradient 算法的发展史。

这就导致大家总喜欢用一个 make sense 的方案去挑战有着严格 math 证明的RL 算法。

例如:

  • 难题就应该得到更大的 loss/reward;
  • However、But 这种“思考” token 应该得到更多的关注,重点训或只训它们;
  • pass@K 算 reward 比 pass@1 reward 更合理;
  • 在某个指标变化幅度过大(如 entropy,kl)的时候,调整某个参数来强行将该指标拉回正轨;
  • ……

我相信这些方法一定能最快解决当前实验的痛点,但它们完全不具有可迁移性。

换个数据,换个底座,所有的结论全崩塌了,就算不崩塌也需要重新摸索阈值。

换言之,math 驱动的实验是 solid 的,sense 驱动的实验则是救火的:

sense 驱动:观察到了一个现象,设计了一个比较 make sense 的改动点,做实验。

效果有提升则总结成新算法,效果无提升就算了,或者思考一下不提升的原因,重新设计改动;

math 驱动:观察到了一个现象,设计了一个比较 make sense 的改动点,推导公式,通过公式去预估自己的改动会影响哪些训练指标,做实验观察是否符合预期。

符合预期,则根据公式去修改一些变量继续做实验,验证公式的鲁棒性;不符合预期,则去重新建模理论公式,分析问题出在哪里。

指标压力不那么大的时候,做那些不可迁移的 make sense 的工作,远不如花点时间去深究下 math 原理。

LLM 产生一个 sentence 的过程是一个自回归语言建模,entropy 的计算公式是:

kl 的计算公式是:

policy gradient 算法的公式在那里放着,grad 的计算人人都会,adamw 的公式里也清楚写着当前 sentence 的梯度是如何在影响模型参数更新的。

把这一堆的公式串联起来,在适当的地方进行数学建模,实在搞不明白原理的地方就引入一些传说中的“核函数”,我们完全可以给出一个公式去证明“某个改动是如何影响某个训练指标的”。

就像 qwen 在 MiniRL 论文里给出“用 sentence level reward 逼近 token level reward 的关键条件就是训推一致”的建模,证明过程并不复杂,但却为整篇论文添彩不少。

Gemini-3 与 GPT-5 已经足够强大, 只要 prompt 写的明确,它们的数学建模能力与公式推导能力,足够帮助大家完成这种简单的理论推导。

我们只需要再推导一遍看看是否正确,把自己看不懂或觉着有问题的地方指出来,它们是可以自我修正的。

乘着 deepseek 的东风,GRPO 几乎成为了大家默认的 RL 算法,但随着时间演变,deepseek 在最新的技术报告里也选择将 GRPO 算法退化成了 RLOO 算法(略有区别),在估计 reward 的时候不再除以“标准差”。

这种演变几乎是必然的,因为 RLOO 的论文里明确指出过,RLOO 的估计方式是“an unbiased estimate of the expected return”,而 GRPO 更像是一种比较 make sense 的算法设计。

另外一个 math > sense 的例子便是 KL loss 了,关于该不该在 RL 中引入 KL loss 是一个讨论比较多的话题。

归其根源,是 PPO 论文中压根就没有明说这个 KL loss 有必须存在的意义:PPO 的前身 TRPO 论文里满篇都是数学公式,去证明了TRPO 算法中的 KL 是优化过程中的 trust region;

与之相对,PPO 算法中的trust region 来自于 ratio clip,它的KL loss 只是一个控制优化幅度的正则项,更像是一个习惯性做法。

03

大小模型的结论谨慎迁移

实践中,一个比较让人绝望的现象在于:dense 模型的结论无法迁移到 moe 模型上,小模型的结论无法迁移到大模型上。

目前的论文工作大多都围绕着 qwen-4B、qwen-7B 开展,一旦放到 qwen-A3B 上便无法复现,qwen-A3B 的结论同样很难迁移到 qwen-A22B 上。

这个现象很诡异,但似乎也合理,用同样的教学理念教一个小学生和教一个大学生的确会得到不同的反馈。

类似的,蒸馏强有力模型的思维链往往都能有不错的指标,但 gemini-3 似乎是个例外,对于这种 T 级别(据传)的学霸模型来说,它极高的 token 效率似乎不太合适 B 级别的模型来学习。

qwen 的 MiniRL 论文里曾说过:不同的冷启动数据去做强化,最终指标都会收敛到一个几乎相同的高度。

实验是在 Qwen3Next MoE 上做的,很可惜这个观点在大模型上完全不可复现。

我也在 qwen-A3B 上跑过很多实验,用过很多 cold start 数据、rl 数据、乱七八糟的算法,只要实验不崩,它的 AIME 永远收敛到 85 分左右。

但是在大模型上,无论是切换 cold start 数据还是 rl 数据,收敛后的指标差距都是非常明显的。

也许,小模型的上限就是更好触达一些。又也许, AIME 这种随便训训就能 80+ 的测试集,早已不适合衡量推理模型的能力了。

找个 HLE 难度的测试集,A3B 模型的表现大概只有 10 分左右,不同数据 setting 下的实验应该还是能看出一些差距的。

话说回来,虽然实验现象往往大相径庭,但并不是说小模型的实验没有意义,前面提到的“故意训崩一个模型,再拯救一个训崩的模型”是适用于任何尺寸的模型的,这个过程可以培养我们的 debug 能力与对 RL 算法的灵敏嗅觉。

所以,小模型就是一个实验场,围绕着小模型开展的实验就是公司在花钱去锻炼我们的算法素养,为的是让我们的脑子变得灵光,从而在训大模型的时候少走一点弯路、节省一些算力。

盲目的迁移或迷信小模型的结论,某种意义上也是一种实验不 solid 的体现。

至少,在某个理论工作证明出大小模型后训练能力的迁移遵循哪种 scaling law 之前,是这样的。

04

simple yet effective

过去一年在纯语言模型领域,几乎只有两个工作是得到了业界所有同行的认可:上半年的利用 ORM 提升模型推理能力,下半年的利用 TIS / IcePop 保证训推一致性,都是 simple yet effective 的完美代言。

这里,我们重点回顾一下训推不一致:

  • 2024 年所有同行就都知道 vllm、model.generate、megatron 前向算子,这之间的结果有较大差异;
  • 2025 年从 TIS 提出到 ICEpop 的这段时间内,几乎所有同行者都能想到 IcePop 的方案。

大家都曾有机会提出这两个算法,但把握住机会的就是那两篇 Notion 分享,行动力强、实验严谨、理论扎实,两个团队配得上大家的赞扬。

话说回来,连 TIS 这种 simple 的 idea 都埋没了一年才被广而告之,围绕着 LLM 的 policy gradient 算法必有宝藏等着大家去挖掘。

从经验上来说,如果某个工作的核心步骤不是两句话能概括出来的,那这个工作似乎离雕花标签也不远了。目前的 LLM,找不到什么 solid 的工作是不 simple 的。


说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询