齐齐哈尔市网站建设_网站建设公司_内容更新_seo优化
2025/12/18 18:37:28 网站建设 项目流程

作者:作者:初七123334
https://zhuanlan.zhihu.com/p/1984379979035850499

英文版

https://hijkzzz.notion.site/online-ice-pop

在 LLM 的后训练(Post-training)阶段,MoE(Mixture-of-Experts)模型凭借其稀疏激活的特性,在推理效率和模型容量之间取得了极佳的平衡。然而,在进行 PPO 等强化学习训练时,MoE 架构却带来了一个棘手的稳定性难题

本文将探讨一种结合了蚂蚁百灵团队 IcePop 算法与 Qwen 团队 MiniRL (Online Policy Gradient) 发现的组合策略——Online IcePop。这套方案不仅能有效稳定 MoE 的训练,还能让我们抛弃复杂的 Router Replay 机制。

为什么 MoE 的 RL 训练如此不稳定?在 PPO(Proximal Policy Optimization)这类 Off-policy(或者说近似 On-policy)算法中,我们通常依赖 重要性采样(Importance Sampling, IS) 来修正旧策略(Behavior Policy)与当前策略(Target Policy)之间的偏差。IS 权重ρt\rho_tρt定义为

ρt=πnew(at∣st)πold(at∣st) \rho_t = \frac{\pi_{\text{new}}(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}ρt=πold(atst)πnew(atst)

对于 Dense 模型,策略的变化通常是平滑的。但对于 MoE 模型,情况截然不同:

  • Router Logits 的微小扰动:训练过程中,Router 的输出 Logits 只要发生微小变化,就可能导致选中的 Experts 发生离散的跳变。
  • 概率剧变:一旦 Expert 选择发生变化,πnew\pi_{\text{new}}πnew4πold4\pi_{\text{old}}4πold在特定路径上的概率比值就会发生剧烈波动。这种波动会导致 Importance Sampling Weights 出现极端值,进而导致梯度更新方差过大,模型训练发散。

为了解决这个问题,业界之前往往不得不采用 Router Replay(在更新时重新计算旧数据的 Router 路径)等复杂且计算昂贵的手段。

针对 IS 权重剧变的问题,蚂蚁百灵团队在论文 IcePop: An Effective Method for MoE Stability 中提出了一种优雅的解法。

https://arxiv.org/pdf/2510.18855

截断重要性采样(Truncated Importance Sampling)用于校正 vLLM (推理引擎) 和 FSDP (训练引擎)之间的精度误差。但这对于 MoE 来说还不够。IcePop 的核心思想是在此基础上增加了一个 Mask 操作:

核心机制:当 Importance Sampling Weight 超出预设的阈值范围时,IcePop 不仅仅是将其截断,而是直接将其 Mask 掉(视为无效样本或零贡献)。

这种做法看似激进,实则精准地剔除了那些因为 Expert 突变导致“统计上不可信”的样本,极大地降低了估计器的方差。

仅仅处理推理引擎和训练引擎之间的误差还不够,如果不从源头上减少策略偏差,训练依然可能低效。

Qwen 团队在最新的研究 Online Policy Gradient for MoE 中发现了一个关键结论:发现:对于 MoE 类模型,使用纯 Online Policy Gradient(即去掉 PPO 的 Mini-batch 多次迭代,采用类似 A2C 的单次更新模式)对于提升稳定性至关重要

当我们将 Buffer 中的数据反复训练(Replay)时,MoE 的 Router 分布往往已经漂移,导致 Off-policy 的 gap 越来越大。采用纯 Online 模式,确保了πold\pi_{\text{old}}πoldπnew\pi_{\text{new}}πnew几乎一致,从源头上减少了 Router 行为的差异。

https://arxiv.org/pdf/2512.01374

基于上述两项工作,我们总结出了一套针对 MoE RL 训练的“黄金组合”:Online IcePop。

具体做法:

  • 移除 PPO 的 Mini-batch 循环:放弃传统的 Epochs 迭代,采用纯 Online 模式,数据采样后立即更新,更新完即丢弃。
  • 应用 IcePop Masking:在计算 Loss 时,应用 IcePop 的逻辑,对所有超出阈值的 IS Weights 进行 Mask 处理。

主要收益:

  • 极佳的稳定性:Online 模式保证了策略偏差最小化,IcePop 兜底处理了极端情况下的方差爆炸。
  • 工程极简(No Router Replay):由于我们采用了 Online 模式且有 IcePop 保护,我们不再需要耗费显存和算力去进行 Router Replay(即重新过一遍 Router 计算 Logits)。这大大简化了训练代码的复杂度,并提升了吞吐效率。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询