齐齐哈尔市网站建设_网站建设公司_内容更新

作者：作者：初七123334
https://zhuanlan.zhihu.com/p/1984379979035850499

英文版

https://hijkzzz.notion.site/online-ice-pop

在 LLM 的后训练（Post-training）阶段，MoE（Mixture-of-Experts）模型凭借其稀疏激活的特性，在推理效率和模型容量之间取得了极佳的平衡。然而，在进行 PPO 等强化学习训练时，MoE 架构却带来了一个棘手的稳定性难题。

本文将探讨一种结合了蚂蚁百灵团队 IcePop 算法与 Qwen 团队 MiniRL (Online Policy Gradient) 发现的组合策略——Online IcePop。这套方案不仅能有效稳定 MoE 的训练，还能让我们抛弃复杂的 Router Replay 机制。

为什么 MoE 的 RL 训练如此不稳定？在 PPO（Proximal Policy Optimization）这类 Off-policy（或者说近似 On-policy）算法中，我们通常依赖重要性采样（Importance Sampling, IS）来修正旧策略（Behavior Policy）与当前策略（Target Policy）之间的偏差。IS 权重ρt\rho_tρt定义为

ρt=πnew(at∣st)πold(at∣st) \rho_t = \frac{\pi_{\text{new}}(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}ρt=πold(at∣st)πnew(at∣st)

对于 Dense 模型，策略的变化通常是平滑的。但对于 MoE 模型，情况截然不同：

Router Logits 的微小扰动：训练过程中，Router 的输出 Logits 只要发生微小变化，就可能导致选中的 Experts 发生离散的跳变。
概率剧变：一旦 Expert 选择发生变化，πnew\pi_{\text{new}}πnew和4πold4\pi_{\text{old}}4πold在特定路径上的概率比值就会发生剧烈波动。这种波动会导致 Importance Sampling Weights 出现极端值，进而导致梯度更新方差过大，模型训练发散。

为了解决这个问题，业界之前往往不得不采用 Router Replay（在更新时重新计算旧数据的 Router 路径）等复杂且计算昂贵的手段。

针对 IS 权重剧变的问题，蚂蚁百灵团队在论文 IcePop: An Effective Method for MoE Stability 中提出了一种优雅的解法。

https://arxiv.org/pdf/2510.18855

截断重要性采样（Truncated Importance Sampling）用于校正 vLLM （推理引擎）和 FSDP （训练引擎）之间的精度误差。但这对于 MoE 来说还不够。IcePop 的核心思想是在此基础上增加了一个 Mask 操作：

核心机制：当 Importance Sampling Weight 超出预设的阈值范围时，IcePop 不仅仅是将其截断，而是直接将其 Mask 掉（视为无效样本或零贡献）。

这种做法看似激进，实则精准地剔除了那些因为 Expert 突变导致“统计上不可信”的样本，极大地降低了估计器的方差。

仅仅处理推理引擎和训练引擎之间的误差还不够，如果不从源头上减少策略偏差，训练依然可能低效。

Qwen 团队在最新的研究 Online Policy Gradient for MoE 中发现了一个关键结论：发现：对于 MoE 类模型，使用纯 Online Policy Gradient（即去掉 PPO 的 Mini-batch 多次迭代，采用类似 A2C 的单次更新模式）对于提升稳定性至关重要。

当我们将 Buffer 中的数据反复训练（Replay）时，MoE 的 Router 分布往往已经漂移，导致 Off-policy 的 gap 越来越大。采用纯 Online 模式，确保了πold\pi_{\text{old}}πold和πnew\pi_{\text{new}}πnew几乎一致，从源头上减少了 Router 行为的差异。

https://arxiv.org/pdf/2512.01374

基于上述两项工作，我们总结出了一套针对 MoE RL 训练的“黄金组合”：Online IcePop。

具体做法：

移除 PPO 的 Mini-batch 循环：放弃传统的 Epochs 迭代，采用纯 Online 模式，数据采样后立即更新，更新完即丢弃。
应用 IcePop Masking：在计算 Loss 时，应用 IcePop 的逻辑，对所有超出阈值的 IS Weights 进行 Mask 处理。

主要收益：

极佳的稳定性：Online 模式保证了策略偏差最小化，IcePop 兜底处理了极端情况下的方差爆炸。
工程极简（No Router Replay）：由于我们采用了 Online 模式且有 IcePop 保护，我们不再需要耗费显存和算力去进行 Router Replay（即重新过一遍 Router 计算 Logits）。这大大简化了训练代码的复杂度，并提升了吞吐效率。

齐齐哈尔市网站建设_网站建设公司_内容更新_seo优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

齐齐哈尔市网站建设_网站建设公司_内容更新_seo优化

热门文章

文章分类

标签云

相关文章

Agent任务丢弃率降低80%，，揭秘头部物流企业背后的链路追踪与QoS策略

OpenMTP：macOS与Android文件传输的终极解决方案

Android模糊效果终极指南：3步让你的应用拥有iOS级视觉质感

需要专业的网站建设服务？