来源:DeepTech深科技
运营/排版:何晨龙
2025 年 9 月,DeepSeek-R1 论文以封面文章的形式登上 Nature 杂志,成为全球首个通过顶级期刊独立同行评审的主流大语言模型。从 2 月 14 日投稿到 9 月 17 日正式发表,8 位外部专家历时 5 个月对论文的原创性、方法论和稳健性进行了严格审查。Nature 在编辑评论中直言:几乎所有主流大模型都未曾经历过独立同行评审,而 DeepSeek 打破了这一空白。
让人没想到的是,最近 DeepSeek 还能把这种透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了这篇论文的第二版,页数从 22 页暴增至 86 页,把此前藏在黑箱里的训练流程、基础设施、消融实验、中间检查点,乃至失败尝试,统统向外界进行了展示。
图丨相关论文(来源:arXiv)
那么,这 86 页究竟比原来的 22 页多出了什么?(关于基准测试结果等初版论文已涉及的部分,我们不再赘述)
GRPO 算法与 RL 基础设施
初版论文对 Group Relative Policy Optimization(GRPO,群组相对策略优化)的介绍相当克制,仅给出核心公式。新版用数页篇幅展开对比分析,解释 GRPO 何以能替代传统的 Proximal Policy Optimization(PPO,近端策略优化)。
PPO 在大模型强化学习中应用广泛,但有个麻烦:它需要训练一个与策略模型规模相当的价值模型来估计优势函数,计算开销很大。更棘手的是,价值模型要根据已生成的部分内容预测最终累积奖励,这对长链推理来说几乎不可行——模型可能在生成过程中反复修正、自我否定,早期内容和最终答案之间的关联性很弱。
GRPO 的做法是干脆不要价值模型。对每个问题采样 16 个输出,用组内奖励的均值和标准差做归一化,得到每个输出相对于同组其他输出的优势估计。这种“组内排名”的思路规避了跨时间步的价值预测,既节省内存,又适配长链推理场景。论文给出的对比实验显示,在 MATH 任务上,PPO 需要仔细调参(特别是 GAE 中的 λ 系数)才能接近 GRPO 的效果,而 GRPO 开箱即用。
图丨 PPO 与 GRPO 的演示(来源:arXiv)
新版论文还首次披露了 RL 训练基础设施的完整架构。系统分为四个模块:Rollout 模块用 vLLM 工作节点批量采样响应;Inference 模块加载奖励模型和参考模型做前向推理;Rule-based Reward 模块计算代码执行、答案匹配等规则奖励;Training 模块完成策略更新。四个模块之间采用异步调度和显存动态卸载策略。
为加速采样,Rollout 模块还用了 Multi-Token Prediction(MTP,多 token 预测)组件做自投机解码,缩短最长样本的生成耗时。考虑到 DeepSeek-R1-Zero 训练时每个问题要采样 16 个输出、单次训练步包含 32 个独立问题,这种工程优化对整体效率的提升不小。
训练成本方面,新版终于给出了明确数字:DeepSeek-R1 的增量训练成本约 29.4 万美元。R1-Zero 训练使用 648 块 H800 GPU,耗时约 198 小时,成本约 20.2 万美元;SFT 数据创建约 1 万美元;R1 后续训练约 8.2 万美元。这不包含 DeepSeek-V3-Base 基座模型的训练成本(约 556.6 万美元),但即便全部加总,也远低于行业认为的顶级模型训练动辄数千万美元的门槛。
图丨DeepSeek-R1 的训练成本(来源:arXiv)
四阶段训练流水线与中间检查点
初版论文只描述了从 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中间过程语焉不详。新版引入了 Dev1、Dev2、Dev3 三个中间检查点,完整呈现了四阶段训练流水线。
图丨DeepSeek-R1 的多阶段流程。(来源:arXiv)
第一阶段是 R1-Zero 的纯 RL 训练。基于 DeepSeek-V3-Base,完全不用监督微调(SFT,Supervised Fine-Tuning),仅依靠正确性奖励和格式奖励引导模型自主探索推理策略。这一阶段的核心发现是所谓的“Aha Moment”:在某个训练节点,模型突然大量使用“wait”这个词进行自我反思。
论文统计了 10 个代表性反思词汇(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出现频率,发现这些词汇在训练过程中增长了 5 到 7 倍。“wait”的变化尤其有意思:训练早期几乎不出现,4,000 到 7,000 步偶尔使用,8,000 步之后显著跃升。
图丨DeepSeek-R1-Zero 在 MATH 数据集中不同难度问题上的性能表现(来源:arXiv)
第二阶段是冷启动 SFT 加第一轮 RL。团队收集了数千条展示对话式、人类友好思考过程的冷启动数据,解决 R1-Zero 可读性差、语言混杂的问题。RL 训练时引入了语言一致性奖励,计算目标语言词汇在思维链中的占比。消融实验表明,这个奖励会导致推理性能轻微下降(特别是在代码任务上),但显著改善了输出可读性。
第三阶段是拒绝采样与大规模 SFT。从第一轮 RL 的检查点进行拒绝采样,生成约 60 万条推理数据,加上约 20 万条来自 DeepSeek-V3 流水线的非推理数据(写作、问答、角色扮演等),组成 80 万样本的 SFT 数据集。这一阶段的关键在于平衡推理能力和通用能力,单纯的推理 RL 会让模型在写作、开放域问答上表现欠佳。
第四阶段是全场景 RL,整合基于规则的推理奖励和基于偏好模型的通用奖励。论文提醒,基于偏好模型的奖励只在最后 400 步引入,过早或过长使用会导致奖励作弊(reward hacking)现象。
性能对比显示,从 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)显著提升,但 AIME 数学竞赛分数有所下降,这是冷启动数据规模有限的代价;从 Dev1 到 Dev2,推理性能恢复并超越 R1-Zero;到 Dev3 和最终版本,各维度都达到最优。
蒸馏与强化学习的对比,以及一些关键发现
新版论文最核心的补充之一,是关于蒸馏与强化学习的对比实验。
团队在 Qwen2.5-32B-Base 上进行了超过 10,000 步的大规模 RL 训练,得到 Qwen2.5-32B-Zero。这个模型的性能与 QwQ-32B-Preview 相当,但显著落后于从 DeepSeek-R1 蒸馏而来的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 为例,蒸馏模型的 Pass@1 达到 72.6%,RL 训练模型只有 47.0%。
结论显示,对于中小规模模型,蒸馏比从头 RL 训练更具性价比。论文的原话是,蒸馏策略既经济又有效,但要突破人类智能的边界,可能仍需要更强大的基座模型和更大规模的强化学习。
另一组实验在 Qwen2-Math-7B 上进行。这个模型在 2024 年 8 月发布,早于 OpenAI o1,确保基座没接触过任何推理轨迹数据。经过约 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表现(22.3%)显著超过 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。这说明纯 RL 确实能让模型自主发展出高级推理策略,而非简单模仿人类示范。
新版论文还披露了几条早期的关键发现。团队尝试过 7B Dense 和 16B MoE 模型作为 RL 训练基础,但这些配置在 AIME 上始终无法取得有意义的提升。小模型在响应长度增加时表现出强烈的重复倾向,无法有效利用长链推理。直到切换到 32B Dense、230B MoE 和 671B MoE 等更大规模架构,才观察到实质性提升。这暗示推理能力的涌现可能存在某种规模门槛。
关于数据来源,论文在同行评审文档中回应了“蒸馏 OpenAI”的质疑:DeepSeek-V3-Base 的预训练数据完全来自互联网,没有刻意使用合成数据。某些网页可能包含 GPT-4 生成的答案,但这不是有意为之。为防止基准污染,团队过滤掉了任何与评测问题存在 10-gram 匹配的文本片段,仅数学领域就移除了约 600 万条文本。论文也坦承,n-gram 方法无法防止测试集改写版本混入,2024 年之前发布的基准仍可能有污染风险。
新版论文详细记录了团队在 Process Reward Model(PRM , 过程奖励模型 )上的探索。这本是一个直觉上很合理的方向:不只给最终答案打分,而是对推理过程的每一步提供反馈,把“怎么想”也纳入优化目标。
但落到实践里,它很快撞上了三道坎:第一,“一步”到底怎么切分并没有统一标准,边界划得粗细不同,奖励信号就会变形;第二,要判断某一步是否正确并不容易,模型自标注的可靠性有限,而人工逐步标注又几乎不可能规模化;第三,一旦引入基于模型的 PRM 作为奖励来源,策略模型就不可避免地会学会“迎合评分器”,奖励作弊(reward hacking)风险随之上升。
DeepSeek 的结论是:PRM 用来对 Top-N 候选响应做重排序时确实有效,但放到大规模强化学习训练里,带来的增益不足以覆盖额外的复杂度与计算开销。
他们也尝试过 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛树搜索)。受 AlphaGo 思路启发,团队设想把答案拆成更细的片段,用预训练的价值模型来引导搜索路径。
然而在语言生成里,token 级的搜索空间呈指数级膨胀:扩展得更广会迅速失控,设置扩展上限又容易过早收敛到局部最优;更要命的是,细粒度价值模型本身就难训练,AlphaGo 那种价值模型渐进提升的闭环机制,在这里很难复现。
论文也特意强调,分享这些失败经验并不等于否定 PRM 或 MCTS 的潜力,只是它们在 R1 的具体开发路径上没有走通。
安全评估与结论
安全是新版论文着重补充的另一个维度。此前有部分人士对 DeepSeek-R1 的安全性表示了质疑,团队这次也算是对这些声音进行了回应。
在训练层面,团队构建了 Safety Reward Model(安全奖励模型)。与采用成对比较的有用性奖励模型不同,安全奖励模型使用逐点方法训练,基于 106,000 条标注为“安全”或“不安全”的样本,学习区分有害与无害响应。在第二阶段 RL 中,安全奖励与有用性奖励、规则奖励共同作用,评估范围覆盖整个响应(包括思维链和最终答案),以识别生成过程中可能出现的风险内容。
在部署层面,官方服务配备了外部风险控制系统。系统分两步工作:首先对用户查询进行关键词匹配,标记潜在风险对话;随后将标记内容与预设的风险审核提示拼接,送入 DeepSeek-V3 进行判断。审核提示覆盖 11 类安全标准,包括违法活动建议、隐私捏造、高风险投资指导等。论文建议部署 R1 的开发者实施类似机制。
评估方面,团队在 6 个公开安全基准(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上与 Claude-3.7-Sonnet、o1、GPT-4o 等模型对比测试。结果显示 R1 在歧视偏见、暴力极端主义、隐私侵犯等类别上表现稳健,平均安全分达 95.0%。
但在 HarmBench 的版权相关测试中表现较弱,例如被要求生成歌词时未能拒绝,导致被判定为不安全。团队还构建了内部安全测试集,按统一分类标准覆盖 4 大类 28 个子类的安全场景,并针对多语言安全和越狱攻击鲁棒性进行了额外评估。
图丨6 个公开安全基准的测试结果(来源:arXiv)
论文坦承,开源模型的安全风险客观存在。风险控制系统能显著提升服务安全性,特别是应对越狱攻击时效果明显,但模型本身在某些边界场景仍有改进空间。
论文最后总结了几点核心发现和局限。核心发现是:预训练检查点本身就具备复杂推理的潜力,释放这种潜力的关键不在于大规模人工标注,而在于三个要素:困难的推理问题、可靠的验证器、充足的 RL 计算资源。自我验证、反思等复杂推理行为会在 RL 过程中自然涌现。
同时,团队也指出 DeepSeek-R1 还存在一些局限性,比如结构化输出和工具调用能力仍不及现有模型;token 效率有待优化,简单问题存在过度推理现象;非中英文查询会出现语言混杂;对 prompt 敏感,few-shot 反而降低性能;软件工程任务因评估耗时长,未能充分进行大规模 RL,相比 V3 提升有限。
更根本的挑战在于纯 RL 方法本身:它依赖可靠的奖励信号,而写作等任务很难用规则定义奖励,用模型打分又容易被策略模型钻空子。对于无法有效评估的任务,如何扩展纯 RL 方法仍是开放问题。论文的判断是,任何能被验证器有效评估的任务,机器都有望通过 RL 超越人类;但对于难以构建可靠奖励模型的任务,进展可能会慢一些。
参考资料:
1.https://arxiv.org/abs/2501.12948
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。