宁德市网站建设_网站建设公司_Oracle_seo优化-郴州市网站建设公司

来源：DeepTech深科技

运营/排版：何晨龙

2025 年 9 月，DeepSeek－R1 论文以封面文章的形式登上 Nature 杂志，成为全球首个通过顶级期刊独立同行评审的主流大语言模型。从 2 月 14 日投稿到 9 月 17 日正式发表，8 位外部专家历时 5 个月对论文的原创性、方法论和稳健性进行了严格审查。Nature 在编辑评论中直言：几乎所有主流大模型都未曾经历过独立同行评审，而 DeepSeek 打破了这一空白。

让人没想到的是，最近 DeepSeek 还能把这种透明再向前推一步。1 月 4 日，DeepSeek 在 arXiv 上突然更新了这篇论文的第二版，页数从 22 页暴增至 86 页，把此前藏在黑箱里的训练流程、基础设施、消融实验、中间检查点，乃至失败尝试，统统向外界进行了展示。

图丨相关论文（来源：arXiv）

那么，这 86 页究竟比原来的 22 页多出了什么？（关于基准测试结果等初版论文已涉及的部分，我们不再赘述）

GRPO 算法与 RL 基础设施

初版论文对 Group Relative Policy Optimization（GRPO，群组相对策略优化）的介绍相当克制，仅给出核心公式。新版用数页篇幅展开对比分析，解释 GRPO 何以能替代传统的 Proximal Policy Optimization（PPO，近端策略优化）。

PPO 在大模型强化学习中应用广泛，但有个麻烦：它需要训练一个与策略模型规模相当的价值模型来估计优势函数，计算开销很大。更棘手的是，价值模型要根据已生成的部分内容预测最终累积奖励，这对长链推理来说几乎不可行——模型可能在生成过程中反复修正、自我否定，早期内容和最终答案之间的关联性很弱。

GRPO 的做法是干脆不要价值模型。对每个问题采样 16 个输出，用组内奖励的均值和标准差做归一化，得到每个输出相对于同组其他输出的优势估计。这种“组内排名”的思路规避了跨时间步的价值预测，既节省内存，又适配长链推理场景。论文给出的对比实验显示，在 MATH 任务上，PPO 需要仔细调参（特别是 GAE 中的 λ 系数）才能接近 GRPO 的效果，而 GRPO 开箱即用。

图丨 PPO 与 GRPO 的演示（来源：arXiv）

新版论文还首次披露了 RL 训练基础设施的完整架构。系统分为四个模块：Rollout 模块用 vLLM 工作节点批量采样响应；Inference 模块加载奖励模型和参考模型做前向推理；Rule－based Reward 模块计算代码执行、答案匹配等规则奖励；Training 模块完成策略更新。四个模块之间采用异步调度和显存动态卸载策略。

为加速采样，Rollout 模块还用了 Multi－Token Prediction（MTP，多 token 预测）组件做自投机解码，缩短最长样本的生成耗时。考虑到 DeepSeek－R1－Zero 训练时每个问题要采样 16 个输出、单次训练步包含 32 个独立问题，这种工程优化对整体效率的提升不小。

训练成本方面，新版终于给出了明确数字：DeepSeek－R1 的增量训练成本约 29.4 万美元。R1－Zero 训练使用 648 块 H800 GPU，耗时约 198 小时，成本约 20.2 万美元；SFT 数据创建约 1 万美元；R1 后续训练约 8.2 万美元。这不包含 DeepSeek－V3－Base 基座模型的训练成本（约 556.6 万美元），但即便全部加总，也远低于行业认为的顶级模型训练动辄数千万美元的门槛。

图丨DeepSeek－R1 的训练成本（来源：arXiv）

四阶段训练流水线与中间检查点

初版论文只描述了从 DeepSeek－R1－Zero 到 DeepSeek－R1 的跨越，中间过程语焉不详。新版引入了 Dev1、Dev2、Dev3 三个中间检查点，完整呈现了四阶段训练流水线。

图丨DeepSeek-R1 的多阶段流程。（来源：arXiv）

第一阶段是 R1－Zero 的纯 RL 训练。基于 DeepSeek－V3－Base，完全不用监督微调（SFT，Supervised Fine－Tuning），仅依靠正确性奖励和格式奖励引导模型自主探索推理策略。这一阶段的核心发现是所谓的“Aha Moment”：在某个训练节点，模型突然大量使用“wait”这个词进行自我反思。

论文统计了 10 个代表性反思词汇（wait，mistake，however，but，retry，error，verify，wrong，evaluate，check）的出现频率，发现这些词汇在训练过程中增长了 5 到 7 倍。“wait”的变化尤其有意思：训练早期几乎不出现，4,000 到 7,000 步偶尔使用，8,000 步之后显著跃升。

图丨DeepSeek-R1-Zero 在 MATH 数据集中不同难度问题上的性能表现（来源：arXiv）

第二阶段是冷启动 SFT 加第一轮 RL。团队收集了数千条展示对话式、人类友好思考过程的冷启动数据，解决 R1－Zero 可读性差、语言混杂的问题。RL 训练时引入了语言一致性奖励，计算目标语言词汇在思维链中的占比。消融实验表明，这个奖励会导致推理性能轻微下降（特别是在代码任务上），但显著改善了输出可读性。

第三阶段是拒绝采样与大规模 SFT。从第一轮 RL 的检查点进行拒绝采样，生成约 60 万条推理数据，加上约 20 万条来自 DeepSeek－V3 流水线的非推理数据（写作、问答、角色扮演等），组成 80 万样本的 SFT 数据集。这一阶段的关键在于平衡推理能力和通用能力，单纯的推理 RL 会让模型在写作、开放域问答上表现欠佳。

第四阶段是全场景 RL，整合基于规则的推理奖励和基于偏好模型的通用奖励。论文提醒，基于偏好模型的奖励只在最后 400 步引入，过早或过长使用会导致奖励作弊（reward hacking）现象。

性能对比显示，从 R1－Zero 到 Dev1，指令遵循能力（IF－Eval、Arena－Hard）显著提升，但 AIME 数学竞赛分数有所下降，这是冷启动数据规模有限的代价；从 Dev1 到 Dev2，推理性能恢复并超越 R1－Zero；到 Dev3 和最终版本，各维度都达到最优。

蒸馏与强化学习的对比，以及一些关键发现

新版论文最核心的补充之一，是关于蒸馏与强化学习的对比实验。

团队在 Qwen2.5－32B－Base 上进行了超过 10,000 步的大规模 RL 训练，得到 Qwen2.5－32B－Zero。这个模型的性能与 QwQ－32B－Preview 相当，但显著落后于从 DeepSeek－R1 蒸馏而来的 DeepSeek－R1－Distill－Qwen－32B。以 AIME 2024 为例，蒸馏模型的 Pass＠1 达到 72.6％，RL 训练模型只有 47.0％。

结论显示，对于中小规模模型，蒸馏比从头 RL 训练更具性价比。论文的原话是，蒸馏策略既经济又有效，但要突破人类智能的边界，可能仍需要更强大的基座模型和更大规模的强化学习。

另一组实验在 Qwen2－Math－7B 上进行。这个模型在 2024 年 8 月发布，早于 OpenAI o1，确保基座没接触过任何推理轨迹数据。经过约 10,000 步策略梯度更新后，Qwen2－Math－7B－Zero 在 AIME 2024 上的表现（22.3％）显著超过 Qwen2－Math－7B－Instruct（7.9％）和 GPT－4o（9.3％）。这说明纯 RL 确实能让模型自主发展出高级推理策略，而非简单模仿人类示范。

新版论文还披露了几条早期的关键发现。团队尝试过 7B Dense 和 16B MoE 模型作为 RL 训练基础，但这些配置在 AIME 上始终无法取得有意义的提升。小模型在响应长度增加时表现出强烈的重复倾向，无法有效利用长链推理。直到切换到 32B Dense、230B MoE 和 671B MoE 等更大规模架构，才观察到实质性提升。这暗示推理能力的涌现可能存在某种规模门槛。

关于数据来源，论文在同行评审文档中回应了“蒸馏 OpenAI”的质疑：DeepSeek－V3－Base 的预训练数据完全来自互联网，没有刻意使用合成数据。某些网页可能包含 GPT－4 生成的答案，但这不是有意为之。为防止基准污染，团队过滤掉了任何与评测问题存在 10－gram 匹配的文本片段，仅数学领域就移除了约 600 万条文本。论文也坦承，n－gram 方法无法防止测试集改写版本混入，2024 年之前发布的基准仍可能有污染风险。

新版论文详细记录了团队在 Process Reward Model（PRM ，过程奖励模型）上的探索。这本是一个直觉上很合理的方向：不只给最终答案打分，而是对推理过程的每一步提供反馈，把“怎么想”也纳入优化目标。

但落到实践里，它很快撞上了三道坎：第一，“一步”到底怎么切分并没有统一标准，边界划得粗细不同，奖励信号就会变形；第二，要判断某一步是否正确并不容易，模型自标注的可靠性有限，而人工逐步标注又几乎不可能规模化；第三，一旦引入基于模型的 PRM 作为奖励来源，策略模型就不可避免地会学会“迎合评分器”，奖励作弊（reward hacking）风险随之上升。

DeepSeek 的结论是：PRM 用来对 Top－N 候选响应做重排序时确实有效，但放到大规模强化学习训练里，带来的增益不足以覆盖额外的复杂度与计算开销。

他们也尝试过 Monte Carlo Tree Search（MCTS，Monte Carlo Tree Search，蒙特卡洛树搜索）。受 AlphaGo 思路启发，团队设想把答案拆成更细的片段，用预训练的价值模型来引导搜索路径。

然而在语言生成里，token 级的搜索空间呈指数级膨胀：扩展得更广会迅速失控，设置扩展上限又容易过早收敛到局部最优；更要命的是，细粒度价值模型本身就难训练，AlphaGo 那种价值模型渐进提升的闭环机制，在这里很难复现。

论文也特意强调，分享这些失败经验并不等于否定 PRM 或 MCTS 的潜力，只是它们在 R1 的具体开发路径上没有走通。

安全评估与结论

安全是新版论文着重补充的另一个维度。此前有部分人士对 DeepSeek-R1 的安全性表示了质疑，团队这次也算是对这些声音进行了回应。

在训练层面，团队构建了 Safety Reward Model（安全奖励模型）。与采用成对比较的有用性奖励模型不同，安全奖励模型使用逐点方法训练，基于 106,000 条标注为“安全”或“不安全”的样本，学习区分有害与无害响应。在第二阶段 RL 中，安全奖励与有用性奖励、规则奖励共同作用，评估范围覆盖整个响应（包括思维链和最终答案），以识别生成过程中可能出现的风险内容。

在部署层面，官方服务配备了外部风险控制系统。系统分两步工作：首先对用户查询进行关键词匹配，标记潜在风险对话；随后将标记内容与预设的风险审核提示拼接，送入 DeepSeek-V3 进行判断。审核提示覆盖 11 类安全标准，包括违法活动建议、隐私捏造、高风险投资指导等。论文建议部署 R1 的开发者实施类似机制。

评估方面，团队在 6 个公开安全基准（SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench）上与 Claude-3.7-Sonnet、o1、GPT-4o 等模型对比测试。结果显示 R1 在歧视偏见、暴力极端主义、隐私侵犯等类别上表现稳健，平均安全分达 95.0%。

但在 HarmBench 的版权相关测试中表现较弱，例如被要求生成歌词时未能拒绝，导致被判定为不安全。团队还构建了内部安全测试集，按统一分类标准覆盖 4 大类 28 个子类的安全场景，并针对多语言安全和越狱攻击鲁棒性进行了额外评估。

图丨6 个公开安全基准的测试结果（来源：arXiv）

论文坦承，开源模型的安全风险客观存在。风险控制系统能显著提升服务安全性，特别是应对越狱攻击时效果明显，但模型本身在某些边界场景仍有改进空间。

论文最后总结了几点核心发现和局限。核心发现是：预训练检查点本身就具备复杂推理的潜力，释放这种潜力的关键不在于大规模人工标注，而在于三个要素：困难的推理问题、可靠的验证器、充足的 RL 计算资源。自我验证、反思等复杂推理行为会在 RL 过程中自然涌现。

同时，团队也指出 DeepSeek-R1 还存在一些局限性，比如结构化输出和工具调用能力仍不及现有模型；token 效率有待优化，简单问题存在过度推理现象；非中英文查询会出现语言混杂；对 prompt 敏感，few-shot 反而降低性能；软件工程任务因评估耗时长，未能充分进行大规模 RL，相比 V3 提升有限。

更根本的挑战在于纯 RL 方法本身：它依赖可靠的奖励信号，而写作等任务很难用规则定义奖励，用模型打分又容易被策略模型钻空子。对于无法有效评估的任务，如何扩展纯 RL 方法仍是开放问题。论文的判断是，任何能被验证器有效评估的任务，机器都有望通过 RL 超越人类；但对于难以构建可靠奖励模型的任务，进展可能会慢一些。

参考资料：

1.https://arxiv.org/abs/2501.12948

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

宁德市网站建设_网站建设公司_Oracle_seo优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

宁德市网站建设_网站建设公司_Oracle_seo优化

热门文章

文章分类

标签云

相关文章

“全球大模型第一股”诞生！智谱AI登陆港股

基站定位中 RSSI 误用的系统性问题分析

移动网络信号指标与单位整理（2G/3G/4G/5G Android vs IoT）

需要专业的网站建设服务？