怒江傈僳族自治州网站建设_网站建设公司_UX设计_seo优化-可克达拉市网站建设公司

文章探讨了大模型训练范式的演变，强化学习(RL)的重要性日益提升。2025年，DeepSeek发明的GRPO算法成为主流，被各大公司和实验室广泛采用。展望未来，具有泛化性和可扩展性的LLM General Value Function(LLM-GVF)可能成为大模型训练的重大突破点，为RL训练提供更高效的信号机制。

一：旧范式的崩塌与 RLVR 的崛起

Lecun Yann 的“蛋糕论”已经被彻底抛弃在历史尘埃里、只是偶尔从后视镜里能瞥到，——连同他对 LLM 这条路线的悲观看法一起。2025 年，RL训练已成为耗费算力增长最快的环节。

简而言之，Lecun 曾经的观点认为：如果智能是一块蛋糕，主体部分是自监督学习，——通过从海量无标签数据中学到丰富知识，建立自身的 world model（这也正是大模型通过 pre-training scaling up 发展的路线，产生了现在的基座base model）。

而表面的icing部分是supervised learning，再往上、顶层点缀的樱桃，才是RL，受限于采样效率等等问题，主要以点缀作用为主。

——但在今天看来，这块“甜点”的比喻已经很不恰当、太小、太薄了，已经远远不能像 RLHF 时代那样形容 RL了。

回顾过去这一年，任何一个总结 2025 年的 AI Researcher，都不会对 RLVR避而不谈，更不会忘记提到 DeepSeek R1 推理模型（比如Karpathy 文章《2025 LLM Year in Review》，第一条就是 RLVR，推荐大家都去读读原文，用不了多长时间）。

2025年是RL风光无限的一年，——从老董叔今年在大模型领域的创作频率，大家也能看出来，多少有点风水轮流转、今年到我家的感觉。

二：2025 年的宠儿——GRPO

在这种背景下，GRPO 成了 2025 年的宠儿。

GRPO 算法本质上是 DeepSeek 独立发明、并在 R1 系列推理模型上取得显著成功的（很多人应该至今还记得 R1-Zero 惊艳的训练曲线）。

它直接将 2024 年正火热的 PPO 及 Off-policy 算法 DPO 等打入冷宫，甚至一度将“PRM 过程监督训练范式”从热点上拉了下来直接替换成了ORM（虽然现在随着 DeepSeek-Math-V2 等对 Value Function 的重视，情况有所改善）。

直到一年后的今天，中美的互联网大厂（微软、字节、阿里、英伟达等）、顶尖 Lab（Thinking Machines Lab 等）、美国顶尖大学，仍在沿着 GRPO 系列路线继续魔改使用——典型魔改版本如字节的 DAPO 和阿里的 GSPO 等等。

年初 Mark Chen 就已经公开承认 OpenAI 采用同样的范式训练自己的 O* 系列推理模型。

实际上，它已经必然会成为全世界所有做大模型post-training研究者们教科书级别的入门学习材料了。

而且直到2025年底，仍在大模型届持续占有重要地位。我也分享了自己的思考：年初 DeepSeek R1 验证 GRPO 很适合用于 Reasoning Model 之后，尽管很多魔改版本出来，但最近的 DeepSeek-Math-V2 & DeepSeek V3.2（包括 Speciale）仍在坚持 GRPO，并没有将这些魔改版本考虑进去（比如 GSPO、DAPO、小米 R3、甚至前段时间的神文 Training-Inference Mismatch via FP16 精度设置等等）。

我当时猜测原因可能是Token-level 的 Credit Assignment 本身粒度没必要特别细，反而有利于模型训练稳定。但是这只是权宜之计、是持续提升模型能力进一步scaling up所亟需解决的。此外DeepSeek 的 Infra 架构已经能很大程度减轻 Train-Inference Mismatch。

其实Qwen miniRL论文也从侧面验证了我的思考：即 Value Function 尽管非常重要、大家都希望有，但 Critic Model 本身很难训练且不易 Scaling。这条路线前途光明，但有诸多困难，而这正是2026年开始要突破的地方。

而且老董叔作为前大模型时代就做强化学习的研究者看来，其实自 2017 年 RL 成为热点之后，一路发展到 PPO 就已经比较收敛了。典型的算法框架其实在前大模型时代就已经基本固定了，大模型时代的算法固然有自己的特点，但基本不会超出几类典型的框架，

——所以我们仍然有迹可循。

那2026年以及接下来的几年里、大模型后训练的重点突破会在哪里呢？

三：2026 与未来——Value Function 的回归与 LLM-GVF

2026 年甚至之后的几年，具有泛化性、可 Scaling 的 LLM General Value Function（老董叔提出的新名词，以后不妨简称为 LLM-GVF）的 RL 算法，仿佛已经扑面而来了。

Ilya 的访谈中其实也重点提到了 Value Function 在人类智能中的重要作用——相比之下，没有 Value Model，RL 训练的信号效率太低，每个 Rollout 只有 1 bit 信号，所以 Math-V2 版本中已经一定程度上强调了之前 GRPO 算法所省略的 Critic Model 重要性。

其实在前大模型时代，无论是游戏还是 Robotics 场景，解决 Sparse Reward、引入 Value Model 进行 Credit Assignment，是需要极力解决的首要问题。

最后之所以能收敛到 PPO 路线，一个很大的原因就是引入的优势估计GAE非常好使。

展望未来，老董叔预言，下一个大模型训练的重大突破，大概率是看将来谁能把 LLM General Value Function 即LLM-GVF 这个问题解决好。我对此很有信心，主要来自两个方面：

一是从启发式的角度说，人类学习本质上不会这么低效率的试错。这也正是 Ilya 提到的人类的情绪等可以作为 Value Function 的实现方式之一，而这种高效、容易实现scaling的Value Function 必然是要General的，——即LLM-GVF。

二是大模型时代的强化学习 RL 还是有一定的泛化性，前大模型时代，RL 的灾难性遗忘问题至关重要，但现在 Base Model 动不动几十、几百、上千亿参数量，这种前大模型时代几乎完全无泛化性的问题，已经得到一定程度缓解了。因为基座模型换成语言模型后，很多 Priors 都能直接泛化，就是老董叔常说的 Priors Really Matter！这就为LLM-GVF的出现提供了良好土壤环境。

怒江傈僳族自治州网站建设_网站建设公司_UX设计_seo优化

一：旧范式的崩塌与 RLVR 的崛起

二：2025 年的宠儿——GRPO

三：2026 与未来——Value Function 的回归与 LLM-GVF

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

怒江傈僳族自治州网站建设_网站建设公司_UX设计_seo优化

一：旧范式的崩塌与 RLVR 的崛起

二：2025 年的宠儿——GRPO

三：2026 与未来——Value Function 的回归与 LLM-GVF

热门文章

文章分类

标签云

相关文章

三份“私人资料“让AI理解你的世界，回答质量提升80%

2025中国大模型行业深度报告：市场规模将破700亿，大厂算法岗薪资全攻略，助你把握职场风口！_看这行情，大模型今年真要起飞了

Day30 函数专题1

需要专业的网站建设服务？