梧州市网站建设_网站建设公司_SSL证书_seo优化
2026/1/20 15:20:29 网站建设 项目流程

大模型通过反复训练自己生成的正确数据,在没有人工干预的情况下实现了规划能力的自我进化。

这就好比一个学生不断做题,只保留对完答案后正确的解题过程作为复习资料,周而复始,最终在不需要老师教导的情况下学会了解决更复杂的难题。

牛津大学的研究团队的一项研究揭示了GPT-4等模型,通过“自我进化”变强的潜在核心机制。

一个隐式的强化学习循环

大语言模型的发展史某种程度上就是一部数据“近亲繁殖”的历史,GPT-3.5使用了GPT-3部署后收集的数据进行训练,GPT-4又使用了GPT-3.5的数据,这种代际传承在Agent工作流日益普及的今天变得更加常见。

牛津大学的研究者们并没有将这种现象视为一种单纯的数据处理手段,而是将其定义为“迭代部署”。

这并非一个仅存在于实验室的假设,而是当下AI生态系统中正在发生的真实过程。

用户在使用模型解决问题,如果结果符合预期,这些数据往往会被保留并分享到网络上,最终成为下一代模型的养料。

研究团队通过在经典的自动规划领域(Classical Planning)复刻这一过程,发现模型仅仅依靠自身生成的经过验证的数据,就能显著提升解决复杂问题的能力。

这个过程的核心逻辑异常简洁明了。

在第一阶段使用一个基础模型(Generation 0)去尝试解决一系列规划任务。

模型会生成包含思维链(Chain-of-Thought)的解题轨迹。

随后,引入一个外部验证器(Validator),这个验证器就像一位严格的考官,它不负责教模型怎么做,只负责判断模型做得对不对。

对于规划任务而言,验证器会检查模型生成的行动序列是否能从初始状态达到目标状态。

只有那些通过了验证的正确轨迹会被保留下来,加入到训练数据集中。错误的轨迹则会被直接丢弃。

接下来进入微调阶段。

使用这些经过筛选的正确轨迹对当前模型进行监督微调(SFT),从而产出下一代模型(Generation 1)。

这个新模型又被用来解决同样的任务集,或者更难的任务集,再次生成轨迹,再次验证,再次微调。

在这个循环中,模型实际上是在“左脚踩右脚”式地向上攀登。

每一代模型都在消化上一代模型成功的经验,将那些偶然做对的简单任务内化为确定的知识,并以此为基石去攻克更长、更复杂的任务。

理论层面的推导进一步升华了这一实验观察。

研究人员证明了,这种仅基于正确轨迹进行的监督微调,在数学上等价于奖励函数为二值的REINFORCE算法。

REINFORCE是强化学习中的经典算法,旨在通过梯度上升来最大化预期奖励。

在迭代部署的场景下,外部验证器的通过与否构成了奖励信号:通过即为1,失败即为0。

这意味着,我们习以为常的“微调”,在特定条件下不仅是模仿学习,更是一种隐式的强化学习。

仅使用有效轨迹的SFT梯度更新方向与二值奖励的REINFORCE完全相同。

当混合使用当前策略(On-policy)和旧策略(Off-policy/Behavior Policy)生成的有效轨迹时,等价于带有重要性采样的REINFORCE算法。

当我们把前几代模型生成的正确数据混合在一起训练新模型时,我们实际上是在利用历史经验来稳定和加速强化学习的过程。

这一发现极其重要,因为它解释了为什么简单的微调能够带来推理能力的涌现。因为其背后运作的是强化学习的优化逻辑,模型在不断增加产生正确轨迹的概率。

成倍提升模型规划水平

为了验证这一机制的有效性,研究团队选择了经典规划(Classical Planning)作为测试平台。

这是一个绝佳的实验场,因为规划任务(如推箱子、积木世界)具有客观的成败标准,且解题路径的长短直接反映了推理的深度。

实验选取了三个极具代表性的领域:Blocksworld(积木世界),要求将积木按特定顺序堆叠;Rovers(火星车),模拟火星探测器的采样与通信任务;以及Sokoban(推箱子),一个涉及复杂空间推理和死锁规避的难题。

基准模型选用了Qwen3 4B。

实验设计非常纯粹:让模型针对每类任务生成1000个实例的解决方案,过滤出正确的,然后微调,如此循环5代。

结果令人印象深刻。

如图所示,在所有三个领域中,模型的性能在五代之后都实现了翻倍甚至更高的增长。以Rovers领域为例,基座模型仅解决了52个任务,而到了第5代,解决任务数飙升至205个,提升了近4倍。

可以看到Blocksworld从109提升到了154,Sokoban从32提升到了96。

每一代模型能够解决的任务不仅仅是数量的增加,更是质量的飞跃。随着代际的演进,模型开始能够发现更长的解决方案。

在Blocksworld中,基座模型大多只能找到20步以内的计划,而第5代模型能够稳定输出长达35步的复杂计划。

这表明模型并非在机械记忆答案,而是在真正地掌握规划的逻辑,实现了分布外的泛化。

研究者并没有盲目地将所有正确数据都丢给模型。

为了防止过拟合和数据冗余,他们制定了精细的数据选择策略:如果同一个任务有多个成功的轨迹,只保留计划长度最短的那一个(即最高效的解);如果长度相同,则保留推理步骤最少的那个。

这种策略实际上是在引导模型追求“奥卡姆剃刀”式的简洁,不仅要做对,还要做得漂亮。

可以观察到,性能提升最显著的阶段发生在最初的三代。

这符合学习曲线的一般规律:初期模型通过纠正低级错误和掌握基本规则实现快速进步,随后进入深水区,开始攻克那些真正困难的长视距问题。

图3(b)中的Unanimous@3指标尤为关键,它统计了在三次独立运行中都能成功解决的任务数量。

该指标的持续上升说明模型的鲁棒性在增强,它不再是靠运气“蒙”对答案,而是形成了一套稳定的解题方法论。

一个反直觉的发现是关于推理Tokens(Reasoning Tokens)的数量。

在DeepSeek-R1或OpenAI o1等推理模型的强化学习训练中,我们通常会观察到模型会通过生成更长的思维链来提升效果。

然而,在这项研究的迭代部署中,情况并非总是如此。

数据显示,在Blocksworld和Sokoban领域,随着代际演进,模型生成的推理Tokens数量甚至略有下降,只有在Rovers领域有所增加。

这说明模型变得更加熟练和自信了。

就像一个围棋新手需要花很长时间计算每一步的死活,而职业棋手凭直觉就能瞬间落子。

迭代部署让模型将复杂的推理过程内化为了更高效的直觉反应,用更少的废话解决了更难的问题。

关于“策展”(Curation)的重要性,实验也给出了明确的答案。

研究人员做了一个对比实验,如果不进行筛选,把所有生成的数据(无论对错)都拿去微调会怎样?

结果显示,虽然性能也有提升,但远不如经过筛选后的效果显著。

在Blocksworld中,经过策展的第5代模型解决了154个任务,而未经过滤的版本只解决了79个。

更惊人的是数据效率的差异:经过策展的训练集仅包含356条高质量轨迹,而未经过滤的训练集包含了4017条数据。

仅使用不到十分之一的高质量数据,就能获得两倍的性能提升。

表2清晰地量化了这一差距。

无策展版本的提升主要来自于对格式和指令遵循能力的微调,而有策展版本则真正提升了规划逻辑。

这一发现对于当下的大模型训练具有极大的指导意义:与其盲目堆砌海量数据,不如通过有效的验证机制提炼出数据的“黄金”。

计划长度的分布变化进一步证实了模型是在挑战自我。

图4展示了计划长度的频率分布热力图。颜色越亮代表该长度的计划出现的频率越高。

在Blocksworld和Sokoban中,我们可以清晰地看到亮色区域向右(更长的计划)移动的趋势。

基座模型在长难任务面前束手无策,而第5代模型已经能够从容应对。

这种能力的涌现并非来自外部灌输,完全源于模型在迭代过程中对自身成功经验的反复咀嚼和升华。

不可控的潜在风险

尽管迭代部署展现出了强大的自我进化能力,但这篇论文的作者们保持了清醒的头脑,他们敏锐地指出了这种机制背后隐藏的深层隐忧。

既然迭代部署等价于隐式的强化学习,那么那个充当裁判的“验证器”就变得至关重要。

在实验室环境中,验证器是代码写死的规则(比如箱子是否推到了终点),它是客观且中立的。

但在现实世界的开放部署中,验证器变成了复杂多变的用户行为。

用户是否采纳模型的建议、是否点赞、是否将代码合入项目,这些行为构成了现实中的“验证信号”。

这种信号不仅充满噪声,而且往往带有难以察觉的偏见。

如果用户倾向于接受那些看起来自信但实际上充满偏见的回答,或者倾向于采纳那些虽然解决了问题但存在安全漏洞的代码,迭代部署机制就会忠实地将这些偏好当作“奖励”,在下一代模型中放大这些特质。

这种风险被称为“奖励黑箱”。

在显式的强化学习(如RLHF)中,工程师会精心设计奖励模型来对齐人类价值观及安全约束。

但在迭代部署中,奖励函数是随着用户交互自然涌现的,它是不可控的。

这可能导致模型在追求高采纳率的过程中,逐渐偏离原本的安全防线。

例如,如果用户更喜欢激进的建议,模型可能会在迭代中逐渐丢掉谨慎的特质,这种变化是潜移默化的,很难在早期被察觉。

此外,模型坍塌(Model Collapse)也是一个绕不开的话题。

虽然本研究显示,通过严格筛选正确数据可以延缓模型坍塌的到来,甚至在一定代际内实现性能提升,但这是否能永久避免坍塌仍是未解之谜。

当模型产生的数据完全主导了训练集,多样性的丧失可能会导致创造力的枯竭。

参考资料:

https://arxiv.org/pdf/2512.24940

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询