百色市网站建设_网站建设公司_虚拟主机_seo优化-台南市网站建设公司

强化学习人类反馈（Reinforcement learning from human feedback，RLHF）已成为微调大语言模型（LLM）的主流方法。然而，RLHF在多任务学习（MTL）中存在局限性，原因在于奖励操纵（reward hacking）问题以及极端的多目标优化（即多个甚至有时相互冲突的目标之间的权衡）带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例，但这种方式难以泛化。

在本工作中，我们提出了一种新的后训练范式，称为约束生成策略优化（Constrained Generative Policy Optimization，CGPO）。CGPO的核心是评审混合机制（Mixture of Judges，MoJ），结合了具成本效益的分层约束策略优化方法，能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证，无需大量超参数调优，并可直接接入常见的后训练流程中。通过这种方式，CGPO能够检测并缓解奖励操纵行为，同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明，CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法（如PPO和DPO）。具体而言，在AlpacaEval-2（通用聊天）上比PPO提高了7.4%，在Arena-Hard（STEM与推理）中提高了12.5%，在IFEval（指令跟随）中提高了2%，在MATH和GSM8K（数学与推理）中均提高了2%，在HumanEval（编程）中提高了5%，在ARC challenge（知识）中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为，而CGP

百色市网站建设_网站建设公司_虚拟主机_seo优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

百色市网站建设_网站建设公司_虚拟主机_seo优化

热门文章

文章分类

标签云

相关文章

VSCode智能体CPU占用过高？资深架构师亲授5步诊断法

【性能革命】：重构VSCode语言服务器通信机制的4个关键步骤

MetaGPT：用 AI 模拟软件团队，探索智能协作的新可能

需要专业的网站建设服务？