甘孜藏族自治州网站建设_网站建设公司_Redis_seo优化-阿坝藏族羌族自治州网站建设公司

甘孜藏族自治州网站建设_网站建设公司_Redis_seo优化

2025/12/18 21:31:22 网站建设项目流程

减少推理链长度综述

在RL的奖励奖励函数中处理

DAPO（25.03）使用软性长度惩罚
ShorterBetter（25.04，芝加哥大学）：找到一个最优长度（模型生成的8个不同回答中，长度最短的正确答案），然后让模型回答长度尽可能接近这个最优长度
SGRPO（25.05，华为）：S-GRPO 在单个思维链生成过程中，选择多个时间点进行“提前退出”干预，生成中间答案，并根据这些答案的正确性和位置分配衰减的奖励（越早的正确答案奖励越高）。
GRPO-alpha（25.05，华为）：让模型生成多个答案，算这些答案中有多少是正确的。如果正确性高，那么加入长度惩罚；如果正确率低，那么只看答案对不对。
DRPO（25.10 Texa university）：先把答对的推理按照长度打分，短的给高奖励，长的给低奖励，但是再低也不会变为负数（因为这样的样本也还是值得学的）。

在rollout采样时处理

GFPO（25.08 微软）：

训练时 “多取样”：面对一个问题（比如一道数学题），不再只让模型生成 1 个回答，而是生成一大组（比如 16 个、24 个）不同的回答，这样能找到更多 “又短又对” 的优质答案。
按 “关键指标” 过滤：从这一大组回答里，只留下最符合要求的一小部分（比如 8 个）来训练模型。关键指标有两个：
- 第一个是 “长度”：直接挑最短的，逼着模型学 “简洁表达”；
- 第二个是 “token 效率”：也就是 “正确率 ÷ 长度”—— 不是越短越好，而是 “每句话都得有价值”，如果长回答的正确率远超短回答，也会被留下。

标签：网站建设企业官网项目流程 UI设计前端开发

您可能感兴趣的其他内容

甘孜藏族自治州网站建设_网站建设公司_Redis_seo优化

在RL的奖励奖励函数中处理

在rollout采样时处理

热门文章

文章分类

标签云

需要专业的网站建设服务？

甘孜藏族自治州网站建设_网站建设公司_Redis_seo优化

在RL的奖励奖励函数中处理

在rollout采样时处理

热门文章

文章分类

标签云

相关文章

FLAC3D随机裂隙建模：从基础到复杂网络

null有索引和没索引怎么存储？

不止是用AI干活：IT人要学会把AI变成“个人竞争力放大器”，打造不可复制的行业优势

需要专业的网站建设服务？