减少推理链长度综述
在RL的奖励奖励函数中处理
DAPO(25.03)使用软性长度惩罚
ShorterBetter(25.04,芝加哥大学):找到一个最优长度(模型生成的8个不同回答中,长度最短的正确答案),然后让模型回答长度尽可能接近这个最优长度
SGRPO(25.05,华为):S-GRPO 在单个思维链生成过程中,选择多个时间点进行“提前退出”干预,生成中间答案,并根据这些答案的正确性和位置分配衰减的奖励(越早的正确答案奖励越高)。
GRPO-alpha(25.05,华为):让模型生成多个答案,算这些答案中有多少是正确的。如果正确性高,那么加入长度惩罚;如果正确率低,那么只看答案对不对。
DRPO(25.10 Texa university):先把答对的推理按照长度打分,短的给高奖励,长的给低奖励,但是再低也不会变为负数(因为这样的样本也还是值得学的)。
在rollout采样时处理
GFPO(25.08 微软):
- 训练时 “多取样”:面对一个问题(比如一道数学题),不再只让模型生成 1 个回答,而是生成一大组(比如 16 个、24 个)不同的回答,这样能找到更多 “又短又对” 的优质答案。
- 按 “关键指标” 过滤:从这一大组回答里,只留下最符合要求的一小部分(比如 8 个)来训练模型。关键指标有两个:
- 第一个是 “长度”:直接挑最短的,逼着模型学 “简洁表达”;
- 第二个是 “token 效率”:也就是 “正确率 ÷ 长度”—— 不是越短越好,而是 “每句话都得有价值”,如果长回答的正确率远超短回答,也会被留下。