场景:投票问题。
https://arxiv.org/abs/2509.06870
使用自监督RL训练摘要问题:
让模型自己给自己打分
TTRL问题:
https://arxiv.org/abs/2504.05812 :最小化熵奖励(本研究中,我们提出了熵最小化策略优化(\ours),它早期尝试完全无监督的LLM推理激励。通过在潜在语义空间中持续最小化LLMs在无标签问题上的预测熵)
https://arxiv.org/abs/2504.16084: 多数投票
https://arxiv.org/abs/2505.19590 : 使用模型信心来计算奖励:利用对生成序列中每个 token 的 KL 散度取平均值”:
奖励虚假问题:https://arxiv.org/abs/2506.10947
利用投票来训练投票。
可行性分析:只需要改一个奖励;改一个数据集就好了,然后分析badcase,训练,即可