江西省网站建设_网站建设公司_导航易用性_seo优化
2025/12/21 13:04:27 网站建设 项目流程

当我们训练好了一个verl 检查点之后,如何用它来评估我们在测试集上的指标?

特别是涉及到工具调用的Agent训练,如果直接部署API,那么还需要搭建ReAct流,开发成本比较大。

个人觉得比较简单的一种方法为:

  1. 将测试集处理为verl 适配的parquet文件格式
  2. 开发对应的奖励函数(一般直接复用准确率奖励就好)
  3. 将验证集的地址改为测试集parquet地址
  4. 在训练脚本python -m verl.trainer.main_ppo命令之后,加上下面两行就好,表示模型不会进行训练,而是会评估验证集的表现。
   trainer.val_before_train=True \ # 进行训练前验证trainer.val_only=True          # 仅验证模式

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询