邢台市网站建设_网站建设公司_Tailwind CSS_seo优化-兴安盟网站建设公司

在论文4.2.3 评估指标部分提到的MBE是Model-based Evaluation（基于模型的评估）的缩写。

这是一个由大型语言模型担任“裁判”来评估模型输出质量的自动化评估方法。具体细节如下：

裁判模型：使用GPT-4o-mini（一个高性能的LLM）。
评估任务：给裁判模型提供：
- 问题
- 参考答案（Ground Truth Answer）
- 待评估模型生成的答案（Predicted Answer）
裁判的指令：判断生成的答案是否“正确”地回答了问题。
输出：裁判模型给出判断结果：“correct”或“incorrect”。
MBE分数计算：最终MBE得分是裁判模型判断为“correct”的比例，即：
[
\text{MBE Score} = \frac{\text{被判定为正确的答案数量}}{\text{总答案数量}}
]
这本质上是一种由LLM打分的准确率（Accuracy）。

论文在表1和表2中同时报告了F1分数和MBE分数。
F1分数反映了模型在短事实性答案上的精确匹配能力。
MBE分数则更全面地反映了模型在复杂、开放域研究任务中生成有用、正确回答的综合能力。
论文指出，DeepResearcher在MBE指标上的优势尤其明显，这证明了其在真实网络环境中进行端到端RL训练后，获得了更强的深度理解和信息综合能力，而不仅仅是检索和复述事实。

MBE是本文采用的一种基于LLM的自动化评估指标，用于补充传统规则指标（F1）的不足，尤其适用于评估“深度研究”这类复杂、开放域任务的答案质量。它体现了当前LLM研究中对更智能、更语义化评估方法的需求。

邢台市网站建设_网站建设公司_Tailwind CSS_seo优化