司南·Daily Benchmark 专区今日上新!
RFC Bench
一个用于在真实新闻语境下评估大语言模型金融虚假信息识别能力的评测基准,以段落级别为评测粒度,刻画金融新闻中语义由分散线索共同构成的上下文复杂性。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2004160
VNU-Bench
这是首个面向新闻领域的多来源、跨视频理解评测基准,包含 429 个新闻事件组、1,405 条视频以及 2,501 个高质量问题。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2003434
SiT-Bench
一个用于在无像素级输入条件下评估大语言模型空间智能表现的全新评测基准,包含 3,800 余条专家标注样本,覆盖五大类任务与 17 个子任务。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2003590
MHRC-Bench
首个面向多语言硬件代码仓库级补全任务的评测基准,聚焦于代码补全任务,覆盖三种主要的硬件设计编码风格。
https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2003708