司南·Daily Benchmark 专区今日上新!
UniPercept-Bench
一个面向多模态大模型感知层级图像理解的统一评测框架,覆盖美学、质量、结构与纹理三大核心维度。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2021675
HIC-Bench
一种全新的大模型幻觉检测基准,将幻觉划分为智能幻觉与缺陷幻觉,用于弥补现有基准难以应对多样化的科学任务,以及难以在创造性与准确性之间取得平衡。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2021635