【多模态大模型——跨越感知与认知的鸿沟】第8章 评估体系:从感知到认知的度量

张开发
2026/4/9 23:44:34 15 分钟阅读

分享文章

【多模态大模型——跨越感知与认知的鸿沟】第8章 评估体系:从感知到认知的度量
8.1 幻觉评估基准(Hallucination Benchmarks)幻觉现象指多模态大语言模型(MLLM)生成的描述与视觉输入内容不一致,包含虚构对象、错误属性或不存在的关系。针对此类现象的定量评估需兼顾生成内容的事实准确性与判别决策的视觉依赖性,构建从细粒度对象级检测到高阶语义推理的分层评估体系。8.1.1 物体幻觉的定量评估物体幻觉评估聚焦于模型对图像中实体存在性的误判,涵盖非existent对象的虚构与existent对象的遗漏两类错误模式。评估范式需剥离语言先验的干扰,精确度量视觉 grounding 的可靠性。8.1.1.1 POPE(Polling-based Object Probing Evaluation)的二元问答协议POPE基准采用轮询式对象探询协议,将幻觉评估形式化为二元分类任务。该协议通过向模型提出关于特定对象存在性的是非问题,规避开放式描述生成中的指令敏感性偏差,实现对对象幻觉的直接量化。评估数据构造遵循三轨负采样策略。随机采样(Random)从所有候选类别中均匀抽取非existent对象作为负样本;流行采样(Popular)依据训练集频率分布选取高频非existent对象,测试模型对统计先验的过度依赖;对抗采样(Adversarial)基于共现统计选取与图像中existent对象语义关联紧密的负样本(如图像含网球拍时询问网球),探测上下文驱动的隐性幻觉。正负样本比例严格保持1:1平衡,确保评估指标的无偏性。给定图像 $I$ 与问题 $q$,模型输出二元决策 $\hat{y} \in \{0, 1\}$。评估指标采用准确率(Accuracy)、精确率(Precision)、召回率

更多文章