莆田市网站建设_网站建设公司_React_seo优化-长沙市网站建设公司

简介

本文提出了一种新的多模态大语言模型评估方法，构建了M3STR基准测试，专门评估模型对结构化知识的抽象视觉理解能力。通过设计计数、检测和补全三类任务，对26个主流MLLMs进行全面评估，研究发现当前模型在抽象视觉理解方面存在显著局限，尤其在处理复杂结构化知识时表现不佳。这一研究为未来MLLM发展指明了方向，强调了提升模型对抽象内容理解能力的重要性。

论文题目：Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation

本文作者：张溢弛（浙江大学）、陈卓（浙江大学）、郭凌冰（浙江大学）、徐雅静（浙江大学）、张民（哈尔滨工业大学深圳校区）、张文（浙江大学）、陈华钧（浙江大学）

发表会议：ACM MM 2025

论文链接：https://arxiv.org/abs/2506.01293

代码链接：https://github.com/zjukg/M3STR

欢迎转载，转载请注明出处****

一、摘要

多模态大语言模型（MLLM）代表了超越传统大语言模型（LLM）的进化飞跃，具备多模态内容理解和生成能力，现已成为多媒体领域的研究前沿。通过使用连接器桥接异构多模态表示空间的差距，诸如Qwen2.5-VL、LLaVA等MLLMs能够处理不同模态的信息并解决多样的多模态任务。

如上图所示，目前已涌现出许多基准来评估MLLMs的多维能力，这些基准涵盖了关于自然场景、肖像、各种生物及现实世界物体的图像。其他一些MLLM基准则建立在包含数学、代码和图表等内容的合成图像上。然而，现有的基准范式明显忽视了一个关键的MLLM能力维度：对包含高度抽象结构化知识的视觉内容的理解与解释。这类结构化表示——以思维导图和知识图谱（KG）为例——在日常生活中无处不在。与传统图像不同，这些结构同时编码了具体的视觉实体和复杂的关系语义。MLLMs不仅需要识别实体，还需解读其间的关联拓扑结构和抽象连接，这本身是抽象且困难的任务。这种能力对MLLMs至关重要，因为它从根本上反映了模型通过视觉模态内化结构化世界知识的能力，这是开发能够模拟人类概念理解能力的人工通用智能的基础要求

为应对当前研究的不足，我们提出了一个评估MLLMs的新视角：结构化知识的抽象视觉理解。我们构建了一个名为M3STR（意为“怪物”）的新基准，即用于结构化理解的多模态思维导图。M3STR以多模态知识图谱（MMKG）为数据源，将多样化的结构化人类知识封装在图像输入中。上图展示了一个图像样本的简单示意，本文中称之为多模态思维导图。我们在M3STR基准中设计了三种任务类型：计数、检测和补全，用以从不同层面评估MLLMs对多模态思维导图的理解能力。这些任务进一步细分为多个子任务，专门针对实体和关系的理解。我们提出了一套流程来合成多模态思维导图，整合了结构化知识和多模态内容。首先，我们从大规模MMKG中采样子图实例；然后，对这些子图进行特定任务的修改；最后，使用可视化API将包含多模态信息的子图转换为图像。此外，我们还设计了特定任务的提示模板来引导MLLMs。我们的数据与现有基准的核心区别在于，图像包含更抽象的实体信息及其关系拓扑。我们对26个主流MLLMs进行了全面评估。

除评估排行榜外，我们还进行了一系列探索性实验，以检验多模态思维导图中实体特定的多模态信息是否影响最终预测。基于实验结果，我们得出若干关键见解，表明当前MLLMs仍难以理解视觉模态中的高级抽象。这些发现揭示了MLLMs存在显著的能力缺陷，并指明了未来改进的潜力与方向。总之，本文的贡献主要包括三方面：

我们提出了一个全新视角，用于评估MLLMs对结构化知识的抽象视觉理解能力，该领域此前尚未被探索。
我们构建了一个名为M3STR的新基准，并提供了新的构建流程，包含多样化的任务类型和数据分布。
我们在M3STR上对26个主流MLLMs进行了全面评估。我们有趣的发现表明，当前MLLMs在抽象内容理解方面仍面临困难。

二、方法

本文旨在设计一个新基准，从一个新角度衡量当前MLLMs的能力：即理解包含高度抽象的结构化知识的能力。MMKGs被选为数据源，因为它们不仅包含大量知识，而且以半结构化形式组织。要视觉化解读KG中的信息，MLLMs不仅需理解每个具体实体，还需掌握其间的关系拓扑。与自然场景中物体通常遵循物理和空间规律不同，KGs的视觉表示形成了更抽象、更复杂的图结构，包含多模态实体信息和关系边。下文将描述如何构建此基准并报告实验结果。

M3STR基准数据集概述

上图展示了我们为MLLMs结构化理解所构建的多模态思维导图基准（M3STR）的组成结构。我们设计了三种任务类型，从不同层面评估MLLMs的抽象视觉理解能力：

任务1：计数：要求MLLMs计算图中实体和关系的数量。此任务属于粗粒度对象识别，评估MLLM对MMKGs的表层识别能力。
任务2：检测：要求MLLMs判断给定的MMKG子图中是否存在事实异常，并回答“是”或“否”。要正确回答，MLLM必须对嵌入MMKG中的常识信息做出更高级别的判断。
任务3：补全：要求模型在给定局部上下文的情况下，预测MMKG中缺失的实体或关系。此任务类似于知识图谱补全（KGC），成功预测能体现MLLM的理解和简单推理能力。

同时，上图展示了各任务的基本形式和预期输出格式。每种任务还包含若干侧重于实体或关系的子任务，共计7个子任务。所有任务均以从MMKG采样的子图作为输入，该子图被可视化为图像I，并配以特定任务的问题提示Q，引导MLLM产生答案A。

M3STR构建过程

M3STR基准的构建流程主要包括三个步骤：子图采样、数据实例构建和视觉翻译。我们使用经典的FB15K-237 MMKG作为原始数据源。整体流程如上图所示。

子图采样：从MMKG KG中随机采样一个子图 G’ = (E’, R’, T’)，其中E’和R’是原始集合的子集，T’包含这些实体和关系间的所有三元组。采样从起始实体e开始，通过随机采样器（如深度优先或广度优先搜索）直至获得包含K个实体的子图。
数据实例构建：根据特定任务对采样的子图G’进行修改，得到修改后的子图G’'和黄金答案A。对于计数任务，不修改子图，直接计算实体或关系数量作为答案。对于检测任务，以一定概率修改子图中的某个实体或关系（引入错误），生成含异常（正样本，答案为“是”）和不含异常（负样本，答案为“否”）的实例，比例控制在1:1。对于补全任务，随机掩码子图中的一个实体或关系，并提供四个干扰选项，要求模型预测被掩码部分。
视觉翻译：使用GraphViz等可视化API将修改后的子图G’'转换为图像I。在此过程中，实体的图像和实体/关系的文本描述均被整合到最终的可视化结果中，生成包含图结构、实体视觉信息和文本描述的多模态图像。同时，为每个子任务准备特定的提示模板作为问题Q。对于补全任务，提示中还包含选项信息。最终得到数据实例 (I, Q, A)。

评估方案

每个数据实例格式统一为 (I, Q, A)。评估时，向MLLM提供图像I和问题提示Q，获得输出A*。对于特定子任务t，MLLM的得分S是生成答案与黄金答案的准确率。MLLM的总体得分S是7个子任务得分的平均值，用以衡量其在抽象视觉推理任务上的综合能力。

三、实验

实验

本节展示M3STR基准在多种MLLMs上的详细实验与评估结果。我们的分析旨在回答以下三个研究问题（RQ）：

RQ1：主流MLLMs在M3STR的三个任务上表现如何？哪个模型在抽象视觉推理任务上达到了最优？
RQ2：MLLMs能否充分理解视觉上下文中的多模态思维导图？哪种模态对最终输出贡献最大？
RQ3：MLLMs输出的答案分布如何？是否存在特定偏差或缺陷？

实验设置

采用的MLLMs

我们评估了23个主流开源MLLMs，包括InstructBLIP、LLaVA系列、Chameleon、MiniCPM-V系列、Deepseek-VL系列、InternVL-2.5系列、Phi-vision系列、Qwen2-VL系列和Qwen2.5-VL系列，模型参数规模从1B到72B不等。同时，还评估了3个著名的支持多模态输入的API模型：GPT-4V-turbo、GPT-4o-mini和Gemini-2.5-pro。

评估细节

模型权重从HuggingFace Model Hub和ModelScope获取，使用transformers和vLLM库进行推理。温度为0.0以确保结果可重现。对于vLLM支持的模型，使用引导解码约束输出范围。所有实验在配备NVIDIA A800 GPU的Linux服务器上进行。

主要实验结果

下表总结了26个主流MLLMs的主要评估结果，展示了各任务准确率、总体得分及排名。

视角一：开源MLLMs在M3STR上表现领先

Qwen2.5-VL-72B取得了最优的总体成绩。Qwen系列模型表现突出，其他开源模型如InternVL、Phi和DeepSeek-VL也具竞争力。而著名的闭源API模型如GPT-4V/GPT-4o和Gemini排名相对靠后。Qwen模型包揽前五名中的四席，显示出在该基准上的明显优势。例如，GPT-4V-Turbo在26个模型中排名第20，性能落后于多数开源模型。这表明开源MLLMs在理解和推理视觉MMKGs方面通常优于闭源模型。

视角二：模型缩放定律依然适用

缩放定律在M3STR的新任务上得到验证。在Qwen2-VL和Qwen2.5-VL系列中，随着模型规模增大（如从3B/7B到72B），任务性能显著提升。例如，在任务1（实体计数）中，Qwen2.5-72B相比Qwen2.5-7B有显著提升。这表明模型缩放带来收益，尤其在7B到72B参数区间改善明显。此外，模型的代际演进（如MiniCPM版本迭代、Phi-3到Phi-3.5、Qwen2-VL到Qwen2.5-VL）也持续带来性能进步，反映了模型架构、数据、训练策略等方面的有效优化。

视角三：当前MLLMs仍难胜任抽象视觉理解

实验结果清楚表明，当前MLLMs，尤其是较小模型，在抽象视觉理解上存在严重局限。许多模型在特定子任务上的表现接近随机猜测。例如，最简单的任务1（实体计数），半数被评估MLLMs的准确率低于30%，表明其基本视觉感知存在缺陷。任务2（异常检测）挑战更大，近乎所有MLLMs表现接近或差于随机水平。只有Qwen2/2.5-VL-72B和部分API模型在混合检测设置中略优于随机猜测，但准确率仍不理想。这与MLLMs中常见的幻觉问题形成对比：模型在任务3（多项选择题形式）上表现相对较好，许多在零样本条件下准确率超80%。这表明尽管在跨模态对齐（能从结构化选项中选答案）方面有进展，但当前MLLMs严重缺乏对描述结构化知识（含多模态实体和关系拓扑）的图像进行细粒度理解的能力。

模态贡献分析

我们进一步分析了M3STR基准中不同模态的贡献。由于合成的视觉MMKG图像包含像素中的图像和文本，信息丰富且复杂，我们探究MLLMs是否有效利用了所有模态。

我们生成了信息量减少的基准数据集（如移除实体图像或文本）进行实验，并与纯文本输入的KG描述进行对比。结果揭示了反直觉的现象：移除部分视觉元素后，许多MLLMs的准确率反而提升。例如，在任务1中，Qwen2.5-VL-7B移除实体图像后性能提升159%，甚至超过某些72B模型。类似模式见于LLaVA和MiniCPM-V架构。只有Qwen2.5-72B等较大模型符合直觉。这表明冗余视觉细节可能干扰较小MLLMs的实体枚举任务。在补全任务中，此现象有所缓解但仍存在。更显著的是，用文本KG描述替代视觉MMKG显著提升了MiniCPM和Qwen模型的准确率，暗示其对文本知识表示的理解优于视觉形式（部分原因可能是FB15K-237作为知名数据集已存在于预训练语料中）。

这些观察表明一个根本局限：当前MLLMs缺乏对视觉知识表示进行抽象结构理解的鲁棒能力。面对复杂视觉形态时，较小模型会出现认知超载。文本输入的持续优势表明，尽管有多模态架构，视觉处理能力仍远逊于语言推理。

我们进一步检验了多模态适配对底层LLM骨干的影响。如图5所示，多模态适配通常带来显著优势。多数MLLMs即使在纯文本KG输入上也优于其基础LLMs，表明多模态训练不仅增强了跨模态能力，也提升了在M3STR上的文本推理能力。唯一例外是Qwen2.5-72B在任务3上，其强大的LLM骨干可能削弱了可见增益。总体而言，多模态扩展有效提升了模型的抽象理解能力。

案例研究

为直观展示不同模型的性能差异，我们绘制了部分MLLM预测结果的混淆矩阵。任务1的结果显示明显的性能分层：强模型（如Qwen2.5-VL-72B）的错误预测接近真实计数，而弱模型（如LLaVA）则呈现混乱和有偏的答案分布，体现了细粒度的能力差距。任务2的分析进一步暴露了严重缺陷：大多数MLLMs表现出严重的预测偏差，系统性地默认输出特定类别而非随机猜测，反映了其异常检测能力的严重不足。尽管Qwen2.5-VL-72B在局部异常检测上表现出稍好的判断力，但其整体性能仍不理想。这些结果共同揭示了MLLMs存在持续的幻觉倾向和在视觉KGs中进行关系推理的惊人缺陷。

四、结论

本文引入了一个新的视角来评估MLLMs对包含多模态实体信息和关系拓扑的结构化知识的抽象视觉理解能力，这是一个此前未被深入探索的领域。我们构建了M3STR基准及其新构建流程。通过使用M3STR进行全面评估，我们从结果中发现了重要见解，表明当前MLLMs在有效理解抽象内容方面仍面临挑战。这些发现凸显了未来在MLLM架构和方法论上进一步推进的必要性，特别是在其理解和生成复杂、结构化关系知识的能力方面，这也是发展多模态人工通用智能的未来方向。

莆田市网站建设_网站建设公司_React_seo优化

M3STR基准数据集概述

M3STR构建过程

评估方案

实验

实验设置

主要实验结果

模态贡献分析

案例研究

五、如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

莆田市网站建设_网站建设公司_React_seo优化

M3STR基准数据集概述

M3STR构建过程

评估方案

实验

实验设置

主要实验结果

模态贡献分析

案例研究

热门文章

文章分类

标签云

相关文章

AI时代前端开发者的生存指南：别让技术信仰限制你的发展！

2025年回顾：CIO直面业务与技术双重需求挑战

全球汽车后装远程信息服务订阅量突破9000万大关

需要专业的网站建设服务？