简介
本文提出了一种新的多模态大语言模型评估方法,构建了M3STR基准测试,专门评估模型对结构化知识的抽象视觉理解能力。通过设计计数、检测和补全三类任务,对26个主流MLLMs进行全面评估,研究发现当前模型在抽象视觉理解方面存在显著局限,尤其在处理复杂结构化知识时表现不佳。这一研究为未来MLLM发展指明了方向,强调了提升模型对抽象内容理解能力的重要性。
论文题目:Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation
本文作者:张溢弛(浙江大学)、陈卓(浙江大学)、郭凌冰(浙江大学)、徐雅静(浙江大学)、张民(哈尔滨工业大学深圳校区)、张文(浙江大学)、陈华钧(浙江大学)
发表会议:ACM MM 2025
论文链接:https://arxiv.org/abs/2506.01293
代码链接:https://github.com/zjukg/M3STR
欢迎转载,转载请注明出处****
一、摘要
多模态大语言模型(MLLM)代表了超越传统大语言模型(LLM)的进化飞跃,具备多模态内容理解和生成能力,现已成为多媒体领域的研究前沿。通过使用连接器桥接异构多模态表示空间的差距,诸如Qwen2.5-VL、LLaVA等MLLMs能够处理不同模态的信息并解决多样的多模态任务。
如上图所示,目前已涌现出许多基准来评估MLLMs的多维能力,这些基准涵盖了关于自然场景、肖像、各种生物及现实世界物体的图像。其他一些MLLM基准则建立在包含数学、代码和图表等内容的合成图像上。然而,现有的基准范式明显忽视了一个关键的MLLM能力维度:对包含高度抽象结构化知识的视觉内容的理解与解释。这类结构化表示——以思维导图和知识图谱(KG)为例——在日常生活中无处不在。与传统图像不同,这些结构同时编码了具体的视觉实体和复杂的关系语义。MLLMs不仅需要识别实体,还需解读其间的关联拓扑结构和抽象连接,这本身是抽象且困难的任务。这种能力对MLLMs至关重要,因为它从根本上反映了模型通过视觉模态内化结构化世界知识的能力,这是开发能够模拟人类概念理解能力的人工通用智能的基础要求
为应对当前研究的不足,我们提出了一个评估MLLMs的新视角:结构化知识的抽象视觉理解。我们构建了一个名为M3STR(意为“怪物”)的新基准,即用于结构化理解的多模态思维导图。M3STR以多模态知识图谱(MMKG)为数据源,将多样化的结构化人类知识封装在图像输入中。上图展示了一个图像样本的简单示意,本文中称之为多模态思维导图。我们在M3STR基准中设计了三种任务类型:计数、检测和补全,用以从不同层面评估MLLMs对多模态思维导图的理解能力。这些任务进一步细分为多个子任务,专门针对实体和关系的理解。我们提出了一套流程来合成多模态思维导图,整合了结构化知识和多模态内容。首先,我们从大规模MMKG中采样子图实例;然后,对这些子图进行特定任务的修改;最后,使用可视化API将包含多模态信息的子图转换为图像。此外,我们还设计了特定任务的提示模板来引导MLLMs。我们的数据与现有基准的核心区别在于,图像包含更抽象的实体信息及其关系拓扑。我们对26个主流MLLMs进行了全面评估。
除评估排行榜外,我们还进行了一系列探索性实验,以检验多模态思维导图中实体特定的多模态信息是否影响最终预测。基于实验结果,我们得出若干关键见解,表明当前MLLMs仍难以理解视觉模态中的高级抽象。这些发现揭示了MLLMs存在显著的能力缺陷,并指明了未来改进的潜力与方向。总之,本文的贡献主要包括三方面:
- 我们提出了一个全新视角,用于评估MLLMs对结构化知识的抽象视觉理解能力,该领域此前尚未被探索。
- 我们构建了一个名为M3STR的新基准,并提供了新的构建流程,包含多样化的任务类型和数据分布。
- 我们在M3STR上对26个主流MLLMs进行了全面评估。我们有趣的发现表明,当前MLLMs在抽象内容理解方面仍面临困难。
二、方法
本文旨在设计一个新基准,从一个新角度衡量当前MLLMs的能力:即理解包含高度抽象的结构化知识的能力。MMKGs被选为数据源,因为它们不仅包含大量知识,而且以半结构化形式组织。要视觉化解读KG中的信息,MLLMs不仅需理解每个具体实体,还需掌握其间的关系拓扑。与自然场景中物体通常遵循物理和空间规律不同,KGs的视觉表示形成了更抽象、更复杂的图结构,包含多模态实体信息和关系边。下文将描述如何构建此基准并报告实验结果。
M3STR基准数据集概述
上图展示了我们为MLLMs结构化理解所构建的多模态思维导图基准(M3STR)的组成结构。我们设计了三种任务类型,从不同层面评估MLLMs的抽象视觉理解能力:
- 任务1:计数:要求MLLMs计算图中实体和关系的数量。此任务属于粗粒度对象识别,评估MLLM对MMKGs的表层识别能力。
- 任务2:检测:要求MLLMs判断给定的MMKG子图中是否存在事实异常,并回答“是”或“否”。要正确回答,MLLM必须对嵌入MMKG中的常识信息做出更高级别的判断。
- 任务3:补全:要求模型在给定局部上下文的情况下,预测MMKG中缺失的实体或关系。此任务类似于知识图谱补全(KGC),成功预测能体现MLLM的理解和简单推理能力。
同时,上图展示了各任务的基本形式和预期输出格式。每种任务还包含若干侧重于实体或关系的子任务,共计7个子任务。所有任务均以从MMKG采样的子图作为输入,该子图被可视化为图像I,并配以特定任务的问题提示Q,引导MLLM产生答案A。
M3STR构建过程
M3STR基准的构建流程主要包括三个步骤:子图采样、数据实例构建和视觉翻译。我们使用经典的FB15K-237 MMKG作为原始数据源。整体流程如上图所示。
- 子图采样:从MMKG KG中随机采样一个子图 G’ = (E’, R’, T’),其中E’和R’是原始集合的子集,T’包含这些实体和关系间的所有三元组。采样从起始实体e开始,通过随机采样器(如深度优先或广度优先搜索)直至获得包含K个实体的子图。
- 数据实例构建:根据特定任务对采样的子图G’进行修改,得到修改后的子图G’'和黄金答案A。 对于计数任务,不修改子图,直接计算实体或关系数量作为答案。 对于检测任务,以一定概率修改子图中的某个实体或关系(引入错误),生成含异常(正样本,答案为“是”)和不含异常(负样本,答案为“否”)的实例,比例控制在1:1。 对于补全任务,随机掩码子图中的一个实体或关系,并提供四个干扰选项,要求模型预测被掩码部分。
- 视觉翻译:使用GraphViz等可视化API将修改后的子图G’'转换为图像I。在此过程中,实体的图像和实体/关系的文本描述均被整合到最终的可视化结果中,生成包含图结构、实体视觉信息和文本描述的多模态图像。同时,为每个子任务准备特定的提示模板作为问题Q。对于补全任务,提示中还包含选项信息。最终得到数据实例 (I, Q, A)。
评估方案
每个数据实例格式统一为 (I, Q, A)。评估时,向MLLM提供图像I和问题提示Q,获得输出A*。对于特定子任务t,MLLM的得分S是生成答案与黄金答案的准确率。MLLM的总体得分S是7个子任务得分的平均值,用以衡量其在抽象视觉推理任务上的综合能力。
三、实验
实验
本节展示M3STR基准在多种MLLMs上的详细实验与评估结果。我们的分析旨在回答以下三个研究问题(RQ):
- RQ1:主流MLLMs在M3STR的三个任务上表现如何?哪个模型在抽象视觉推理任务上达到了最优?
- RQ2:MLLMs能否充分理解视觉上下文中的多模态思维导图?哪种模态对最终输出贡献最大?
- RQ3:MLLMs输出的答案分布如何?是否存在特定偏差或缺陷?
实验设置
采用的MLLMs
我们评估了23个主流开源MLLMs,包括InstructBLIP、LLaVA系列、Chameleon、MiniCPM-V系列、Deepseek-VL系列、InternVL-2.5系列、Phi-vision系列、Qwen2-VL系列和Qwen2.5-VL系列,模型参数规模从1B到72B不等。同时,还评估了3个著名的支持多模态输入的API模型:GPT-4V-turbo、GPT-4o-mini和Gemini-2.5-pro。
评估细节
模型权重从HuggingFace Model Hub和ModelScope获取,使用transformers和vLLM库进行推理。温度为0.0以确保结果可重现。对于vLLM支持的模型,使用引导解码约束输出范围。所有实验在配备NVIDIA A800 GPU的Linux服务器上进行。
主要实验结果
下表总结了26个主流MLLMs的主要评估结果,展示了各任务准确率、总体得分及排名。
视角一:开源MLLMs在M3STR上表现领先
Qwen2.5-VL-72B取得了最优的总体成绩。Qwen系列模型表现突出,其他开源模型如InternVL、Phi和DeepSeek-VL也具竞争力。而著名的闭源API模型如GPT-4V/GPT-4o和Gemini排名相对靠后。Qwen模型包揽前五名中的四席,显示出在该基准上的明显优势。例如,GPT-4V-Turbo在26个模型中排名第20,性能落后于多数开源模型。这表明开源MLLMs在理解和推理视觉MMKGs方面通常优于闭源模型。
视角二:模型缩放定律依然适用
缩放定律在M3STR的新任务上得到验证。在Qwen2-VL和Qwen2.5-VL系列中,随着模型规模增大(如从3B/7B到72B),任务性能显著提升。例如,在任务1(实体计数)中,Qwen2.5-72B相比Qwen2.5-7B有显著提升。这表明模型缩放带来收益,尤其在7B到72B参数区间改善明显。此外,模型的代际演进(如MiniCPM版本迭代、Phi-3到Phi-3.5、Qwen2-VL到Qwen2.5-VL)也持续带来性能进步,反映了模型架构、数据、训练策略等方面的有效优化。
视角三:当前MLLMs仍难胜任抽象视觉理解
实验结果清楚表明,当前MLLMs,尤其是较小模型,在抽象视觉理解上存在严重局限。许多模型在特定子任务上的表现接近随机猜测。例如,最简单的任务1(实体计数),半数被评估MLLMs的准确率低于30%,表明其基本视觉感知存在缺陷。任务2(异常检测)挑战更大,近乎所有MLLMs表现接近或差于随机水平。只有Qwen2/2.5-VL-72B和部分API模型在混合检测设置中略优于随机猜测,但准确率仍不理想。这与MLLMs中常见的幻觉问题形成对比:模型在任务3(多项选择题形式)上表现相对较好,许多在零样本条件下准确率超80%。这表明尽管在跨模态对齐(能从结构化选项中选答案)方面有进展,但当前MLLMs严重缺乏对描述结构化知识(含多模态实体和关系拓扑)的图像进行细粒度理解的能力。
模态贡献分析
我们进一步分析了M3STR基准中不同模态的贡献。由于合成的视觉MMKG图像包含像素中的图像和文本,信息丰富且复杂,我们探究MLLMs是否有效利用了所有模态。
我们生成了信息量减少的基准数据集(如移除实体图像或文本)进行实验,并与纯文本输入的KG描述进行对比。结果揭示了反直觉的现象:移除部分视觉元素后,许多MLLMs的准确率反而提升。例如,在任务1中,Qwen2.5-VL-7B移除实体图像后性能提升159%,甚至超过某些72B模型。类似模式见于LLaVA和MiniCPM-V架构。只有Qwen2.5-72B等较大模型符合直觉。这表明冗余视觉细节可能干扰较小MLLMs的实体枚举任务。在补全任务中,此现象有所缓解但仍存在。更显著的是,用文本KG描述替代视觉MMKG显著提升了MiniCPM和Qwen模型的准确率,暗示其对文本知识表示的理解优于视觉形式(部分原因可能是FB15K-237作为知名数据集已存在于预训练语料中)。
这些观察表明一个根本局限:当前MLLMs缺乏对视觉知识表示进行抽象结构理解的鲁棒能力。面对复杂视觉形态时,较小模型会出现认知超载。文本输入的持续优势表明,尽管有多模态架构,视觉处理能力仍远逊于语言推理。
我们进一步检验了多模态适配对底层LLM骨干的影响。如图5所示,多模态适配通常带来显著优势。多数MLLMs即使在纯文本KG输入上也优于其基础LLMs,表明多模态训练不仅增强了跨模态能力,也提升了在M3STR上的文本推理能力。唯一例外是Qwen2.5-72B在任务3上,其强大的LLM骨干可能削弱了可见增益。总体而言,多模态扩展有效提升了模型的抽象理解能力。
案例研究
为直观展示不同模型的性能差异,我们绘制了部分MLLM预测结果的混淆矩阵。任务1的结果显示明显的性能分层:强模型(如Qwen2.5-VL-72B)的错误预测接近真实计数,而弱模型(如LLaVA)则呈现混乱和有偏的答案分布,体现了细粒度的能力差距。任务2的分析进一步暴露了严重缺陷:大多数MLLMs表现出严重的预测偏差,系统性地默认输出特定类别而非随机猜测,反映了其异常检测能力的严重不足。尽管Qwen2.5-VL-72B在局部异常检测上表现出稍好的判断力,但其整体性能仍不理想。这些结果共同揭示了MLLMs存在持续的幻觉倾向和在视觉KGs中进行关系推理的惊人缺陷。
四、结论
本文引入了一个新的视角来评估MLLMs对包含多模态实体信息和关系拓扑的结构化知识的抽象视觉理解能力,这是一个此前未被深入探索的领域。我们构建了M3STR基准及其新构建流程。通过使用M3STR进行全面评估,我们从结果中发现了重要见解,表明当前MLLMs在有效理解抽象内容方面仍面临挑战。这些发现凸显了未来在MLLM架构和方法论上进一步推进的必要性,特别是在其理解和生成复杂、结构化关系知识的能力方面,这也是发展多模态人工通用智能的未来方向。
五、如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。