一、简介
为什么数据,正在成为多模态与具身智能的最大瓶颈?
数据之于人工智能,早已不只是“多多益善”的资源问题,而是决定模型能否形成正确世界观的认知基础。这一点,在多模态理解与具身智能领域尤为明显。
近年来,多模态大模型(Multimodal Large Language Models, MLLMs)在图像理解、视觉问答等任务上取得了令人瞩目的进展,表面上看,它们似乎已经具备了“看懂世界”的能力。然而,越来越多的研究发现:这类模型在空间理解方面存在系统性短板。
它们常常分不清“左”和“右”,难以判断“远”与“近”,在涉及多个物体的相对位置关系时更容易出现推理混乱。一旦任务从“识别是什么”转向“理解在哪里、如何相互关联”,模型性能便显著下降。这一问题直接制约了 MLLMs 在真实场景中的应用,例如自动驾驶中的动态环境分析、机器人导航中的路径规划、以及虚拟现实系统中的场景构建等——这些任务都高度依赖可靠的空间感知与推理能力。
空间理解的缺失,本质上是“认知结构”的缺失
与模型形成鲜明对比的是,人类几乎可以毫不费力地完成上述空间推理任务。这并非因为我们“看得更清楚”,而是因为在长期与世界交互的过程中,人类形成了稳定而一致的空间知识结构:我们不仅知道“物体是什么”,更知道“它们在哪里”“彼此之间如何关联”。
正如李飞飞在近期关于“从视觉智能迈向真实世界智能”的讨论中所强调的:真正的智能不止于对象识别,而在于理解对象与环境之间的结构性关系。如果无法理解三维世界的组织方式,模型就无法建立类似人类的认知地图,也就难以支撑复杂、可靠的智能决策。
换言之,空间智能并不是视觉智能的附属能力,而是其迈向更高阶段的关键支点。
现有数据生成范式的问题:有“像”,但缺“结构”
针对空间数据稀缺的问题,现有方法主要依赖两条路径:
- 直接利用大模型进行多模态数据合成
- 基于仿真环境生成合成数据
这些方法在一定程度上缓解了数据规模不足的问题,但也暴露出一个共性局限:生成过程缺乏显式的空间知识先验。模型往往只是在“看起来合理”的层面进行拼接,而非在“逻辑上自洽”的空间结构约束下生成数据。
正如近年来《Nature》文章[1]与多项前沿工作所指出的那样,单纯依赖神经网络的隐式表示,难以稳定地捕捉和泛化复杂结构关系,这也再次引发了对神经–符号融合的关注,被视为人工智能下一阶段的重要结构性突破方向。
SKG2Data: 用空间知识图谱重构多模态数据生成
基于上述认识,我们提出了SKG2Data方法,尝试从数据源头引入结构性约束,通过空间知识图谱(Spatial Knowledge Graph, SKG)重新组织多模态数据生成过程。
不同于直接让大模型“自由发挥”式地合成数据,SKG2Data 的核心思想是:
先构建清晰、可解释、具备空间约束的知识结构,再据此生成多模态数据。
具体而言,我们首先构建包含实体、空间位置以及相互关系的空间知识图谱,在图谱层面明确“什么在什么位置”、“彼此如何相对分布”等关键约束;随后,以该图谱为中枢,指导图像生成、文本描述以及问答样本的构建,使最终数据在视觉与语言层面都符合真实世界的空间逻辑。
通过这种方式,模型在训练过程中不只是学习“像素与词汇”,而是直接暴露于可组合、可推理的空间关系结构之中,从而逐步建立面向真实世界的空间感知与推理能力。
从“看见世界”到“理解世界的结构”
SKG2Data 并非简单地增加数据规模,而是试图回答一个更根本的问题:我们究竟希望模型从数据中学到什么?
如果说传统多模态数据主要教会模型“世界长什么样”,那么引入空间知识图谱的数据生成范式,则是在一定程度上引导模型理解世界是如何被组织起来的。
二、方法
1. SKG2Data的核心思想
SKG2Data方法的设计灵感来源于人类的认知流程:人在理解场景时通常先在头脑中构建一个空间布局(例如“某物体位于另一物体的左侧”或“某人位于某处”),随后再以语言或图像对该布局进行表述。基于这一认知假设,SKG2Data构建了一个系统化的数据合成框架,通过显式组织场景要素与空间关系并生成相应的描述,以期为模型提供更富结构性、具备可解释性的空间事实样本,从而弥补其在空间常识推理上的不足。
2. 空间知识图谱构建
在数据构建过程中,该框架首先利用强大的大语言模型(如 GPT-4o),依据现实世界常识自动生成多样化的场景类别(如“天空”“公园”)以及在这些场景中可能出现的对象组合(例如“天空”中可能包含“气球”“飞机”“鸟”等)。随后,系统会从候选对象中选择若干实体,并为其补充细粒度属性信息(如颜色、材质),将原本的概念性对象进一步实例化,例如将“多个气球”细化为“红色气球”“蓝色气球”等具体实体。
更为关键的是,框架会基于这些实例化的实体构建空间关系三元组,例如“(红色气球,左侧,蓝色气球)”或“(红色气球,下方,飞机)”。实体、属性与关系共同组成一张结构化的空间知识图谱,它以形式化方式刻画场景中应满足的空间约束,作为后续图像与文本生成过程的“空间脚本”,确保合成数据严格遵循既定的空间逻辑。
3. 基于空间知识图谱的多模态数据合成
有了空间知识图谱,接下来合成多模态数据:
图像生成:数据合成框架会再次利用大语言模型,根据空间知识图谱自动生成每个物体在图像中的边界框(Bounding Boxes),也就是它们的具体位置和大小。然后,将这些边界框信息和空间位置关系三元组一同输入到一个布局引导的扩散模型(GLIGEN-based Diffusion Model)中,生成一张完全符合图谱空间关系的图片。
文本生成:图片生成后,框架会以图谱和图片为依据,自动产生大量与之相关的问答对。这些问题主要分为两类:实体类问题,关注图中有什么物体、它的属性是什么,用于保持模型的通用识别能力;关系类问题,专门针对物体间的空间关系提问,例如“红色气球在飞机的哪一边?”,旨在针对性提升模型的空间推理能力。
数据过滤:为了保证最终数据的质量,数据合成框架还设置了两道“质检关卡”:图像过滤和文本过滤,利用大模型自动检查生成的图片和问答是否与最初的“空间剧本”一致,筛除不合格的数据。
通过这一套自动化流程,SKG2Data能够大规模地生成高质量、高多样性且严格遵守空间逻辑的训练数据,为MLLMs提供了系统性的“空间思维”训练素材。
三、实验
为了验证SKG2Data的有效性,研究团队进行了一系列实验。用合成的多模态数据,对LLaVA-1.6和Llama-3.2-Vision这些主流MLLMs进行了微调,并在多个基准测试上进行了全面评估。
- 主实验
空间理解能力提升:在经过SKG2Data数据SFT微调后,模型在多个空间理解专项测试中表现出了显著的进步。在论文构建的SKG2Data-Holdout测试集和公开的COCO-Spatial、MMVP数据集上均有提示。
通用能力保持:稳定专门针对“空间”进行补课,会不会让模型“偏科”,导致其他通用能力下降?实验结果表明,在MMStar(通用视觉问答)和HallusionBench(幻觉评测)等基准上,微调后的模型性能只有轻微波动,整体保持稳定。这意味着,SKG2Data在为模型注入空间常识的同时,并没有牺牲其原有的“基本功”。
2. 分析实验
“方向”知识比“距离”知识更重要:在训练数据中,包含“左右、上下”等方向关系的数据,对提升模型空间感知能力的贡献相对更大,效果优于单纯包含“远近”等距离关系的数据。
物体数据越多,学得越好:合成数据中包含的物体数量越多,场景越复杂,模型在经过训练后,其细粒度的识别和推理能力就越好。
机制机理:在 Transformer 模型的各层计算不同选项的概率,训练后模型在最后几层隐藏层会提升正确选项的概率,说明其最终空间决策能力得到了一定优化。
四、总结
本文提出的SKG2Data框架,通过引入空间知识图谱作为数据合成的引擎,成功实现了知识到数据的转化。展望未来,一个极具潜力的方向是引入强化学习来进一步提升MLLMs的空间能力。当前的数据合成方法主要提供了“静态”的空间知识,而强化学习则能让模型在动态、交互式的环境中进行学习。比如通过与环境反馈的互动,更深刻地理解动作、空间与语言之间的复杂关系。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。