近年来,AI已经学会了写文本、生成图像、制作视频,甚至可以生成可运行的计算机代码。随着这些功能的普及,AI研究的关注点转向了一个更深层的问题:机器是否能够学会世界的实际运作方式,而不仅仅是如何描述它?
对于研究人员来说,这个问题具有现实意义,从机器人如何在家中导航到自动驾驶汽车如何预测十字路口可能发生的情况。这就是世界模型的用武之地。
世界模型并不是一个新概念。这个术语最初出现在1950年代,在2018年左右重新出现在现代AI研究中,并在2024年随着OpenAI的Sora和Google DeepMind的Genie等模型获得了更广泛的关注。
2025年,这一概念进一步扩展为世界基础模型,英伟达的Cosmos使其广受欢迎,该模型荣获CES 2025最佳AI奖。Meta的V-JEPA 2也在2025年发布,声称能够理解重力等物理规律。
那么,世界模型到底是什么,谁在构建它们,为什么它们正在成为AI研究最重要的领域之一?让我们深入了解一下。
世界模型 vs 基础模型 vs 世界基础模型
我们首先需要澄清这些术语。
"世界模型"最初指的是构建来理解和预测特定环境内发生事件的AI系统,如机械臂工作空间或视频游戏关卡。例如,一个智能体学习对象在Atari游戏中如何移动。
基础模型是在大规模数据集上训练的大型通用系统,能够同时处理多个任务。这包括大语言模型,如ChatGPT或Gemini,它们主要从文本中学习广泛模式,以及在图像、音频或代码上训练的多模态模型。
世界基础模型结合了两种想法,采用基础模型的规模,并专门训练它们使用视频和感官数据模拟物理现实(想想英伟达的Cosmos或Genie 3)。
然而,"世界模型"一词经常被用作这些更大世界基础模型的简称,而不是该短语最初描述的更窄系统。
从书本智慧到世界智慧
大语言模型善于听起来很博学。然而,这种知识来自阅读大量文本,而不是来自对世界的直接体验。它们被训练来预测下一个Token,即基于文本模式的下一个词或词的一部分。因此,它们可以描述重力如何作用或交通如何流动,而无需真正感受重量、运动或因果关系。
一些人说世界模型是大语言模型的继承者。但AI数据公司Encord的联合创始人兼首席执行官Eric Landau告诉CNET:"很难说这是下一步,但这绝对是一个并行运行的轨道。"
它们不再专注于句子,而是专注于行动后接下来会发生什么。这可能涉及预测对象如何在空间中移动,当某个东西被遮挡时场景如何变化,或者对于AI智能体或机器人,回答类似"如果我向左转,摄像头会看到什么?"的问题。
语言模型和世界模型之间的关键区别在于它们被训练预测的内容。语言模型预测文本。世界模型预测环境中的变化。该环境可以是物理的,如房间或道路,也可以是虚拟的,如模拟世界。通过学习行动如何导致后果,世界模型理论上使AI系统能够在行动前进行推理,而不是一步一步地反应。
AI智能体平台Integral AI的首席执行官兼联合创始人Jad Tarifi告诉CNET,大语言模型已经包含了一种世界知识形式,但它是不完整的。
"大语言模型确实学习了隐藏在其网络权重中的基本隐式世界模型,"Tarifi说。"但这是一个破碎的世界模型。"
直接作为世界模型训练的模型旨在构建更清洁、更直接的世界运作方式表示。
世界模型如何工作?
在基本层面上,世界模型试图预测当环境内发生某事时环境如何变化。
研究人员主要使用两种方法。在第一种方法中,世界是实时生成的。当一个人在场景中移动或与对象交互时,模型根据它对运动、对象和基本物理学的学习更新接下来发生的事情。它的工作原理有点像响应你的运动的视频游戏世界。
第二种方法预先构建整个世界,就像电影布景一样。模型创建一个具有自己规则的固定空间环境,然后你走进去。因为结构已经存在,你可以探索它或改变事物,而不会使场景移位或失去逻辑。
两种方法都旨在做同样的事情。它们帮助AI理解世界是如何组合的,以及行动如何导致结果,而不是仅仅基于语言进行猜测。
从机器人技术到日常使用
随着AI从聊天机器人转向智能体、机器人和需要在较少监督下操作的系统,对世界模型的兴趣有所增长。在现实世界中直接训练这些系统既昂贵、缓慢,有时还很危险。世界模型提供了一个更安全的替代方案,允许AI在模拟环境中学习和失败,同时发展对现实如何表现的更深理解。
这就是为什么世界模型在机器人技术、自动驾驶和其他形式的物理AI中最重要。Landau告诉CNET,机器人和其他具身系统是最明显的使用案例,无论它们是直接部署还是用于在仿真中训练其他AI系统。
研究人员期望这些应用会快速扩展。
"世界模型将从纯视频预测转向能够生成抽象概念的模型。我们应该期望这些模型在机器人技术、科学自动化和人机交互中大规模部署,"Tarifi说。"我也认为它们将革命化医学。"
Landau同意医学是"一个非常合理的使用案例"。他指出了在药物发现和理解不同条件如何在人体内相互作用方面的潜力,为在现实世界测试之前探索治疗提供了更全面的方式。
世界模型还可以塑造创意和教育工具。AI系统不再生成单一图像或视频,而是可以生成一个随着人们探索而响应的环境,允许设计师走过原型或学生与复杂系统互动,而不是阅读相关内容。
风险和限制
模拟现实是困难的。模型在理解物理学或因果关系方面的小错误可能会随时间放大。
Landau说计算是一个主要约束。今天的世界模型需要大量GPU资源,在机器人或自动驾驶车辆等实时系统中部署具有挑战性。他还指出数据是另一个瓶颈。世界模型依赖基于轨迹和丰富传感器的数据,这比用于训练语言模型的文本要难收集得多。如果模拟数据无法准确反映现实世界,模型可能会学习错误的物理学或因果关系。
Tarifi指出风险不仅仅是技术性的。他警告未经检查的激励措施、将自主智能体恶意用作武器以及保护人类机构的需要,特别是当社会为他所描述的"向劳动不再是大多数人口经济生活来源的经济转型"做准备时。
聚光灯下的AI
对AI日益增长的关注是《时代》杂志将AI架构师评为2025年年度人物的原因。这反映了AI创新在各行各业和社会中变得多么核心。正如英伟达首席执行官黄仁勋告诉《时代》杂志的:"这是我们时代最具影响力的技术。"
世界模型是从只会响应的AI转向能够推理、规划和预测的AI的转变。该技术仍在开发中,但它指向了先进AI研究的发展方向。
Q&A
Q1:世界模型是什么?它与大语言模型有什么不同?
A:世界模型是专门训练来理解和预测环境变化的AI系统,它们预测行动后会发生什么,而不是像大语言模型那样预测文本。大语言模型通过阅读文本获得知识,世界模型则通过学习行动和后果的关系来理解世界如何运作。
Q2:世界模型主要应用在哪些领域?
A:世界模型主要应用在机器人技术、自动驾驶和物理AI领域。它们还有望应用于医学领域的药物发现,创意和教育工具,以及需要AI在模拟环境中学习和操作的任何场景。
Q3:世界模型面临哪些主要挑战和限制?
A:世界模型面临的主要挑战包括:计算资源需求高、需要大量GPU;数据收集困难,需要基于轨迹和丰富传感器的数据;模拟精度问题,小错误可能随时间放大;以及潜在的安全风险,如恶意使用自主智能体作为武器。