摘要:DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)在播客中提出AGI核心研发路径:摒弃单纯LLM规模扩展,聚焦世界模型与“无限训练循环”。其核心逻辑为通过Genie(交互式世界生成器)与SIMA(模拟智能体)构建训练闭环,让智能体在虚拟环境中完成百万级任务训练,掌握直观物理规律,解决机器人行业数据瓶颈;同时强调物理AI需通过精准物理基准验证,未来2-3年智能体系统将实现突破性成熟,AGI带来的社会变革将远超工业革命。
引言:AGI 研发告别 “文本内卷”,DeepMind 押注 “物理世界理解” 破局
2025 年 AI 行业仍聚焦大语言模型的规模扩张,但通用人工智能(AGI)的核心瓶颈已逐渐显现:单纯的文本训练无法让 AI 理解物理世界的空间动力学、因果关系与直观物理规律 —— 语言难以描述 “物体如何运动”“液体如何流动” 等具象场景,导致当前 AI 在机器人操纵、物理交互等领域表现乏力。
DeepMind CEO 戴密斯・哈萨比斯在播客中提出 AGI 发展的全新范式:AGI 的关键不在于文本规模的堆砌,而在于 “世界模型” 的构建与 “无限训练循环” 的落地。通过 Genie 虚拟世界生成器与 SIMA 模拟智能体的协同,DeepMind 正打造一个无需依赖真实数据的 AI 训练体系,让智能体在虚拟环境中千万次演练物理交互任务,最终形成理解物理世界的 “直觉”,为 AGI 从 “文本总结” 走向 “物理行动” 奠定基础,标志着 AGI 研发正式从 “语言驱动” 转向 “物理驱动”。
一、哈萨比斯的 AGI 核心观点与技术布局
1. 核心观点与战略布局拆解
核心维度 | 具体内容 | 行业背景 | 核心价值 |
AGI 核心路径 | 世界模型(World Models)+ 无限训练循环(Infinite Training Loops),而非单纯文本缩放 | 大语言模型(如 Gemini 3)在文本领域突破显著,但在物理交互、机器人领域存在天然局限 | 解决 AGI “理解物理世界” 的核心瓶颈,推动从 “被动总结” 到 “主动行动” 转型 |
语言模型的局限 | 语言难以描述空间动力学、物理语境与机械原理,无法支撑机器人等物理交互场景 | 当前 AI 行业 60% 以上研发资源集中于文本模型,物理 AI 技术相对滞后 | 明确 AGI 研发的 “补短板” 方向,避免陷入 “文本内卷” |
世界模型的定义 | 预测物理环境下一个状态的 AI 系统,封装 “直观物理” 知识,无需语言手册即可理解物体运动、液体行为、机械原理 | 传统 AI 模型仅能预测 “下一个词”,无法预测物理世界的因果关系 | 为 AI 赋予 “物理直觉”,是实现物理交互的基础 |
无限训练循环 | Genie(教师)实时生成真实交互式虚拟世界,SIMA(学生)在其中通过好奇心驱动完成千万级任务训练,形成闭环 | 机器人行业面临 “真实数据稀缺、场景覆盖不全” 的瓶颈,训练成本极高 | 彻底解决物理 AI 的训练数据难题,大幅降低研发成本 |
物理 AI 的关键 | 从 “幻觉” 转向 “锚定物理”,构建 100% 符合牛顿运动定律的物理基准测试(如钟摆、滚动球实验) | 当前视频模型(如 Veo)仅视觉逼真,缺乏物理级精度,无法支撑实际应用 | 确保 AI 的物理理解与真实世界一致,避免 “虚拟与现实脱节” |
发展预期 | 未来 2-3 年,基于智能体的系统将变得 “极具吸引力且可靠”;AGI 引发的社会变革将是工业革命的 10 倍,耗时约 10 年 | 公众对 AGI 的期待从 “文本交互” 转向 “实际应用”,但技术落地进度缓慢 | 明确 AGI 发展的时间线与影响范围,为行业提供方向指引 |
2. Genie 与 SIMA 协同逻辑:“无限训练循环” 核心构成
组件 | 定位 | 核心能力 | 协同逻辑 | 训练价值 |
Genie(虚拟世界生成器) | 教师 | 实时生成逼真、交互式虚拟世界,可按需创建任意场景(如室内导航、物体操作) | 根据 SIMA 的训练需求,动态生成针对性训练环境,无场景限制 | 解决 “真实场景覆盖不全” 问题,让 AI 接触千万级多样化物理场景 |
SIMA(模拟智能体) | 学生 | 具备好奇心驱动的探索能力,可在虚拟世界中完成各类物理任务(如拉拉链、房间导航) | 进入 Genie 生成的虚拟环境,通过试错学习物理规律与操作技巧,积累经验 | 无需真实机器人硬件,即可完成大规模、高风险物理任务训练 |
循环闭环 | 训练引擎 | Genie 动态适配 SIMA 的学习进度,持续生成新场景;SIMA 的训练数据反哺 Genie 优化场景真实性 | 形成 “生成 - 训练 - 反馈 - 优化” 的无限循环,无需外部数据输入 | 突破 “数据稀缺” 瓶颈,大幅提升 AI 物理交互能力的迭代速度 |
3. 新旧 AI 研发范式核心差异对比(文本驱动 vs 物理驱动)
对比维度 | 文本驱动(传统大语言模型) | 物理驱动(世界模型+无限训练循环) | 对AGI的影响 |
核心目标 | 预测下一个词,总结 / 生成文本信息 | 预测物理世界下一个状态,理解因果关系 | 从 “理解语言” 到 “理解世界”,贴合 AGI 本质需求 |
数据依赖 | 海量文本数据,易获取但缺乏物理信息 | 虚拟生成数据,无需真实采集,场景覆盖全 | 解决物理 AI 数据瓶颈,降低研发成本 |
物理交互能力 | 无,无法理解空间动力学与机械原理 | 强,通过虚拟训练掌握物体操作、环境导航等技能 | 为 AGI 赋予 “行动能力”,而非仅 “思考能力” |
局限性 | 无法应对机器人、物理仿真等实际应用场景 | 需攻克物理场景逼真度、跨载体迁移等技术难题 | 从 “文本应用” 拓展至 “全场景应用”,加速 AGI 落地 |
代表产品 | Gemini 3、GPT-5 等大语言模型 | Genie+SIMA 协同系统、物理级世界模型 | 标志 AGI 研发从 “单一维度” 走向 “多维融合” |
二、世界模型与 “无限训练循环” 如何破解 AGI 核心难题?
AGI 的核心瓶颈在于 “无法理解物理世界的因果关系”,而 DeepMind 的 “世界模型 + 无限训练循环” 通过 “虚拟仿真 + 直觉构建” 的技术逻辑,从根本上解决这一难题:
1. 世界模型:AI 的 “物理直觉” 来源
核心痛点:人类对物理世界的理解依赖 “直觉”(如知道杯子倾斜会漏水、物体掉落会落地),而传统 AI 缺乏这种直觉,需通过大量真实数据逐一学习,效率极低且泛化性差。
技术原理:世界模型通过封装 “直观物理” 知识,将物理规律(如牛顿运动定律、流体力学)内化为模型参数,无需语言描述即可预测物理场景的下一个状态 —— 例如,给定 “杯子倾斜 30 度” 的初始状态,模型可直接预测 “水将从杯口流出”,而非依赖文本描述的 “倾斜会漏水” 规则。
落地验证:DeepMind 通过构建物理基准测试,让模型在虚拟环境中重复模拟钟摆摆动、小球滚动等简单实验,确保模型对物理规律的预测准确率达 100%,为复杂物理交互奠定基础。
2. 无限训练循环:解决物理 AI 的 “数据饥荒”
行业痛点:机器人等物理 AI 的训练需要海量真实场景数据,但真实数据采集成本高(单场景数据采集需数万元)、周期长、场景覆盖不全(如危险场景无法采集),导致技术迭代缓慢。
技术逻辑:
场景生成:Genie 基于深度学习生成 “物理级逼真” 的虚拟世界,不仅视觉真实,更严格遵循物理规律 —— 物体碰撞、重力作用、液体流动等效果与真实世界一致;
智能体训练:SIMA 智能体被投入这些虚拟世界,通过 “好奇心驱动” 自主探索任务(如尝试打开抽屉、堆叠物体),在试错中学习物理交互技巧;
闭环优化:Genie 根据 SIMA 的训练反馈,动态调整场景难度与类型,确保训练的针对性;SIMA 的训练数据反过来优化 Genie 的场景生成能力,形成 “无限循环”;
核心优势:无需任何真实数据,即可让 AI 在虚拟环境中完成千万级、多样化的物理任务训练,训练成本降低 90%,泛化能力大幅提升。
3. 跨载体迁移:从虚拟到现实的落地桥梁
核心目标:让 SIMA 在虚拟环境中习得的物理技能,能够直接迁移至真实机器人硬件(如 Apptronik Apollo 人形机器人),避免 “虚拟训练与现实应用脱节”。
技术路径:通过 “跨载体迁移策略”(cross-embodiment strategies),将虚拟环境中的物理交互经验抽象为通用技能(如 “如何施加合适力度插拔插头”),而非依赖特定硬件的操作习惯,确保 AI 在不同机器人上都能快速适配。
落地价值:大幅缩短物理 AI 从研发到应用的周期,让虚拟训练的成果快速转化为真实世界的实用能力。
三、DeepMind 的 AGI 布局逻辑 —— 从 “文本” 到 “物理” 的必然转向
哈萨比斯提出的 AGI 路径,本质是对 AI 发展规律的深刻洞察,其战略布局逻辑可拆解为 “补短板、建闭环、谋长远” 三大核心:
1. 补短板:突破语言模型的固有局限
语言模型的核心优势在于 “处理人类符号化信息”,但 AGI 的终极目标是 “理解并改造物理世界”,这一过程中大量信息无法通过语言符号化 —— 例如,拉拉链时的力度控制、导航时的空间感知、物体碰撞时的受力判断,这些都需要 “体感” 而非 “文本” 支撑。DeepMind 聚焦世界模型,正是瞄准这一 AGI 的 “核心短板”,通过物理直觉的构建,让 AI 从 “理解语言” 走向 “理解世界”。
2. 建闭环:打造自主迭代的 AGI 研发体系
当前 AI 研发依赖 “数据采集 - 模型训练 - 效果验证” 的开放循环,数据成为制约迭代速度的核心瓶颈。而 “无限训练循环” 通过 Genie 的虚拟场景生成能力,构建了 “数据自给自足” 的闭环体系 —— 无需外部数据输入,AI 即可在虚拟环境中持续训练、自主迭代,大幅提升研发效率。这种闭环体系不仅适用于物理 AI,未来还可扩展至逻辑推理、复杂决策等 AGI 核心能力的训练,成为 AGI 研发的 “基础设施”。
3. 谋长远:抢占 AGI 时代的 “核心话语权”
AGI 引发的社会变革将远超工业革命,而谁能率先突破 AGI 核心技术,谁就将掌握未来科技的话语权。DeepMind 的布局通过三大维度构建竞争壁垒:
技术壁垒:世界模型的物理规律建模、Genie 的场景生成能力、SIMA 的智能体探索机制,均需长期技术积累,新进入者难以短期复制;
生态壁垒:“无限训练循环” 可适配各类物理 AI 场景(机器人、自动驾驶、工业控制),形成 “技术 - 场景 - 数据” 的正向循环;
标准壁垒:通过构建物理基准测试,定义物理 AI 的性能评价标准,引领行业发展方向。
四、AGI 研发范式变革,推动多领域技术升级
1. 重塑 AGI 研发格局
从 “文本内卷” 到 “物理竞争”:未来 AI 行业的研发资源将从大语言模型的规模扩张,转向世界模型、物理仿真、智能体等领域的技术突破,形成 “文本智能 + 物理智能” 双轮驱动的 AGI 研发格局;
中小企业迎来机遇:“无限训练循环” 降低了物理 AI 的研发门槛,中小企业无需承担巨额真实数据采集成本,即可开展相关技术研发,推动行业创新多元化。
2. 加速机器人行业的智能化升级
机器人行业长期受困于 “数据稀缺、泛化能力差” 的痛点,DeepMind 的技术路径将带来三大变革:
训练成本大幅降低:无需真实机器人反复试错,虚拟环境即可完成大规模训练,研发成本降低 90%;
泛化能力显著提升:千万级虚拟场景的训练让机器人具备更强的环境适配能力,无需针对单一场景单独编程;
落地周期缩短:跨载体迁移策略让虚拟训练成果快速转化为真实应用,机器人产品从研发到上市的周期缩短 50%。
3. 推动物理 AI 在多领域的渗透
除机器人外,世界模型与 “无限训练循环” 还将适配更多物理交互场景:
自动驾驶:在虚拟环境中模拟极端天气、复杂路况,提升自动驾驶系统的应急处理能力;
工业控制:优化工业机器人的装配、焊接等物理操作精度,降低生产误差;
虚拟现实(VR/AR):生成物理级逼真的虚拟环境,提升沉浸式体验与实用价值。
4. 引发 AI 伦理与社会治理的提前思考
哈萨比斯预测 AGI 引发的社会变革将是工业革命的 10 倍,这意味着 AI 伦理与社会治理需提前布局:
安全风险:具备物理行动能力的 AGI 可能带来意外风险(如机器人操作失误导致伤害),需建立严格的安全测试标准;
就业影响:AGI 的广泛应用可能导致部分体力劳动岗位被替代,需提前规划劳动力转型与再培训体系;
治理框架:需建立全球统一的 AGI 治理规则,避免技术滥用与无序发展。
五、从虚拟训练到 AGI 落地的 “关键门槛”
尽管技术路径清晰,但 DeepMind 的 AGI 布局仍需应对三大核心挑战:
1. 核心挑战与应对策略
挑战类型 | 具体表现 | 应对策略 | 预期效果 |
虚拟与现实的鸿沟 | 虚拟环境的物理规律模拟难以 100% 复刻真实世界,可能导致训练成果无法有效迁移 | 1. 强化物理基准测试,提升虚拟场景的物理逼真度; 2. 引入真实世界数据进行少量微调,缩小虚拟与现实差异 | 跨载体迁移成功率提升至 90% 以上,满足实际应用需求 |
复杂场景生成能力不足 | 当前 Genie 难以生成高度复杂的真实场景(如拥挤的城市街道、精密的工业装配线) | 1. 融合数字孪生技术,将真实场景的三维模型导入虚拟环境; 2. 优化生成模型,提升场景复杂度与交互细节 | 2027 年前可生成 90% 以上的常见物理场景 |
智能体的自主探索效率 | SIMA 在虚拟环境中可能陷入无效探索,导致训练效率低下 | 1. 优化好奇心驱动算法,引导智能体聚焦有价值的任务; 2. 引入人类反馈强化学习(RLHF),提升探索针对性 | 训练效率提升 50%,减少无效试错 |
伦理与安全风险 | 具备物理行动能力的 AGI 可能被滥用,或引发意外安全事故 | 1. 在虚拟训练阶段植入安全规则,限制危险行为; 2. 建立 AGI 安全测试与认证体系; 3. 公开技术进展,推动行业共同治理 | 避免技术滥用,将安全风险控制在可接受范围 |
六、2025-2035 AGI 发展路径预测
1. 短期(2025-2027):技术验证与场景落地
完成 Genie+SIMA 系统的核心迭代,物理场景生成逼真度达 95% 以上;
实现机器人简单物理任务的跨载体迁移(如拉拉链、物体抓取),在工业装配、家居服务等场景试点应用;
发布物理 AI 基准测试标准,引领行业技术方向。
2. 中期(2028-2030):智能体能力突破与规模化应用
SIMA 智能体掌握复杂物理任务(如机器人精密装配、自动驾驶极端场景应对);
“无限训练循环” 在机器人、自动驾驶、工业控制等领域规模化应用,成为物理 AI 研发的标准工具;
基于世界模型的 AGI 原型机问世,具备初步的物理世界理解与自主行动能力。
3. 长期(2031-2035):AGI 成熟与社会变革
AGI 具备与人类相当的物理世界理解能力,可自主完成各类复杂任务(如工业生产、医疗辅助、科学实验);
AGI 引发的社会变革全面展开,劳动力结构、产业形态、治理模式发生深刻调整;
形成全球统一的 AGI 治理体系,确保技术安全、公平、可持续发展。
七、结语:从 “理解语言” 到 “理解世界”,AGI 迈入物理智能新时代
DeepMind CEO 哈萨比斯提出的 “世界模型 + 无限训练循环” 路径,本质是为 AGI 找到了从 “文本智能” 走向 “物理智能” 的核心钥匙。它打破了传统 AI 对文本数据的依赖,通过虚拟仿真构建了 AI 理解物理世界的 “直觉”,解决了 AGI 发展的核心瓶颈 —— 物理世界的因果关系认知。
这场技术变革的意义,不仅在于推动 AGI 研发范式的转变,更在于为人类社会开启了 “智能体自主行动” 的新时代。未来,AGI 将不再局限于屏幕后的文本交互,而是以机器人、自动驾驶等多种形态融入物理世界,成为理解并改造世界的 “通用助手”。
尽管从技术验证到规模化应用仍面临诸多挑战,但 DeepMind 的布局已为 AGI 发展指明了清晰方向。随着世界模型与 “无限训练循环” 的持续迭代,AGI 引发的社会变革将如期而至,而人类也将在这场变革中,重新定义与智能机器的关系,迈向更高效、更智能的未来。
END