2025年,AI突飞猛进。
大语言模型提高了工作效率,也让人焦虑:自己好像退化成了AI操作工,离开AI,大脑空空。
但转念一想,目前它助力甚至取代的似乎只是文字、代码这种轻办公。毕竟大语言模型再大,依然还是语言模型,只会耍嘴皮子。
它读过世界上所有剧本,看过所有小说,对每个学科教材都倒背如流。但,它没有真正进入过现实世界。
你问它:“杯子从桌上掉下来会怎样?”它会根据自己读过的书告诉你:“杯子会碎,水会溅出来。”
这个回答的本质,是它知道在人类的语言习惯里,“杯子掉落”后面通常跟着“碎了”。看似回答很有逻辑,但它并不理解重力,也不理解碰撞。
这也是为什么大语言模型容易一本正经胡说八道,因为它只在乎这话听起来像不像真的,而不是这件事在现实中能不能发生。
一个人的成长,讲究读万卷书行万里路。如果 AI 只读书不出门,那它就永远只能活在文字的世界里。所以,研究者开始让 AI 接触文字之外的世界:
让它看视频,看人唱跳打篮球,看雨滴下落,看木材燃烧……
让它接收传感器数据,机械臂的坐标和力反馈,汽车方向盘旋转的角度,汽车的加速度……
让它在虚拟环境中反复试错,在游戏物理引擎甚至工业仿真软件生成的虚拟世界中握、抓、撞、摔。
相比视频,仿真准确度更高。相比人工带教,仿真成本更低。因此,长期来看基于物理公式的数值仿真将是构建高精度世界模型的地基。
海量数据喂下去,人工智能就会逐渐明白“如果……那么……”的关系:
你一拳打在水里,下一刻会出现水花;
你用手捏气球,下一刻气球会变形;
你抛出一个苹果,苹果将以什么轨迹上升和下降。
虽然它不见得能写出N-S方程、应力应变关系、抛物线公式,但它懂得了力的相互作用、质量守恒、能量守恒、熵增原理等等这些统治世界的物理定律。
那么此时的模型,就成为了所谓的“世界模型(World Model)”。
你问了,大语言模型能帮我水论文水报告水文章,世界模型能干啥?
很简单,只要你想 “预测未来”,世界模型就都有用武之地。比如:
视频制作,一个会生成画面的世界模型。它知道玻璃杯落地会碎,而且是落地后,而不是落地前。
自动驾驶,一个会开车的世界模型。看到行人在斑马线行走,它知道汽车应该停在斑马线前。
游戏开发,一个会做梦的世界模型。游戏中的NPC不再是固定程序,它将能和玩家自然地对话和互动,拥有无限的交互可能。
具身智能,一个会做家务的世界模型。当看到的对象是水杯时,它知道抓取力量应该大点,而对象是人手时,力度就要减小。
工业机器人,一个会打螺丝的世界模型。看到传送带不同的零件,它知道应该把它装在哪,用多大的力。
理论上来说,世界模型的训练素材来自哪些场景,它最终的应用就有哪些,而且还会更广泛。
中国也会成为世界模型的练兵场,毕竟中国的制造业总产值占全球的30%以上,2024年工业机器人安装量也占到全球的54%。
在制造业转型的浪潮中,我们不仅需要 AI 帮我们写方案,更需要AI走出屏幕,拿起扳手,帮我们做饭洗衣服搬砖开车,以及建工厂。