- 文章导读:在无人驾驶领域,车道跟踪、车辆流量监控、变道辅助及车道保持等技术已得到广泛应用。然而,无人驾驶系统面临的核心问题在于:无人车能否准确理解人类行为?人类能否及时理解车辆决策?若人车之间未能实现认知协同,将直接影响无人驾驶的可信性。因此,必须使无人车具备情境理解能力、交互能力、学习能力和可信任性,方能真正为大众所接受。更为关键的是,真实驾驶场景具有高度动态性、碎片化且难以穷尽的特征,无人车如何在这些不断累积的复杂场景中实现持续学习与进化,是无人驾驶迈向真正智能化的核心挑战。
清华大学李德毅和北京工业大学马楠作为通讯作者在中国工程院院刊《Engineering》期刊上发表“无人驾驶具身交互智能”的研究论文,提出了无人驾驶具身交互智能理论框架——通过跨媒体感知、机器学习、认知计算和生成式人工智能等技术,构建与物理世界统一的智能表达与学习方法。该研究创新性地构建了端到端感知-认知-行为闭环反馈范式,使无人车不仅能交互、会学习、可信任,更能在日常驾驶中遇到的每一个碎片化场景中进行自主终生学习。通过自学习、自成长能力,以有限的驾驶经验逼近无限的智能,从而增强机器的智能化水平,真正实现人机融合,使无人车具备情境理解能力,为大众所接受。 - 研究内容:本研究提出了无人驾驶具身交互智能(Embodied Interactive Intelligence Towards Autonomous Driving, EIIAD):无人车利用跨模态感知系统识别和追踪物理空间的关键要素,通过主动与环境交互获取反馈,持续建立并优化物理空间与认知空间的映射关系,形成感知-认知-行为闭环范式,最终实现类人决策并控制车辆行为。根据交互对象差异,无人驾驶具身交互智能包括车与人交互、车与车交互和车与环境交互三大类别(图1a)。针对不同交互主体的行为特征差异,本研究提出了差异化的交互认知模型:针对车与人交互,提出基于多视时空特征的超图神经网络(Hypergraph Neural Network based on Multi-view Spatial-temporal Features, HGNN-MSTF),通过构建动态时空超图捕捉人体关节的高阶语义关联,融合多视角跨模态感知信息,结合场景上下文通过联合概率分布建模行人动作与位置关系,实现对行人意图的精准理解(图1b);针对车与车交互,提出基于联合轨迹预测的世界模型深度强化学习网络(Deep Reinforcement Learning - Joint Trajectory Prediction World Model, DRL-JTPWM),通过估计无人车与周围社会车辆行驶轨迹的联合概率分布,推理多个潜在交互场景,利用预测的未来场景评估驾驶策略优劣,在狭路会车、超车并道、无保护路口左转等复杂交互工况中展现出优异性能(图1c)。在此基础上,本研究将上述车与人的交互认知及环境约束集成于统一的人车在环深度强化学习框架,从而构建了端到端统一约束的车与环境交互模型(Unified Constrained Vehicle–Environment Interaction, UniCVE),采用鸟瞰图空间统一编码多视角跨模态感知信息,通过超图神经网络学习环境要素间的高阶关系,并创新性地将大语言模型的驾驶知识蒸馏到实时模型中,统一表达了无人车与环境中各要素相互关联的复杂交互行为。
图1 无人驾驶的具身交互智能。(a)无人车与环境交互:驾驶环境复杂性主要源于动态变化的路况,罕见的危险场景以及多样化的地形和气候条件等。(b) 无人车与人的肢体语言交互方法:基于时空超图的跨模态动作识别。 © 车体语言交互:包括狭路会车,超车并道和无保护十字路口多车交互等工况。
3. 研究总结:本研究构建的端到端感知-认知-行为闭环反馈框架,通过将异构交互主体的认知理解转化为统一的价值函数与软约束表达,建立了人-车-路协同交互的统一认知模型。UniCVE模型已在东风无人巴士部署验证,于雄安新区累计行驶22000公里,完成45000项运营导航任务,特别是在视觉遮挡交叉路口等高风险场景中展现出基于经验记忆的自适应决策能力。该研究所提出的具身交互智能范式,使无人车具备了在碎片化场景中的自主终生学习机制,构建了从有限样本到无限智能的演化路径,为无人驾驶系统实现真正"懂人情世故"的社会化融入提供了理论支撑与技术路径,标志着无人驾驶技术从功能实现向认知智能的跨越式发展。