娄底市网站建设_网站建设公司_后端工程师_seo优化
2026/1/9 0:17:35 网站建设 项目流程

波士顿机械狗Spot利用可视化基础模型将其置于上下文中实现基于3D空间语义认知的路径规划

这篇博客由 Spot 团队的机器人工程师 Michael McDonald 和 Jeffrey Yu 撰写。

在日常工作中,我们的客户会在工厂、铸造厂、变电站、地下室等场所操作 Spot® 机器人。Spot 会遇到各种障碍物和环境变化,但它仍然需要安全完成任务,避免被困、跌落或损坏任何设备。过去几年,我们不断增强 Spot 的功能,帮助它更有效地穿越繁忙区域、避开其他移动物体、在湿滑地面上保持平衡等等。

然而,虽然有些挑战和障碍我们可以预见并提前规划——例如楼梯或叉车——但还有更多难以预测的情况。为了帮助应对这些特殊情况,我们利用人工智能基础模型,使 Spot 能够更好地理解世界语义,从而不仅根据环境几何形状,还能结合其他上下文信息来规划路径。

  • 认知与差距

Spot的感知始于其体内内置的五个立体摄像头;我们利用这些摄像头获取的深度数据生成周围环境的3D地图。我们能够将这些深度数据转化为地图,并利用空间几何信息来检测墙壁、空地和其他物体。之后,我们进一步优化地图,以确定Spot的行走路线——例如,避开陡坡或高台阶。

这对于基本的自主导航和路径规划效果很好,但主要使用几何图形来感知世界的局限性在于,某些障碍物和危险在 3D 数据中无法很好地显示出来。

仅凭几何学,通常会遇到四种类型的挑战。

  1. 数据量不足导致无法识别:某些障碍物难以使用 Spot 的摄像头识别。例如,电线等小型物体在地图数据中可能被平滑处理,而窗户或玻璃门等透明物体则可能完全不可见。使用视觉数据而非深度数据来识别这些物体有助于防止缠绕或碰撞。
  2. 对 Spot 构成危险:其他物体可能在 3D 数据中可见,但仍可能对 Spot 构成危险。例如,带轮推车或平板车在 3D 数据中可能看起来像一个稳定的平台,但如果 Spot 试图踩上去,推车就会移动,导致 Spot 摔倒。添加语义理解功能可以帮助 Spot 识别推车、可移动物体、软管、水坑和其他潜在风险。
  3. 小心处理:同样,有些东西在3D数据中看起来可能无害,但实际上却很脆弱或昂贵。没有人希望机器人不小心踩到易碎物品,因此Spot需要额外的上下文信息来识别这些物品,并引导它避开它们。
  4. 对他人构成危险:Spot 可以探测并绕过某些物体,但需要结合上下文信息来降低对人的风险。例如,从梯子下方走过是危险的。Spot 需要能够识别梯子,才能遵守梯子周围的安全操作规程。

利用基础模型,我们能够训练 Spot 识别这些类型的危险,并将上下文理解应用于其行为——修改其路径规划以应对更细致的障碍物类型。

  • 使用基础模型进行训练

近年来,人工智能(包括深度学习、神经网络和基础模型)发展迅猛。这些技术为解决机器人领域的传统难题提供了新的途径,波士顿动力公司的各个团队一直在探索如何利用机器学习来拓展机器人智能的边界。尤其值得一提的是,我们看到了利用视觉基础模型赋予Spot机器人更强的环境语义理解能力的潜力——通过为几何图形添加上下文信息,使其性能更加安全、可预测。

什么是基础模型?

从广义上讲,基础模型正如其名:它是构建其他应用程序的基础。要对人工智能模型有一个大致的了解,需要海量数据;而为单个应用程序收集如此大规模的数据可能成本过高。

基础模型能够让你从已经学习过大量数据集的模型入手,从而加快训练过程。通常,这些模型经过训练是为了建立关联:这段文本与那段文本相关,这张图片与那段文本相关,这张图片与那张图片相关。你可以使用这个基础模型在其基础上训练一个新模型,或者使用更少的数据对其进行微调,以用于下游任务。

在我们的案例中,我们测试了几种视觉基础模型,最终选择了一个开放集目标检测模型;这意味着我们可以向模型提供任何文本或图像,并让它在输入(在本例中为Spot的摄像头)中找到所有匹配的实例。这使我们能够确定希望Spot更智能地识别和规避的具体危险类型。此外,模型学习到的更广泛的知识使我们能够通过提供几张图像或简短的文本描述,快速地将识别能力应用于新的环境和特定的危险。

训练、测试和微调

模型建立完成后,我们需要对其进行测试和完善。测试的主要挑战在于速度和灵活性。机器人需要完成任务,我们不希望设置过多限制,导致 Spot 无法完成任务。这意味着必须快速运行这些模型,避免误报,并确保 Spot 能够避开障碍物而不被困住。

机器学习模型需要大量的资源和时间才能处理你提供的数据。如果希望它们在机器人上运行并发挥作用,就必须能够实时运行。因此,大部分测试都集中在如何高效地创建一个流程,使其能够识别危险,并能将识别结果实时反馈到导航系统中。我们的大量测试都集中在寻找并微调一个足够稳健、能够可靠地检测危险,同时又足够轻量级、能够高效运行的模型。

我们也测试了将检测到的障碍物重新整合到 Spot 导航中的不同方法。如果限制过多,会阻碍 Spot 的路径,导致机器人卡住;如果限制过少,Spot 仍然可能以不良方式与障碍物互动。

我们希望更细致地展现 Spot 如何根据其在空间中观察到的情况调整互动方式。例如,遇到梯子或玻璃门时,Spot 应该完全避开障碍物。但很多时候,还有更微妙的选择。Spot 可以根据需要跨过电线,只要不踩到电线即可。遇到水坑时,Spot 可能会绕行,但如果没有其他畅通的路径,它也可以穿过。

除了绘制障碍物地图外,我们还希望将这些模型的输出映射到机器人的导航功能——本质上是让机器人了解,根据它所看到的内容,它可以做什么。

危险规避

仅仅在实验室里进行概念验证是不够的。我们需要Spot在真实环境中发挥作用。经过严格的测试,所有拥有Spot Core I/O的客户现在都可以使用此工作流程。我们利用多种模型和工具来检测物体,优化已识别物体周围的分割掩码,并基于这些信息规划行为,从而使Spot能够在杂乱、繁忙的真实工作场所中更安全、更高效地导航。

从4.1 版本开始,除了移动物体外,Spot 现在还能检测并避开工业环境中常见的危险物,例如推车、电线和梯子。最新版本通过将视觉语义信息集成到 Spot 的导航系统中,立即提升了 Spot 对世界的感知能力。任何在其机器人上安装了此扩展程序的用户都能看到这些变化。

持续学习

当然,这项工作并非止于将语义危险规避技术部署到实际环境中。相反,这只是训练更强大模型的第一步。我们可以利用来自客户的性能数据来了解哪些方面运行良好,哪些方面需要微调。真实世界的运行数据也使我们能够训练出更可靠、更精确的模型,从而检测Spot运行环境中的其他类型危险或重要物体。

这种语义理解不仅提高了Spot的可靠性,还帮助Spot在特定情况下更像人一样行事。利用基础模型训练情境行为,使我们的机器人对人类而言更具可预测性、更直观,也更容易使用和应对。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询