益阳市网站建设_网站建设公司_搜索功能_seo优化
2026/1/2 6:50:16 网站建设 项目流程

@[TOC]【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

1 项目背景

团队:由机器人初创公司 Figure AI 研发。

提出时间:2025年2月20日(根据官方新闻发布日期)。

2 核心挑战

核心挑战:传统的机器人学习方式(如模仿学习或启发式编程)难以扩展到复杂的家庭环境。家庭场景充满不可预测性(物体种类繁多、形状各异),为每种新行为手动编程或收集数千次演示成本过高。

愿景:Figure AI 旨在打破这一僵局,利用大语言模型(VLM)丰富的语义知识,将其直接转化为机器人动作。使机器人能够通过自然语言指令,对从未见过的物体执行任务,实现“即时泛化”。

3 解决方法

Helix 采用了“系统 1 + 系统 2”(System 1, System 2)的架构设计,平衡了泛化能力与执行速度。

3.1 模型设计

双系统架构:

系统 2 (S2 - 慢思考/决策层):基于一个 7B 参数 的开源预训练 VLM(视觉语言模型)。它以 7-9 Hz 的频率运行,负责理解场景、接收自然语言指令,并将语义信息压缩成一个连续的隐向量(Latent Vector)。

系统 1 (S1 - 快反应/控制层):一个 80M 参数 的交叉注意力编码器-解码器 Transformer。它以 200 Hz 的高频率运行,接收 S2 传来的隐向量,并将其转化为精确的、连续的机器人动作。

全上半身控制:Helix 是首个直接输出 humanoid 全上半身(包括手腕、躯干、头部和 10 根手指)高维动作空间的 VLA 模型。

板载推理:模型运行在机器人内置的双低功耗 GPU 上,实现了商业化的板载部署。

3.2 Loss 设计

标准回归损失(Standard Regression Loss):Helix 采用端到端训练方式。

端到端优化:梯度通过 S1 与 S2 之间的隐向量进行反向传播,从而对整个系统进行联合优化。

辅助任务:在动作空间中增加了一个合成的“任务完成百分比”动作,用于预测任务终止状态。

3.3 数据分布

数据规模:约 500 小时 的高质量、多机器人、多操作员的遥操作数据集。

3.3.1 自动标注

使用 VLM 对视频片段进行“后验指令”自动标注(提问 VLM:“要实现视频中的动作,应该给机器人什么指令?”)。

  • 为什么需要自动标注?
    • 在开发视觉-语言-动作(VLA)模型时,传统的标注方式存在以下痛点:
      • 人工标注昂贵且低效:Helix 使用了 500 小时的遥操作(Teleop)数据。如果依靠人工观看视频并手动输入“把仙人掌放入篮子”等指令,成本极高且容易出错。
      • 语义对齐困难:人类在描述动作时,往往抓不住模型需要的“关键视觉特征”。
      • 指令多样性不足:人工标注往往倾向于简洁,而自动标注可以生成多种表达方式(如“收拾桌子”和“把那个绿色的东西拿走”指代同一动作),增加模型的鲁棒性。
      • 规模化障碍:要实现“通用机器人”,需要海量的数据。只有通过自动化的方式,才能将数千小时的原始视频转化为可供机器学习的“指令-动作”对。
  • 自动标注的输入和输出Helix 利用一个高性能的、离线的 VLM(视觉语言模型) 作为“老师”,对原始数据进行标注:
    • 输入 (Input):原始视频序列:机器人执行某个任务的完整视频(由板载摄像头拍摄)。
    • 后验提示词 (Hindsight Prompts):这是一个精心设计的 Prompt,引导 VLM 观察视频结果。
      • 例如:“观察这段机器人移动物体的视频。如果你是操作员,你会下达什么简短的自然语言指令来触发这个动作?”
    • 输出 (Output):自然语言标签 (Natural Language Labels):与视频内容精确匹配的文本指令(如:“将黑色马克杯移到右侧水槽边缘”)。
  • 核心机制:后验标注 (Hindsight Labeling)这种方法之所以被称为“后验”,是因为它是在动作发生之后去追溯其意图。逻辑反转:传统训练是“指令→\rightarrow动作”,而标注过程是“动作视频→\rightarrow指令”。
  • 消除歧义:在动作开始前,意图往往是模糊的;但在动作结束后,VLM 可以清晰地看到机器人抓住了哪个物体、放在了什么位置,从而给出极度精确的描述。

4 效果

全方位协调:能够以 200Hz 频率协调 35 个自由度(DoF),实现头部追踪手部、躯干调整姿态以扩展触及范围的复杂协同动作。

强大的泛化性(Pick up anything):机器人可以根据自然语言(如“捡起那个沙漠物体”)识别出从未见过的仙人掌玩具并成功抓取。

多机协同:两台运行相同 Helix 模型权重的机器人可以协同完成杂货整理任务,支持自然语言引导下的物体传递。

高效性:仅用以往 VLA 数据集不到 5% 的数据量,就实现了比以往更精细、更高维的控制效果。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询