沈阳市网站建设_网站建设公司_前后端分离_seo优化
2026/1/15 16:14:39 网站建设 项目流程

快速了解部分

基础信息(英文):

  1. X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
  2. 2025-10
  3. Tsinghua University, Shanghai AI Lab, Peking University
  4. Vision-Language-Action (VLA), Soft Prompt, Cross-Embodiment

1句话通俗总结本文干了什么事情

本文提出了一种名为 X-VLA 的通用机器人控制模型,利用“软提示(Soft Prompt)”技术,让一个模型能通过学习不同机器人的数据来掌握通用技能,并能快速适应从未见过的新机器人。

研究痛点:现有研究不足 / 要解决的具体问题

现有的通用 VLA 模型在混合不同机器人(跨具身)数据进行训练时,会因为硬件配置、相机视角和动作空间的巨大差异(异构性)而产生严重的分布偏移和语义错位,导致训练不稳定和泛化能力差。

核心方法:关键技术、模型或研究设计(简要)

提出X-VLA模型,核心是为每个不同的机器人数据源分配一组可学习的Soft Prompt(软提示)参数,将具身特定的差异编码到提示中,从而让主干网络学习具身无关的通用策略,并结合流匹配(Flow-Matching)策略进行动作生成。

深入了解部分

相比前人创新在哪里

  1. 参数高效与稳定性:不同于以往为不同机器人添加复杂的输出头或中间投影层,本文仅用极少的 Soft Prompt 参数(约 1%)就能吸收硬件差异,保持主干网络的通用性,训练更稳定。
  2. 即插即用适应:提出两步适应法(Prompt Warm-up + Joint Policy Adaptation),让预训练模型能极低成本(仅微调 900 万参数)迁移到新机器人上。
  3. 统一架构:完全基于标准 Transformer 编码器,摒弃了复杂的混合架构,实现了模型、数据多样性和数据量的三重扩展。

解决方法/算法的通俗解释

可以把 X-VLA 想象成一个“全能机器人导师”,而 Soft Prompt 就像是给这个导师配备的“翻译笔记”。

  • 当导师教不同机器人时,它先看一眼对应的“翻译笔记”(Soft Prompt)。
  • 这个笔记告诉导师:“我现在面对的是机械臂 A,它的视角是这样的,它的动作范围是那样的”。
  • 导师(主干网络)本身掌握的是通用的物理常识和逻辑,通过结合“笔记”,就能针对特定机器人给出正确的指令,而不需要为每个机器人重新培养一个新导师。

解决方法的具体做法

  1. 引入 Soft Prompt 库:为训练数据中的每个机器人平台(如 Franka, WidowX 等)初始化一组独立的可学习 Embedding 向量(即 Soft Prompt)。
  2. 特征融合:在输入 Transformer 前,将这些 Soft Prompt 与视觉、语言和本体感受(Proprioception)特征拼接。
  3. 流匹配策略:使用 Flow-Matching 算法生成动作,模型通过预测噪声到专家动作的流场来输出控制指令。
  4. 两步微调:在部署到新机器人时,先冻结主干网络训练新 Prompt(热身),再联合微调整个模型。

基于前人的哪些方法

  1. Florence 系列:使用了 Florence-Large 作为视觉-语言编码器,利用其强大的预训练视觉理解能力。
  2. DiT / Transformer 架构:基于标准的 Transformer 编码器块(类似 DiT 的结构)进行序列建模。
  3. 流匹配(Flow Matching):借鉴了生成模型中的流匹配技术用于动作生成,而非传统的扩散模型或行为克隆。

实验设置、数据,评估方式、结论

  1. 数据:预训练混合了 29 万段来自 Droid, Robomind, Agibot 的数据,涵盖 7 个平台、5 种机械臂。
  2. 模型规模:实现了 X-VLA-0.9B(9 亿参数)实例。
  3. 评估:在 6 个模拟基准(包括自动驾驶 NAVSIM)和 3 个真实世界机器人(WidowX, AgileX, AIRBOT)上测试。
  4. 结论
    • 在大多数基准测试中达到 SOTA(最先进)性能。
    • 仅用 1% 的参数微调(PEFT),在 Libero 基准上达到 93% 成功率,在 Simpler-WidowX 上达到 54%。
    • 在真实世界的灵巧操作(布料折叠)任务中,仅用 1200 条数据就实现了高吞吐量。

提到的同类工作

  1. RT-1 / RT-2(Google/Broad)
  2. OpenVLA / π₀(Physical Intelligence)
  3. Octo(Google)

和本文相关性最高的3个文献

  1. π₀ (Black et al., 2025):本文的主要对标模型,X-VLA 在参数效率和部分任务上与其进行了详细对比。
  2. RT-2 (Brohan et al., 2023):视觉-语言-动作模型的奠基性工作,本文的研究动机源于此类模型的扩展。
  3. HPT-style Projection (Wang et al., 2024c):本文在方法论部分重点对比了这种处理异构数据的方法,并指出了其局限性,从而引出 Soft Prompt 的优势。

我的

  1. 主要是soft prompt方法解决了cross embodiment数据集问题。
  2. 有一点是wrist camera没有像head cam一样过VLM,而是只通过vit提特征。因为作者认为现有VLM对多视角不好。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询