序号 | 属性 | 值 |
|---|---|---|
| 1 | 论文名称 | VLA-ADAPTER |
| 2 | 发表时间/位置 | 2025 |
| 3 | Code | VLA-Adapter |
| 4 | 创新点 | 1:小模型范式。 放弃了主流的 7B/13B 大模型,直接使用0.5B (5亿参数)的 Qwen2.5 作为主干。通过实验证明了只要“桥接”设计得好,小模型也能在具身智能任务上超越大模型。跳过了昂贵且耗时的“大规模机器人数据预训练”阶段,直接进行微调训练,极大降低了数据和算力门槛。 2:通过实验发现了两个“大模型控制机器人”的底层规律: 视觉特征 (Raw Latent) 用中间层:只有 VLM 的中间层保留了机器人操作最需要的空间和几何信息;深层太抽象(偏语义),反而不好用。 意图特征 (ActionQuery) 用深层:专门用来提取任务意图的 ActionQuery Token,必须走到最深层才能收集到完整的多模态信息。 3:通过设计了Bridge Attention (桥接注意力)模块实现全层信息利用: 双路特征注入:一路输入Raw Latent(看环境细节)。一路输入ActionQuery + Proprioception(看任务意图和自身状态)。针对视觉通路Raw Latent,设计了一个可学习的参数 g,像水龙头一样自动调节视觉信息的注入量。模型自己决定当前动作是更需要盯着图像细节看,还是更依赖指令和自身感觉。 全层信息利用 (VLA-Adapter 的做法是:在每一层之间都修了一个Bridge Attention(连廊)。):不只取 VLM 的最后一层输出,而是通过Adapter 结构提取 VLM所有层的有效信息,确保空间感和语义理解“全都要”。 |
| 5 | 引用量 | 用 0.5B 小模型,不搞预训练,利用中间层看空间、深层看意图,通过带开关的 Bridge Attention 融合信息,单卡8小时训练出 SOTA 机器人。 |
一:提出问题
目前的 VLA 模型(如 Google 的 RT-2 等)通常是拿一个巨大的大语言模型(LLM)或视觉语言模型(VLM),然后在海量的机器人数据上进行“预训练”。这往往算力昂贵,推理缓慢,依赖数据。针对这个问题,作者提出了VLA-Adapter,试图证明“小模型+好的设计”可以战胜“大模型+暴力计算”。
极小的主干网络 (Tiny-Scale):他们只用了0.5B (5亿参数)的模型作为基础。作为对比,常见的 LLaMA 模型通常是 7B 或 13B,GPT-4 则是万亿级别。这意味着这个模型可以在很小的设备上运行。
无需机器人预训练 (No Robotic Pre-training):这是非常反直觉的一点。通常认为要想让机器人动起来,必须先让模型看几百万次机器人动作。作者通过高效的架构设计,跳过了这一步,直接进行微调或学习。
桥接注意力 (Bridge Attention):作者发现,不是所有的视觉或语言信息对机器人动作都同等重要。
以前的方法:囫囵吞枣地把所有图片和文字塞给模型。
VLA-Adapter的方法:设计了一个“适配器(Adapter)”,它能自主判断当前通过“桥梁”传输哪些信息(Condition)对动作最有用,然后只把这些“最优条件”注入到动作策略中。
VL 到 A 的桥梁怎么搭?
视觉(看)和语言(读)的信息(统称VL),与机器人关节怎么动(Action)的信息,本质上是两种完全不同的数据。 以前的人可能只是简单地把 VL 数据硬塞给动作网络。本文主要研究如何更有效地“桥接”(Bridge)这两个空间。
解决方案:VLA-Adapter
先分析:不是盲目设计,而是先系统性地测试哪些信息(Condition)对动作生成最有用。
再设计:发明了Bridge Attention(桥接注意力)机制。这就好比一个智能过滤器,它知道在这一秒,应该把视觉里的哪些特征、语言里的哪些指令“注入”给动作模块,而不是一股脑全塞进去。
结果:用极小的模型(Tiny-scale backbone)实现了极高的性能。
以前没人系统研究过“桥接范式”怎么影响动作,本文是第一个研究明白并给出结论的。本文还提出了 VLA-Adapter 这个具体的方法,真正解决了 VL 到 A 的传输问题。设计的模型更准、更小、更便宜、更快。
二:解决方案
1.大模型里有几十层网络,到底哪一层的信息对机器人动作最有用?-为此作者设计了详细的对比实验,主要关注如下方面:
是用某一层的信号,还是用所有层的信号?
是用通用的图像特征(Raw),还是用那个专门的“提问者”特征(ActionQuery)?
1.1:对于普通特征(Raw),中间层 > 深层。
深层(Deep Layer):大模型的深层通常处理高度抽象的语义(例如:“这是一个杯子”)。
中间层(Middle Layer):包含几何和空间信息(例如:“杯子边缘在坐标 x,y,它是圆的”)。
机器人伸手抓东西,更需要知道东西在哪(几何信息),而不是知道它的哲学定义(语义信息)。所以深层特征反而不好用,中间层最好。
1.2:对于专用特征(ActionQuery),深层 > 浅层。
ActionQuery 是一个特殊的、从零训练的向量。它的任务是从头走到尾“收集”信息。走得越深,它收集到的综合信息(包括视觉、语言、空间)就越全。所以它必须等到最后(深层)才最强。
1.3:既然不同层有不同的好(有的懂几何,有的懂语义),最稳妥的办法就是把所有层的信息都利用起来。这不仅效果最好,而且省去了人工去猜哪一层最好的麻烦。
2.带有桥接注意力机制的策略网络 (POLICY WITH BRIDGE ATTENTION)
2.1 Bridge Attention (三合一注意力)
普通的模型可能只是把图像和文字简单加起来。作者设计了一个精密的“过滤器”,叫 Bridge Attention。
CA1:看环境细节。动作去查询 Raw Latent(原始图像特征)。这里加了一个参数g。这就像一个水龙头开关。模型会自动学习这个 g。如果当前任务需要精细的视觉操作(比如穿针),g就变大,让更多视觉细节流进来;如果不需要(比如只是搬大箱子),g就变小。这就是所谓的“自主注入最优条件”。
CA2:看任务意图和自身状态。动作去查询 ActionQuery(任务意图)和 Proprioception(自身状态)。这告诉机器人“我要干什么”以及“我现在在哪”。
SA:看动作连贯性。动作查询自己。确保生成的动作前后连贯,不是乱抖动。
最后把这三路信息拼起来(Concatenate),就得到了综合决策。
桥接注意力旨在通过条件 CtR 和 CtAQ最大程度地引导动作生成。每个桥接注意力模块包含两个交叉注意力和一个自注意力。
为了选择性地将特定的CtR注入到策略网络的动作空间中,引入了一个可学习参数比率
g来调节 CA1的影响。g初始化为 0,并使用 tanh 激活函数使得 tanh(g)∈[−1,1],以防止极值导致分布不稳定。将这三个注意力结果拼接起来得到 A~tτ:作者还设计了一个基于 DiT的策略网络。由于策略网络的多样性不是本文的重点,将详细信息和简要结果在附录 B 中。结果表明,基于 L1 的架构在性能和推理速度上普遍优于基于 DiT 的方法。
2.2.为什么不用扩散模型?
现在很流行用 Diffusion Model(像生成图片的 Stable Diffusion 那样)来生成机器人动作,因为可以处理多模态分布(比如同一个任务可以左手拿也可以右手拿)。作者测试了 DiT,但最终选择了简单的L1 Regression(直接回归预测)。其主要原因如下:
速度:L1 只需要算一次,扩散模型要反向去噪几十步,太慢了。VLA-Adapter 追求的是极致的速度。
性能:在这个架构下,L1 效果更好。
结论:简单粗暴有效,符合“Tiny-scale”的要求。
3.Training
训练公式就是计算L1 Loss(预测的动作和真实动作之间的绝对误差)。虽然用了预训练的大模型(Qwen)作为视觉编码器,但在训练这个 Adapter 策略时,是一起调整的,让整个系统协同工作(端到端的策略)。
三:实验
所有实验均在4 张 NVIDIA H100 GPU上运行
Q2.1 比设计(机制验证):也就是对比“别的连接方式”和“我的 Bridge Attention”。证明我的架构设计是更科学的。Q2.2 比结果(SOTA 对比):也就是对比“别人的模型(如 Octo, OpenVLA)”和“我的模型”。证明我的实战效果是最好的。
Q2.3 比细节(组件分析):也就是模型内部的“体检”。看看具体是哪个零件(比如那个参数 g或者特定层)起了关键作用。
四:总结
提出了VLA-Adapter,这是一种用于 VLA 的新颖且高效的桥接范式。通过利用原始潜变量(Raw latent)*和*动作查询潜变量(ActionQuery latent),该方法有效地将多模态知识传输给策略网络以生成动作。实验表明,VLA-Adapter 使用微型主干网络就实现了SOTA的性能。即使在冻结 VLM的情况下,它也表现出强大的性能。此外,本文的方法显存占用低,推理速度快。VLA-Adapter缓解了 VLA 对大规模 VLM 和巨大训练成本的依赖,降低了部署 VLA 的门槛。
冻结模型效果也可以
在训练时,可以选择不更新那个 0.5B 的主干网络,只训练后面那一点点 Adapter 参数。这将训练成本进一步压缩到了极致。如果冻结主干,显存占用会更低,训练速度会更快。这证明了 VLA-Adapter 这个架构本身的强大,它不需要靠改变主干网络的认知来凑合动作,而是真的能从现有的主干中提取出有效信息。