七台河市网站建设_网站建设公司_图标设计_seo优化-淄博市网站建设公司

序号	属性	值
1	论文名称	VLA-ADAPTER
2	发表时间/位置	2025
3	Code	VLA-Adapter
4	创新点	1：小模型范式。放弃了主流的 7B/13B 大模型，直接使用0.5B (5亿参数)的 Qwen2.5 作为主干。通过实验证明了只要“桥接”设计得好，小模型也能在具身智能任务上超越大模型。跳过了昂贵且耗时的“大规模机器人数据预训练”阶段，直接进行微调训练，极大降低了数据和算力门槛。 2：通过实验发现了两个“大模型控制机器人”的底层规律：视觉特征 (Raw Latent) 用中间层：只有 VLM 的中间层保留了机器人操作最需要的空间和几何信息；深层太抽象（偏语义），反而不好用。意图特征 (ActionQuery) 用深层：专门用来提取任务意图的 ActionQuery Token，必须走到最深层才能收集到完整的多模态信息。 3：通过设计了Bridge Attention (桥接注意力)模块实现全层信息利用：双路特征注入：一路输入Raw Latent（看环境细节）。一路输入ActionQuery + Proprioception（看任务意图和自身状态）。针对视觉通路Raw Latent，设计了一个可学习的参数 g，像水龙头一样自动调节视觉信息的注入量。模型自己决定当前动作是更需要盯着图像细节看，还是更依赖指令和自身感觉。全层信息利用 (VLA-Adapter 的做法是：在每一层之间都修了一个Bridge Attention（连廊）。)：不只取 VLM 的最后一层输出，而是通过Adapter 结构提取 VLM所有层的有效信息，确保空间感和语义理解“全都要”。
5	引用量	用 0.5B 小模型，不搞预训练，利用中间层看空间、深层看意图，通过带开关的 Bridge Attention 融合信息，单卡8小时训练出 SOTA 机器人。

一：提出问题

目前的 VLA 模型（如 Google 的 RT-2 等）通常是拿一个巨大的大语言模型（LLM）或视觉语言模型（VLM），然后在海量的机器人数据上进行“预训练”。这往往算力昂贵，推理缓慢，依赖数据。针对这个问题，作者提出了VLA-Adapter，试图证明“小模型+好的设计”可以战胜“大模型+暴力计算”。

极小的主干网络 (Tiny-Scale)：他们只用了0.5B (5亿参数)的模型作为基础。作为对比，常见的 LLaMA 模型通常是 7B 或 13B，GPT-4 则是万亿级别。这意味着这个模型可以在很小的设备上运行。

无需机器人预训练 (No Robotic Pre-training)：这是非常反直觉的一点。通常认为要想让机器人动起来，必须先让模型看几百万次机器人动作。作者通过高效的架构设计，跳过了这一步，直接进行微调或学习。

桥接注意力 (Bridge Attention)：作者发现，不是所有的视觉或语言信息对机器人动作都同等重要。

以前的方法：囫囵吞枣地把所有图片和文字塞给模型。
VLA-Adapter的方法：设计了一个“适配器（Adapter）”，它能自主判断当前通过“桥梁”传输哪些信息（Condition）对动作最有用，然后只把这些“最优条件”注入到动作策略中。

VL 到 A 的桥梁怎么搭？
视觉（看）和语言（读）的信息（统称VL），与机器人关节怎么动（Action）的信息，本质上是两种完全不同的数据。以前的人可能只是简单地把 VL 数据硬塞给动作网络。本文主要研究如何更有效地“桥接”（Bridge）这两个空间。
解决方案：VLA-Adapter
先分析：不是盲目设计，而是先系统性地测试哪些信息（Condition）对动作生成最有用。
再设计：发明了Bridge Attention（桥接注意力）机制。这就好比一个智能过滤器，它知道在这一秒，应该把视觉里的哪些特征、语言里的哪些指令“注入”给动作模块，而不是一股脑全塞进去。
结果：用极小的模型（Tiny-scale backbone）实现了极高的性能。
以前没人系统研究过“桥接范式”怎么影响动作，本文是第一个研究明白并给出结论的。本文还提出了 VLA-Adapter 这个具体的方法，真正解决了 VL 到 A 的传输问题。设计的模型更准、更小、更便宜、更快。

二：解决方案

1.大模型里有几十层网络，到底哪一层的信息对机器人动作最有用？-为此作者设计了详细的对比实验，主要关注如下方面：

是用某一层的信号，还是用所有层的信号？
是用通用的图像特征（Raw），还是用那个专门的“提问者”特征（ActionQuery）？

1.1：对于普通特征（Raw），中间层 > 深层。

深层（Deep Layer）：大模型的深层通常处理高度抽象的语义（例如：“这是一个杯子”）。
中间层（Middle Layer）：包含几何和空间信息（例如：“杯子边缘在坐标 x,y，它是圆的”）。

机器人伸手抓东西，更需要知道东西在哪（几何信息），而不是知道它的哲学定义（语义信息）。所以深层特征反而不好用，中间层最好。

1.2：对于专用特征（ActionQuery），深层 > 浅层。

ActionQuery 是一个特殊的、从零训练的向量。它的任务是从头走到尾“收集”信息。走得越深，它收集到的综合信息（包括视觉、语言、空间）就越全。所以它必须等到最后（深层）才最强。

1.3：既然不同层有不同的好（有的懂几何，有的懂语义），最稳妥的办法就是把所有层的信息都利用起来。这不仅效果最好，而且省去了人工去猜哪一层最好的麻烦。

2.带有桥接注意力机制的策略网络 (POLICY WITH BRIDGE ATTENTION)

2.1 Bridge Attention (三合一注意力)

普通的模型可能只是把图像和文字简单加起来。作者设计了一个精密的“过滤器”，叫 Bridge Attention。

CA1：看环境细节。动作去查询 Raw Latent（原始图像特征）。这里加了一个参数g。这就像一个水龙头开关。模型会自动学习这个 g。如果当前任务需要精细的视觉操作（比如穿针），g就变大，让更多视觉细节流进来；如果不需要（比如只是搬大箱子），g就变小。这就是所谓的“自主注入最优条件”。

CA2：看任务意图和自身状态。动作去查询 ActionQuery（任务意图）和 Proprioception（自身状态）。这告诉机器人“我要干什么”以及“我现在在哪”。

SA：看动作连贯性。动作查询自己。确保生成的动作前后连贯，不是乱抖动。

最后把这三路信息拼起来（Concatenate），就得到了综合决策。

桥接注意力旨在通过条件 CtR 和 CtAQ最大程度地引导动作生成。每个桥接注意力模块包含两个交叉注意力和一个自注意力。
为了选择性地将特定的CtR注入到策略网络的动作空间中，引入了一个可学习参数比率g来调节 CA1的影响。g初始化为 0，并使用 tanh 激活函数使得 tanh(g)∈[−1,1]，以防止极值导致分布不稳定。将这三个注意力结果拼接起来得到 A~tτ：
作者还设计了一个基于 DiT的策略网络。由于策略网络的多样性不是本文的重点，将详细信息和简要结果在附录 B 中。结果表明，基于 L1 的架构在性能和推理速度上普遍优于基于 DiT 的方法。

2.2.为什么不用扩散模型？

现在很流行用 Diffusion Model（像生成图片的 Stable Diffusion 那样）来生成机器人动作，因为可以处理多模态分布（比如同一个任务可以左手拿也可以右手拿）。作者测试了 DiT，但最终选择了简单的L1 Regression（直接回归预测）。其主要原因如下：

速度：L1 只需要算一次，扩散模型要反向去噪几十步，太慢了。VLA-Adapter 追求的是极致的速度。
性能：在这个架构下，L1 效果更好。
结论：简单粗暴有效，符合“Tiny-scale”的要求。

3.Training

训练公式就是计算L1 Loss（预测的动作和真实动作之间的绝对误差）。虽然用了预训练的大模型（Qwen）作为视觉编码器，但在训练这个 Adapter 策略时，是一起调整的，让整个系统协同工作（端到端的策略）。

三：实验

所有实验均在4 张 NVIDIA H100 GPU上运行

Q2.1 比设计（机制验证）：也就是对比“别的连接方式”和“我的 Bridge Attention”。证明我的架构设计是更科学的。Q2.2 比结果（SOTA 对比）：也就是对比“别人的模型（如 Octo, OpenVLA）”和“我的模型”。证明我的实战效果是最好的。

Q2.3 比细节（组件分析）：也就是模型内部的“体检”。看看具体是哪个零件（比如那个参数 g或者特定层）起了关键作用。

四：总结

提出了VLA-Adapter，这是一种用于 VLA 的新颖且高效的桥接范式。通过利用原始潜变量（Raw latent）*和*动作查询潜变量（ActionQuery latent），该方法有效地将多模态知识传输给策略网络以生成动作。实验表明，VLA-Adapter 使用微型主干网络就实现了SOTA的性能。即使在冻结 VLM的情况下，它也表现出强大的性能。此外，本文的方法显存占用低，推理速度快。VLA-Adapter缓解了 VLA 对大规模 VLM 和巨大训练成本的依赖，降低了部署 VLA 的门槛。

冻结模型效果也可以
在训练时，可以选择不更新那个 0.5B 的主干网络，只训练后面那一点点 Adapter 参数。这将训练成本进一步压缩到了极致。如果冻结主干，显存占用会更低，训练速度会更快。这证明了 VLA-Adapter 这个架构本身的强大，它不需要靠改变主干网络的认知来凑合动作，而是真的能从现有的主干中提取出有效信息。

七台河市网站建设_网站建设公司_图标设计_seo优化

一：提出问题

二：解决方案

1.大模型里有几十层网络，到底哪一层的信息对机器人动作最有用？-为此作者设计了详细的对比实验，主要关注如下方面：

2.带有桥接注意力机制的策略网络 (POLICY WITH BRIDGE ATTENTION)

2.1 Bridge Attention (三合一注意力)

2.2.为什么不用扩散模型？

3.Training

三：实验

四：总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

七台河市网站建设_网站建设公司_图标设计_seo优化

一：提出问题

二：解决方案

1.大模型里有几十层网络，到底哪一层的信息对机器人动作最有用？-为此作者设计了详细的对比实验，主要关注如下方面：

2.带有桥接注意力机制的策略网络 (POLICY WITH BRIDGE ATTENTION)

2.1 Bridge Attention (三合一注意力)

2.2.为什么不用扩散模型？

3.Training

三：实验

四：总结

热门文章

文章分类

标签云

相关文章

机床防护钣金怎么选？高可靠性机床防护钣金定制工厂推荐 - 品牌推荐大师1

2025年12月平衡式留置针胰岛素泵,无异物感胰岛素泵,贴敷式与便携式二合一胰岛素泵厂家推荐，高性能与可靠性兼具的优质品牌 - 品牌鉴赏师

江苏精密钣金焊接哪家做得好？江苏不锈钢钣金加工厂家推荐 - 品牌推荐大师1

需要专业的网站建设服务？