序号 | 属性 | 值 |
|---|---|---|
| 1 | 论文名称 | EdgeVLA |
| 2 | 发表时间/位置 | 2025/硅谷创业公司 K-scale Labs |
| 3 | Code | kscalelabs/evla: EdgeVLA: An open-source edge vision-language-action model for robotics. |
| 4 | 创新点 | 1:模型“瘦身” 现有的 OpenVLA 基于 7B 模型(Llama-2),显存占用大,边缘设备(如 Jetson Nano)跑不动。本文采用用Qwen2-0.5B替代 Llama-2-7B。参数量缩小了14倍。依然保留了最强的双视觉编码器组合 ——SigLIP(懂语义)+DINOv2(懂几何/结构)。整个模型参数量控制在1B(10亿)左右,极大降低了内存门槛。 2:模型“输出”方式的改变 传统 VLA 采用自回归(Autoregressive)模式,像说话一样串行预测动作(先x,再y,再z...),推理速度极慢,延迟高。提出了Joint Control(联合控制)。 移除了 LLM 输出层的因果掩码(Causal Mask),不再受限于“上文决定下文”。模型一次性并行输出所有 7 个维度的动作指令。推理速度直接提升6-7倍。 3: 业界普遍怀疑 0.5B 的小模型“脑子”不够用,且非自回归可能导致动作不准。作者对此进行了一系列的实验,在BridgeData V2和OpenX大规模数据集上验证,证明了 EdgeVLA 的最终控制效果与 7B 的 OpenVLA相当。 揭示了一个重要的 Trade-off —— 小模型虽然训练收敛慢(需要更多 Epoch),但在推理(Inference)时拥有绝对的速度优势。 |
| 5 | 引用量 | 就是基于openvla进行瘦身,在8卡A100训练了5天~~~ |
一:提出问题
在资源受限的移动操作系统上部署大规模的VLM仍然是一个巨大的障碍,EdgeVLA就是为了显著提高VLA推理速度,同时保持其表征能力,并且能够在边缘设备上实时运行。
现在的机器人研究非常流行使用VLA模型。简单来说,就是把大模型(LLM/VLM)的大脑装进机器人里,让机器人能看懂图、听懂话,直接输出动作指令。这些模型虽然聪明(泛化能力强),但是太重、太慢了。作者提出了EdgeVLA,顾名思义,就是专门为“边缘端(Edge)”设计的 VLA 模型。它的核心目标是:在不牺牲太多“智商”(表征能力)的前提下,大幅提升“反应速度”(推理速度)和降低内存占用。并针对性的提出了两个方面的改进策略:
1:消除自回归
所有的 LLM(包括 GPT、Llama)内部都有一个因果掩码。它的作用是“遮住未来”,强制模型在预测第 1 个字时,绝对看不到第 2 个字。这就导致模型必须像排队一样,一个接一个地预测。EdgeVLA 的暴力修改:作者认为,机器人的动作(例如 x,y,z坐标)和写文章不一样。写文章讲究先后顺序,但机器人的 x坐标和 y坐标是同时发生的,没有谁先谁后的因果关系。EdgeVLA 直接移除了动作输出层的因果掩码。
2:利用小语言模型
OpenVLA 基于 Llama 2 (7B) 或 Prismatic。对于边缘设备,70亿参数还是太大了。因此,EdgeVLA使用了SLMs作为基座。证明了小模型在经过微调后,在控制机器人这件具体任务上,效果并不比大模型差,但计算量大大减少。
1.由串行到并行
传统方法(自回归,Autoregressive):通常 VLA 输出动作是像说话一样:先说 x,再说 y,再说 z...。例如:输出 [Token_x, Token_y, Token_z, ...]。生成每一个 Token 都要跑一遍模型,生成 7 个动作参数可能需要跑 7 次模型。这非常慢。
EVLA 的方法(联合控制,Joint Control):论文提到 "predicting simultaneously"(同时预测)。这意味着模型不再把动作当成一个长句子来写,而是一次性输出所有关节/坐标的数据。从而实现了,推理速度提升了7倍(摘要说是6倍,这里说是7倍)。
2.小模型策略
大脑(Language Model):Qwen2-0.5B,OpenVLA 用的是 Llama-2-7B,而这里用的是阿里通义千问的 Qwen2,且只有0.5B (5亿)参数。选择 0.5B 意味着它能在极低显存(<2GB)的设备上流畅运行。
眼睛(Visual Encoders):SigLIP + DINOv2。SigLIP:类似于 CLIP,擅长理解图像的语义(这是什么?)。DINOv2:Meta 开发的模型,擅长理解图像的几何结构和细节(东西在哪里?形状是什么?)。这种“双视觉编码器”策略目前是目前采用比较多的标准配置。一个管语义,一个管几何,对机器人抓取非常重要。
二:解决方案
1.组装一个“迷你版”的超级大脑
这一阶段主要讲如何搭建模型架构和进行基础训练。作者基本上是复刻了 OpenVLA 的成功经验,但是把核心组件换成了更轻量级的版本。
视觉部分(眼睛):SigLIP + DINOv2。这是一个非常经典的“黄金组合”。
SigLIP:类似于 CLIP,负责语义理解(比如识别出图像里有一个“苹果”)。
DINOv2:负责几何理解(比如识别出“苹果”的轮廓、位置、深度信息)。对于机器人抓取来说,DINOv2 的特征至关重要。
语言部分(大脑):Qwen2-0.5B。这是本文最大的“瘦身”动作。OpenVLA 用的是 Llama-2-7B,参数量是 70 亿。
EdgeVLA 用的是 Qwen2-0.5B,参数量是 5 亿。体积缩小了 14 倍。
Qwen2是目前开源小模型里性能极强的代表,作者选择它证明了“杀鸡焉用牛刀”,控制机器人不需要莎士比亚级别的语言能力,够用就行。
连接部分:PrismaticVLM 配方。PrismaticVLM 是一种高效训练 VLM 的方法。简单来说,它冻结了视觉编码器,只训练连接层(Projector)和语言模型的一部分,让语言模型学会“看图说话”。
数据量:1.2M。120万数据在 VLM 预训练里不算多(对比 LAION 的 400M),属于轻量级预训练,主要目的是让语言模型适应视觉输入。
2. 打破思维定势的“联合控制”
这一阶段是本文的核心创新(Secret Sauce),解释了为什么它能比别人快 7 倍。
传统痛点:自回归(Autoregressive)的慢
LLM 的本质是“接龙”。预测一句话 I like apples,是先出 I,再出 like,再出 apples。
机器人控制通常涉及 7 个自由度(DOF):x, y, z, roll, pitch, yaw, gripper(位置+姿态+夹爪)。
OpenVLA 的做法:像写句子一样,先预测 x,有了 x 再预测 y……一共要推理7 次才能凑齐一个动作指令。
EVLA 的创新:移除因果掩码(Removing Causal Mask)
因果掩码是什么?
在 Transformer 模型中,为了防止模型“偷看”后面的答案,会加一个 Mask,让第 1 个词只能看第 1 个词,第 2 个词只能看前 2 个词。
EdgeVLA方法:作者认为,机器人的 x 坐标和 y 坐标之间,并不像语言那样有严格的先后因果关系(比如不需要先知道 x 才能决定 y,它们是描述同一个动作的不同维度)。因此,EdgeVLA并不是把所有 Token 变成一个 Token,而是并行输出。具体来说,在生成动作时,模型不再循环 7 次。而是经过一次前向传播,直接在输出层同时产出 7 个数值。
为什么是 7 倍加速?
旧方法:推理 7 步 = 1 个动作。
新方法:推理 1 步 = 1 个动作。
OpenVLA (串行模式):
输入:[图像] "向前移动"
输出:x -> y -> z -> rx -> ry -> rz -> open (耗时: 7×T7×T)
EdgeVLA (并行模式 - Joint Control):
输入:[图像] "向前移动"
输出:[x, y, z, rx, ry, rz, open](同时蹦出来)(耗时: 1×T)
三:实验
在80张A100上训练了5天?????????
四:总结
本文介绍了Edge VLA (EVLA),这是一种新颖的 VLA 架构,专为在移动操作机器人或人形机器人(humanoids)*上高效部署而设计。通过*消除末端执行器预测的自回归需求并利用小语言模型(SLMs)的效率,EVLA 在推理时间上实现了显著加速,并在不牺牲模型性能的情况下减少了内存占用。
应用场景从机械臂到人形机器人