新北市网站建设_网站建设公司_GitHub_seo优化-迪庆藏族自治州网站建设公司

序号	属性	值
1	论文名称	EdgeVLA
2	发表时间/位置	2025/硅谷创业公司 K-scale Labs
3	Code	kscalelabs/evla: EdgeVLA: An open-source edge vision-language-action model for robotics.
4	创新点	1：模型“瘦身” 现有的 OpenVLA 基于 7B 模型（Llama-2），显存占用大，边缘设备（如 Jetson Nano）跑不动。本文采用用Qwen2-0.5B替代 Llama-2-7B。参数量缩小了14倍。依然保留了最强的双视觉编码器组合 ——SigLIP（懂语义）+DINOv2（懂几何/结构）。整个模型参数量控制在1B（10亿）左右，极大降低了内存门槛。 2：模型“输出”方式的改变传统 VLA 采用自回归（Autoregressive）模式，像说话一样串行预测动作（先x，再y，再z...），推理速度极慢，延迟高。提出了Joint Control（联合控制）。移除了 LLM 输出层的因果掩码（Causal Mask），不再受限于“上文决定下文”。模型一次性并行输出所有 7 个维度的动作指令。推理速度直接提升6-7倍。 3：业界普遍怀疑 0.5B 的小模型“脑子”不够用，且非自回归可能导致动作不准。作者对此进行了一系列的实验，在BridgeData V2和OpenX大规模数据集上验证，证明了 EdgeVLA 的最终控制效果与 7B 的 OpenVLA相当。揭示了一个重要的 Trade-off —— 小模型虽然训练收敛慢（需要更多 Epoch），但在推理（Inference）时拥有绝对的速度优势。
5	引用量	就是基于openvla进行瘦身，在8卡A100训练了5天~~~

一：提出问题

在资源受限的移动操作系统上部署大规模的VLM仍然是一个巨大的障碍，EdgeVLA就是为了显著提高VLA推理速度，同时保持其表征能力，并且能够在边缘设备上实时运行。

现在的机器人研究非常流行使用VLA模型。简单来说，就是把大模型（LLM/VLM）的大脑装进机器人里，让机器人能看懂图、听懂话，直接输出动作指令。这些模型虽然聪明（泛化能力强），但是太重、太慢了。作者提出了EdgeVLA，顾名思义，就是专门为“边缘端（Edge）”设计的 VLA 模型。它的核心目标是：在不牺牲太多“智商”（表征能力）的前提下，大幅提升“反应速度”（推理速度）和降低内存占用。并针对性的提出了两个方面的改进策略：

1：消除自回归

所有的 LLM（包括 GPT、Llama）内部都有一个因果掩码。它的作用是“遮住未来”，强制模型在预测第 1 个字时，绝对看不到第 2 个字。这就导致模型必须像排队一样，一个接一个地预测。EdgeVLA 的暴力修改：作者认为，机器人的动作（例如 x,y,z坐标）和写文章不一样。写文章讲究先后顺序，但机器人的 x坐标和 y坐标是同时发生的，没有谁先谁后的因果关系。EdgeVLA 直接移除了动作输出层的因果掩码。

2:利用小语言模型

OpenVLA 基于 Llama 2 (7B) 或 Prismatic。对于边缘设备，70亿参数还是太大了。因此，EdgeVLA使用了SLMs作为基座。证明了小模型在经过微调后，在控制机器人这件具体任务上，效果并不比大模型差，但计算量大大减少。

1.由串行到并行
传统方法（自回归，Autoregressive）：通常 VLA 输出动作是像说话一样：先说 x，再说 y，再说 z...。例如：输出 [Token_x, Token_y, Token_z, ...]。生成每一个 Token 都要跑一遍模型，生成 7 个动作参数可能需要跑 7 次模型。这非常慢。
EVLA 的方法（联合控制，Joint Control）：论文提到 "predicting simultaneously"（同时预测）。这意味着模型不再把动作当成一个长句子来写，而是一次性输出所有关节/坐标的数据。从而实现了，推理速度提升了7倍（摘要说是6倍，这里说是7倍）。
2.小模型策略
大脑（Language Model）：Qwen2-0.5B，OpenVLA 用的是 Llama-2-7B，而这里用的是阿里通义千问的 Qwen2，且只有0.5B (5亿)参数。选择 0.5B 意味着它能在极低显存（<2GB）的设备上流畅运行。
眼睛（Visual Encoders）：SigLIP + DINOv2。SigLIP:类似于 CLIP，擅长理解图像的语义（这是什么？）。DINOv2:Meta 开发的模型，擅长理解图像的几何结构和细节（东西在哪里？形状是什么？）。这种“双视觉编码器”策略目前是目前采用比较多的标准配置。一个管语义，一个管几何，对机器人抓取非常重要。

二：解决方案

1.组装一个“迷你版”的超级大脑

这一阶段主要讲如何搭建模型架构和进行基础训练。作者基本上是复刻了 OpenVLA 的成功经验，但是把核心组件换成了更轻量级的版本。

视觉部分（眼睛）：SigLIP + DINOv2。这是一个非常经典的“黄金组合”。

SigLIP:类似于 CLIP，负责语义理解（比如识别出图像里有一个“苹果”）。
DINOv2:负责几何理解（比如识别出“苹果”的轮廓、位置、深度信息）。对于机器人抓取来说，DINOv2 的特征至关重要。

语言部分（大脑）：Qwen2-0.5B。这是本文最大的“瘦身”动作。OpenVLA 用的是 Llama-2-7B，参数量是 70 亿。

EdgeVLA 用的是 Qwen2-0.5B，参数量是 5 亿。体积缩小了 14 倍。
Qwen2是目前开源小模型里性能极强的代表，作者选择它证明了“杀鸡焉用牛刀”，控制机器人不需要莎士比亚级别的语言能力，够用就行。

连接部分：PrismaticVLM 配方。PrismaticVLM 是一种高效训练 VLM 的方法。简单来说，它冻结了视觉编码器，只训练连接层（Projector）和语言模型的一部分，让语言模型学会“看图说话”。

数据量：1.2M。120万数据在 VLM 预训练里不算多（对比 LAION 的 400M），属于轻量级预训练，主要目的是让语言模型适应视觉输入。

2. 打破思维定势的“联合控制”

这一阶段是本文的核心创新（Secret Sauce），解释了为什么它能比别人快 7 倍。

传统痛点：自回归（Autoregressive）的慢

LLM 的本质是“接龙”。预测一句话 I like apples，是先出 I，再出 like，再出 apples。
机器人控制通常涉及 7 个自由度（DOF）：x, y, z, roll, pitch, yaw, gripper（位置+姿态+夹爪）。
OpenVLA 的做法：像写句子一样，先预测 x，有了 x 再预测 y……一共要推理7 次才能凑齐一个动作指令。

EVLA 的创新：移除因果掩码（Removing Causal Mask）

因果掩码是什么？
在 Transformer 模型中，为了防止模型“偷看”后面的答案，会加一个 Mask，让第 1 个词只能看第 1 个词，第 2 个词只能看前 2 个词。

EdgeVLA方法：作者认为，机器人的 x 坐标和 y 坐标之间，并不像语言那样有严格的先后因果关系（比如不需要先知道 x 才能决定 y，它们是描述同一个动作的不同维度）。因此，EdgeVLA并不是把所有 Token 变成一个 Token，而是并行输出。具体来说，在生成动作时，模型不再循环 7 次。而是经过一次前向传播，直接在输出层同时产出 7 个数值。

为什么是 7 倍加速？
旧方法：推理 7 步 = 1 个动作。
新方法：推理 1 步 = 1 个动作。
OpenVLA (串行模式):
输入：[图像] "向前移动"
输出：x -> y -> z -> rx -> ry -> rz -> open (耗时: 7×T7×T)
EdgeVLA (并行模式 - Joint Control):
输入：[图像] "向前移动"
输出：[x, y, z, rx, ry, rz, open](同时蹦出来)(耗时: 1×T)

三：实验

在80张A100上训练了5天？？？？？？？？？

四：总结

本文介绍了Edge VLA (EVLA)，这是一种新颖的 VLA 架构，专为在移动操作机器人或人形机器人（humanoids）*上高效部署而设计。通过*消除末端执行器预测的自回归需求并利用小语言模型（SLMs）的效率，EVLA 在推理时间上实现了显著加速，并在不牺牲模型性能的情况下减少了内存占用。

应用场景从机械臂到人形机器人

新北市网站建设_网站建设公司_GitHub_seo优化

一：提出问题

二：解决方案

1.组装一个“迷你版”的超级大脑

2. 打破思维定势的“联合控制”

三：实验

四：总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

新北市网站建设_网站建设公司_GitHub_seo优化

一：提出问题

二：解决方案

1.组装一个“迷你版”的超级大脑

2. 打破思维定势的“联合控制”

三：实验

四：总结

热门文章

文章分类

标签云

相关文章

VLA-ADAPTER: AN EFFECTIVE PARADIGM FOR TINY-SCALE VISION-LANGUAGE-ACTION MODEL

机床防护钣金怎么选？高可靠性机床防护钣金定制工厂推荐 - 品牌推荐大师1

2025年12月平衡式留置针胰岛素泵,无异物感胰岛素泵,贴敷式与便携式二合一胰岛素泵厂家推荐，高性能与可靠性兼具的优质品牌 - 品牌鉴赏师

需要专业的网站建设服务？