OpenVLA：一个开源的视觉-语言-动作模型

张开发

• 2026/4/18 8:21:25 • 15 分钟阅读

分享文章

OpenVLA引入了一个完全开源的70亿参数视觉-语言-动作模型为通用机器人操作设定了新的SOTA其绝对成功率比更大的闭源模型高出16.5%。该模型还展示了有效且高效的微调策略可在商品硬件上适应新的机器人设置和任务。概述OpenVLA 代表着在使先进机器人AI更广泛地为研究社区所用方面迈出了重要一步。该论文介绍了一个70亿参数的视觉-语言-动作VLA模型该模型能够使用自然语言指令和视觉观察来控制多个机器人实体。与现有最先进的闭源模型如RT-2-X不同OpenVLA是完全开源的提供了对模型权重、训练代码和微调过程的完整访问。图1OpenVLA架构展示了DINOv2和SigLIP视觉编码器融合后馈入Llama 2语言模型骨干并输出离散化的机器人动作。该模型在通用机器人操作方面取得了最先进的性能同时使用的参数比同类闭源模型少7倍。这项工作解决了机器人AI领域的两个关键障碍可访问性和适应性使没有大量计算资源的研究人员也能实验并基于先进的VLA功能进行开发。技术架构与设计OpenVLA以Prismatic-7B视觉-语言模型为基础并融入了多项为机器人控制量身定制的关键架构创新。视觉处理组件采用了独特的双编码器融合方法结合了两个互补的预训练视觉模型DINOv2提供对精确操作至关重要的精细空间信息SigLIP贡献更高层次的语义理解输入图像同时通过两个编码器处理生成的特征向量通过通道拼接以创建丰富的视觉表示。这个6亿参数的视觉编码器馈入一个紧凑的2层MLP投影器将视觉特征映射到语言模型的嵌入空间。核心推理和动作生成由Llama 2 7B参数语言模型处理。作者做出了一项关键的设计决策在训练期间对整个视觉编码器进行微调这与VLM视觉-语言模型的常见做法通常冻结视觉组件相反。这一选择被证明对于实现机器人控制所需的空间精度至关重要。动作表示和分词机器人动作表示为7维连续向量可能是6自由度末端执行器姿态加上夹持器状态。这些连续值被离散化为256个均匀的bin范围覆盖训练数据中动作值的1%到99%分位数——这是一种对简单最小-最大范围的改进能有效处理异常值。离散化的动作通过覆盖Llama词汇表中256个最不常用的词元来转换为词元。这种方法使得语言模型的下一个词元预测目标可以直接应用于动作生成模型经过训练以最小化预测动作词元上的交叉熵损失。训练方法与数据OpenVLA的训练利用了Open X-Embodiment数据集该数据集包含97万个真实世界的机器人演示涵盖了多种实体、任务和环境。这是迄今为止最大、最多样化的机器人学习数据集之一。训练过程涉及几个关键的数据整理步骤筛选出至少有一个第三人称摄像机视角的操纵数据集限制为单臂末端执行器控制场景在实体、任务和场景之间应用平衡的混合权重关键地移除了可能导致策略冻结的“全零”无操作动作该模型在由64个A100 GPU组成的集群上训练了27个周期——明显多于典型的VLM训练——历时14天累计了大约21,500个A100小时的计算量。整个训练过程中使用了2×10⁻⁵的固定学习率。初步实验的主要训练见解包括图像分辨率224×224像素提供的性能与384×384像素相当但训练速度快3倍视觉编码器微调对于机器人控制至关重要这与通常冻结视觉编码器的典型VLM应用不同延长训练高 epoch 计数对于实现最佳动作令牌准确性是必要的实验结果与性能OpenVLA在多个评估维度上表现出卓越性能为通用机器人策略树立了新基准。图2OpenVLA在WidowX机器人任务的不同泛化类别中实现了最先进的性能尽管参数比RT-2-X少7倍但表现优于RT-2-X。通用策略性能OpenVLA在涵盖两种机器人形态WidowX和Google Robot的29项任务中成功率比RT-2-X55B参数绝对提升了16.5%。这代表了通用机器人操作策略的最新技术水平并且以显著更少的参数实现。该模型在以下方面表现出特别的优势视觉泛化处理未见过的背景、干扰物和物体外观运动泛化适应新的物体位置和方向物理泛化处理不同大小和形状的物体语言接地准确遵循自然语言指令图3在Google Robot平台上持续表现出卓越性能尤其是在分布外泛化能力方面表现强劲。适应新的机器人设置OpenVLA的微调能力在两个新的机器人平台Franka-Tabletop和Franka-DROID上进行了评估使用了10-150个演示的数据集。结果显示图4OpenVLA微调结果显示在多样化的多指令任务上比基线方法表现更优。在多样化的多指令任务中比Diffusion Policy 提升20.4%在所有测试任务中均保持一致的鲁棒性唯一一个普遍达到≥50%成功率的方法在需要语言接地和干扰物处理的任务中表现更优即使在Diffusion Policy通常表现出色的狭窄单指令任务中也具有竞争力参数高效训练与部署作者广泛研究了实际部署策略以使OpenVLA可在商用硬件上使用。低秩适应 (LoRA)LoRA微调被证明非常有效在仅训练模型1.4%的参数的情况下其性能与完全微调相当完全微调成功率69.7%LoRA微调成功率68.2%计算需求减少8倍1个A100 GPU vs 8个A100 GPU单GPU训练时间缩短至10-15小时量化实现高效推理4位量化取得了令人印象深刻的结果性能保持成功率71.9% vs 71.3%4位 vs bfloat16内存占用减少50%7.0 GB vs 16.8 GB使得在RTX 4090等消费级GPU上部署成为可能图5OpenVLA在不同硬件配置和精度级别下的推理性能显示了实际部署能力。该模型在RTX 4090硬件上可实现约6Hz的推理速度适用于大多数操作任务同时对于没有高端计算基础设施的研究人员来说也易于访问。意义与影响OpenVLA 解决了阻碍先进机器人人工智能广泛采用的根本障碍。通过开源尖端 VLA 模型这项工作使以前仅限于资源丰富的机构和公司才能获得的能力民主化。该模型在参数比 RT-2-X 少 7 倍的情况下却表现出卓越的性能这表明精心设计的架构和数据整理可以克服原始参数规模的限制。这一发现对于使先进机器人人工智能更易于访问和实用具有重要意义。对高效微调和部署策略的全面研究为使用通用硬件将 VLA 模型适应新任务和机器人提供了路线图。LoRA 微调和 4 位量化所展示的有效性使得 OpenVLA 在计算资源受限的实际部署场景中变得实用。也许最重要的是OpenVLA 为机器人人工智能的协作开发奠定了基础类似于围绕开源语言模型出现的生态系统。模型权重、训练代码和评估基准的完整发布使研究社区能够在此工作的基础上进行构建从而可能加速向更强大、更广泛部署的机器人系统迈进的步伐。这项工作还为 VLA 设计原则提供了宝贵的见解包括视觉编码器微调在机器人应用中的重要性以及融合多模态视觉表示的有效性。这些发现为快速发展的机器人学习领域的未来研究方向和架构选择提供了信息。

更多文章

前端开发 2026/4/18 8:21:25

Leetcode 158 数组中的第K个最大元素 | 查找和最小的 K 对数字

1 题目 215. 数组中的第K个最大元素给定整数数组 nums 和整数 k，请返回数组中第 k 个最大的元素。请注意，你需要找的是数组排序后的第 k 个最大的元素，而不是第 k 个不同的元素。你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。…

各位剧迷、影迷朋友们，是不是又在为追一部剧要开好几个平台的费用而肉疼？是不是经常遇到想看的剧全网都找不到资源？别急，作为一个资深“追剧狂魔”，今天就把我压箱底的8个宝藏网站毫无保留地分享给你们！这些…

张开发

前端开发 2026/4/18 7:50:43

2026年上海施工总包资质办理：权威机构排名及推荐指南

一、开篇在建筑行业，施工总包资质的办理是企业开展工程项目的前提。随着我国经济的持续发展，建筑行业呈现出蓬勃发展的态势，对于施工总包资质的需求也日益增加。然而，建筑资质办理流程复杂，对于许多企业来说&#xff0…

张开发

OpenVLA：一个开源的视觉-语言-动作模型

最新文章

告别OLE与CSV：在Visual Studio 2015中利用xlnt实现现代C++ Excel高效读写

ollama运行Phi-4-mini-reasoning从入门到进阶：Prompt设计与推理链优化

Windows笔记本也能跑3DGS！6G显存实战调参避坑指南（附完整配置清单）

终极免费Steam创意工坊下载器WorkshopDL：轻松获取千款游戏模组

【紧急预警】智能代码生成正悄然引入0day逻辑漏洞！3个必检信号+4种静态+动态协同检测工具链

用Arduino+Seeed CAN总线模块DIY车载数据监控器（2024最新版教程）

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Leetcode 158 数组中的第K个最大元素 | 查找和最小的 K 对数字

终极指南：5步免费完整备份Mac微信聊天记录，告别数据丢失焦虑

在ComfyUI中配置混元3d模型流程

米拉-魁北克AI研究所教会小模型“聪明干活“

东北大学与麻省理工学院联手破解AI“黑箱“

Java 25 模式匹配增强：现代Java的新特性

AI翻唱神器RVC体验：上传音频3分钟训练，轻松实现声音克隆

ICC II 9 Signoff实战：从Route_opt到DRC检查，一个完整交付流程的保姆级避坑指南

从产品质量到用户评分：聊聊高斯分布在A/B测试、推荐系统等业务场景中的实战应用与误区

G-Helper完整指南：华硕笔记本轻量级性能控制工具实战教程

2026私藏的8个免费高清影视追剧网站，亲测好用剧荒党速存！

2026年上海施工总包资质办理：权威机构排名及推荐指南

OpenVLA：一个开源的视觉-语言-动作模型

最新文章

告别OLE与CSV：在Visual Studio 2015中利用xlnt实现现代C++ Excel高效读写

ollama运行Phi-4-mini-reasoning从入门到进阶：Prompt设计与推理链优化

Windows笔记本也能跑3DGS！6G显存实战调参避坑指南（附完整配置清单）

终极免费Steam创意工坊下载器WorkshopDL：轻松获取千款游戏模组

【紧急预警】智能代码生成正悄然引入0day逻辑漏洞！3个必检信号+4种静态+动态协同检测工具链

用Arduino+Seeed CAN总线模块DIY车载数据监控器（2024最新版教程）

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统