固原市网站建设_网站建设公司_CSS_seo优化
2025/12/29 16:21:41 网站建设 项目流程

快速了解部分

基础信息(英文):

  1. 题目:GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
  2. 时间年月:December 2025
  3. 机构名:ByteDance Seed
  4. 3个英文关键词:Robotic Manipulation, Reinforcement Learning (RL), Vision-Language-Action (VLA) Policy

1句话通俗总结本文干了什么事情

字节跳动提出GR-RL机器人学习框架,通过“过滤优质人类演示轨迹、增强数据、在线优化部署行为”的多阶段训练,将通用视觉语言动作(VLA)策略升级为能完成毫米级精度、长期操作任务的专家策略,且是首个能自动完成鞋带穿孔系结(成功率83.3%)的学习型模型。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 人类演示非最优:高精度灵巧操作(如系鞋带)中,人类演示存在犹豫、错误等噪声,直接模仿会导致策略性能差;
  2. 训练与部署不匹配:离线训练时VLA策略学习固定长度动作块,而部署时需轨迹平滑、异步预测等优化,导致“学的动作”与“实际执行动作”不一致,误差累积;
  3. 长期操作鲁棒性差:现有方法(如预定义动作原语的运动规划、朴素行为克隆)无法应对系鞋带这类需“长期推理+毫米级精度+柔性物体交互”的任务,泛化性和故障恢复能力弱。

核心方法:关键技术、模型或研究设计(简要)

  1. 多阶段训练流程:离线过滤→数据增强→在线强化,三步解决上述痛点;
  2. 模型架构:混合Transformer(MoT),包含:
    • VLA策略(πᵨ):基于Qwen2.5-VL-3B-Instruct视觉语言 backbone,用动作扩散Transformer(DiT)生成动作块;
    • 多任务分布型评论家(Q_φ):用分布型RL学习任务进度,Q值作为轨迹过滤依据;
  3. 关键技术:离线RL(TD3+BC)训练进度评估器、形态对称数据增强、潜在空间噪声预测的在线RL。

深入了解部分

相比前人创新在哪里

  1. 数据过滤新思路:首次将离线稀疏奖励RL的Q值作为“鲁棒任务进度函数”,自动过滤人类演示中的噪声轨迹,无需人工标注;
  2. 高效数据增强:提出形态对称增强(翻转图像、交换左右手数据、调整语言指令),大幅提升双机械臂操作的泛化性;
  3. 部署对齐方案:通过在线RL训练潜在空间噪声预测器,解决“训练动作”与“部署优化动作”的不匹配问题,且无需修改基础VLA架构;
  4. 任务突破:首个能自主完成“多眼孔鞋带穿孔系结”的学习型策略,填补长期高精度灵巧操作的空白。

解决方法/算法的通俗解释,以及具体做法

通俗解释

把机器人学系鞋带的过程拆成三步:

  1. “挑好老师”:从人类演示视频里,用一个“进度评分器”(靠RL训练)选出“有效操作片段”(比如成功穿孔的动作),删掉“无效片段”(比如手抖没穿准的动作);
  2. “多练不同场景”:把演示里的“左手动作”改成“右手动作”、“左边孔”改成“右边孔”,再配上修改后的语言指令,让机器人见更多情况;
  3. “实战微调”:让机器人实际操作,通过预测“动作微调量”(噪声)来优化操作,适应真实环境里的误差(比如机械臂微小抖动),同时用新数据和旧数据一起训练,避免忘光之前的技能。
具体做法
  1. 离线过滤(挑好老师)

    • 用TD3+BC算法训练分布型评论家,输入轨迹(观察、动作、语言),输出任务进度;
    • 给成功轨迹标注“重试关键帧”,生成失败轨迹(如穿孔前中断),让评论家同时学习成功/失败模式;
    • 计算轨迹的平均Q值,若连续动作的Q值下降超阈值,判定为噪声轨迹并剔除,用剩余轨迹训练基础策略;
  2. 形态对称增强(多练场景)

    • 图像:水平翻转,交换左右腕相机图像;
    • 动作/状态:将机械臂位置、力传感器数据按世界坐标系镜像转换;
    • 语言:修改空间描述(如“left hole”→“right hole”);
  3. 在线RL(实战微调)

    • 新增噪声预测器(51.5M参数),预测DiT的初始噪声,引导动作向高奖励区域调整;
    • 维护“离线缓冲区”(预训练轨迹)和“在线缓冲区”(最新2版模型的操作轨迹),均匀采样训练;
    • 用交叉熵损失对齐噪声空间Q值与动作空间Q值,避免训练不稳定。

基于前人的哪些方法

  1. 基础VLA框架:基于GR-3(Cheang等,2025)——大型VLA策略,融合互联网数据、机器人轨迹和人类演示;
  2. 离线RL与评论家:借鉴TD3+BC(Fujimoto等,2021)训练离线评论家,参考π₀.₆*(Physical Intelligence等,2025)用分布型评论家学习任务进度;
  3. 动作生成:采用动作扩散Transformer(DiT)和流匹配目标(Lipman等,2022;Liu等,2022),延续GR-3的KV缓存优化;
  4. 在线RL优化:参考Warm-start RL(Zhou等,2024)的缓冲区预热方法,借鉴Steering Diffusion Policy(Wagenmaker等,2025)的潜在空间噪声引导思路;
  5. 分布型RL:基于Rainbow(Hessel等,2018)的分布型价值学习,提升进度评估的鲁棒性。

实验设置、数据、评估方式

实验设置
  1. 机器人平台:ByteMini-v2(轮式移动操作机器人),含双7自由度机械臂(肘部扭矩提升至35Nm,负载3.15kg)、3D LiDAR、多视角RGB-D相机(手部D405、头部D457);
  2. 任务定义:鞋带系结——需完成“拿起鞋带→穿入眼孔→双手交接→拉紧鞋带”四阶段,要求毫米级精度、柔性鞋带交互;
  3. 输入输出:输入(3视角RGB图像、机械臂本体感受数据、自然语言指令),输出(机械臂关节角度、 gripper开合度);
  4. 训练环境:真实桌面场景,鞋子颜色/尺寸可变,鞋带初始位置随机。
实验数据
  1. 原始数据:人类遥操作系鞋带轨迹(含成功/失败片段);
  2. 增强数据:对成功轨迹标注“重试关键帧”,生成M条失败轨迹(如穿孔前中断),最终数据集含成功+失败轨迹;
  3. 缓冲区设置:离线缓冲区(预训练模型的在线rollout轨迹673条),在线缓冲区(最新2版模型的操作轨迹)。
评估方式
  1. 核心指标:整体成功 rate(最终是否完成系结)、各阶段成功 rate(拿起/穿孔/交接/拉紧);
  2. 对比实验:分阶段验证效果——GR-3(基线)→过滤BC→过滤BC+增强→GR-RL(最终);
  3. 消融实验:对比进度评估器(分布型 vs 回归型)、有无对称增强、有无在线RL;
  4. 泛化测试:测试不同颜色/尺寸鞋子、鞋带初始位置变化的鲁棒性。

提到的同类工作

  1. 通用VLA模型:GR-3(Cheang等,2025)、π₀/π₀.5(Black等,2024/2025)、RT-1/RT-2(Brohan等,2022/2023)、OpenVLA(Kim等,2024)、Octo(Ghosh等,2024);
  2. 真实世界RL:π₀.6*(Physical Intelligence等,2025)、SERL(Luo等,2024)、Residual Off-Policy RL(Ankile等,2025)、Precise Manipulation RL(Luo等,2024);
  3. 模仿学习与扩散策略:Diffusion Policy(Chi等,2024)、Behavior Cloning(Luo等,2025)、Flow-Based Policy(Lv等,2025);
  4. 世界模型与离线RL:Dream to Control(Hafner等,2019)、TD-MPC2(Hansen等,2023)、WMPO(Zhu等,2025)。

和本文相关性最高的3个文献

  1. GR-3 Technical Report(Cheang等,2025,arXiv:2507.15493)

    • 原因:GR-RL的基础框架来源,提供了大型VLA策略(融合多源数据的视觉语言动作模型),GR-RL的VLA策略架构(Qwen2.5-VL backbone、DiT动作生成)均基于此;
  2. π₀.6: A VLA that Learns from Experience(Physical Intelligence等,2025,arXiv:2511.14759)*

    • 原因:与GR-RL同期提出“用分布型评论家学习任务进度”,均针对高精度操作场景,GR-RL借鉴其“分布型价值学习应对稀疏奖励”的思路,且两者均验证了真实世界RL的有效性;
  3. A Minimalist Approach to Offline Reinforcement Learning(Fujimoto等,2021,NeurIPS)

    • 原因:GR-RL离线轨迹过滤的核心算法(TD3+BC)来源,该方法为“用离线RL训练鲁棒评论家”提供了基础,是GR-RL实现“自动过滤噪声轨迹”的关键技术支撑。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询