内江市网站建设_网站建设公司_门户网站_seo优化
2026/1/12 21:23:12 网站建设 项目流程

快速了解部分

基础信息(英文):

  1. 题目: LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model
  2. 时间年月: 2026年1月
  3. 机构名: Peking University, Beijing Innovation Center of Humanoid Robotics, CUHK, Simplexity Robotics
  4. 3个英文关键词: Vision-Language-Action (VLA), Latent Chain-of-Thought (CoT), Robotic Manipulation

1句话通俗总结本文干了什么事情

本文提出了一种名为 LaST₀ 的机器人模型,它通过在“潜意识”空间里快速预演未来的画面、形状和动作,让机器人既能像人类一样思考(理解复杂的物理环境),又能像机器一样快速反应(实时控制)。

研究痛点:现有研究不足 / 要解决的具体问题

现有的 VLA 模型通常使用显式的思维链(如生成文字或图像)来辅助决策,这带来了两个主要问题:

  1. 推理延迟高:生成语言或图像的过程计算量大,导致无法满足机器人实时控制的高频率要求。
  2. 表达瓶颈:仅靠语言空间的推理难以准确捕捉难以言喻的物理属性(如几何结构、触觉动力学),限制了机器人对物理世界的精细理解。

核心方法:关键技术、模型或研究设计(简要)

论文提出了LaST₀(潜空间时空思维链)框架:

  1. 潜空间推理:不生成具体的文字或图像,而是生成紧凑的、连续的“潜码(Latent Tokens)”来代表未来的视觉、3D结构和机器人状态。
  2. 双系统架构:采用类似“快慢双系统”的设计,一个“慢思考专家”低频生成未来的潜意识推理轨迹,一个“快行动专家”高频生成具体动作,两者通过共享注意力机制协作。

深入了解部分

相比前人创新在哪里

  1. 从显式到隐式:不同于前人用显式的语言或图像做思维链,LaST₀ 使用难以言喻但信息更丰富的“潜空间”来存储推理过程,大幅降低了计算开销。
  2. 双速协同架构:创新性地在一个模型中集成了“慢思考(推理)”和“快行动(控制)”两个专家,通过异步频率(如1:4)运行,既保证了深度思考,又实现了实时响应。
  3. 多模态物理潜空间:构建的潜空间不仅包含2D视觉,还融合了3D点云几何信息和机器人本体感知,更全面地理解物理交互。

解决方法/算法的通俗解释

想象一个机器人在做菜。传统方法是它每一步都要在脑子里“默念”一大段话或者“画”一张图,这太慢了。
LaST₀ 的方法是,机器人有一个“直觉/潜意识”(潜空间)。它会快速在潜意识里预演接下来几秒锅、铲子和手的位置变化(时空推理)。这个过程像电光火石一样快,不需要转化成具体的画面。
然后,它的“手”(行动专家)根据这个潜意识的指引,配合眼睛看到的实时画面,做出流畅的动作。一个负责想“大局”,一个负责“动手”,分工合作。

解决方法的具体做法

  1. 构建潜空间:利用预训练编码器(SigLIP, Uni3D)将未来的RGB图像、3D点云和机器人状态压缩成紧凑的潜码,作为“思维”的目标。
  2. 双专家模型(MoT)
    • 推理专家(慢):低频运行(如每4步一次),通过自回归预测未来的潜码,构建时空推理轨迹。
    • 行动专家(快):高频运行(如每步都运行),结合当前视觉和推理专家提供的潜码,通过流匹配(Flow Matching)生成动作。
  3. KV Cache 机制:推理专家生成的潜码缓存在内存中,行动专家可以直接读取,避免了重复计算,保证了推理速度(15.4 Hz)。

基于前人的哪些方法

  1. 基础模型:基于Janus-Pro(一个视觉-语言模型)和DeepSeek-LLM 1B进行初始化。
  2. 架构设计:借鉴了Mixture-of-Transformers (MoT)的设计思想,用于实现双专家系统。
  3. 动作生成:采用了Flow Matching策略来生成连续动作。
  4. 预训练数据:利用了 Open-X-Embodiment, DROID, ROBOMIND 等大规模机器人数据集。

实验设置、数据、评估方式

  1. 数据
    • 预训练:使用了超过40万条轨迹的数据,包括 Open-X-Embodiment, DROID, ROBOMIND 等。
    • 微调/测试:在10个仿真任务(RLBench环境,如关箱、扫地)和6个真实世界任务(单臂擦白板、盖章、放盘子、铲蛋;双臂爆米花、开锅盖)上进行评估。
  2. 评估方式
    • 成功率(Success Rate):任务完成的百分比。
    • 推理速度:每秒推理次数(Hz),在单张 RTX 4090 上测试。
    • 对比基准:与 Open-VLA, π0.5, CogACT, SpatialVLA, CoT-VLA, HybridVLA 等 SOTA 模型对比。

提到的同类工作

  • Open-VLA: 开源的视觉-语言-动作模型。
  • π₀.σ (pi-zero): 强调开放世界泛化的 VLA 模型。
  • CogACT: 结合认知和行动的 VLA 模型。
  • SpatialVLA: 侧重于空间表示的 VLA 模型。
  • CoT-VLA: 通过显式生成未来视觉观察来进行思维链推理的 VLA 模型(LaST₀ 的主要对比对象之一)。
  • HybridVLA: 结合扩散模型和自回归模型的协作框架。

和本文相关性最高的3个文献

  1. **CoT-VLA **: 这是本文最直接的对比对象。CoT-VLA 使用显式的未来图像预测作为思维链,而 LaST₀ 正是为了克服其推理慢和表达受限的缺点,改用潜空间推理。
  2. **Janus-Pro **: 本文模型的预训练基础(Backbone),LaST₀ 是在此基础上通过 MoT 架构改造而来的。
  3. **π0.5 **: 代表了当前 SOTA 的高性能 VLA 模型(流匹配方法),本文在实验部分多次将其作为主要基准。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询