快速了解部分
基础信息(英文):
- 题目: LaST₀: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision–Language–Action Model
- 时间年月: 2026年1月
- 机构名: Peking University, Beijing Innovation Center of Humanoid Robotics, CUHK, Simplexity Robotics
- 3个英文关键词: Vision-Language-Action (VLA), Latent Chain-of-Thought (CoT), Robotic Manipulation
1句话通俗总结本文干了什么事情
本文提出了一种名为 LaST₀ 的机器人模型,它通过在“潜意识”空间里快速预演未来的画面、形状和动作,让机器人既能像人类一样思考(理解复杂的物理环境),又能像机器一样快速反应(实时控制)。
研究痛点:现有研究不足 / 要解决的具体问题
现有的 VLA 模型通常使用显式的思维链(如生成文字或图像)来辅助决策,这带来了两个主要问题:
- 推理延迟高:生成语言或图像的过程计算量大,导致无法满足机器人实时控制的高频率要求。
- 表达瓶颈:仅靠语言空间的推理难以准确捕捉难以言喻的物理属性(如几何结构、触觉动力学),限制了机器人对物理世界的精细理解。
核心方法:关键技术、模型或研究设计(简要)
论文提出了LaST₀(潜空间时空思维链)框架:
- 潜空间推理:不生成具体的文字或图像,而是生成紧凑的、连续的“潜码(Latent Tokens)”来代表未来的视觉、3D结构和机器人状态。
- 双系统架构:采用类似“快慢双系统”的设计,一个“慢思考专家”低频生成未来的潜意识推理轨迹,一个“快行动专家”高频生成具体动作,两者通过共享注意力机制协作。
深入了解部分
相比前人创新在哪里
- 从显式到隐式:不同于前人用显式的语言或图像做思维链,LaST₀ 使用难以言喻但信息更丰富的“潜空间”来存储推理过程,大幅降低了计算开销。
- 双速协同架构:创新性地在一个模型中集成了“慢思考(推理)”和“快行动(控制)”两个专家,通过异步频率(如1:4)运行,既保证了深度思考,又实现了实时响应。
- 多模态物理潜空间:构建的潜空间不仅包含2D视觉,还融合了3D点云几何信息和机器人本体感知,更全面地理解物理交互。
解决方法/算法的通俗解释
想象一个机器人在做菜。传统方法是它每一步都要在脑子里“默念”一大段话或者“画”一张图,这太慢了。
LaST₀ 的方法是,机器人有一个“直觉/潜意识”(潜空间)。它会快速在潜意识里预演接下来几秒锅、铲子和手的位置变化(时空推理)。这个过程像电光火石一样快,不需要转化成具体的画面。
然后,它的“手”(行动专家)根据这个潜意识的指引,配合眼睛看到的实时画面,做出流畅的动作。一个负责想“大局”,一个负责“动手”,分工合作。
解决方法的具体做法
- 构建潜空间:利用预训练编码器(SigLIP, Uni3D)将未来的RGB图像、3D点云和机器人状态压缩成紧凑的潜码,作为“思维”的目标。
- 双专家模型(MoT):
- 推理专家(慢):低频运行(如每4步一次),通过自回归预测未来的潜码,构建时空推理轨迹。
- 行动专家(快):高频运行(如每步都运行),结合当前视觉和推理专家提供的潜码,通过流匹配(Flow Matching)生成动作。
- KV Cache 机制:推理专家生成的潜码缓存在内存中,行动专家可以直接读取,避免了重复计算,保证了推理速度(15.4 Hz)。
基于前人的哪些方法
- 基础模型:基于Janus-Pro(一个视觉-语言模型)和DeepSeek-LLM 1B进行初始化。
- 架构设计:借鉴了Mixture-of-Transformers (MoT)的设计思想,用于实现双专家系统。
- 动作生成:采用了Flow Matching策略来生成连续动作。
- 预训练数据:利用了 Open-X-Embodiment, DROID, ROBOMIND 等大规模机器人数据集。
实验设置、数据、评估方式
- 数据:
- 预训练:使用了超过40万条轨迹的数据,包括 Open-X-Embodiment, DROID, ROBOMIND 等。
- 微调/测试:在10个仿真任务(RLBench环境,如关箱、扫地)和6个真实世界任务(单臂擦白板、盖章、放盘子、铲蛋;双臂爆米花、开锅盖)上进行评估。
- 评估方式:
- 成功率(Success Rate):任务完成的百分比。
- 推理速度:每秒推理次数(Hz),在单张 RTX 4090 上测试。
- 对比基准:与 Open-VLA, π0.5, CogACT, SpatialVLA, CoT-VLA, HybridVLA 等 SOTA 模型对比。
提到的同类工作
- Open-VLA: 开源的视觉-语言-动作模型。
- π₀.σ (pi-zero): 强调开放世界泛化的 VLA 模型。
- CogACT: 结合认知和行动的 VLA 模型。
- SpatialVLA: 侧重于空间表示的 VLA 模型。
- CoT-VLA: 通过显式生成未来视觉观察来进行思维链推理的 VLA 模型(LaST₀ 的主要对比对象之一)。
- HybridVLA: 结合扩散模型和自回归模型的协作框架。
和本文相关性最高的3个文献
- **CoT-VLA **: 这是本文最直接的对比对象。CoT-VLA 使用显式的未来图像预测作为思维链,而 LaST₀ 正是为了克服其推理慢和表达受限的缺点,改用潜空间推理。
- **Janus-Pro **: 本文模型的预训练基础(Backbone),LaST₀ 是在此基础上通过 MoT 架构改造而来的。
- **π0.5 **: 代表了当前 SOTA 的高性能 VLA 模型(流匹配方法),本文在实验部分多次将其作为主要基准。