刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！

张开发

• 2026/4/17 16:36:29 • 15 分钟阅读

分享文章

金磊发自凹非寺量子位 | 公众号 QbitAI刚刚机器人的视觉又达到了一个新的Level。因为现在一个新模型已经实现了无尽流看∞帧视频可以稳定实时3D重建来感受一下这个feel或许有小伙伴要问了这有啥用啊简单来说啊若是这个模型放到扫地机器人身上那它就能边打扫边认清家里的3D结构若是放到自动驾驶身上那就是边开车边算清路面情况。有一种火影里宁次白眼的那种味道了。注白眼的能力是360°无死角透视极远的洞察力看穿查克拉流动对应这个模型的全方位空间感知、长序列不丢失细节的特点。△图源由AI生成这就是蚂蚁灵波最新开源的LingBot-Map一个专为纯自回归的流式3D重建而打造的基础模型。不同于此前具身智能视觉的3D重建这一次LingBot-Map做到了快、准、狠——打破了“既要实时、又要记路、还要省显存”的不可能三角。这种Level的流式3D重建并不简单在聊“流式3D重建为什么难”这个话题之前咱们且需要先分清两个概念普通3D重建和流式3D重建。因为它俩可以说是完全两个维度的技术。先来看传统离线3D重建离线。它的本质用一种微妙的形容大概就是“事后诸葛亮”因为必须先拍完完整视频、存储所有帧画面再集中算力全局建模。这样做的缺点很明显就是速度慢、耗显存、无法实时交互应用方面也能用在影视建模、数字孪生等静态场景根本没法给需要实时决策的机器人、自动驾驶用。但流式3D重建在线就不一样了它是真能满足具身智能的核心刚需来一帧算一帧边拍边建模、边感知边决策和人类边走边认路的视觉逻辑高度一致。不过看似简单但在实现的过程中业内公认的有三座大山挡在面前。△图源由AI生成第一记太多就爆显存。如果模型硬存所有历史帧几千帧过后显存直接拉满消费级显卡根本跑不动工业设备也扛不住长时运行。第二记太少就忘光光。若是只缓存最近几帧模型会出现灾难性遗忘长时间运行后轨迹疯狂漂移、重建场景扭曲变形相当于人走久了忘了自己在哪。第三精度速度不可兼得。要么建模精准但推理慢到卡顿要么实时性够了但画面糊成马赛克始终找不到平衡点。更关键的是之前绝大多数的流式方案不是依赖测试时优化就是用未来帧信息做全局校准亦或者加入人工设计的关键帧规则并非端到端的纯推理。而LingBot-Map走的是纯自回归这条更难的路严格遵循因果律仅依赖历史帧信息推理当前帧无任何后处理、无未来帧依赖、无人工优化规则所有能力全靠模型端到端学习。也正因为有了纯自回归的约束相当于让蒙眼的人仅凭过往记忆走迷宫既要求走得快、又要求记准路、还不能多耗脑力……难是真的难。但蚂蚁灵波这一次还真就把这个硬骨头给啃下来了。像人一样选择性记忆LingBot-Map背后技术的灵感来源于人。就好比咱们在大城市里逛街却能做到不迷路不是因为我们的大脑像录像机一样全程“录制”关键在于大脑执行的是选择性记忆这个操作。说白了就是只记住有效、关键的帧。LingBot-Map的核心正是完美复刻了这种机制名曰几何上下文注意力Geometric Context AttentionGCA。更具体而言LingBot-Map通过GCA对记忆进行了非常精妙的分层结构化管理。首先是锚点Anchor它的作用让机器人记住“我从哪来”。任何3D重建都需要一个绝对的坐标系和尺度基准就好比人类进入陌生房间会下意识记住门口位置当参照系防止迷路。LingBot-Map的锚点模块就是起到这样的一个作用。它会锁定初始几帧画面作为基准固定全局坐标和尺度如此一来就解决了纯自回归模型容易出现的尺度模糊、坐标漂移等问题给整个重建过程定好原点。其次是位姿参考窗口Pose-reference Window用来记住“我身边有什么”。因为光有起点是不够的要想走得稳还得看清脚下的路。于是团队便在LingBot-Map里设置了位姿参考窗口它只保留最近的k帧的完整高维特征。这部分记忆虽然是短期的但信息极其丰富密集这样就可以确保模型能够精准地捕捉局部的几何细节让当前帧能够丝滑地与前几帧拼接在一起让每一步都踩得极准。最后就是轨迹记忆Trajectory Memory起到记住“我走过的路”的作用。这也是LingBot-Map中非常关键的一个步骤。对于那些既不是起点、也不在眼前属于很久以前的中间历史画面模型不再存储它们庞大具体的图像像素细节。取而代之的是它将这些历史帧的宏大信息极致压缩成了区区6个极简的Token包含相机、锚点和寄存器 Token并打上时间戳位置编码。对比传统因果注意力LingBot-Map的单帧信息增长量直接降低80倍哪怕处理万帧长视频显存消耗也几乎恒定。三大模块协同发力便是LingBot-Map打破不可能三角的关键原因了。那么这套打法效果又如何呢实测拿下新SOTA从论文中呈现的实验结果来看LingBot-Map已经在多项权威基准测试中全面碾压其它流式模型稳坐SOTA之位。首先是长序列稳定性。在10000帧的超长视频序列测试中模型全程保持稳定重建质量没有出现任何明显的轨迹漂移。要知道同类纯自回归模型往往几百帧就开始扭曲万帧稳定的表现直接刷新了行业纪录。其次是速度与精度双突破。在518×378的主流分辨率下推理速度达到20FPS比同类流式方法基线快了近一倍完全满足机器人、自动驾驶的实时性需求。在Oxford Spires、ETH3D、Tanks Temples等权威数据集测试中轨迹误差降低约77%3D点云建模精度、全局一致性远超所有流式竞品甚至比部分离线优化模型表现更优。除此之外模型运行显存仅需13.28GB普通消费级显卡即可流畅部署彻底告别对高端专业显卡的依赖。对比同类方案动辄30GB的显存需求LingBot-Map实现了“技术顶尖、落地亲民”让流式3D重建具备了规模化商用的基础。而且效率测试的数据更加直观。对比全历史帧缓存方案LingBot-Map用64帧窗口设计将推理速度从3.12FPS提升至19.95FPS显存从36.06GB压缩至13.28GB速度提升6倍、显存降低63%同时精度反而更高印证了GCA记忆机制的优越性。在看完LingBot-Map背后的技术和展现的效果之后还有一个话题值得聊一聊LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。补齐另一块具身智能关键拼图若是大家长期关注蚂蚁灵波就不难发现它在下一盘大棋。仅仅在今年1月蚂蚁灵波便已经陆续开源了多款模型从感知世界的LingBot-Depth到理解物理规律的LingBot-World再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA。而今天LingBot-Map的开源则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。这就意味着蚂蚁灵波正式构建了“感知-建模-模拟-控制”全链路具身智能技术栈从看懂世界、建模世界到理解世界、操控身体形成了完整的技术闭环。此举对全产业落地来说亦是有着重要的价值。举三个例便一目了然了机器人仓库巡检、家庭服务机器人不再需要昂贵的激光雷达单靠摄像头就能边走边建图真正实现低成本、大规模部署。AR/VR戴上眼镜虚拟物体可以零延迟、不漂移地叠加在真实桌面上虚实融合的体验将被拉满。自动驾驶/无人机城市级大场景的实时建模成为可能为纯视觉的自动驾驶方案提供了更强大的时空理解能力。因此综上所述LingBot-Map的出现可以说是机器理解真实物理世界迈出的关键一步。与此同时蚂蚁灵波的持续开源也让我们清晰地看到具身智能的规模化落地正在以前所未有的速度向我们驶来。Hugging Facehttps://huggingface.co/robbyant/lingbot-mapModelScopehttps://www.modelscope.cn/models/Robbyant/lingbot-mapGitHubhttps://github.com/Robbyant/lingbot-mapPaperhttps://arxiv.org/abs/2604.14141Homepagehttps://technology.robbyant.com/lingbot-map一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标科技前沿进展每日见

更多文章

前端开发 2026/4/17 16:35:28

Rockchip RK3588/Linux系统下，手把手教你集成RGA+MPP进行视频处理与硬件加速

Rockchip RK3588/Linux系统下的RGAMPP硬件加速实战指南在嵌入式多媒体开发领域，Rockchip RK3588凭借其强大的视频处理能力成为众多高性能场景的首选平台。本文将深入探讨如何在该平台的Linux系统中，通过RGA（2D图形加速器）与MPP&…

关键字：AI， NEAI，Keil1. 简介最近在给客户完成电机预测性维护类的POC项目时，使用Keil编译器时遇到了一个NEAI库的异常，在和欧洲NEAI团队调查过程中发现了比较奇怪的BUG，本文将介绍该问题发生的条件和后续的…

张开发

前端开发 2026/4/17 16:21:32

【大模型应用】AI服务上架合规性-微信小程序使用硅基流动服务

一、目的目前开发的微信小程序，使用了AI问答功能。在上架后收到了微信的违规处罚警告。在网上搜索了一圈发现目前还没有类似的文章总结过该问题，这里详细记录一下博主对该问题的解决过程。处罚警告： 违规的小程序内容： 二、解决…

张开发

刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！

最新文章

Free Texture Packer：游戏与Web开发的精灵图集终极解决方案

血的教训！CentOS7修改getty@tty1.service导致系统崩溃的完整抢救记录

Edge浏览器一启动就自动打开2345？别急着重装系统，试试这个权限修改法

ThinkPad风扇控制终极指南：TPFanCtrl2让你的笔记本静音又清凉 [特殊字符]

如何高效使用国家中小学智慧教育平台电子课本下载工具：完整操作指南

【HALCON 实战入门】2. HALCON 快速入门

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Rockchip RK3588/Linux系统下，手把手教你集成RGA+MPP进行视频处理与硬件加速

什么是大语言模型（LLM）？一文读懂核心概念

给嵌入式新手的保姆级教程：用RT-Thread Studio从零点亮你的第一个STM32F407 LED灯

5大核心优势解析：Open WebUI如何重塑企业级AI应用开发体验

LingBot-Depth-ViT-L14多场景落地：教育科研、智能制造、元宇宙开发三类案例

Qwen2.5-VL视觉定位Chord案例：AIGC内容审核中违规元素定位

FPGA驱动VGA显示全攻略：基于ADV7123芯片的RGB888实战方案

掌握Windows系统优化：Winhance中文版构建高效定制化工作流

ChineseOCR终极指南：4步搞定任意角度文字自动校正与识别

CCF CSP 202104-2 邻域均值：从图像降噪到二维前缀和的实战解析

【官方原创】Keil工程使用NEAI库的异常问题 LAT1457

【大模型应用】AI服务上架合规性-微信小程序使用硅基流动服务

刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！

最新文章

Free Texture Packer：游戏与Web开发的精灵图集终极解决方案

血的教训！CentOS7修改getty@tty1.service导致系统崩溃的完整抢救记录

Edge浏览器一启动就自动打开2345？别急着重装系统，试试这个权限修改法

ThinkPad风扇控制终极指南：TPFanCtrl2让你的笔记本静音又清凉 [特殊字符]

如何高效使用国家中小学智慧教育平台电子课本下载工具：完整操作指南

【HALCON 实战入门】2. HALCON 快速入门

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统