甘肃省网站建设_网站建设公司_页面加载速度_seo优化
2026/1/7 21:43:10 网站建设 项目流程

作者:毛烁

如果深入拆解黄仁勋的观点内核,就会发现“物理 AI(Physical AI)”这一概念的实际上是底层控制权交接——当物理 AI(Physical AI)通过了技术进化的临界点,从人类编写的确定性代码,移交给了具有泛化能力的、理解物理规律的神经网络。

基于这一理念,NVIDIA发布了一系列全新的物理AI模型。

Cosmos全新模型给机器人装上“物理直觉”

过去十年,机器人在智能化升级这条路上始终被一个核心瓶颈制约着——常识的缺失。

无论是像波士顿动力Atlas这样的前沿产品,还是工厂流水线机械臂这样的企业大规模应用场景,这些机器人事实上都是在执行预设的轨迹,虽然精度做的越来越高,但是只要环境出现未建模的细微变化(例如地面突然多了一滩油、被抓取物体的摩擦系数发生偏移)系统就会因模型失配而迅速失稳,甚至直接崩溃。

问题的根源在于,传统控制算法并不真正“理解”物理世界。其本质上是在结合历史数据、严格执行指令,而非具备对物理规律的理解。工程实践中,这一缺陷通常被掩盖在大量“补丁式”的工作里比如,在ROS节点中写复杂状态机用穷举的if-else长尾场景,是在Simulink里反复调校PID参数,换取局部工况的稳定性。

而现在,这种方式的扩展性正在触及天花板。如果仍然固守“感知(CNN)+ 规划(A*/ Lattice)+ 控制(MPC)上一代技术栈里,事实上已经站在了被新技术性淘汰的边缘。

接下来的行业竞争,其实已经不再取决于谁的工程代码更工整、算法更优,而在于谁能够将海量真实与仿真数据蒸馏为可迁移、可泛化的物理世界行动策略。

这也正是NVIDIA推出Cosmos(世界级基础模型)的原因,其致力于从根本上解决上述问题。

另外,需要澄清的是,Cosmos的真正价值并不在于“生成视频”本身。视频只是其对外呈现的媒介,更准确地说,Cosmos可以被理解为以生成模型为核心的、可学习的世界级物理模拟器(Learned Physics Simulator)。

换句话说,Cosmos是在预测、推演物理世界中“下一步会发生什么”。

也正因如此,Cosmos直接嵌入了机器人决策与控制链路,分别在实时预测、长期推理和工程迁移三个层面补齐了传统机器人系统的短板。

在传统的机器人控制回路(Control Loop)中,状态估计(State Estimation)通常依赖于卡尔曼滤波等算法通过系统输入输出观测数据,对系统状态进行最优估计的算法)。但是,算法对于非线性强、接触复杂的场景(如柔性物体操作)无能为力。

然而,智能机器人系统中,决策并非发生在单一时间尺度上。一方面,控制回路需要在毫秒对环境变化做出反馈;另一方面,决策往往发生在秒级甚至更长时间尺度上,负责任务分解与策略选择。

Cosmos正是沿着这时间尺度进行拆分和设计的。

具体看NVIDIA Cosmos Transfer 2.5 和 NVIDIA Cosmos Predict 2.5两款开源模型解决的是“快思考”的问题。其可以直接嵌入实时控制层,当摄像头捕捉到一帧图像时,Cosmos Predict并不会立刻对像素做逐帧外推,而是对物理状态的演化轨迹进行推演。

此次更新的NVIDIA Cosmos Predict 2.5融合了 Text 2 World、Image 2 World和 Video 2 World等生成能力,可用统一架构生成连贯、可控的视频世界模拟输出,其可以根据文本、图像或视频输入,生成跨时间的环境演化序列(如连续画面),在仿真与数据增强中用于训练、评估或预测未来状态。

以“机械臂倒水”为例,传统方法需要显式求解流体动力学方程,计算复杂度高,难以满足实时性要求。NVIDIA Cosmos Predict 2.5的方法,是通过学习海量物理视频数据,在给定当前观测和动作扰动的条件下,实时预测下一时刻的流体分布与不确定性,从而为控制器提供“是否会失稳或溅出”的快速判断依据。

截取自:github

这种能力赋予机器人一种近似人类的物理直觉,使其能够在动作执行过程中基于即时物理反馈进行连续微调(Reactive Control)。因此,当状态出现小幅偏移时,系统无需回退到高层规划器重新计算整条运动路径。

NVIDIA Cosmos Transfer 2.5是转换模型,用来在不同的空间或条件下调整模拟世界的输出,支持空间条件控制的风格迁移(比如光照、天气、环境变化等),从仿真场景到真实感合成数据的过渡。

其比前代模型更小、更快、生成质量更高,并在域间迁移(Sim-to-Real / Real-to-Real)时可减少误差累积,是桥接仿真训练与现实部署的重要工具。

截取自:github

如果说NVIDIA Cosmos Transfer 2.5、NVIDIA Cosmos Predict 2.5可以理解为人的小脑,那么开源的推理视觉语言模型Cosmos Reason 2就是大脑皮层,其负责的是跨时间尺度的理解、推理与决策。

NVIDIA Cosmos Reason 2引入了大语言模型中成熟的思维链(CoT)机制,并将其扩展到视觉—动作(Vision-Action)领域,使机器人能够在感知环境的同时,对动作进行显式推理。

这一点在长周期、开放环境的复杂任务中尤为关键。例如在“清理厨房台面”这类任务中,真正的难点并不在单个动作的执行,而在于任务分解、因果判断与风险规避。传统任务规划器依赖预定义的PDDL(规划域定义语言),对场景变化高度敏感,几乎不具备泛化能力。

而NVIDIA Cosmos Reason 2则能够直接从图像中理解语义与空间关系,并在此基础上完成多步推理,将感知、推理与决策紧密耦合的能力,有效避免了传统模块化架构中层层传递所带来的信息损耗。

更重要的是,NVIDIACosmos Reason 2具备反事实推理能力,在动作执行前预演不同决策可能带来的后果,从而主动规避高风险操作。这使机器人不再只是“按流程办事”,而是开始具备面向真实物理世界的判断能力。

仿真与现实的鸿沟(Sim-to-Real Gap)被业界称之为人形机器人落地的“天堑”。主要原因在于渲染图像与真实图像的域差异(Domain Gap),以及仿真物理引擎与真实物理世界的参数偏差(SystemID Error)。

NVIDIACosmos Transfer2.5提供了一套基于生成式AI的域适应方案。能将NVIDIAIsaac Sim中生成的完美合成数据,转换成带有真实世界噪声、光照干扰甚至镜头畸变的数据,同时保持物理参数不变。

反之,其也能将真实世界的稀疏数据增强为仿真环境中的多样化场景。这意味着开发者在仿真中训练的策略网络(Policy Network)部署到真机时的Zero-shot成功率将得到质的提升。

推理与决策之后,推理的结果,将转化为人形机器人可执行的连续全身动作。NVIDIA 的答案是NVIDIA Isaac GR00T。此次,NVIDIA Isaac GR00T迎来了1.6版本的更新。

在架构方面,Isaac GR00T 1.6采用Cosmos Reason 2B的视觉语言模型(VLM),支持灵活分辨率编码,无需填充,并在预训练期间解锁前四层以增强动作生成能力。

同时,动作生成部分的扩散变换器(DiT)由16层升级为32 层,更好地对连续动作序列进行去噪和生成。相比1.5版本移除了VLM 后置的Transformer适配器,使视觉理解与动作生成耦合更紧密;此外,模型输出相对动作状态,而非绝对关节角度,提高了跨形态适应性。

截取自:github

在训练数据上,1.6版本除继承1.5 版本的数据外,新增了数千小时的遥操作与仿真全身运动数据,包括双手操作的Yumi 臂(ABB的双臂机器人)、AGIBot Genie1、Galaxea R1 Pro 模拟,以及Unitree G1全身控制数据。

工程上,1.6版本提供了更高效的数据加载、异步策略封装和灵活训练配置,使研究人员能够在小规模数据上微调模型,并快速部署到不同机器人任务中,实现定制化全身动作控制。

“大模型”落地边缘机器人:破除Python局限 C++“突围”

如果说 Cosmo赋予了机器人“灵魂”,那么“边缘算力”与“仿真”的深度变革,则解决了困扰具身智能落地的两个难题——边缘端大模型的实时推理瓶颈,以及机器人策略的标准化评估难题。

随着Transformer 架构的应用,“算力饥渴”和“功耗墙”问题显著。

就比如,一个7B参数 VLA(视觉-语言-动作)模型,使用FP16精度,就需要占用巨量显存,如果保证交互流畅,往往还要同时运行视觉编码器、大语言模型和策略网络。面对多模态大模型的并发压力,显存和带宽成为第一道瓶颈。

所以,这次更新的Jetson T4000模组,是NVIDIA为物理AI落地提供的物理保障。

Jetson T4000拥有1536核心NVIDIA Blackwell架构的GPU,配备第五代Tensor 核心,支持多实例GPU,拥有6个TPC。可提供高达1200 TFLOPS的算力和64 GB 内存,包含1个NVENC和1个NVDEC硬件视频编解码器引擎,可实现实时4K视频编码和解码。

截取自:NVIDIA官网

然而,1200TFLOP的震撼数字之下,有一个关键的前缀:FP4精度。对于熟悉Blackwell架构的人来说,其实是一个意料之中的

一方面Blackwell架构本身对FP4精度有原生的支持和推理加速,另一方面,在Transformer模型中,激活值的分布存在大量的离群点(Outliers),这导致传统的INT8量化Orin平台就是INT8量化往往伴随精度损失

而FP4精度,通过保留指数位和更精细的动态缩放,在保持模型性能几乎无损的前提下,将显存占用压缩了一半,带宽利用率翻倍,性能提升4倍。

这意味着什么?在Jetson T4000这块功耗仅为40W70W的板卡上,64GB的统一LPDDR5x内存(带宽273 GBps)显得很“阔绰”。

在FP16精度下,70B参数的模型都无法加载。但在FP4精度下,模型权重被压缩了一半以上(相比INT8)甚至75%(相比FP16)。这意味着Jetson T4000可以在本地显存中同时并发运行Qwen-32B级别的推理模型CLIP视觉编码器,以及Diffusion网络,无需频繁地进行内存交换。

从基准测试来看,Jetson T4000在运行Qwen3-30B-A3B模型时,吞吐量达到了218 tokens/s。人类的阅读速度大约也就是510 tokens/s。这说明,Jetson T4000能以20倍于人类语速的效率进行“思维链”推演,为复杂的机器人控制留出了巨大的时间窗口。

Jetson T4000的升级款Jetson T5000性能更强,达到2070TFLOPS的算力输出(依旧是FP4)。从实际推理性能来看Jetson T5000 相比 T4000 在多款大模型推理中均有提升:Qwen 3 30B-A3B提速19%,Qwen 3 32B提速22%,Nemotron 12B表现最亮眼,速度提升53%;DeepSeek R1 Distill Qwen 32B加速28%,蒸馏模型适配性明显改善。轻量级模型 Mistral 3 14B和GR00TN1.5分别提速 9%,整体体现出T5000 在大模型与定制化模型场景的全方位优化。

截取自:NVIDIA官网

硬件决定了上限,那么软件就决定了落地的下限。

本次,NVIDIA更新的JetPack 7.1,解决了长期困扰嵌入式中——Python在实时系统中的不可靠性。

过去,开发者在边缘端运行大模型时,大多依赖vLLM 或 HuggingFace 的 Python Pipeline。然而,在机器人控制回路中,Python的局限性十分明显。一方面,其本身依赖环境庞大,系统镜像臃肿,OTA升级风险极高。另一方面,GIL(全局解释器锁)让多线程受阻,多核CPU 无法充分发挥;回收机制的不确定性导致在关键时刻暂停主线程

想象一下,机器人正在做动态平衡时,Python VM突然停顿50ms,结果就是机器人直接跌倒。

NVIDIA这次更新的JetPack 7.1中的TensorRT Edge-LLM,从根本上解决了这些问题。作为开源的C++工具包,其专门用于在嵌入式平台(如 Jetson Thor / T4000)上高效推理大型语言模型(LLM)和视觉语言模型(VLM),并优化边缘推理性能。

TensorRT Edge-LLM通过C++直接管理内存池和线程调度,移除了Python解释器开销,实现了确定性延迟,使大模型推理能够安全地融入1kHz的实时控制循环。

更重要的是,其原生支持FP8、NVFP4 和INT4精度量化,开发者只需将 PyTorch模型导出为 ONNX,再用TensorRT优化生成 Engine,即可在C++中直接调用

官方数据显示,在运行Qwen3系列模型时,EdgeLLM相比Python环境下的 vLLM不仅生成速度更快、更稳定,而且显著降低 CPU 占用率,为SLAM、状态估计等关键任务释放了宝贵资源。

在视频处理方面,JetPack 7.1 同样带来重要改进。

NVIDIA在Jetson Thor平台上统一了Video Codec SDK,提供与服务器级GPU(H100、L40)一致的API体验。对于远程操控和机器人感知,CABR(Content Adaptive Bit Rate)工作流尤为关键。系统可以根据画面复杂度动态调节码率——画面静止时降低码率,运动剧烈时快速提升码率,从而在 WiFi或5G等带宽波动环境下保持画面流畅。

此外,Video Codec SDK支持ROI编码和自适应量化(AQ),可以将更多算力分配给关键区域(如机械臂末端或行人面部),从而实现更精细的视频控制。对于非实时的离线任务,NVIDIA 还提供PyNvVideoCodec的 Python 封装,底层依然调用C++核心,性能接近原生。

这些软件能力的硬件基础是Jetson Thor系列。结合TensorRT EdgeLLM与Video Codec SDK,开发者可以在边缘端实现从大模型推理到视频感知的全流程优化,显著提升边缘机器人的可靠性和安全性。

具身智能走进“考场” 破除Sim-to-Real评估难题

有了强大的边缘算力和实时的软件栈,具身智能领域面临的下一个核心挑战是:如何科学地评估机器人的“聪明”程度?

当前,机器人训练面临的最大危机在于“过拟合”问题。就比如,机器人在特定光照和特定桌面上表现完美,但一旦环境改变就会出BUG。

为了解决这一难题,NVIDIA 更新了Isaac Lab-Arena。这是一套简化通用机器人策略(Generalist Robot Policy)评估的开源框架,实质上是为机器人建立可复用、可扩展的标准化“工业级制度”。

与此同时,配合云原生编排框架NVIDIA OSMO,开发者可将工作流从单一工作站无缝扩展至混合云,彻底打通了从数据生成到模型评估的“任督二脉”。

传统仿真环境的构建往往繁琐、昂贵且难以复用,而Isaac Lab-Arena通过“从0到1”的模块化,采用类似乐高积木的方式,将仿真环境拆解为四个独立组件:物体(Object)、场景(Scene)、机器人本体(Embodiment)以及任务逻辑(Task Logic)。

同时,Isaac Lab-Arena引入了标准化的可供性系统(Affordance System),将交互属性(按钮、旋钮),从具体物体中剥离出来,使任务逻辑可以跨物体复用,不再受限于单一模型。

在此基础上,Isaac Lab-Arena支持高度自动化的多样性生成。开发者只需定义一次任务逻辑,就可以自由组合不同组件,实现任务的随意迁移和混搭。

例如,一个标准的拾取任务可以从家庭场景无缝切换到工业场景,无需重写任何代码。同时,这种机制支持大规模参数变化,从物体重量、摩擦系数到关节刚度,都可以在仿真中灵活调整,为通用型策略训练提供了极其丰富的数据

从细节来看,Isaac Lab-Arena的核心价值在于充分利用GPU的大规模并行能力,实现高吞吐量。在数千个并行环境中,Isaac Lab-Arena可以对参数进行微调与扰动,例如模拟摩擦力、物体质量或光照的微小差异,从而精确评估模型在现实物理世界中的鲁棒性

更重要的是,Isaac Lab-Arena不光是单纯的评估工具,其与Isaac Lab-Teleop和Isaac Lab-Mimic紧密集成,形成从合成数据生成、模型训练到训练后评估的全流程闭环。无论是经过微调的模型,还是Isaac GR00T N、pi0、SmolVLA等基础模型,都可以在统一标准下进行科学打分,为通用的验证提供可靠依据。

事实上,目前Isaac Lab-Arena已经成为开源社区共享的统一核心平台之一。合作伙伴Lightwheel已利用该框架开发并开源了超过250个任务,包括RoboCasa和LIBERO 任务套件,并正在联合开发代表复杂现实世界挑战的工业基准RoboFinals。

此外Isaac Lab-Arena环境还已正式接入Hugging Face LeRobot Environment Hub,开发者可以下载获取经过Sim-to-Real验证的SOTA环境,对自己的机器人模型进行标准化测试。

RoboTwin也正借助 Arena构建其2.0版本的大规模具身仿真基准,NVIDIA GEAR Lab与 Seattle Robotics Lab(SRL)也在使用Isaac Lab-Arena对视觉语言动作模型(VLA)进行大规模推理与技能评估。

从开源社区到行业落地物理 AI生态加速扩展

从整体生态视角来看,NVIDIA 正在系统性地构建以“物理 AI”为核心、覆盖机器人全生命周期的开放型产业生态,而这一生态则是通过软硬件平台、开发者社区、行业伙伴和应用场景的深度耦合,实现跨行业、跨阶段的协同演进。

在机器人基础能力层面,Franka Robotics、NEURA Robotics、Humanoid等企业正在利用NVIDIA Isaac GR00T赋能的工作流,对机器人新行为进行仿真、训练和验证,形成从虚拟世界到现实部署的高效闭环。

与此同时,Boston Dynamics、Caterpillar、LG Electronics等全球头部厂商,也在 NVIDIA 机器人开发栈的支撑下,持续推出具备更强感知、推理和操作能力的AI驱动型机器人产品,推动工业、物流、家庭等场景的智能化升级。

在行业应用生态中,NVIDIA的技术栈正深度嵌入企业级工作流与垂直领域解决方案。

例如,Salesforce将Agentforce、Cosmos Reason以及基于 NVIDIA Blueprint 的视频搜索与总结能力引入机器人视频分析,实现了对机器人采集数据的高价值挖掘,同时将时间显著压缩,体现了机器人数据与企业AI系统融合后的商业价值。

在医疗机器人领域,LEM Surgical借助NVIDIA Isaac for Healthcare与Cosmos Transfer 训练Dynamis手术机器人,并结合Jetson Thor与Holoscan构建高可靠实时计算平台;XRLabs 则以外置手术内窥镜为切入点,通过Jetson Thor与Isaac for Healthcare 提供的实时AI分析能力,为外科医生提供精准的术中引导,进一步拓展了机器人在高风险、高精度场景下的应用边界。

在开发者与开源生态层面,NVIDIA与 Hugging Face深度合作

随着机器人成为 Hugging Face 平台上增长最快的领域之一,NVIDIA将开源的技术集成至LeRobot框架,把模型、数据集、仿真环境与评测工具统一到标准化开发体系中,使开发者能够以更低门槛完成从算法微调到系统验证的端到端流程。

目前GR00T N系列模型与Isaac Lab-Arena在LeRobot中的上线,Hugging Face 开源的Reachy 2、Reachy Mini也与Jetson Thor、DGX Spark的完全互操作,强化了“模型即能力”的生态共识,也连接了NVIDIA 数百万机器人开发者与Hugging Face超过千万的全球 AI 开发者,形成规模化创新的网络效应。

在算力与硬件底座层面,Jetson Thor与IGX Thor构成了支撑这一生态的关键基础设施。Jetson Thor面向具备复杂推理需求的人形机器人,为其导航、操作与多模态理解提供高密度算力支持,已被 NEURA Robotics、Humanoid、Richtech Robotics、智元机器人 等厂商用于新一代人形机器人与仿真平台。

而面向工业边缘的IGX Thor,则在功能安全与企业级软件支持下,将机器人与AI能力扩展至航空、制造与重工业场景,Archer、Caterpillar 及 AAEON、Advantech、ADLINK 等生态伙伴的加入,也进一步夯实了从芯片、系统到行业解决方案的完整产业链。

写在最后——当“看门狗”走进“世界”

在这之前,作为曾经长期和寄存器、ISR(中断服务程序)以及实时操作系统(RTOS)打交道的嵌入式开发者,看完这场Keynote,感受到了久违的“心有灵犀”。

在很长一段时间里,我们对“AI上端侧”其实是持保留态度的。为什么?

因为代码必须是确定性的。我们习惯了计算每个时钟周期,习惯了配置硬件看门狗(Watch dog)来防止系统跑飞。

但NVIDIA这次发布的组合拳,让我们看到了一个重要的信号——AI终于开始懂得“嵌入式的规矩”了。

这次更新,有几点最深刻的“体感”。

第一,是“物理直觉”终于变得可计算了。以前做柔性物体抓取(比如抓个装水的袋子),在Simulink里调PID调到崩溃也很难解决流体晃动带来的重心偏移。而Cosmos Predict展示的能力,实际上不需要解算纳维斯托克斯方程,就能像人一样预判“这水要洒”。

所以现在,工程开发的重点,就可以从“如何精确建模”转向“如何让模型学会泛化”。

第二,Jetson Thor太让人兴奋了。配合内存(Unified Memory),以及高配版T5000的2070TFLOPS算力输出,能在不频繁访问外存、不烧穿功耗墙(70W对移动机器人来说是黄金甜点)的前提下,把原本只能塞进服务器机房的70B大模型,塞进了边缘计算单元里。这里建议大家都买一台试试。

第三,边缘端终于有了“敢上实战”的底气JetPack 7.1把Edge-LLM全部C++化,配合JetsonThor的FP4精度,意味着我们终于可以把VLM(视觉语言模型)真正当作机器人的“小脑”,而不是挂在云端的一个延迟巨大的“大脑”上。这种“确定性的低延迟”,比单纯的TOPS更有诱惑力。

事实上,所谓的“物理AI”时代,并不是要抛弃传统的智慧,反而是对它的最高致敬。它标志着具身智能从“Demo玩具”正式迈向了“工具”。

从远景看,未来的机器人开发,门槛看似变低了(不用手写复杂的算法),实则变高了(需要驾驭数据飞轮和世界模型)。

但是,这也正是物理AI真正迷人的地方!


需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询