甘肃省网站建设_网站建设公司_页面加载速度

作者：毛烁

如果深入拆解黄仁勋的观点内核，就会发现“物理 AI（Physical AI）”这一概念的实际上是底层控制权交接——当物理 AI（Physical AI）通过了技术进化的临界点，从人类编写的确定性代码，移交给了具有泛化能力的、理解物理规律的神经网络。

基于这一理念，NVIDIA发布了一系列全新的物理AI模型。

Cosmos全新模型给机器人装上“物理直觉”

过去十年，机器人在智能化升级这条路上始终被一个核心瓶颈制约着——常识的缺失。

无论是像波士顿动力Atlas这样的前沿产品，还是工厂流水线机械臂这样的企业大规模应用场景，这些机器人事实上都是在执行预设的轨迹，虽然精度做的越来越高，但是只要环境出现未建模的细微变化（例如地面突然多了一滩油、被抓取物体的摩擦系数发生偏移）系统就会因模型失配而迅速失稳，甚至直接崩溃。

问题的根源在于，传统控制算法并不真正“理解”物理世界。其本质上是在结合历史数据、严格执行指令，而非具备对物理规律的理解。工程实践中，这一缺陷通常被掩盖在大量“补丁式”的工作里，比如，在ROS节点中写复杂的状态机、用穷举的“if-else”做长尾的场景，又或者是在Simulink里反复调校PID参数，来换取局部工况的稳定性。

而现在，这种方式的扩展性正在触及天花板。如果仍然固守“感知（CNN）+ 规划（A*/ Lattice）+ 控制（MPC）的上一代技术栈里，事实上已经站在了被新技术性淘汰的边缘。

接下来的行业竞争，其实已经不再取决于谁的工程代码更工整、算法更优，而在于谁能够将海量真实与仿真数据蒸馏为可迁移、可泛化的物理世界行动策略。

这也正是NVIDIA推出Cosmos（世界级基础模型）的原因，其致力于从根本上解决上述问题。

另外，需要澄清的是，Cosmos的真正价值并不在于“生成视频”本身。视频只是其对外呈现的媒介，更准确地说，Cosmos可以被理解为以生成模型为核心的、可学习的世界级物理模拟器（Learned Physics Simulator）。

换句话说，Cosmos是在预测、推演物理世界中“下一步会发生什么”。

也正因如此，Cosmos直接嵌入了机器人决策与控制链路，分别在实时预测、长期推理和工程迁移三个层面补齐了传统机器人系统的短板。

在传统的机器人控制回路（Control Loop）中，状态估计（State Estimation）通常依赖于卡尔曼滤波等算法（通过系统输入输出观测数据，对系统状态进行最优估计的算法）。但是，这类算法对于非线性强、接触复杂的场景（如柔性物体操作）无能为力。

然而，智能机器人系统中，决策并非发生在单一时间尺度上。一方面，控制回路需要在毫秒级内对环境变化做出反馈；另一方面，决策往往发生在秒级甚至更长时间尺度上，负责任务分解与策略选择。

Cosmos正是沿着这时间尺度进行拆分和设计的。

具体看，NVIDIA Cosmos Transfer 2.5 和 NVIDIA Cosmos Predict 2.5两款开源模型解决的是“快思考”的问题。其可以直接嵌入实时控制层，当摄像头捕捉到一帧图像时，Cosmos Predict并不会立刻对像素做逐帧外推，而是对物理状态的演化轨迹进行推演。

此次更新的NVIDIA Cosmos Predict 2.5融合了 Text 2 World、Image 2 World和 Video 2 World等生成能力，可用统一架构生成连贯、可控的视频世界模拟输出，其可以根据文本、图像或视频输入，生成跨时间的环境演化序列（如连续画面），在仿真与数据增强中用于训练、评估或预测未来状态。

以“机械臂倒水”为例，传统方法需要显式求解流体动力学方程，计算复杂度高，难以满足实时性要求。NVIDIA Cosmos Predict 2.5的方法，是通过学习海量物理视频数据，在给定当前观测和动作扰动的条件下，实时预测下一时刻的流体分布与不确定性，从而为控制器提供“是否会失稳或溅出”的快速判断依据。

截取自：github

这种能力赋予机器人一种近似人类的物理直觉，使其能够在动作执行过程中基于即时物理反馈进行连续微调（Reactive Control）。因此，当状态出现小幅偏移时，系统无需回退到高层规划器重新计算整条运动路径。

NVIDIA Cosmos Transfer 2.5是转换模型，用来在不同的空间或条件下调整模拟世界的输出，支持空间条件控制的风格迁移（比如光照、天气、环境变化等），从仿真场景到真实感合成数据的过渡。

其比前代模型更小、更快、生成质量更高，并在域间迁移（Sim-to-Real / Real-to-Real）时可减少误差累积，是桥接仿真训练与现实部署的重要工具。

截取自：github

如果说NVIDIA Cosmos Transfer 2.5、NVIDIA Cosmos Predict 2.5可以理解为人的小脑，那么开源的推理视觉语言模型Cosmos Reason 2就是大脑皮层，其负责的是跨时间尺度的理解、推理与决策。

NVIDIA Cosmos Reason 2引入了大语言模型中成熟的思维链（CoT）机制，并将其扩展到视觉—动作（Vision-Action）领域，使机器人能够在感知环境的同时，对动作进行显式推理。

这一点在长周期、开放环境的复杂任务中尤为关键。例如在“清理厨房台面”这类任务中，真正的难点并不在单个动作的执行，而在于任务分解、因果判断与风险规避。传统任务规划器依赖预定义的PDDL（规划域定义语言），对场景变化高度敏感，几乎不具备泛化能力。

而NVIDIA Cosmos Reason 2则能够直接从图像中理解语义与空间关系，并在此基础上完成多步推理，将感知、推理与决策紧密耦合的能力，有效避免了传统模块化架构中层层传递所带来的信息损耗。

更重要的是，NVIDIACosmos Reason 2具备反事实推理能力，在动作执行前预演不同决策可能带来的后果，从而主动规避高风险操作。这使机器人不再只是“按流程办事”，而是开始具备面向真实物理世界的判断能力。

仿真与现实的鸿沟（Sim-to-Real Gap）被业界称之为人形机器人落地的“天堑”。主要原因在于渲染图像与真实图像的域差异（Domain Gap），以及仿真物理引擎与真实物理世界的参数偏差（SystemID Error）。

NVIDIACosmos Transfer2.5提供了一套基于生成式AI的域适应方案。其能将NVIDIAIsaac Sim中生成的完美合成数据，转换成带有真实世界噪声、光照干扰甚至镜头畸变的数据，同时保持物理参数不变。

反之，其也能将真实世界的稀疏数据增强为仿真环境中的多样化场景。这意味着开发者在仿真中训练的策略网络（Policy Network）中，从部署到真机时的Zero-shot成功率将得到质的提升。

推理与决策之后，推理的结果，将转化为人形机器人可执行的连续全身动作。NVIDIA 的答案是NVIDIA Isaac GR00T。此次，NVIDIA Isaac GR00T迎来了1.6版本的更新。

在架构方面，Isaac GR00T 1.6采用Cosmos Reason 2B的视觉语言模型（VLM），支持灵活分辨率编码，无需填充，并在预训练期间解锁前四层以增强动作生成能力。

同时，动作生成部分的扩散变换器（DiT）由16层升级为32 层，更好地对连续动作序列进行去噪和生成。相比1.5版本移除了VLM 后置的Transformer适配器，使视觉理解与动作生成耦合更紧密；此外，模型输出相对动作状态，而非绝对关节角度，提高了跨形态适应性。

截取自：github

在训练数据上，1.6版本除继承1.5 版本的数据外，新增了数千小时的遥操作与仿真全身运动数据，包括双手操作的Yumi 臂(ABB的双臂机器人)、AGIBot Genie1、Galaxea R1 Pro 模拟，以及Unitree G1全身控制数据。

工程上，1.6版本提供了更高效的数据加载、异步策略封装和灵活训练配置，使研究人员能够在小规模数据上微调模型，并快速部署到不同机器人任务中，实现定制化全身动作控制。

“大模型”落地边缘机器人：破除Python局限 C++“突围”

如果说 Cosmo赋予了机器人“灵魂”，那么“边缘算力”与“仿真”的深度变革，则解决了困扰具身智能落地的两个难题——边缘端大模型的实时推理瓶颈，以及机器人策略的标准化评估难题。

随着Transformer 架构的应用，“算力饥渴”和“功耗墙”问题显著。

就比如，一个7B参数 VLA（视觉-语言-动作）模型，使用FP16精度，就需要占用巨量显存，如果保证交互流畅，往往还要同时运行视觉编码器、大语言模型和策略网络。面对多模态大模型的并发压力，显存和带宽成为第一道瓶颈。

所以，这次更新的Jetson T4000模组，是NVIDIA为物理AI落地提供的物理保障。

Jetson T4000拥有1536核心NVIDIA Blackwell架构的GPU，配备第五代Tensor 核心，支持多实例GPU，拥有6个TPC。可提供高达1200 TFLOPS的算力，和64 GB 内存，包含1个NVENC和1个NVDEC硬件视频编解码器引擎，可实现实时4K视频编码和解码。

截取自：NVIDIA官网

然而，1200TFLOP的震撼数字之下，有一个关键的前缀：FP4精度。对于熟悉Blackwell架构的人来说，其实是一个意料之中的事。

一方面Blackwell架构本身对FP4精度有原生的支持和推理加速，另一方面，在Transformer模型中，激活值的分布存在大量的离群点（Outliers），这导致传统的INT8量化（Orin平台就是INT8量化）往往伴随精度损失。

而FP4精度，通过保留指数位和更精细的动态缩放，在保持模型性能几乎无损的前提下，将显存占用压缩了一半，带宽利用率翻倍，性能提升4倍。

这意味着什么？在Jetson T4000这块功耗仅为40W～70W的板卡上，64GB的统一LPDDR5x内存（带宽273 GBps）显得很“阔绰”。

在FP16精度下，其70B参数的模型都无法加载。但在FP4精度下，模型权重被压缩了一半以上（相比INT8）甚至75%（相比FP16）。这意味着Jetson T4000可以在本地显存中同时并发运行Qwen-32B级别的推理模型和CLIP视觉编码器，以及Diffusion网络，无需频繁地进行内存交换。

从基准测试来看，Jetson T4000在运行Qwen3-30B-A3B模型时，吞吐量达到了218 tokens/s。而人类的阅读速度大约也就是5～10 tokens/s。这说明，Jetson T4000能以20倍于人类语速的效率进行“思维链”推演，为复杂的机器人控制留出了巨大的时间窗口。

Jetson T4000的升级款Jetson T5000性能更强，达到2070TFLOPS的算力输出（依旧是FP4）。从实际推理性能来看Jetson T5000 相比 T4000 在多款大模型推理中均有提升：Qwen 3 30B-A3B提速19%，Qwen 3 32B提速22%，Nemotron 12B表现最亮眼，速度提升53%；DeepSeek R1 Distill Qwen 32B加速28%，蒸馏模型适配性明显改善。轻量级模型 Mistral 3 14B和GR00TN1.5分别提速 9%，整体体现出T5000 在大模型与定制化模型场景的全方位优化。

截取自：NVIDIA官网

硬件决定了上限，那么软件就决定了落地的下限。

本次，NVIDIA更新的JetPack 7.1，解决了长期困扰嵌入式中——Python在实时系统中的不可靠性。

过去，开发者在边缘端运行大模型时，大多依赖vLLM 或 HuggingFace 的 Python Pipeline。然而，在机器人控制回路中，Python的局限性十分明显。一方面，其本身依赖环境庞大，系统镜像臃肿，OTA升级风险极高。另一方面，GIL（全局解释器锁）让多线程受阻，多核CPU 无法充分发挥；回收机制的不确定性导致在关键时刻暂停主线程。

想象一下，机器人正在做动态平衡时，Python VM突然停顿50ms，结果就是机器人直接跌倒。

NVIDIA这次更新的JetPack 7.1中的TensorRT Edge-LLM，从根本上解决了这些问题。作为开源的C++工具包，其专门用于在嵌入式平台（如 Jetson Thor / T4000）上高效推理大型语言模型（LLM）和视觉语言模型（VLM），并优化边缘推理性能。

TensorRT Edge-LLM通过C++直接管理内存池和线程调度，移除了Python解释器开销，实现了确定性延迟，使大模型推理能够安全地融入1kHz的实时控制循环。

更重要的是，其原生支持FP8、NVFP4 和INT4精度量化，开发者只需将 PyTorch模型导出为 ONNX，再用TensorRT优化生成 Engine，即可在C++中直接调用。

官方数据显示，在运行Qwen3系列模型时，EdgeLLM相比Python环境下的 vLLM，不仅生成速度更快、更稳定，而且显著降低 CPU 占用率，为SLAM、状态估计等关键任务释放了宝贵资源。

在视频处理方面，JetPack 7.1 同样带来重要改进。

NVIDIA在Jetson Thor平台上统一了Video Codec SDK，提供与服务器级GPU（H100、L40）一致的API体验。对于远程操控和机器人感知，CABR（Content Adaptive Bit Rate）工作流尤为关键。系统可以根据画面复杂度动态调节码率——画面静止时降低码率，运动剧烈时快速提升码率，从而在 WiFi或5G等带宽波动环境下保持画面流畅。

此外，Video Codec SDK支持ROI编码和自适应量化（AQ），可以将更多算力分配给关键区域（如机械臂末端或行人面部），从而实现更精细的视频控制。对于非实时的离线任务，NVIDIA 还提供PyNvVideoCodec的 Python 封装，底层依然调用C++核心，性能接近原生。

这些软件能力的硬件基础是Jetson Thor系列。结合TensorRT EdgeLLM与Video Codec SDK，开发者可以在边缘端实现从大模型推理到视频感知的全流程优化，显著提升边缘机器人的可靠性和安全性。

具身智能走进“考场” 破除Sim-to-Real评估难题

有了强大的边缘算力和实时的软件栈，具身智能领域面临的下一个核心挑战是：如何科学地评估机器人的“聪明”程度？

当前，机器人训练面临的最大危机在于“过拟合”问题。就比如，机器人在特定光照和特定桌面上表现完美，但一旦环境改变就会出BUG。

为了解决这一难题，NVIDIA 更新了Isaac Lab-Arena。这是一套简化通用机器人策略（Generalist Robot Policy）评估的开源框架，实质上是为机器人建立可复用、可扩展的标准化“工业级制度”。

与此同时，配合云原生编排框架NVIDIA OSMO，开发者可将工作流从单一工作站无缝扩展至混合云，彻底打通了从数据生成到模型评估的“任督二脉”。

传统仿真环境的构建往往繁琐、昂贵且难以复用，而Isaac Lab-Arena通过“从0到1”的模块化，采用类似乐高积木的方式，将仿真环境拆解为四个独立组件：物体（Object）、场景（Scene）、机器人本体（Embodiment）以及任务逻辑（Task Logic）。

同时，Isaac Lab-Arena引入了标准化的可供性系统（Affordance System），将交互属性（按钮、旋钮），从具体物体中剥离出来，使任务逻辑可以跨物体复用，不再受限于单一模型。

在此基础上，Isaac Lab-Arena支持高度自动化的多样性生成。开发者只需定义一次任务逻辑，就可以自由组合不同组件，实现任务的随意迁移和混搭。

例如，一个标准的拾取任务可以从家庭场景无缝切换到工业场景，无需重写任何代码。同时，这种机制支持大规模参数变化，从物体重量、摩擦系数到关节刚度，都可以在仿真中灵活调整，为通用型策略训练提供了极其丰富的数据。

从细节来看，Isaac Lab-Arena的核心价值在于充分利用GPU的大规模并行能力，实现高吞吐量。在数千个并行环境中，Isaac Lab-Arena可以对参数进行微调与扰动，例如模拟摩擦力、物体质量或光照的微小差异，从而精确评估模型在现实物理世界中的鲁棒性。

更重要的是，Isaac Lab-Arena不光是单纯的评估工具，其与Isaac Lab-Teleop和Isaac Lab-Mimic紧密集成，形成从合成数据生成、模型训练到训练后评估的全流程闭环。无论是经过微调的模型，还是Isaac GR00T N、pi0、SmolVLA等基础模型，都可以在统一标准下进行科学打分，为通用的验证提供可靠依据。

事实上，目前Isaac Lab-Arena已经成为开源社区共享的统一核心平台之一。合作伙伴Lightwheel已利用该框架开发并开源了超过250个任务，包括RoboCasa和LIBERO 任务套件，并正在联合开发代表复杂现实世界挑战的工业基准RoboFinals。

此外Isaac Lab-Arena环境还已正式接入Hugging Face LeRobot Environment Hub，开发者可以下载获取经过Sim-to-Real验证的SOTA环境，对自己的机器人模型进行标准化测试。

RoboTwin也正借助 Arena构建其2.0版本的大规模具身仿真基准，NVIDIA GEAR Lab与 Seattle Robotics Lab（SRL）也在使用Isaac Lab-Arena对视觉语言动作模型（VLA）进行大规模推理与技能评估。

从开源社区到行业落地物理 AI生态加速扩展

从整体生态视角来看，NVIDIA 正在系统性地构建以“物理 AI”为核心、覆盖机器人全生命周期的开放型产业生态，而这一生态则是通过软硬件平台、开发者社区、行业伙伴和应用场景的深度耦合，实现跨行业、跨阶段的协同演进。

在机器人基础能力层面，Franka Robotics、NEURA Robotics、Humanoid等企业正在利用NVIDIA Isaac GR00T赋能的工作流，对机器人新行为进行仿真、训练和验证，形成从虚拟世界到现实部署的高效闭环。

与此同时，Boston Dynamics、Caterpillar、LG Electronics等全球头部厂商，也在 NVIDIA 机器人开发栈的支撑下，持续推出具备更强感知、推理和操作能力的AI驱动型机器人产品，推动工业、物流、家庭等场景的智能化升级。

在行业应用生态中，NVIDIA的技术栈正深度嵌入企业级工作流与垂直领域解决方案。

例如，Salesforce将Agentforce、Cosmos Reason以及基于 NVIDIA Blueprint 的视频搜索与总结能力引入机器人视频分析，实现了对机器人采集数据的高价值挖掘，同时将时间显著压缩，体现了机器人数据与企业AI系统融合后的商业价值。

在医疗机器人领域，LEM Surgical借助NVIDIA Isaac for Healthcare与Cosmos Transfer 训练Dynamis手术机器人，并结合Jetson Thor与Holoscan构建高可靠实时计算平台；XRLabs 则以外置手术内窥镜为切入点，通过Jetson Thor与Isaac for Healthcare 提供的实时AI分析能力，为外科医生提供精准的术中引导，进一步拓展了机器人在高风险、高精度场景下的应用边界。

在开发者与开源生态层面，NVIDIA与 Hugging Face深度合作。

随着机器人成为 Hugging Face 平台上增长最快的领域之一，NVIDIA将开源的技术集成至LeRobot框架，把模型、数据集、仿真环境与评测工具统一到标准化开发体系中，使开发者能够以更低门槛完成从算法微调到系统验证的端到端流程。

目前，GR00T N系列模型与Isaac Lab-Arena在LeRobot中的上线，Hugging Face 开源的Reachy 2、Reachy Mini也与Jetson Thor、DGX Spark的完全互操作，强化了“模型即能力”的生态共识，也连接了NVIDIA 数百万机器人开发者与Hugging Face超过千万的全球 AI 开发者，形成规模化创新的网络效应。

在算力与硬件底座层面，Jetson Thor与IGX Thor构成了支撑这一生态的关键基础设施。Jetson Thor面向具备复杂推理需求的人形机器人，为其导航、操作与多模态理解提供高密度算力支持，已被 NEURA Robotics、Humanoid、Richtech Robotics、智元机器人等厂商用于新一代人形机器人与仿真平台。

而面向工业边缘的IGX Thor，则在功能安全与企业级软件支持下，将机器人与AI能力扩展至航空、制造与重工业场景，Archer、Caterpillar 及 AAEON、Advantech、ADLINK 等生态伙伴的加入，也进一步夯实了从芯片、系统到行业解决方案的完整产业链。

写在最后——当“看门狗”走进“世界”

在这之前，作为曾经长期和寄存器、ISR（中断服务程序）以及实时操作系统（RTOS）打交道的嵌入式开发者，看完这场Keynote，感受到了久违的“心有灵犀”。

在很长一段时间里，我们对“AI上端侧”其实是持保留态度的。为什么？

因为代码必须是确定性的。我们习惯了计算每个时钟周期，习惯了配置硬件看门狗（Watch dog）来防止系统跑飞。

但NVIDIA这次发布的组合拳，让我们看到了一个重要的信号——AI终于开始懂得“嵌入式的规矩”了。

这次更新，有几点最深刻的“体感”。

第一，是“物理直觉”终于变得可计算了。以前做柔性物体抓取（比如抓个装水的袋子），在Simulink里调PID调到崩溃也很难解决流体晃动带来的重心偏移。而Cosmos Predict展示的能力，实际上不需要解算纳维斯托克斯方程，就能像人一样预判“这水要洒”。

所以现在，工程开发的重点，就可以从“如何精确建模”转向“如何让模型学会泛化”。

第二，Jetson Thor太让人兴奋了。配合内存（Unified Memory），以及高配版T5000的2070TFLOPS算力输出，能在不频繁访问外存、不烧穿功耗墙（70W对移动机器人来说是黄金甜点）的前提下，把原本只能塞进服务器机房的70B大模型，塞进了边缘计算单元里。这里建议大家都买一台试试。

第三，边缘端终于有了“敢上实战”的底气了。JetPack 7.1把Edge-LLM全部C++化，配合JetsonThor的FP4精度，意味着我们终于可以把VLM（视觉语言模型）真正当作机器人的“小脑”，而不是挂在云端的一个延迟巨大的“大脑”上。这种“确定性的低延迟”，比单纯的TOPS更有诱惑力。

事实上，所谓的“物理AI”时代，并不是要抛弃传统的智慧，反而是对它的最高致敬。它标志着具身智能从“Demo玩具”正式迈向了“工具”。

从远景看，未来的机器人开发，门槛看似变低了（不用手写复杂的算法），实则变高了（需要驾驭数据飞轮和世界模型）。

但是，这也正是物理AI真正迷人的地方！

甘肃省网站建设_网站建设公司_页面加载速度_seo优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

甘肃省网站建设_网站建设公司_页面加载速度_seo优化

热门文章

文章分类

标签云

相关文章

基于Python+Django的社区服务管理系统设计与实现

基于大数据的健康风险评估系统的设计与实现

【记录】LLM｜魔搭社区加载本地模型Qwen-Image-Layered（附可运行的代码）

需要专业的网站建设服务？