【摘要】
本次CES 2026主题演讲,除了发布新的Rubin,提出物理AI全栈方案之外,还有3个关键信息:
- Nvidia现在除了芯片之外,还做全栈的AI系统,且开源,以方便其他人在这个基础上进一步开发自己的AI系统
- MultiModel多模型协作
- Bluefield在AI存储KV context保存方向上的创新,避免了context的来回搬移
除了特别说明之外,所有图片来源都是nvidia公众号的keynote视频
下图1总结了当前的AI现状:
图1 AI当前现状
一、AI带来的平台迁移
每隔10-15年,计算工业领域会有一次reset,新的平台迁移platform shift会发生。
比如mainframe to PC, PC to Internet, Internet to Cloud, Cloud to Mobile, 每次应用都会更换其目标平台,所以称为platform shift。
这次会有2个变化同时发生:
- 现在平台向AI迁移,AI是应用,应用也将会基于AI来开发
- 软件运行和开发的方式将会改变,从软件编程进化为训练软件,软件不再基于CPU来运行,而是基于GPU来运行;以前的软件是提前编译好,运行时接受输入然后产生输出,而以后将会变化为软件理解上下文(context),然后每次都是重新生成一个新软件。
【思考】
软件基于GPU来运行只是一个概述,其实从系统角度来讲,CPU肯定是不可缺少的,GPU需要CPU来进行系统的启动引导,网络数据交互,还有各种虚拟化技术比如容器也是构建在CPU上的,一个虚拟化容器中可能包含N个CPU和M个GPU。所以每次发布新产品,其实都是CPU和GPU配对来发布的,二者之间关系紧密。
软件的产生应该也是指APP层面的软件,像Linux内核还有Kubernates容器调度之类的软件,应该会越来越稳定,一方面不需要AI来实时创建,另一方面AI要构建这样积累深厚的代码应该也很难做到吧。
二、AI代理
AI相关的几个关键时刻:
- 2015年,BERT大语言模型出现;
- 2017年,Transformer论文出现;
- 2022年,ChatGPT时刻,提醒世界AI来临;
- 2023年,ChatGPT O1出现,是第一个reasoning的模型,也提出了test time scaling,除了预训练之外,还可以通过增强学习reinforce来学习技能,从另一个角度来讲就是实时进行思考,thinking in real time。这些过程需要更多的计算资源也就是GPU。
- 2024年,代理系统Agentic system开始出现,在2025年得到普及。代理系统可以进行reasoning、查找信息、做研究、使用工具、计划未来、模拟输出,突然之间,Agent就可以解决很多的问题。Nvidia的一些编程问题都在使用cursor。
【补充信息】以前知道的是AI训练training,AI推理inference。最近总是听到reasoning,专门去查了区别如下:
图2 AI Reasoning与AI Inference的区别(图片来源:千问)
AI Inference 是模型部署阶段的“执行动作”,追求效率;AI Reasoning 是智能系统中的“思考过程”,追求逻辑与正确性。
【思考】
以前提到AI Inference的时候,都会有结果的概率问题,比如现在用的很多的人脸识别,也会有出错的时候,偶尔需要进行二次识别才能通过。但是现在有了AI Reasoning,可以通过多个方式减少Inference的出错,但是仍然不能保证100%正确。对于自动驾驶、机器人等领域,应该还是需要在AI的基础上,有一层额外的规则防护机制。
三、开源模型
DeepSeek开创了reasoning模型的open先河,越来越多的新开源模型,刷新了一个又一个新的高度,越来越多的下载量,可以看到大家的参与度越来越高。所以nvidia也在开源模型上投入巨大。
Nvidia做DGX Cloud不是为了进入云计算领域,只是用来开发nvidia自己的开源模型。下图看到2025年的模型数量,nvidia排在第一位,覆盖的各行各业的领域,比如第一个Clare是生物医学领域的,研究蛋白质方面的。
Nvidia不仅开源模型,也开源用于训练模型的数据。目标是让更多的人可以更容易进行AI相关的开发,促进AI的进步。
在第五部分的物理AI中可以看到具体在自动驾驶和机器人方面的开源模型。
图3 nvidia在开源模型上的贡献
四、多模型协作
AI领域一个新的进步是Perplexity公司的MultiModel。
Perplexity AI 公司的 “多模型协作” 是其核心技术架构和产品差异化的核心,它代表着当前大模型应用的一个先进范式:不依赖单一模型,而是通过智能“调度”和“协作”,为不同问题选择最佳工具。
Perplexity 的协作并非简单并列几个模型,而是一个精心设计的、分层决策的系统。
第一层:查询理解与路由(调度层)
第二层:专家模型池(执行层)
第三层:工作流引擎(协作层)
这样确保每个问题都能被当时可用的最佳模型处理,理论上能始终提供最高质量的答案。
NVIDIA Blueprint 解决方案是“AI基础设施的标准化配方”——为构建企业级AI算力中心,提供从硬件选型、网络布线到软件部署的全栈、已验证的详细设计图,确保建成的系统高性能、可扩展且稳定可靠。
演讲中举例采用nvidia的Blueprint解决方案,基于MultiModel的理念,为客户端到端构建,客户可以同时使用预训练的AI模型和自己定制化的AI模型,来生成最终解决方案。
图4 多模型协作的应用举例
下图是使用nvidia AI解决方案的一些公司举例。
图5 nvidia AI解决方案的合作方举例
五、物理AI
AI去理解物理世界的规则是比较大的一个挑战。
所以nvidia构造了一个全栈的物理AI平台,包含3类芯片和对应的模型及软件。如下图所示:
- AI训练芯片GB300,世界的理解与预测模型COSMOS
- AI推理芯片THOR,机器人模型GROOT,自动驾驶Alpamayo
- AI模拟芯片simulator RTX PRO,数字孪生系统OMINVERSE
【说明】其实数字孪生系统OMINVERSE,nvidia已经做了好几年了,建立物理世界与模拟世界的关系,可以在模拟世界进行各种模拟实验和优化调整,减少真实物理世界的失败。只是这次纳入了物理AI这个新的概念。
图6 nvidia的物理AI全栈方案
世界模型COSMOS可以合成很多的数据用于自动驾驶的训练。
图7 COSMOS的数据合成
自动驾驶Alpamayo是第一个能够thinking,reasoning的自动驾驶AI模型。
训练的数据有的是人类驾驶数据,有的是COSMOS模拟生成的数据。
Nvidia做自动驾驶已经有8年,主要原因是希望能够建立端到端的AI栈,一方面可以支持nvidia的客户比如奔驰来生产自动驾驶汽车,另一方面在这个过程中,nvidia可以更好的理解如何定义自动驾驶的芯片。
图8 nvidia发布的自动驾驶新模型Alpamayo
在这里以自动驾驶为例,又重新提出了AI的5层蛋糕:
- 基础电力和物理层,比如在自动驾驶里面,这一层是汽车;
- 芯片,比如GPU、CPU、网络芯片等;
- 基础架构infrastructure,比如在自动驾驶和物理AI中,是Omniverse和COSMOS;
- 模型model,在这个例子中,是Alpamoyo,这个现在已经开源;
- 应用层,在这个例子中,是与nvidia合作5年的奔驰;
另一个软件栈是AV栈,entire AV stack的设计目标是完全可追溯fully traceable,大约开发了6年。
这2个软件栈互相镜像,用AV栈来检验Alpamoyo是否够安全。
所有软件都是开源的。
在物理AI领域,nvidia的Omniverse有很多的合作伙伴。
还有一个物理AI的应用领域是机器人,相关的软件栈是Isaac。
同样在机器人领域,nvidia也打算端到端的完成各个方面的工作来制造机器人。
图中视频中真实的小机器人很可爱,可以通过跳跃来感受重力。
图9 nvidia在物理AI领域的合作伙伴
六、新一代架构Rubin
下图展示了AI发展导致的对计算资源的急剧skyrocket需求,所以这次nvidia打破了以往一个新的generation只更新1-2个芯片的规则,一口气更新了6个芯片。
之所以要同时更新,主要是芯片之间需要进行联合设计co-design,才能更好地达到最佳性能。
图10 AI的急剧增长需求
具体的6个芯片如下:
- CPU芯片Vera
- GPU芯片Rubin
- RDMA芯片Spectrum CX9,支持RDMA网络通信,适合东西向通信,也就是一个大集群中系统之间的通信;
- 智能网络芯片BlueField 4,应该主要是TCPIP的网络通信,适合南北向通信,也就是一个大集群或者数据中心,对外部的网络通信,或者是数据中心的各个虚拟化系统之间的通信;此外,该芯片还支持KV context Memory的存储
- NVLINK 6交换机
- 以太网交换机
【说明】与网络相关的有2个芯片:Spectrum CX9和BlueField 4,二者定位是不同的。
Spectrum CX9是从Mellanox收购得来,代表了顶尖的RDMA和IB通信,RDMA的通信效率要比TCPIP高很多,但是由于RDMA与TCPIP软件调用接口不同,对于软件开发来讲需要基于RDMA重新开发,这是nvidia NCCL软件做的工作,通过调用RDMA,东西向的网络通信效率得到很大的提升。由于RDMA通信需要NCCL支持,所以并不适用于以前的网络对接,所以基于RDMA的Spectrum CX9只用于AI集群中的内部通信,也就是东西向通信。
如果需要与传统网络进行交互,那么仍旧需要传统的TCPIP,这时就需要用到BlueField 4这款网络芯片。传统网络一般用于AI集群对外交互,或者AI节点虚拟化后的管理等。
具体的每个芯片参数可以看下面的图片信息
后面图片较多,就不编号了
RDMA芯片Spectrum CX9,支持RDMA网络通信,适合东西向通信,也就是一个大集群中系统之间的通信;
智能网络芯片BlueField 4,应该主要是TCPIP的网络通信,适合南北向通信,也就是一个大集群或者数据中心,对外部的网络通信,或者是数据中心的各个虚拟化系统之间的通信;此外,该芯片还支持KV context Memory的存储;
除了芯片更新之外,这次在硬件工程领域也有了很大的进步,做到了100%的液冷,不再需要电缆、风扇。
下图可以看的很清晰,右边的是前一代的设备,上面连线很复杂,左边的是这一代的新设备,干干净净。
这是总的nvidia Vera Rubin 集群机柜的样子:
七、AI时代的新存储
AI的context成为新的瓶颈,之前总是要通过网络进行交互,现在nvidia的新方案可以通过Bluefield芯片以KV(key value)方式存储起来,提升效率。
AI场景下不再用SQL,而是KV存储,key-value存储
八、其他
能耗降低:液冷对水温要求不高,抹平能耗的峰值,不再需要额外备用25%的能耗
安全保证:数据有加密
九、总结
一句话总结,新架构的6个新芯片,带来了新的性能和成本的优化:
- 同样的时间训练,需要原来1/4的GPU;
- 同样的交互数,可以生成原来10倍的token;
- 同样的时延下,token的成本是原来的1/10。
总得来讲,是很强,但是这些数据也只是某种情况下的数据,不同场景的性能升高和成本优化的结果要分别来计算。