全球最大消费电子展CES 2026上,英伟达、英特尔和AMD新品发布,体现了全球计算产业的历史性转折,AI算力的芯片竞争已经演变为平台架构的全面战争。
英伟达重构计算定义的极端协同
黄仁勋在CES 2026上带来的是基于全新计算哲学的Rubin计算平台。
游戏显卡的单点硬件思维已经靠边站,极端协同设计为AI而生正当时。
在这种设计理念下,整个服务器机架不再是零部件的堆叠,而是被视作一台独立的超级电脑来设计。
为了实现这一目标,英伟达一口气发布了六款核心芯片,每一款都针对AI工厂的需求进行了极致优化。
这六款芯片的核心是Rubin GPU。
作为Blackwell架构的继任者,Rubin GPU集成了3360亿个晶体管,相比Blackwell的2080亿个晶体管有了质的飞跃。
在显存方面,英伟达为其配备了288GB的HBM4显存,带宽高达惊人的22TB/s。这种带宽的提升解决了大模型训练中最棘手的数据传输瓶颈问题。
为了进一步压榨性能,Rubin支持NVFP4精度推理,算力达到50 PFLOPS。其内部拥有224个SM单元,搭载第六代Tensor Core,并引入了第三代Transformer Engine,这是一种硬件级的自适应压缩技术,专门针对FP4精度进行了优化。
与GPU协同工作的是全新的Vera CPU。
这颗CPU专为AI工厂设计,其核心任务非常明确,就是高效地将数据喂给GPU。
Vera拥有88个定制的Olympus核心,支持176线程,并在Arm v9.2架构上构建。内存配置搭载了1.5TB的LPDDR5X内存,带宽达到1.2TB/s。
与上一代Grace相比,Vera的内存带宽翻了2.4倍,容量翻了3倍,NVLink-C2C的带宽也翻倍至1.8TB/s。这种设计确保了CPU不再是整个计算链路中的短板。
连接这些计算核心的是NVLink 6 Switch。
这是英伟达机架内互联的神经中枢,它为每颗GPU提供高达3.6TB/s的带宽,是Blackwell时代的1.8TB/s的两倍。
NVLink 6构建了一个全互联拓扑结构,确保任意两张GPU之间的通信延迟完全一致。它内置了SHARP网络计算功能,提供14.4 TFLOPS的FP8算力。
这种设计让MoE混合专家模型的all-to-all通信吞吐量提升了两倍,并且支持热插拔、部分填充运行以及动态流量重路由,极大提升了系统的灵活性。
在网络接口方面,ConnectX-9 SuperNIC网卡提供了高达800Gb/s的单端口带宽。
它采用了200G PAM4 SerDes技术,并集成了可编程拥塞控制和硬件加密引擎。这款网卡与BlueField-4 DPU配合,能够在端点处就进行流量整形,有效防止网络拥塞。
BlueField-4 DPU则是负责安全、存储和网络管理的基础设施大脑。它内部集成了64核Grace CPU,内存带宽提升至250 GB/s。
其新引入的ASTRA架构为裸金属和多租户环境提供了硬件级的隔离能力,而专门设计的推理上下文内存存储平台,则将长上下文推理的吞吐量提升了5倍。
负责机架间互联的是Spectrum-6以太网交换机。
这款交换机单芯片带宽达到102.4Tb/s,采用了共封装光学技术,将光模块直接做进芯片封装里。
这一创新将功耗效率提升了5倍,信号损耗从22dB降至4dB,信号完整性提升了64倍,可靠性也随之提升了10倍。这种技术突破让数据中心可以摆脱繁杂的线缆束缚,实现更高效的跨机架通信。
当这六款芯片组合在一起,就诞生了Vera Rubin NVL72。
这是一个包含72张Rubin GPU和36颗Vera CPU的计算怪兽,整个机架的NVFP4推理算力高达3.6 EFLOPS。
系统拥有20.7TB的HBM4显存和54TB的系统内存,机架内互联带宽达到惊人的260TB/s,英伟达形象地称这个带宽比整个互联网的流量还要大。
为了解决散热问题,NVL72采用了全液冷设计,使用45度的温水直接冷却,流量比上一代提升近一倍。这种高度集成的设计使得组装速度比上一代快了18倍。
从实际性能来看,Rubin平台的提升是巨大的。与Blackwell相比,Rubin将推理token的成本降到了十分之一。
在训练同样的MoE模型时,所需的GPU数量降至四分之一。这不仅意味着硬件成本的降低,更意味着网络功耗效率提升了5倍,大幅减少了能源消耗。
在实际推理性能测试中,英伟达使用了Kimi-K2-Thinking模型进行验证。
结果显示,在同等交互性下,每瓦吞吐量提升了10倍;在同等延迟下,每百万token的成本降到了十分之一。这些数据有力地证明了Rubin平台实际生产力的巨大飞跃。
英特尔埃米工艺与边缘智能的突围
英伟达主宰数据中心,英特尔则在CES 2026上发起了针对客户端和边缘计算的强势反击。
英特尔发布了代号为Panther Lake的第三代酷睿Ultra系列处理器,这是首款基于Intel 18A制程的计算平台。
Intel 18A标志着芯片制造进入了埃米时代,它是首个在美国开发和制造的2nm级节点工艺。该工艺通过RibbonFET全环绕栅极晶体管和PowerVia背面供电两大技术突破,将芯片的能效和密度推向了新的高度。
RibbonFET让架构师能够更精确地控制电流,而PowerVia则提升了电力传输和信号完整性。
相比Intel 3工艺,Intel 18A的每瓦性能提高了15%以上,晶体管密度提升了30%。
Panther Lake采用了先进的Foveros-S封装技术,由不同制程工艺生产的多种模块组成。
计算模块采用Intel 18A工艺,图形模块采用Intel 3或台积电N3E工艺,平台控制器模块采用台积电N6工艺,并通过基础模块和填充模块维持整体芯片的完整性。
这种异构设计让英特尔能够在同一封装内集成多种最佳工艺,从而实现性能与成本的平衡。
作为一款AI PC芯片,Panther Lake的端侧AI算力高达180 TOPS。其旗舰型号最高配备16个CPU核心、12个Xe核心和50 TOPS的NPU算力。
NPU 5采用了聚焦高能效的设计,面积比上一代更小,简化了后端功能,通过MAC阵列规模翻倍,把单位面积性能提升了40%以上,并原生支持E4M3和E5M2两种FP8数据格式。
在CPU架构上,英特尔为Intel 18A重新设计了核心。
通过引入带有独立缓存的低功耗能效核,即LP-E核,形成了一个低功耗岛。
绝大多数非性能型应用,如网页浏览和视频会议,都可以留存在这个低功耗岛里运行,不会溢出到高性能核心。
这种设计极大地延长了续航能力,联想基于该芯片的IdeaPad参考设计在Netflix流媒体播放测试中实现了最长27小时的续航,被英特尔称为x86续航之王。
在图形处理方面,Panther Lake集成了全新的Arc B390 GPU。
这款GPU拥有多50%的图形单元,缓存容量翻倍,并集成了96个XMX AI加速单元,提供120 TOPS的图形AI算力。
它是全球首款首发即支持AI多帧生成的集成显卡,每渲染1帧,就由AI生成3帧,从而实现4倍帧率。
在《战地6》等3A大作的实测中,Arc B390在开启多帧生成后,帧率可以扩展到120FPS以上,几乎是竞争对手AMD处理器的3倍。
除了PC领域,第三代酷睿Ultra还首次实现了边缘处理器与PC版本的同步发布。
它获得了针对嵌入式和工业边缘场景的测试与认证,被广泛应用于人形机器人、固定机械臂和自主移动机器人等领域。
在CES现场,英特尔展示了一台搭载第三代酷睿Ultra的人形机器人,证明了该芯片在关键任务边缘和物理AI场景中的适应性。
英特尔通过提供参考板和开发套件,不仅降低了开发门槛,也加速了具身智能技术的落地。
AMD全栈生态与海量显存的暴力美学
面对英伟达和英特尔的攻势,AMD在CES 2026上展示了其在数据中心和消费级市场的全线产品,试图用独特的策略突围。
AMD发布了下一代Helios平台,这是一个基于OCP开放式机架标准设计的双宽机架系统。
Helios的重量接近7000磅,相当于两辆小型汽车,其规模之大令人咋舌。该平台搭载了HBM4显存,单机架最多可容纳72块GPU,采用2nm和3nm工艺构建。
Helios的核心是AMD史上最先进的处理器MI455X GPU。
这款芯片集成了3200亿个晶体管,相比上一代MI355增加了70%。最引人注目的是其显存配置,MI455X配备了432GB的HBM4显存。
在显存容量上,AMD以432GB对288GB的优势超越了英伟达的Rubin。这种海量的显存对于大模型的推理至关重要,能够容纳更大的KV Cache,从而处理更长的上下文。
与MI455X搭配的是专为AI设计的2nm EPYC Venice Zen6 CPU。
这款CPU搭载了256个Zen 6核心,即使在机架规模下也能全速为GPU提供数据。
单台Helios机架式服务器配备超过18000个CDNA 5架构GPU运算单元与4600个Zen 6架构CPU核心,可提供高达2.9 ExaFLOPS的算力,并搭载31TB容量的HBM4。
这种配置让AMD在超大规模计算领域拥有了与英伟达正面对抗的资本。
在软件生态方面,AMD强调了其ROCm平台的进步,称其为业界性能最高的AI开放软件堆栈。
OpenAI联合创始人Greg Brockman的站台更是为AMD注入了强心剂。
OpenAI宣布将根据多年协议部署60亿瓦的AMD GPU,并计划于2026年下半年开始部署MI450系列。
Luma AI等公司也表示,其大部分工作负载可以在AMD平台上开箱即用,这表明AMD在打破CUDA生态壁垒方面取得了实质性进展。
在消费级市场,AMD发布了Ryzen AI 400系列处理器。
这款处理器依然采用Zen 5和RDNA 3.5架构,但支持更快的内存速度,NPU算力达到60 TOPS。
虽然在制程工艺上可能不及英特尔的18A激进,但AMD通过整合CPU、GPU和NPU的全套计算引擎,依然保持了强大的竞争力。
此外,AMD还推出了Ryzen AI Max+系列,搭载40核RDNA 3.5集成GPU,试图在移动工作站领域提供比肩DGX Spark的价值。
巨头交锋下的算力新格局
CES 2026上三家芯片巨头新品发布,展示了三种不同技术路线和商业哲学。
英伟达通过Rubin平台展示了垂直整合的极致,从芯片到交换机再到整个机架,英伟达将数据中心变成一个封闭但极其高效的计算单元。其3360亿晶体管的GPU和22TB/s的显存带宽,设立了当前AI算力的天花板。
英特尔则将赌注押在了制程工艺的复兴和边缘计算的普及上。Intel 18A工艺的量产证明了英特尔在制造领域的回归,而Panther Lake在能效和图形性能上的平衡,以及向机器人领域的跨界,显示了英特尔试图让AI走出数据中心,渗透到物理世界的野心。
AMD则选择了开放标准和暴力堆料。Helios平台基于OCP标准设计,试图团结更多生态伙伴。MI455X GPU在显存容量上的激进策略,精准打击了大模型推理对内存的渴望。与OpenAI的深度合作,也为AMD在软件生态上的短板提供了强有力的补给。
英伟达构建的是一座巍峨的封闭城堡,英特尔正在铺设通往每台设备的毛细血管,而AMD则试图在荒原上建立一个开放的巨型联邦。
AI计算的黄金时代已经随着这些硅基奇迹正式开启。