东莞市网站建设_网站建设公司_导航易用性_seo优化
2026/1/13 20:45:37 网站建设 项目流程

为了更好地了解英伟达基础KV缓存扩展基础设施——ICMSP(推理上下文内存存储平台),我们向英伟达询问了关于Vera Rubin Pod机架的问题,整理出ICMSP方案的初步概况。

上方图像截取自黄仁勋在2026年CES演讲中约1小时20分钟处,展示了Vera Rubin SuperPod。右侧两个机架(圆圈标记)在图形下半部分被放大显示。最右侧的机架是用于Pod间网络连接的网络交换机组。左侧的BlueField-4(BF4)机架包含ICMSP存储柜,安装在一对Spectrum-X以太网交换机下方。英伟达技术博客表示,ICMSP存储延迟敏感、可重复使用的推理上下文,并将其预置以提高GPU利用率。

需要注意的是,一个Vera Rubin计算托盘包含2个Vera CPU、4个Rubin GPU、4个ConnectX-9 Spectrum-X超级网卡(提供可预测的低延迟和高带宽RDMA连接),以及一个BlueField-4(BF4)DPU来处理存储和安全。该DPU同样包含ConnectX-9技术。

英伟达告诉我们,BF4机架在Spectrum-X交换机下方包含16个存储柜。每个存储柜包括4个BlueField-4,总共64个BF4。黄仁勋在演讲中表示,每个BlueField-4后面有150TB的上下文内存。总计为16×(4×150)= 9,600TB。

英伟达表示,一个Vera Rubin SuperPod中有16个NVL72 GPU机架,每个机架容纳72个Rubin GPU,总计1,152个Rubin GPU。英伟达告诉我们:"推理上下文内存存储基础设施可为每个GPU支持最多16TB。"

换句话说,该基础设施可以支持1,152×16 = 18,432TB的上下文内存。我们了解到:"存储基础设施的唯一目的是服务推理上下文内存。"它不做其他任何事情。

黄仁勋表示,单个ICMSP存储柜包含4个BF4,每个BF4后面有150TB的NVMe SSD容量。当客户购买Vera Rubin SuperPod时,谁提供存储柜?英伟达告诉我们:"Vera Rubin Pod的存储基础设施是由我们的存储合作伙伴基于英伟达参考设计进行设计、构建和交付的。"

ICMSP是G3.5层,在Pod内机架G3层和Pod外G4层之间架起桥梁。英伟达技术博客表示:"像英伟达Dynamo这样的推理框架使用其KV块管理器与英伟达推理传输库(NIXL)协同工作,编排推理上下文在内存和存储层之间的移动,使用ICMS作为KV缓存的上下文内存层。这些框架中的KV管理器预置KV块,在解码阶段之前将其从ICMS引入G2或G1内存。"

我们了解到:"当与运行KV I/O平面的英伟达BlueField-4处理器结合使用时,系统高效地终止NVMe-oF和对象/RDMA协议。"

英伟达博客表示:"在推理层,英伟达Dynamo和NIXL管理预填充、解码和KV缓存,同时协调对共享上下文的访问。在此基础上,使用英伟达Grove的拓扑感知编排层在机架间放置工作负载,具有KV局部性感知能力,使工作负载在节点间移动时仍能继续重用上下文。"

"在计算节点级别,KV分层跨越GPU HBM、主机内存、本地SSD、ICMS和网络存储,为编排器提供容量和延迟目标的连续体来放置上下文。将这一切连接在一起,Spectrum-X以太网将Rubin计算节点与BlueField-4 ICMS目标节点连接,提供持续低延迟和高效网络,将闪存支持的上下文内存集成到服务训练和推理的同一AI优化结构中。"

我们理解ICMSP存储柜是JBOF(Just a Bunch of Flash)。控制和管理它们的软件关注为在Vera Rubin SuperPod中一个或多个GPU上运行的AI工作负载提供KV缓存"记录"(即键值对)存储。这些使用GPU的高带宽内存(HBM)和CPU的DRAM在2层方案中保存上下文内存,这些数据将通过加载和存储指令访问,而不是存储语义。我们理解,需要某种专门的FTL(闪存转换层)软件/固件,将KV缓存内存寻址转换为ICMSP提供的3.5 KV缓存层中NVMe SSD基于存储的寻址。

英伟达博客表示:"英伟达DOCA框架引入了KV通信和存储层,将上下文缓存作为KV管理、共享和放置的一流资源,利用KV块和推理模式的独特属性。DOCA接口推理框架,BlueField-4高效地在底层闪存介质之间传输KV缓存。"

KV缓存专用存储柜需要做好一件事,即保存低延迟、高带宽缓存数据,这不涉及提供基于存储的数据服务,如快照、复制、数据缩减等。然而,许多存储供应商正在与英伟达在其ICMSP工作中合作:在黄仁勋的ICMSP演讲中展示了Cloudian、DDN、戴尔、HPE、日立Vantara、IBM、Nutanix、Pure Storage、VAST Data和WEKA的标志。

英伟达指出:"通过利用标准NVMe和NVMe-oF传输,包括NVMe KV扩展,ICMS在为KV缓存提供专门性能的同时,保持与标准存储基础设施的互操作性。"

他们的存储产品将连接到ICMSP存储柜,为其中的数据提供数据服务,如通过Pod外网络链路以较慢速度访问的KV缓存数据存储的进一步分层——上图中的G4层。英伟达技术博客表示:"随着大部分延迟敏感的临时KV缓存现在从G3.5层提供服务,持久的G4对象和文件存储可以为真正需要长期持久化的内容保留。这包括非活动多轮KV状态、查询历史、日志和多轮推理的其他工件,可能在后续会话中被调用。"

英伟达表示:"DOCA框架支持更广泛编排的开放接口,为存储合作伙伴提供灵活性,将其推理解决方案扩展到覆盖G3.5上下文层。"

我们注意到VAST Data已将其软件移植到BlueField-3处理器,其Ceres数据存储柜具有BF3硬件控制器。毫无疑问,我们将看到Ceres的BF4版本。

我们是否会看到上述其他存储供应商中的部分或全部将其存储软件移植到BF4?这是一个有趣的问题——我们还没有答案。

附注

我们认为ICMSP存储柜中使用的SSD出于速度考虑很可能是PCIe Gen 5。

可以在此处阅读关于英伟达ICMSP的信息丰富的博客。它指出英伟达的Dynamo软件提供KV块管理。这包括:"原生支持从GPU内存中驱逐KV缓存,将其卸载到CPU内存或外部存储,并稍后检索。"博客作者补充道:"其中一个关键部分是名为NIXL的新异步传输库,它允许KV缓存移动到内存层次结构中的任何位置——HBM、Grace或Vera CPU内存,或完全离架存储——而不中断正在进行的GPU计算。"

英伟达KV缓存分层方案中的G3层是Hammerspace所称的零层。

Q&A

Q1:ICMSP是什么?它的主要功能是什么?

A:ICMSP是英伟达的推理上下文内存存储平台,它是一个G3.5层,存储延迟敏感、可重复使用的推理上下文,并将其预置以提高GPU利用率。它的唯一目的是服务推理上下文内存,为AI工作负载提供KV缓存存储。

Q2:Vera Rubin SuperPod的存储容量有多大?

A:一个Vera Rubin SuperPod包含1,152个Rubin GPU,ICMSP基础设施可为每个GPU支持最多16TB,总计可支持18,432TB的上下文内存。单个BF4机架包含9,600TB的存储容量。

Q3:英伟达如何管理KV缓存在不同存储层之间的移动?

A:英伟达使用Dynamo推理框架和NIXL异步传输库来管理KV缓存。这些工具可以让KV缓存在内存层次结构中移动——从GPU HBM到CPU内存再到外部存储,而不中断正在进行的GPU计算。


需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询