黑河市网站建设_网站建设公司_H5网站_seo优化
2025/12/25 0:36:29 网站建设 项目流程

华瑞指数云企业

该企业由华瑞指数云投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项评选。


大数据产业创新服务媒体

——聚焦数据 · 改变商业


客户是中国电子旗下企业,是一家领先的智算服务和AI Infra解决方案提供商,面向各行业提供AI算力与模型推理解决方案和推理算力服务。2025年,客户开始在自有数据中心构建AI推理集群,对其行业客户提供AI推理服务,为其行业客户提供一个开发、测试、验证AI大模型和Agentic应用的实验平台。首批已经购买并上线部署的AI算力服务器包括:3台配置了AMD MI200 GPU的推理服务器,每台推理服务器配置4张MI 200 GPU,一共12张MI200 GPU,3台配置了英伟达H20 GPU的推理服务器,每台推理服务器配置8张H20GPU,一共24张H20 GPU。后续还规划购买和上线国产GPU卡。

以KV Cache为中心优化和加速AI推理系统的性能是当下全球AI Infra领域的热点课题。华瑞指数云面向AI推理场景,原生设计和实现了分布式的KV Cache Storage,命名为WQS (WiDE Query Storage)。该客户选择与华瑞指数云进行深度合作,基于AI原生的分布式KV Cache方案,构建全局共享的分布式KV Cache集群,与AI推理集群配套工作,实现分布式AI推理系统的总体性能的大幅提升,为客户提供更加高效的AI推理服务,同时也降低了推理算力的投入成本。

时间周期:

项目开始时间:

2025年8月15日

中间重要时间节点:

2025年10月15日完成AMD卡推理集群与分布式KV Cache存储的对接并上线运行

项目完结时间:

2026年12月15日完成英伟达卡推理集群与分布式KV Cache存储的对接并上线运行

AI Infra应用需求

客户迫切需要一套能在极致性能、超大容量、灵活扩展性以及可控成本之间取得最优平衡的高性能AI Infra解决方案,为其AI推理业务的持续创新和规模化发展提供强大而可靠的基础底座。需求呈现出以下关键特征:

1.推理性能要求:模型推理的响应速度至关重要,毫秒级甚至亚毫秒级的延迟都会直接导致最终用户的观感和体验流畅度,挑战着系统的处理上限。

2.海量上下文数据处理瓶颈:支撑高质量内容生成和理解通常需要处理超长上下文(如128K tokens或更长)。这导致模型推理过程中KVCache数据量极其庞大,读写操作异常频繁。传统GPU架构依赖的高带宽内存(HBM)容量有限且成本高昂,成为制约模型规模、会话长度和并发能力的关键瓶颈。

3.高并发与高吞吐压力:随着AI驱动的应用走向规模化、常态化,推理任务并发数量激增,这不仅要求极高的计算吞吐量(TFLOPS),更对系统并行处理时延和内存/存储带宽提出了空前的要求,以确保海量模型参数和数据能够被快速调度和访问,避免因数据供给不足导致的算力闲置。

4.容量与成本的矛盾:单纯依赖高性能GPU搭配HBM的方案,虽然能提供强大的单卡算力,但其显存容量有限且单位成本极高。面对需要支撑多用户长会话、大模型多实例部署、以及历史素材库快速检索调用的业务需求,纯GPU方案在容量扩展性和总体拥有成本(TCO)上均难以承受,亟需更优的性价比方案。

5.复杂模型与异构负载支持:多种模态(文本、语音、图像、视频)融合处理的需求,以及生成式模型与判别式模型的混合部署等需要基础设施具备灵活性,能够高效支持不同的GPU卡,不同的模型架构和计算特性(计算密集型、访存密集型)的任务,避免资源浪费。

面临挑战

KV Cache是大模型在自回归推理场景下不可或缺的加速技术,是全球在AI Infra领域的热门课题。本项目主要围绕着KV Cache来实现AI推理集群的性能优化和成本优化。理论上基于KV Cache加速能带来了显著的性能收益和算力成本节省收益,但在工程上实现KV Cache需要解决一系列不容忽视的挑战,尤其是在部署百亿甚至千亿参数级别的大模型时:

1.巨大的显存占用:由于模型执行推理任务是一个长期持续的过程,执行推理任务几分钟就有可能产生数百GB的数据量,远远不是GPU的显存可以存储下来,因而使用显存只能保存最近产生的,最热的KV向量,大量的KV向量值被迫丢弃,依然导致大量的重复计算

2.KV Cache只存放在GPU卡的显存内,无法做到全局共享,许多跨卡,跨节点,跨Session的推理请求的许多重复Token无法做到KV Cache共享,被迫重复计算

3.构建层级化KV Cache存储是当下的一个主要解决思路:构建一个由“GPU显存->CPU内存->NVMe SSD存储”组成的虚拟化、一体化的KVCache池,它可以在很大程度上解决显存容量不够的问题,也能实现KV Cache的全局共享,但是其性能挑战和工程挑战是很大的,NVMe SSD的I/O速度远慢于内存和显存,延迟更高,如果分布式的KV Cache存储池的存储带宽不是足够高,并发访问时延不是足够低,通过网络访问KV Cache(尤其是长序列)的延迟和带宽消耗可能抵消甚至超过重复计算的开销,这要求面向KV Cache的高并发、高带宽、低时延的随机读写需求,精心设计分布式的KV Cache Storage。此外,还需要与主流推理框架进行兼容性匹配和联合调优,需要更加精心设计KV Cache在不同速度的存储层次上的调度策略以及流水线并行和预取技术。

战略目标

1.通过建设分布式KV Cache存储集群实现AI Infra推理性能的大幅度优化, 实现生产场景下的KV Cache缓存命中率的大幅度提升,要求综合的缓存命中率达到50%以上,部分场景(比如多轮连续对话)的缓存命中率达到80%以上

2.实现AI Infra推理集群性能的大幅度优化,高并发请求下TTFT<500ms,Token吞吐量相比未建设分布式KV Cache存储集群之前,提升2到3倍

3.实现基于统一的AI推理框架,管理多种GPU卡组成的AI推理集群,对接分布式KV Cache存储集群,所有的GPU卡都可以把KV Cache卸载写入到分布式KV Cache集群,实现全局的KV Cache共享

4.实现AI Infra算力成本的节省,在达到满足同等性能指标的前提下,推理卡的算力需求减少60%,实现总体AI Infra建设成本节省50%。

5.形成AI Infra的总体组网设计,推理算力+分布式KV Cache容量协同规划,工程部署,推理框架选型与部署等最佳实践。

6.形成AI Infra推理基础设施的标准化示范性生产部署实践,围绕分布式KV Cache带来的推理加速效果,形成“高性能、低成本、可持续、可复制”的 AI Infra建设方案。

实施与部署过程

1.核心产品与部署架构

·硬件配置

推理节点3台(一期)

单节点配置:

AMD MI200 GPU,4U,4卡,包含2张南北向100Gbps*2 RoCE网卡用于访问外置KV Cache分布式存储

推理节点3台(二期)

单节点配置:

NVIDIA H20 GPU,8U,8卡NVLink,包含2张南北向100Gbps*2 RoCE网卡用于访问外置KV Cache分布式存储

KV Cache分布式存储服务器3台

32C,512GB内存,12*3.5TB NVMe SSD,2张200Gbps*2RoCE网卡

分布式KVCache存储软件

华瑞指数云AI原生KVCache Storage WQS,运行于3台分布式存储服务器内,组成了一个3节点的分布式KV Storage集群

推理框架

vLLM+LMCache+Mooncake,运行于推理节点上

模型

DeepSeek-R1-0528

·核心产品

华瑞指数云原创自研实现的AI原生的分布式KV Storage,命名为WQS (WiDE Query Storage),是华瑞指数云AI原生数据平台WADP的子产品和重要模块,但是WQS也是可以独立部署和使用的。WQS的目标是针对AI推理场景向大规模的外部存储池进行KV读写的核心需求,不再依赖于文件系统的硬盘空间管理,目录树元数据,文件协议栈等对于KV Cache来说冗余无用的体系,通过原生设计的KV接口和KV Storage存储,实现极简和可以高度并行的IO路径,适应KV Cache面对不同IO Size的并发随机读写需求,并且达到带宽的最大化和最低的时延。其关键特性包括:

原生KV Storage实现

•GPU HBM显存内部的KV Block的形态与外置KV Storage存储池上的KV Block的形态完全一致,均可以通过统一的Block ID实现快速定位和读写。通过统一的Block ID与RDMA网络,外部SSD池在逻辑上成为GPU HBM的透明扩展空间,实现跨存储层的KV数据无缝迁移和读写

•原生KV接口+Distributed KV Storage引擎直接管理分布式的可以无限扩容的外置SSD存储空间,不需要把KV Block封装成文件,再走文件协议栈写入到分布式文件系统中去,极大提升随机访问KV的存储带宽,大幅降低时延

完备的兼容性及协同优化

•兼容现在主流推理框架(vLLM,SGLang等)以及这些推理框架支持的GPU卡和大模型

•推理系统的用户不需要对业务端做任何改变就可以获得KV Cache Storage带来的推理加速效果

•与推理框架协同,支持KV Cache流水线处理,可以把从KV Cache Storage加载KV的时间大部分隐藏于的新Token的KV计算的过程中

分布式并行扩展

•高并发读写,支持千卡规模的推理集群对统一的KV Cache Storage集群进行并发读写,实现全局KV共享

•空间无限扩展,性能线性扩展:可以通过加入更多的物理服务器节点来实现KV Cache Storage空间的无限扩展,性能同步线速扩展

超级性能

•外置分布式KV Cache存储池上的高并发读写时延<200us,流水线加载时KV Cache加载时间<10us

•在中小IO(64K IO size)随机读写场景依然可以提供逼近物理网络带宽上限的线速存储带宽

·部署架构

2.测试验证

·测试用例一:随机生成提示词

•使用vLLM提供的bench命令来进行压测

•使用随机生成的数据集,可以指定输入长度。在测试过程中,分别指定上下文长度为100,1k,10k,50k,100k,以模拟不同的业务场景下的不同的上下文长度

•使用随机生成的数据集,但在多轮测试中使用相同的随机种子,保证每轮请求的prompt相同,以验证KV Cache命中效果。意味着从测试的第二轮对话开始,理论上应该100%命中KV Cache。在真实多轮对话业务场景中,根据一些业界的论文和实践数据,可以Cache下来的KV向量约在50%~90%之间,也就是说有50%~90%的Token可以命中KV Cache(如果历史Token的KV向量都很好的保存下来了并且可以检索到的话),节省50%~90%的重复运算,大幅度减少算力浪费。

一些主要的配置参数如下:

vLLM 通用参数:TP=8,关闭前缀缓存,以减少vLLM内存Cache对测试的干扰

使用LMCacheConnectorV1(--tensor-parallel-size8--no-enable-prefix-caching--disable-log-requests-kv-transfer-config '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}')

LMCache:chunk_size=256,max_local_cpu_size=100.0

--max-concurrency 16

--random-input-len 100, 1k, 10k, 50k, 100k

--random-output-len 1

--num-prompts 50

--seed $SEED

Mooncake配置8G内存,给Mooncake配置很小的内存,主要也是为了尽量排除Mooncake内存Cache的干扰,更好的验证分布式KV Cache Storage的加速效果。

·测试用例二:SharedGPT测试集

ShareGPT数据集是一个高质量的中英文双语人机问答数据集,覆盖了真实复杂场景下的用户提问。该数据集常用于训练高质量的对话模型,比那些通过反复调用API接口生成机器模拟问答的数据在指令分布上更为健壮。

数据集特点

双语对照:提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。

真实数据:所有问题均非人为臆想加上API轮询拟造的假数据,更加符合真实用户场景的指令分布和提问表达。

自然过滤:数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤,通过人类感觉筛除了大部分体验不好的对话。

正因为SharedGPT数据集的以上特征,我们可以用其来模拟真实的多轮对话人机问答的场景,验证在该场景下能够在全局KV Cache池上命中的概率以及由此带来的对整体AI推理系统的性能提升。

·测试单节点Prefill场景的KVCache加速效果

在单个推理服务器上部署Prefill节点,只测试Prefill的流程,即只测试到模型输出第1个token为止。

TTFT(首Token响应时长)是本次测试关注的主要指标。测试结果表明:当输入序列的长度在1000个token时,使用WQS KV Cache Storage做推理加速,能够把TTFT降到300ms左右,不使用KV Cache时的TTFT是1300ms,TTFT下降为原来的约1/4;当输入序列的长度在100k时,使用WQS KV Cache Storage做推理加速,TTFT在16s左右,而不使用KV Cache时的TTFT是323s左右,WQS KV Cache把TTFT降低为原来的约1/20。

输入序列(上下文长度)越长,并发量越大(batch size越大),外置的KV Cache Storage带来的加速效率越明显,因为输入序列的长度和推理请求并发量越大,推理系统产生的KV向量值越多,远远超过GPU显存和主机内存能够存储的容量,这时外置的超大容量空间的KV Cache Storage就更能发挥其价值。同时,外置的KV Cache Storage能够实现KV向量的持久化存储和全局共享,有助于AI推理系统支持更长的上下文,简化AI推理任务的调度,大幅提升KV Cache的命中率。

Total token throughput(总体的token吞吐量)是指AI推理系统每秒能够处理和产生的Token数,token的吞吐量实际上是与Token的响应时延成反比的。随着首Token的响应时长TTFT的降低,系统的Token吞吐量会上升。

测试结果表明,当输入序列长度为1000时,WQS把推理系统的Token吞吐量由11102提升到了40000多,提升4倍;当输入序列长度为100k时,WQS把推理系统的Token吞吐量由4194提升到了近90000,提升20多倍。

AI推理系统本质上就是一个Token的计算和生产工厂,其生产率和经济效益本质就是由Token吞吐量来衡量的。因此,当采用WQS KV Cache Storage能够大幅度提升Token吞吐量时,就是大幅度提升了AI推理系统的产量,可以获得非常直观的经济效益提升!

·测试多机多卡并行推理(PD不分离)场景的KVCache加速效果

在3台推理服务器上同时混合部署推理任务,采用多机多卡并行策略(TP=12), 测试推理任务的全流程。

测试结果表明,当输入序列的长度在1000个token时,使用WQS KV Cache Storage做推理加速,能够把TTFT降到250ms左右,不使用KV Cache时的TTFT是870ms,TTFT下降为原来的约1/3.5;当输入序列的长度在100k时,使用WQS KV Cache Storage做推理加速,TTFT在14s左右,而不使用KV Cache时的TTFT是213s左右,WQS KV Cache把TTFT降低为原来的约1/15。

ITL(Inter-Token Latency)是指Decode阶段连续两个输出Token之间的间隔时间。当输入序列长度在1000个token时,使用WQS KV Cache Storage做推理加速,能够把ITL降到34ms左右,不使用KV Cache时的ITL是65ms,ITL下降为原来的约1/2;当输入序列的长度在100k时,使用WQS KV Cache Storage做推理加速,能够把ITL降到300ms左右,不使用KV Cache时的ITL是3550ms,ITL下降为原来的约1/12。

当输入序列长度为1000时,使用WQS KV Cache Storage做推理加速,推理系统的Token吞吐量提升约2倍;当输入序列长度为100k时,使用WQS KV Cache Storage做推理加速,WQS把推理系统的Token吞吐量提升约12倍。

·测试多机多卡并行推理且PD分离场景的KVCache加速效果

在传统LLM推理系统中,Prefill和Decode阶段通常在混合在同一推理节点上顺序执行。Prefill阶段负责处理所有输入token,生成初始的KV缓存(Key-Value Cache)和第一个输出token;而Decode阶段则基于这些KV缓存,通过自回归方式逐步生成后续token。这种传统架构虽然简单直接,但存在明显的性能瓶颈:Prefill阶段是计算密集型操作,需要大量并行计算能力;而Decode阶段则是IO密集型操作,更依赖高带宽内存访问和访问KV Cache。当这两个阶段共享同一计算资源时,它们的资源需求特性会相互干扰,导致整体效率低下。

PD分离技术的核心思想是将Prefill和Decode这两个阶段解耦,并将它们分配到不同类型的计算设备上执行。具体来说,Prefill阶段被分配到专门的高算力GPU上执行,以充分利用其并行计算能力;而Decode阶段则被分配到具有大显存,高内存带宽和高网络带宽的GPU节点上执行,以满足其IO访问需求。两个阶段之间通过高速网络(如NVLink或RDMA)传输中间状态(主要是KV缓存)。

本次测试使用2P+1D的分离部署方案,即在2台推理服务器上同时部署Prefill节点,在1台推理服务器上部署Decode节点,按PD分离的方式进行并行分布式推理。

Prefill节点产生的KV Cache写入WQS KV Cache Storage,Decode节点从WQS KV Cache Storage读取Prefill节点的KV Cache数据。也就是说Prefill节点与Decode节点之间的KV Cache传输,不是走P2P transfer的方式,而是通过WQS KV Cache Storage的全局共享能力来完成。

测试结果表明,采用2P+1D的PD分离方案,同时采用”WQS KV Cache Storage作为全局共享的分布式KV Cache层完成KV Cache的全局共享”,与”PD不分离混合部署+WQS KV Cache Storage作为全局共享的分布式KV Cache层“的方式相比,可以进一步降低推理系统的TTFT,ITL的时延,提升推理系统的Token吞吐量,总体的性能提升效果约在20%左右。理论上分析,这个还不是最佳效果,因为本次测试的Prefill节点和Decode节点采用了相同的配置,并没有按照Prefill节点是算力密集型,Decode是IO密集型的不同特征来设计GPU卡和硬件配置。这个在后续的工作中可以进一步优化。

3.实现效果

经过测试验证之后,最后系统的第一期采用2个Prefill节点+1个Decode节点的方式进行部署,对接了客户的智能问答助手和AI编程等场景,实现了方案的生产落地。

该方案落地后,在性能、成本、容量、兼容性等维度达成预期目标:

·性能突破:比实施分布式KV Cache方案之前,TTFT, ITL等主要时延指标下降为原来的1/3~1/8,Token吞吐量提升3到8倍

·Token在分布式KV Cache上的缓存命中率达到60%左右,后续通过对分布式KV Cache集群进行容量扩容将能够保存下来更多的重复Token的KV向量,通过提示词工程和上下文工程的优化可以进一步提升重复前缀命中的概率,KV Cache的缓存命中率还可以持续提升。

·成本优化:可以实现约60%的推理GPU卡成本节省,大幅降低AI Infra的硬件投入门槛。

·容量释放:提供近似无限(可以持续扩容且成本低)的可持久化memory空间,为KVCache及Context数据提供充足存储“容器”,彻底摆脱存储容量对大模型业务的制约。单集群可稳定支撑超PB级KV Cache及Context数据存储;不仅满足现有大模型多会话、长时推理等需求,还为未来超万亿参数级大模型部署预留了充足空间,业务拓展性大幅增强。

·兼容灵活:与vLLM、Mooncake、Dynamo等主流推理框架无缝兼容,可灵活适配不同大模型推理场景的技术需求,全面释放大模型训练推理的效率潜力。

生态伙伴合作

大普微电子,本案例里面的分布式KV Cache集群,采用了大普微电子自研的高性能NVMe SSD,能够在高并发随机访问的压力中,始终稳定的提供高性能的IOPS和稳定的低时延。大普微提供的SLC SSD和QLC SSD,配合华瑞指数云的分布式KV Cache存储软件,可以组合实现NVMe SSD的分层分级,达到性能和成本的双优。

合作服务效果

1.实现了AI Infra推理服务集群在时延,token吞吐量,缓存容量,缓存命中率,并发性能,算力成本等多个维度的大幅度优化,最终表现为AI推理系统处理和生成token的成本的大幅下降,推理服务使用者的体验提升。

2.通过本项目的实践,客户在AI Infra的建设方案方面,从简单的堆积算力进行建设和粗放式运营进化到了更加关注AI Infra的系统级设计和端到端优化,实现算力+网络+存力的协同设计,并以为基础,实现AI Infra的效率和成本的大幅度优化。

3.形成了围绕分布式KV Cache进行AI Infra推理基础设施建设的设计方案和最佳实践,为客户进一步扩展其AI推理服务,为其服务的行业企业建设AI Infra提供了宝贵的实践成果和可复制的总体方案。

关于企业

·华瑞指数云

华瑞指数云(ExponTech)成立于2020年,是一家致力于以面向未来的Universal Storage架构,为企业客户构建新一代AI数据基础设施的高科技企业。原创自研的AI原生数据平台产品旨在帮助企业和组织建设“以数据为中心”的AI基础设施,实现企业核心业务数据与AI数据的融合存储和智能应用。Universal Storage架构的软件产品,2023年在面向企业核心业务场景的SPC-1全球存储系统性能榜上创造了世界纪录,2025年在国际权威AI Storage性能基准测评MLPerf Storage中斩获多项世界第一。产品商用发布以来,已在金融、运营商、医疗等许多行业获得一批头部客户,在生产环境上承载企业的关键业务并且平稳运行。

点击文末“阅读原文”链接还可查看华瑞指数云官网


以上由华瑞指数云投递申报的企业,最终将会角逐由金猿组委会×数据猿×上海大数据联盟联合推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项

该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据产业发展论坛——暨AI Infra & Data Agent趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询