Signal65发布了一篇报告:从密集(Dense)模型向混合专家(Mixture of Experts,简称MoE)模型的代际跨越,正在彻底改写AI推理的经济学规则。
Signal65 是一家独立的科技性能分析与验证公司。为科技厂商提供第三方性能测量、基准测试、可用性分析和实验室验证服务,覆盖数据中心、AI、高性能计算(HPC)、客户端设备(PC、智能手机、GPU/CPU 等)领域。
被誉为在技术市场噪音中过滤出创新信号的可靠第三方声音。他们经常发布AI硬件(如NVIDIA vs AMD GPU)性能报告,在业内有较高影响力。
当推理算力成为AI时代的石油,如何以最低成本开采出最高质量的智能,是摆在每一家科技巨头面前的头号难题。
当AI推理的成本逻辑被混合专家模型彻底改写,算力的游戏规则也随之发生了根本性的动摇。
人工智能正在从密集模型向混合专家模型以及重推理工作负载的代际迁移。
Artificial Analysis排行榜排名前十的智能开源模型如今清一色都是MoE推理模型,这种架构上的集体转向正在重塑推理经济学,同时也极大提高了基础设施选择的赌注,决定了不同AI服务在商业上的生死存亡。
推理经济学的核心驱动力在于前沿模型的运作方式。
为了解锁更高阶的智能,模型需要深度的思维链条,生成海量的Token。
要让这种推理在规模化应用中具备可行性,必须在极低的延迟和成本下交付这些Token,MoE通过针对每个Token仅激活相关的专家网络,在不按比例增加计算成本的前提下,提供了前沿级的智能表现。
这种架构面临的首要约束是通信瓶颈。
当专家网络分布在多个GPU上时,GPU之间的数据传输延迟会导致计算单元闲置,这种等待数据的空转时间就是被浪费的算力,直接推高了服务提供商的底线成本。
在密集架构和小规模MoE模型上,英伟达B200的表现优于AMD MI355X配置。
当扩展到像DeepSeek-R1这样的前沿级模型时,所有基于单节点8卡GPU的系统,无论是英伟达还是AMD,都撞上了由于通信瓶颈导致的扩展天花板。
英伟达GB200 NVL72架构似乎有效地解决了这一扩展限制。
同样的DeepSeek-R1公开性能数据显示,GB200 NVL72的性能达到了竞争对手MI355X平台的28倍。
这种性能优势如何转化为每个Token的成本优势是一个关键问题。
研究发现,对于高交互性的推理工作负载,NVL72交付性能的每个Token成本低至其他基础设施选项的十五分之一。
虽然GB200 NVL72的单GPU每小时价格几乎是这些竞争平台的两倍,但其机架级能力,从NVLink互连架构到跨越72个GPU的软件编排,驱动了这种卓越的单位经济性,价值的衡量标准已经从原始的浮点运算能力(FLOPs)转移到了每美元购买的总智能量。
结论非常直接,随着MoE模型和推理复杂度的上升,行业不能再仅仅依赖芯片级别的性能,能够创造系统级峰值性能的端到端平台设计,已成为实现高性价比、高响应速度AI的首要杠杆。
混合专家模型主导推理算力新格局
AI基础设施技术的演进速度极快,模型架构、服务堆栈和用户体验预期的变化,早已超过了传统数据中心的更新周期。
这一现实要求我们采用一种新的基础设施评估方法,这种方法更强调频繁的、可比较的测量,而不是静态的参数评估。
虽然总拥有成本(TCO)和投资回报率(ROI)依然是基础设施决策的核心,但只有当它们与生产工作负载下的可衡量平台优势相结合时,才有实际意义。
市场营销的宣称和理论上的峰值性能规格往往只讲述了一个有趣但不完整的故事,只有在并发、多变的输入输出模式下的真实推理服务,才能揭示每个平台的性能真相。
当客户评估AI基础设施经济性时,对话通常围绕三个维度展开。
这三个维度分别是性能,即吞吐量和交互性;能源效率,即给定功率预算下生成的Token数;以及总拥有成本,通常表示为每百万Token的成本。
这三个因素,结合前期投资成本或月度服务成本,共同决定了任何AI服务能否在规模化运营中实现盈利。
分析中,采用第三方基准测试推导出的性能测量值来估算相对Token经济性,而不是依赖供应商的性能宣称。
分析方法遵循一个关键的简化原则,即相对每Token成本由相对平台成本除以给定交互性目标下的相对Token产出决定。
通过保持定价假设的透明并与性能测量分离,读者可以根据自己的具体条款和部署场景调整输入。
用户每百万Token成本的计算公式为:用户GPU每小时成本除以3600秒,再除以特定交互性下的单GPU每秒吞吐量,最后乘以100万。
分析使用来自InferenceMAX平台的公开基准数据,确保了对话的开放性和可验证性。
从这些数据扫描中提取了一组每个平台的观察结果,然后专注于最具决策相关性的数据点子集,而不是罗列所有数据。
关注的是每个硬件平台的最佳配置和峰值性能,这意味着对于单节点英伟达实现使用TensorRT-LLM,对于AMD GPU使用vLLM。
对于DeepSeek-R1,软件栈转换为英伟达的Dynamo-TensorRT LLM结果和AMD的SGLang。
在英伟达HGX B200配合TensorRT-LLM与AMD MI355X配合vLLM的平台上观察性能,帕累托曲线显示英伟达解决方案在单GPU吞吐量和交互性的整个扫描范围内具有一致的性能优势。
具体看基线交互性,B200的性能比MI355X高出约1.8倍,为交互式部署和更广泛的单GPU并发提供了显著的余量。
在110Token/秒/用户时,优势变得更加明显:B200的吞吐量是MI355X的6倍以上。
这种差异完全改变了产品设计选项,使得更灵敏的用户体验、更快的代理循环和更高的溢价层密度成为可能,这些能力可以直接影响服务经济性和竞争定位。
在Llama 3.3 70B密集模型测试中,我们看到AMD MI355X可以提供有竞争力的每美元性能,但这并不代表对更现代推理堆栈的测试,特别是那些围绕MoE架构和重推理工作负载构建的堆栈。
AI模型传统上通过增加模型中的参数数量来扩展智能。
传统的密集模型架构要求每个Token都激活模型中的每一个参数,这意味着随着模型继续变大,运行速度变慢,成本更高,所需的内存也相应增加。
混合专家(MoE)模型架构与密集模型架构的不同之处在于,模型的参数被细分为许多专门的子网络,称为专家。
MoE模型包含一个轻量级的路由器,根据每个Token决定激活哪些专家组,从而在给定的智能水平下显著降低每个Token的计算成本。
许多最杰出的MoE模型也是推理模型,它们在推理过程中应用额外的计算来提高准确性。
它们不是立即发出答案,而是在生成用户可见的输出之前生成中间推理Token,有效地先思考请求和解决方案。
这些推理Token的数量通常大大超过最终响应,并且可能根本不向用户展示。
虽然它们可以提供关于模型如何得出结论和行动的有趣见解,但结果是每个请求的总Token生成量上升,这意味着既快速又经济地生成Token的能力对于推理部署至关重要。
根据OpenRouter最近的一份报告,超过50%的Token是通过推理模型路由的。
前沿模型对MoE架构和推理的大规模采用在Artificial Analysis排行榜上也显而易见,其中最智能的开放权重模型,包括DeepSeek、Kimi K2 Thinking和GPT-OSS-120B,都是推理MoE。
服务MoE模型引入了密集模型所没有的复杂性。
性能变得对路由效率、专家间的负载平衡以及调度决策更加敏感,尤其是在并发负载下。
随着推理变得普遍,性能越来越依赖于机架规模下的持续交互性,而不是单节点的峰值吞吐量。
MoE也让代币经济学和TCO考量变得更加显性。
路由、调度和通信开销可能会在并发下大幅降低实际吞吐量。
经济故事依然聚焦于定义的用户体验目标下的单GPU持续每秒Token数,但现在,性能在单个8-GPU节点之外的扩展能力变得更加关键。
2025年10月下旬和12月初的测量结果显示,随着英伟达和AMD软件堆栈的改进,结论也在变化。
平台性能不是静态的,软件优化可以提升GPU性能。相对差距仍可能改变,尤其是在更高的交互性目标下。
在10月下旬的测量中,在100Token/秒/用户的阈值下,英伟达B200比MI355X快约1.4倍,这是一个有意义但不算巨大的优势。
然而在250Token/秒/用户时,差距大幅增长至约3.5倍,表明更高的交互性目标如何放大平台差异。
12月初的数据讲述了一个不同的故事。
得益于软件优化,两个平台的绝对性能都显著提高,英伟达的单GPU峰值吞吐量从约7000Token/秒跃升至超过14000,而AMD从约6000提高到约8500Token/秒。
相对差距也发生了变化。
在100Token/秒/用户的交互性下,B200现在的性能是MI355X的近3倍,高于10月InferenceMAX数据中的1.4倍。
在250Token/秒/用户,这个更能代表推理模型需求的水平上,B200的优势增加到6.6倍。
结论很清楚:当推向快速推理交互性目标时,MoE的差异变得更大。
如果这些差距出现在中等MoE模型中,那么像DeepSeek-R1这样更大的推理MoE架构会发生什么?
通信瓶颈决定前沿模型扩展上限
DeepSeek-R1代表了对基础设施增压的三个趋势的交汇点:MoE路由、大参数规模(总参数6710亿,激活370亿)以及苛刻的推理式生成要求。
这类模型的现实服务挑战很快显现出来:更高的并发目标、更长的输出、更重的键值(KV)缓存压力,以及对调度和通信效率更敏感。
前沿模型路线图越来越优先考虑推理、测试时计算(Test-time Compute)以及稀疏或模块化架构,所有这些因素都放大了对平台级规模和复杂服务软件编排的需求。
非常大的推理MoE模型超出了8-GPU张量并行配置可以有效解决的范围。
在那一点上,专家并行以及最近的广泛专家并行成为必要的扩展机制,因为专家和路由决策必须分布在许多GPU上以维持吞吐量和交互性。
即使单个节点在密集或中等MoE工作负载上表现良好,像DeepSeek-R1这样的模型可以使用更多资源。
通信和编排成为一阶性能约束,这些模型对次优的路由、KV缓存处理和GPU利用率缺口不太宽容。
结果是良好的单节点性能与良好的多节点扩展性能之间的差距不断扩大。
这就是机架级架构不再是可有可无,而成为必须。
英伟达GB200 NVL72给扩展天花板带来了变革。
通过在单个NVLink域中连接72个GPU,该系统在软件层面本质上作为一个机架级的巨大GPU运行。
对于MoE模型,分布在数十个GPU上的专家可以以全对全(All-to-All)的通信模式执行,这正是这些架构高效服务所需要的。
InferenceMAX测试中使用的英伟达Dynamo,例证了服务软件如何成为平台故事不可或缺的一部分。
Dynamo专为具有高吞吐量和低延迟的多节点推理而设计,实现了分离的预填充和解码阶段、动态调度和KV缓存路由。
这种系统加软件的集成是将原始GPU能力转化为可扩展推理吞吐量的关键。
将当前一代平台与前一代替代品进行比较,比单纯的同代头对头分析更清楚地突显了平台ROI。
分析比较了新的现代平台(GB200, B200, MI355X)运行FP4量化的DeepSeek-R1,与前一代平台(H200, MI325X)运行FP8版本。
GB200 NVL72使得超过8个GPU的张量并行配置能够实现帕累托前沿性能,达到单节点平台根本无法匹配的性能水平。
在25Token/秒/用户的交互性下,GB200 NVL72提供了最新H200结果约10倍的单GPU性能,以及MI325X平台16倍以上的单GPU性能。
这些是为AI服务提供商创造巨大TCO改进的性能差异类型。
在60Token/秒/用户的更高交互性目标下,GB200 NVL72交付了超过H200 24倍的代际提升,以及接近AMD MI355X 11.5倍的性能。
在25Token/秒/用户的交互性下,GB200 NVL72交付了约2倍于B200的单GPU性能,以及5.9倍于MI355X的单GPU性能。
在60Token/秒/用户时,这些优势扩大到对单节点B200的5.3倍,以及对MI355X的11.5倍。
虽然H200和MI325X平台在现有数据中无法达到75Token/秒/用户的标记,但GB200 NVL72证明比B200配置快6.5倍,比MI355X平台快28倍,同样是在单GPU基础上。
最重要的是,GB200 NVL72实现了竞争平台今天无论任何吞吐量都无法达到的交互性水平。
该系统可以在28-GPU配置中交付超过275Token/秒/用户的单GPU性能,而MI355X在可比吞吐量水平下的峰值为75Token/秒/用户单GPU。
机架级架构彻底改变代币成本逻辑
在从Hopper一代过渡到GB200 NVL72的Blackwell一代过程中,英伟达不仅增加了每个GPU的计算、内存带宽和NVLink互连带宽,还重新设计了系统的底层架构。
通过从8-GPU风冷HGX服务器转向具有72个GPU连接在单个域中的全液冷机架级系统。
CoreWeave公布的标价,在单GPU基础上,GB200 NVL72比H200贵约1.7倍。
每一代新术的目标都是降低每个Token的成本。
对于推理而言,交付的Token吞吐量增加要超过底层基础设施成本的增加。
在25Token/秒/用户时,GB200 NVL72交付了约10倍于H200的单GPU性能。
在更高交互性点上,增量变得更大(24倍)。
下表总结了成本归一化和产生的每美元性能计算:
更昂贵的平台实际操作起来更便宜,并且能够以更低的成本生成Token,因为显著的性能收益远大于价格差异。
对于AMD平台,目前唯一公开列出MI355X定价以及GB200 NVL72配置的地方是甲骨文云。
在单GPU基础上,MI355X的价格大约是GB200 NVL72配置的一半。
但由于GB200 NVL72提供的单GPU性能优势范围从低端的近6倍到更高交互性率下的高达28倍,英伟达平台相比AMD当前的产品仍提供高达15倍的每美元性能。
换句话说,英伟达可以提供相对每Token成本仅为竞争对手十五分之一的服务。
AMD的Instinct系列GPU的软件更新和优化速度在加快,但在前沿模型部署时,英伟达的优势是显著的。
前沿AI模型的未来是更大更复杂的MoE,稀疏扩展代表了持续提升能力和智能的最实用路径之一,这一转变提升了测试时计算和推理式生成的重要性,提高了基础设施效率和可扩展性的门槛。
随着模型深入MoE和推理架构,结果不仅仅取决于原始GPU性能或内存容量。
平台级设计成为决定性因素,涵盖互连和通信效率、多节点扩展特性、软件堆栈成熟度、生态系统支持和编排能力,以及在并发和混合工作负载下维持高利用率的能力。
公开基准结果表明,英伟达在像Llama 3.3 70B这样的强密集模型上已经拥有明显优势。
当工作负载转向像DeepSeek-R1这样更大的MoE模型时,这些优势急剧增加,因为扩展和系统设计对性能结果的贡献更加显著。
基于当前趋势,包括OpenAI、Meta、Anthropic等前沿供应商的旗舰模型将继续沿着MoE和推理的道路前进。
如果这一轨迹保持不变,英伟达将保持关键的性能和经济优势,因为该平台正是针对这些模型架构引入的压力进行优化的。
像AMD这样的竞争对手正在构建机架级解决方案(Helios),这可能有助于在未来12个月内缩小差距。
到那时,预计英伟达的Vera Rubin平台将投入生产,Ultra版本紧随其后,作为英伟达机架级设计的第四次迭代登场。
像谷歌TPU这样的架构也提供机架级解决方案,但它们对非第一方模型的适用性和性能尚不可知。
当28倍的性能差距摆在面前,硬件单价的高低已不再是决策的终点,而是重新计算商业模式的起点。
参考资料:
https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/