LPDDR 和英伟达用的显存完全不是一个量级的东西。
英伟达 H100/B200 之所以能达到3.35 TB/s ~ 8 TB/s的恐怖带宽,不是因为它跑得快(频率其实不高),而是因为它路太宽了。
1. 揭秘:HBM 的“暴力美学”
英伟达的高端 AI 卡(H100/B200)用的既不是 GDDR,也不是 LPDDR,而是HBM3 / HBM3E (High Bandwidth Memory)。
我们来做一个简单粗暴的算术题:
A. 你的 LPDDR5X (64-bit)
- 频率:8.5 Gbps (非常快!)
- 位宽:64 bit(很窄,像双车道)
- 带宽:8.5 × 64 / 8 ≈ 68 GB/s 8.5 \times 64 / 8 \approx \mathbf{68 \text{ GB/s}}8.5×64/8≈68GB/s
B. 英伟达 H100 (5120-bit)
- 频率:5.2 Gbps (其实比你的 LPDDR 还慢!)
- 位宽:5120 bit(这是 80 车道的超级高速公路!)
- H100 封装了5 颗HBM3 显存堆栈。
- 每颗 HBM3 堆栈有1024 bit位宽。
- 总位宽 =1024 × 5 = 5120 bit 1024 \times 5 = 5120 \text{ bit}1024×5=5120bit。
- 带宽:5.2 × 5120 / 8 ≈ 3 , 350 GB/s ( 3.35 TB/s ) 5.2 \times 5120 / 8 \approx \mathbf{3,350 \text{ GB/s}} (3.35 \text{ TB/s})5.2×5120/8≈3,350GB/s(3.35TB/s)
C. 英伟达 B200 (8192-bit)
- 频率:8.0 Gbps (HBM3E)
- 位宽:8192 bit(使用了 8 颗 HBM3E)
- 带宽:8.0 × 8192 / 8 ≈ 8 , 000 GB/s ( 8 TB/s ) 8.0 \times 8192 / 8 \approx \mathbf{8,000 \text{ GB/s}} (8 \text{ TB/s})8.0×8192/8≈8,000GB/s(8TB/s)
结论:英伟达赢在位宽上。它的位宽是 LPDDR 的100 倍以上。
2. 为什么 LPDDR 做不到这么宽?
你可能会问:“那我也把 LPDDR 的位宽做大不就行了?”
这就是物理限制了:
- LPDDR 需要在 PCB 板上走线:你在主板上画 64 根线还可以,画 5000 根线?板子得有几十层厚,面积得像桌子一样大,根本画不下。
- HBM 是在芯片里走线:HBM 是通过CoWoS (2.5D 封装)技术,在硅中介层(Interposer)上刻蚀出来的线。硅片上的线宽只有几微米,所以可以在指甲盖大小的地方塞进几千根线。
3. GDDR 呢?它在哪里?
- 消费级显卡 (RTX 4090)还在用GDDR6X。
- 频率:21 Gbps (极快!是 HBM 的 3-4 倍)
- 位宽:384 bit (比 LPDDR 宽,但远不如 HBM)
- 带宽:21 × 384 / 8 ≈ 1 , 008 GB/s ( 1 T B / s ) 21 \times 384 / 8 \approx \mathbf{1,008 \text{ GB/s}} (1 TB/s)21×384/8≈1,008GB/s(1TB/s)。
- 你看,即使是最顶级的 GDDR,带宽也只有 HBM 的几分之一。
总结
- LPDDR (68 GB/s):电动车。省电、便宜、随便跑。
- GDDR (1 TB/s):F1 赛车。单圈极速(频率)最快,但车道少。
- HBM (4-8 TB/s):高铁车队。虽然单车速度(频率)不快,但它一次能拉几百节车厢(位宽极大),总运力无敌。
所以,做 AI 训练这种吞吐量极大的任务,HBM 是唯一的选择。