某中心的Jetson AGX Thor边缘计算平台,自2025年8月发布以来,通过持续的软件优化,其生成式AI性能已实现了7倍的增长。
持续的软件优化
随着最新的vLLM容器发布,与8月底首发日的性能相比,Jetson Thor在相同模型和量化配置下,性能提升了高达3.5倍。表1对比了Llama 3.3 70B和DeepSeek R1 70B模型在8月发布时与2025年9月最新基准测试中的输出令牌/秒性能。
| 系列 | 模型 | Jetson AGX Thor 2025年9月 (输出令牌/秒) | Jetson AGX Thor 2025年8月 (输出令牌/秒) | 相比发布时的速度提升 |
|---|---|---|---|---|
| Llama | Llama 3.3 70B | 41.5 | 12.6 | 3.3x |
| DeepSeek | DeepSeek R1 70B | 40.29 | 11.5 | 3.5x |
表1. Llama 3.3和DeepSeek R1发布时与最新基准测试的令牌/秒输出对比
基准测试配置:序列长度:2048,输出序列长度:128;最大并发数:8;电源模式:MAXN
Jetson Thor的vLLM容器现已支持Eagle 3推测解码,可进一步提升生成式AI模型的性能。例如,在Llama 3.3 70B模型上使用推测解码,可获得88.62输出令牌/秒,相比首发性能实现了7倍加速。
零日支持运行最新模型
开发者可在边缘端使用Jetson Thor,并享受零日支持,运行最新、最强大的生成式AI模型。例如,gpt-oss在Jetson AGX Thor发布当日就获得了llamacpp/ollama的支持,同时也得到了vLLM的支持。同样,许多某中心Nemotron模型也获得了周级零日支持,例如:
- Nemotron Nano 9B v2
- Nemotron Nano 9B v2 FP8
- Llama-3.1 Nemotron Nano 8B v1
- Llama-3.1 Nemotron Nano 4B v1.1
通过量化与推测解码实现最大性能
要充分发挥Jetson Thor在边缘生成式AI方面的强大能力,需要采用正确的技术。量化与推测解码是加速LLM和VLM推理的两大核心策略。
量化:缩小模型尺寸,加速推理
量化本质上是降低模型数据(权重和激活)数值精度的过程。这带来两大优势:
- 更小的内存占用:这是解锁在设备上运行更大模型的关键。通过减少每个参数所需的字节数,可以加载原本因尺寸过大而无法运行的模型。
- 更快的存储器访问:更小的权重意味着需要从存储器提取到计算核心的字节数更少,直接降低了延迟,这对边缘应用至关重要。
在Jetson Thor上,两种最重要的格式是:
- FP8:这是近乎无损优化的首选第一步。它能将权重内存减半,使得70B模型得以在设备上实际加载和运行。校准得当后,FP8的精度非常接近FP16基线,是对话和通用工作负载的“安全第一步”。
- W4A16(4位权重,16位激活):通过将静态模型权重量化为超紧凑的4位,同时保持动态计算(激活)在更高精度的16位,W4A16解锁了在边缘运行超大规模模型的可能性。
格式选择建议:从W4A16开始尝试。它通常能提供最高的推理速度和最低的内存占用。如果量化后的模型在任务上的精度满足要求,则坚持使用。若任务更复杂,发现W4A16精度不足,则切换到FP8。
推测解码:采用草稿-验证方法提升推理
选定量化格式后,下一个重要的性能杠杆是推测解码。该技术通过使用两个模型来加速推理:一个快速的小型“草稿”模型和一个准确的大型“目标”模型。
其工作原理是:
- 草稿模型快速生成一批候选令牌。
- 目标模型一次性验证整个令牌块,而不是逐个令牌生成。
这种“起草-验证”过程每个周期能生成多个令牌,同时保证最终输出与目标模型单独产生的结果完全相同。成功与否由接受率(草稿令牌被接受的百分比)衡量。高接受率能带来显著的延迟优势。
在实验中,EAGLE-3推测解码带来了最佳的加速效果。在Llama 3.3 70B(W4A16)上的基准测试显示,该功能实现了2.5倍的性能提升。
结合量化与推测解码
将这两种技术结合使用能产生更佳的效果。可以使用内置了优秀EAGLE-3支持的vLLM。某中心正在发布一个独立的vLLM容器,支持Jetson Thor,并每月更新包含最新的改进。
以下是找到模型质量与推理性能最佳平衡点的分步指南:
- 建立质量基线:在优化前,以尽可能高的精度加载模型,验证其能否正确执行任务。
- 使用量化进行优化:逐步降低权重精度,在每一步测试精度,直到质量不再满足要求时停止。
- 进行现实基准测试:使用模拟工作负载的性能基准来验证最终配置。
如果所选模型仍然不够快,则使用更小的模型重复此过程。可以通过实践教程了解如何运行这些性能基准测试。
现在,开发者可以满怀信心地提升其生成式AI模型在Jetson Thor上的性能了。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)