忻州市网站建设_网站建设公司_关键词排名_seo优化-渭南市网站建设公司

某中心的Jetson AGX Thor边缘计算平台，自2025年8月发布以来，通过持续的软件优化，其生成式AI性能已实现了7倍的增长。

持续的软件优化

随着最新的vLLM容器发布，与8月底首发日的性能相比，Jetson Thor在相同模型和量化配置下，性能提升了高达3.5倍。表1对比了Llama 3.3 70B和DeepSeek R1 70B模型在8月发布时与2025年9月最新基准测试中的输出令牌/秒性能。

系列	模型	Jetson AGX Thor 2025年9月 (输出令牌/秒)	Jetson AGX Thor 2025年8月 (输出令牌/秒)	相比发布时的速度提升
Llama	Llama 3.3 70B	41.5	12.6	3.3x
DeepSeek	DeepSeek R1 70B	40.29	11.5	3.5x

表1. Llama 3.3和DeepSeek R1发布时与最新基准测试的令牌/秒输出对比
基准测试配置：序列长度：2048，输出序列长度：128；最大并发数：8；电源模式：MAXN

Jetson Thor的vLLM容器现已支持Eagle 3推测解码，可进一步提升生成式AI模型的性能。例如，在Llama 3.3 70B模型上使用推测解码，可获得88.62输出令牌/秒，相比首发性能实现了7倍加速。

零日支持运行最新模型

开发者可在边缘端使用Jetson Thor，并享受零日支持，运行最新、最强大的生成式AI模型。例如，gpt-oss在Jetson AGX Thor发布当日就获得了llamacpp/ollama的支持，同时也得到了vLLM的支持。同样，许多某中心Nemotron模型也获得了周级零日支持，例如：

Nemotron Nano 9B v2
Nemotron Nano 9B v2 FP8
Llama-3.1 Nemotron Nano 8B v1
Llama-3.1 Nemotron Nano 4B v1.1

通过量化与推测解码实现最大性能

要充分发挥Jetson Thor在边缘生成式AI方面的强大能力，需要采用正确的技术。量化与推测解码是加速LLM和VLM推理的两大核心策略。

量化：缩小模型尺寸，加速推理

量化本质上是降低模型数据（权重和激活）数值精度的过程。这带来两大优势：

更小的内存占用：这是解锁在设备上运行更大模型的关键。通过减少每个参数所需的字节数，可以加载原本因尺寸过大而无法运行的模型。
更快的存储器访问：更小的权重意味着需要从存储器提取到计算核心的字节数更少，直接降低了延迟，这对边缘应用至关重要。

在Jetson Thor上，两种最重要的格式是：

FP8：这是近乎无损优化的首选第一步。它能将权重内存减半，使得70B模型得以在设备上实际加载和运行。校准得当后，FP8的精度非常接近FP16基线，是对话和通用工作负载的“安全第一步”。
W4A16（4位权重，16位激活）：通过将静态模型权重量化为超紧凑的4位，同时保持动态计算（激活）在更高精度的16位，W4A16解锁了在边缘运行超大规模模型的可能性。

格式选择建议：从W4A16开始尝试。它通常能提供最高的推理速度和最低的内存占用。如果量化后的模型在任务上的精度满足要求，则坚持使用。若任务更复杂，发现W4A16精度不足，则切换到FP8。

推测解码：采用草稿-验证方法提升推理

选定量化格式后，下一个重要的性能杠杆是推测解码。该技术通过使用两个模型来加速推理：一个快速的小型“草稿”模型和一个准确的大型“目标”模型。
其工作原理是：

草稿模型快速生成一批候选令牌。
目标模型一次性验证整个令牌块，而不是逐个令牌生成。

这种“起草-验证”过程每个周期能生成多个令牌，同时保证最终输出与目标模型单独产生的结果完全相同。成功与否由接受率（草稿令牌被接受的百分比）衡量。高接受率能带来显著的延迟优势。

在实验中，EAGLE-3推测解码带来了最佳的加速效果。在Llama 3.3 70B（W4A16）上的基准测试显示，该功能实现了2.5倍的性能提升。

结合量化与推测解码

将这两种技术结合使用能产生更佳的效果。可以使用内置了优秀EAGLE-3支持的vLLM。某中心正在发布一个独立的vLLM容器，支持Jetson Thor，并每月更新包含最新的改进。

以下是找到模型质量与推理性能最佳平衡点的分步指南：

建立质量基线：在优化前，以尽可能高的精度加载模型，验证其能否正确执行任务。
使用量化进行优化：逐步降低权重精度，在每一步测试精度，直到质量不再满足要求时停止。
进行现实基准测试：使用模拟工作负载的性能基准来验证最终配置。

如果所选模型仍然不够快，则使用更小的模型重复此过程。可以通过实践教程了解如何运行这些性能基准测试。

现在，开发者可以满怀信心地提升其生成式AI模型在Jetson Thor上的性能了。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

忻州市网站建设_网站建设公司_关键词排名_seo优化

持续的软件优化

零日支持运行最新模型

通过量化与推测解码实现最大性能

量化：缩小模型尺寸，加速推理

推测解码：采用草稿-验证方法提升推理

结合量化与推测解码

热门文章

文章分类

标签云

需要专业的网站建设服务？

忻州市网站建设_网站建设公司_关键词排名_seo优化

持续的软件优化

零日支持运行最新模型

通过量化与推测解码实现最大性能

量化：缩小模型尺寸，加速推理

推测解码：采用草稿-验证方法提升推理

结合量化与推测解码

热门文章

文章分类

标签云

相关文章

AppSmith多人协作开发：重塑团队应用构建新模式

语音合成性能瓶颈在哪？CPU占用率优化实战经验分享

如何轻松实现无代码应用开发：AppSmith完整实用指南

需要专业的网站建设服务？