LLM量化技术全景对比:AWQ、GPTQ、GGUF与FP8/INT8/INT4的抉择指南

张开发
2026/4/7 15:25:45 15 分钟阅读

分享文章

LLM量化技术全景对比:AWQ、GPTQ、GGUF与FP8/INT8/INT4的抉择指南
核心结论量化算法仅占一半内核优化才是决胜关键。Marlin内核让AWQ实现10.9倍加速成为当前生产部署的甜点方案。一、量化技术概览从算法到硬件的全栈优化大语言模型量化已从简单的压缩存储演进为算法-内核-硬件协同优化的系统工程。当前主流技术可分为三大阵营1. 后训练量化PTQ算法层技术核心机制精度保护策略计算特性AWQ激活感知权重量化保护激活幅度大的通道0.1%-1%显著权重全INT4/INT3硬件友好GPTQ基于Hessian矩阵的层-wise量化最小化重构误差逐层更新高精度但计算密集GGUF标准量化和零点量化分组缩放元数据丰富跨平台CPU优化BitsandBytes动态量化运行时量化无需预量化检查点即插即用精度损失小2. 推理引擎与内核层Marlin内核专为4-bit量化优化的GEMM内核支持2:4结构化稀疏性让AWQ/GPTQ实现数量级加速Triton后端vLLM在2026年采用的跨平台内核方案支持NVIDIA/AMD/Intel GPUTensorRT-LLMNVIDIA专用优化FP8计算原生支持H100/B100上性能极致3. 硬件原生支持FP8H100/H200原生支持E4M3精度优先和E5M2动态范围优先两种格式INT8/INT4通用支持但需内核优化才能发挥性能二、精度对比Perplexity与任务性能基于Llama-3-70B在NVIDIA A100上的权威基准测试学术指标Perplexity越低越好量化方案WikiText2 PPL相对FP16损失FP16基线6.560%BitsandBytes6.67~1.7%GGUF (Q4_K_M)6.74~2.7%AWQ6.84~4.3%GPTQ6.90~5.2%关键发现BitsandBytes精度保持最佳无需预量化但推理速度较慢GGUF在4-bit下精度惊人接近8-bit水平AWQ和GPTQ差距不大但AWQ在代码生成任务上优势明显下游任务性能HumanEval Pass1越高越好方法Pass1相对基线损失FP16基线56.1%-AWQ / Marlin-AWQ51.8%-7.7%GGUF (Q4_K_M)51.8%-7.7%BitsandBytes51.8%-7.7%GPTQ / Marlin-GPTQ45.7-46.3%-17.5%结论在代码生成任务上AWQ、GGUF、BitsandBytes形成第一梯队显著优于GPTQ三、速度对决吞吐量与延迟基于JarvisLabs在vLLM上的实测数据Llama-3.1-8BH100吞吐量tokens/s越高越好方案输出吞吐量总吞吐量相比FP16Marlin-AWQ741144461%Marlin-GPTQ712138854%FP16基线461898基准BitsandBytes168329-64%GGUF (Q4_K_M)93179-80%原生AWQ无Marlin68132-85%延迟指标越低越好方案首Token延迟(TTFT)inter-Token延迟(ITL)Marlin-GPTQ51.9ms13.1msFP16基线57.7ms20.4msMarlin-AWQ73.5ms12.6msBitsandBytes135.3ms56.5ms原生AWQ277.8ms138.7msGGUF958.0ms101.6ms震撼结论Marlin内核带来10.9倍加速AWQ从68→741 tok/sMarlin-AWQ在ITL流式体验关键指标上表现最优GGUF在vLLM中表现不佳TTFT近1秒但在llama.cpp中是王者四、不同精度格式FP8 vs INT8 vs INT4基于火山引擎在vLLM上的Llama-3-70B测试精度-性能权衡矩阵方案MMLU准确率显存占用吞吐量加速比适用场景FP1668.5%138.2GB128.5 t/s1.0x训练/高精度推理FP867.9% (-0.9%)69.1GB245.3 t/s1.9x精度敏感的生产环境INT866.3% (-3.2%)69.1GB212.7 t/s1.65x平衡选择兼容性最佳INT460.2% (-12.1%)34.5GB301.2 t/s2.34x极致压缩高吞吐FP8的技术优势FP88-bit浮点相比INT8具有更宽的动态范围通过指数位分配E4M3/E5M2天然适应神经网络中的异常值分布E4M34位指数3位尾数范围±448适合前向推理E5M25位指数2位尾数范围±57,344适合训练梯度但硬件实现上FP8 MAC单元比INT8效率低50-180%INT4-INT8-INT16混合精度仍是边缘设备的最佳选择五、推理引擎对比vLLM vs TensorRT-LLM2026年最新格局维度vLLMTensorRT-LLM核心优势高并发、PagedAttention、开源生态极致延迟、FP8原生、企业级控制量化支持GPTQ/AWQ/GGUF/FP8/INT8/INT4广泛支持FP8计算Hopper/Blackwell原生性能793 t/sP99延迟80ms最高8倍加速5倍吞吐TTFT优化标准前缀缓存、KV复用、优先级驱逐硬件绑定跨平台NVIDIA/AMD/IntelNVIDIA-only易用性Python API即插即用需编译优化专业工程师典型场景多租户服务、实验验证延迟关键型、大规模GPU集群选择决策树需要支持多模型/快速迭代 → vLLM 单模型长期生产极致性能 → TensorRT-LLM 长上下文200k tokens → TGI v313倍快于vLLM 跨平台AMD/Intel → vLLMTriton后端 NVIDIA H100/B100FP8 → TensorRT-LLM六、实战选择指南按优先级推荐你的需求最佳选择备选方案速度质量平衡Marlin-AWQMarlin-GPTQ最高精度BitsandBytesGGUF (Q4_K_M)代码生成Marlin-AWQ / GGUFBitsandBytes极致速度Marlin-AWQTensorRT-LLM (FP8)快速部署BitsandBytes无需预量化vLLM原生FP8边缘/CPUGGUF llama.cppAWQ有限支持生产级服务Marlin-AWQ vLLMTensorRT-LLM Triton关键建议内核 算法同样的AWQ算法Marlin内核带来10倍加速选择推理引擎时内核优化比量化算法更重要FP8是H100的最优解在支持FP8的硬件上TensorRT-LLM的FP8计算能提供几乎无损的精度1.2%损失和1.9倍加速GGUF的主场在llama.cpp虽然GGUF精度优秀但在vLLM中速度垫底若使用Ollama/LM Studio本地部署GGUF仍是首选避免原生AWQ没有Marlin内核的AWQ速度极慢68 t/s务必使用Marlin-AWQ或切换到vLLM/SGLang的最新版本七、未来趋势4-bit成为新常态AWQ/GPTQ的4-bit方案已能在70B模型上保持可用精度配合Marlin内核实现超越FP16的速度FP8普及化随着H100/B100部署扩大FP8将成为云端推理的默认精度边缘侧仍由INT4/INT8主导动态量化BitsandBytes的即插即用模式降低了量化门槛未来可能出现更智能的混合精度调度多模态量化AWQ已扩展至视觉-语言模型如OpenFlamingo多模态量化将成为下一个战场总结当前LLM量化技术已形成清晰的分层格局算法层AWQ凭借激活感知机制在精度-速度平衡上领先GPTQ在纯精度上略逊但社区支持广泛内核层Marlin内核重新定义了4-bit量化的性能标准让INT4推理快于FP16成为现实硬件层FP8在NVIDIA新架构上展现统治力INT8/INT4保持跨平台优势对于绝大多数生产环境Marlin-AWQ vLLM是当前的最优解——它提供了741 t/s的吞吐量、51.8%的HumanEval通过率以及开箱即用的部署体验。只有在NVIDIA H100/B100集群且追求极致性能时才值得投入TensorRT-LLM的复杂优化。参考资源AWQ论文NeurIPS 2023Marlin内核GitHubvLLM量化指南JarvisLabsFP8技术解析arXiv

更多文章