铁岭市网站建设_网站建设公司_企业官网_seo优化
2025/12/16 17:28:19 网站建设 项目流程

vLLM 0.11.0 发布:全面移除 V0 引擎,性能与多模态支持再升级

在大模型推理系统持续演进的今天,架构统一和效率提升已成为决定技术落地成败的关键。vLLM 0.11.0 的发布正是这一趋势下的里程碑式突破——V0 推理引擎正式退出历史舞台,V1 架构成为唯一核心执行路径

这不仅是一次简单的版本迭代,更是一场深度重构的技术跃迁。本次更新包含538 次提交,由来自全球的207 名贡献者(其中65 名为新加入成员)共同完成,展现了开源社区强大的协同创新能力。

随着 AI 应用场景日益复杂,推理系统不再只是“跑得快”就够了。它需要更强的可维护性、更高的资源利用率、更广的硬件适配能力,以及对多模态、工具调用等新兴范式的原生支持。vLLM 0.11.0 正是在这些维度上实现了全面进化。


彻底告别 V0:迈向统一架构的新时代

过去,vLLM 同时维护着 V0 和 V1 两套推理引擎,这种双轨制虽然保障了兼容性过渡,但也带来了显著的技术债务:代码冗余、逻辑分支复杂、调试困难、潜在 Bug 隐患频发。

现在,这一切终于画上了句号。

从 vLLM 0.11.0 开始,以下组件已被永久移除:

  • AsyncLLMEngineLLMEngineMQLLMEngine等旧调度器
  • 所有与 V0 相关的注意力后端实现
  • 多模态处理中专用于 V0 的元数据接口
  • LoRA 动态加载中的 V0 分支逻辑

这意味着整个项目减少了约15% 的代码量,更重要的是,执行路径完全收敛至 V1 引擎,消除了因双引擎并行导致的状态不一致问题。

🔧迁移提示:所有依赖旧版 API 的服务必须尽快迁移到新的LLM类接口。例如:

```python
from vllm import LLM, SamplingParams

llm = LLM(model=”qwen3-vl”)
```

AsyncLLMEngine已不可用,强行调用将抛出异常。

此举看似“激进”,实则是为未来铺路。一个清晰、单一的核心架构,才能支撑起更复杂的优化策略和更快的功能迭代节奏。


性能飞跃:默认启用 FULL_AND_PIECEWISE CUDA Graph 模式

如果说架构统一是“减负”,那么性能优化就是“增效”。vLLM 0.11.0 在底层计算图层面进行了关键升级——默认 CUDA graph 模式改为FULL_AND_PIECEWISE

此前,系统采用PIECEWISE模式,即分段捕获 kernel 调用以提高灵活性。但在 MoE(Mixture of Experts)或长序列生成等场景下,频繁的启动开销限制了吞吐上限。

新引入的FULL_AND_PIECEWISE模式结合了两种优势:

  • 全图捕获(Full Capture):一次性记录完整的前向流程,最大化 GPU 利用率
  • 自动回退机制:对于不支持全图模式的模型(如部分编码器-解码器结构),自动切换回PIECEWISE

该模式已在 Qwen3-Next、DeepSeek-V3.2 等复杂模型上验证,最高实现 18% 的吞吐提升,且无需用户手动配置。

# 默认行为已变更,无需显式设置 llm = LLM( model="qwen3-next", # cudagraph_mode="FULL_AND_PIECEWISE" # ← now default )

这对于生产环境尤为关键:开发者不再需要为了极致性能而深入理解底层细节,系统会自动选择最优路径。


支持更多前沿模型:覆盖文本、视觉、音频与工具链

vLLM 不再只是一个“语言模型加速器”,而是逐步演变为通用生成式 AI 推理平台。本版本新增对多个重量级模型系列的原生支持。

新增主流模型架构
模型系列特性亮点
DeepSeek-V3.2-Exp完整支持其 MoE 结构与动态路由机制
Qwen3-VL / Qwen3-Next支持图文对话、视频理解等多种交互模式
OLMo3首次集成 Allen Institute 开源大模型
LongCat-Flash超长上下文高效处理,适用于日志分析、法律文档等场景
Ling2.0多语言理解能力增强,尤其在低资源语种表现突出
CWM中文写作专项优化,适配创作类应用

这些支持并非简单“能跑”,而是经过针对性调优,确保推理稳定性与性能达标。

多模态能力强化
  • RADIO 编码器集成(#24595):提升跨模态表示学习能力
  • 纯编码器模型支持(#25174):Transformers 后端现已兼容 BERT、RoBERTa 等经典结构
  • 视觉编码器启用数据并行:InternVL、Qwen2-VL、Qwen3-VL 均可在多卡环境下并行处理图像输入
工具调用与结构化输出

现代 AI 应用越来越依赖函数调用能力。vLLM 0.11.0 加强了对此类场景的支持:

  • Qwen3-Coder 支持 XML 解析器(#25028)
  • Hermes 风格工具 token 处理(#25281)
  • SeedOSS Reason Parser 集成(#24263)
  • LongCat-Flash 支持工具调用(#24083)

这意味着你可以直接构建具备“思考+行动”能力的应用,比如自动调用数据库查询、执行 Python 代码片段、控制机器人动作等。


V1 引擎深度进化:不只是快,更要稳、要省

当 V1 成为唯一引擎后,团队得以集中精力对其进行全方位打磨。这次升级不仅仅是性能数字的提升,更是工程层面的系统性优化。

KV 缓存卸载:应对显存瓶颈的利器

在高并发或多轮对话场景中,KV 缓存极易耗尽 GPU 显存。为此,vLLM 引入了基于 LRU 策略的 CPU 卸载机制:

--enable-kv-offload --kv-offload-cpu-lru-size=2GB

这项功能允许将不活跃请求的 KV 缓存临时转移到主机内存,待其重新激活时再按需加载回 GPU。相比静态预留方案,LRU 策略更具弹性,尤其适合批处理或离线推理任务。

背后的设计也颇具巧思:

  • 卸载逻辑被抽象为CPUOffloadingSpec接口(#24251),便于未来扩展至 NVMe 或分布式存储
  • KV 连接器支持跨节点传输指标(#22188),为后续分布式缓存打下基础

这不仅是“救急”手段,更是通向更大规模服务的基础设施准备。


Prompt Embedding 输入支持:避免重复编码

许多高级用例中,用户希望直接传入预计算的嵌入向量(如检索增强生成 RAG 中的 query embedding)。以往做法是将其转换为 token ID 再输入模型,造成不必要的编码开销。

现在,通过 PR #24278,vLLM 支持直接传入prompt_embedding

outputs = llm.generate( prompt_token_ids=None, prompt_embedding=prompt_embeds, # shape: [seq_len, hidden_size] sampling_params=sampling_params )

这不仅能节省计算资源,还能避免因 tokenizer 不匹配导致的语义偏差,特别适用于跨模型 pipeline 场景。


FlexAttention 与 RoPE 加速:编译级优化登场

底层算子的微小改进,往往带来巨大的整体收益。vLLM 0.11.0 在注意力机制层面做了多项深度优化:

  • FlexAttention 滑动窗口支持(#24089):适配 HuggingFace 新推出的灵活注意力机制,提升长文本建模效率
  • 融合 Q/K 的 RoPE 计算(#24511, #25005):减少冗余旋转操作,性能提升11%
  • FlashInfer RoPE 内核加速(#21126):速度提升达2 倍
  • torch.compile 集成 CUDAGraph Inductor 分区(#24281):进一步释放编译优化潜力

这些改动大多发生在“看不见的地方”,但它们共同构成了高性能推理的基石。


分片状态加载与 LoRA 权重优化

超大规模模型部署常面临内存峰值过高问题。PR #25308 引入分片状态加载机制,允许将模型参数分块读取,降低初始化阶段的内存压力。

同时,LoRA 微调支持也更加成熟:

  • LoRA 权重加载速度显著提升(#25403)
  • 新增weight_loader_v2接口(#23036),支持更复杂的自定义加载逻辑
  • 自动跳过未量化模块的 LoRA 加载(#25455),避免无效操作

这对企业级定制化部署意义重大:既能快速切换专家模型,又能控制资源消耗。


全平台硬件支持:不止于 NVIDIA

vLLM 正在走出“NVIDIA Only”的局限,向真正的异构计算平台迈进。

🟩 NVIDIA:继续领跑

  • FP8 支持 FlashInfer MLA 解码(#24705)
  • Blackwell/Hopper 架构上 BF16 MoE 专家并行优化(#25503)
  • DeepGEMM 默认启用,吞吐提升5.5%(#24462, #24783)

尤其是 DeepGEMM 的默认开启,标志着 vLLM 开始充分利用新一代 GPU 的专用矩阵单元(Tensor Cores),进一步拉大性能差距。


🟨 AMD ROCm:稳步前进

  • 支持 ROCm 7.0(#25178)
  • GLM-4.5 在 MI300X 上启用 Triton MoE 调优配置(#25703)
  • 修复 aiter MHA FP8 等关键问题(#24991)

尽管生态仍不及 CUDA 成熟,但 ROCm 支持的持续完善,为企业提供了更多元的选择空间。


💜 Intel XPU:悄然发力

  • Whisper 模型支持 XPU(#25123)
  • 修复 MoE 数据并行精度问题(#25465)
  • 统一 KV 缓存布局(#24745)

Intel 平台虽非主流,但在特定边缘场景(如本地语音转录)中具备成本优势。vLLM 的支持使其也能享受高效的推理体验。


🟫 RISC-V 与 ARM:拥抱开放生态

  • 添加 RISC-V 64 位支持(#22112)
  • 支持非 x86 ARM CPU(#25166)
  • ARM 平台启用 4-bit 融合 MoE(#23809)

这是面向未来的布局。随着 RISC-V 在嵌入式 AI 领域的崛起,提前建立支持体系将有助于抢占新兴市场。


生产级服务能力:高吞吐、低延迟、易运维

vLLM 已不仅是研究工具,更是企业构建 AI 服务的核心基础设施。因此,本版本在分布式推理、负载均衡、监控等方面做了大量增强。

双批次重叠(DBO):计算与通信零等待

PR #23693 引入 DBO(Double Batch Overlap)机制,实现预填充(prefill)与解码(decode)阶段的计算与通信重叠:

  • 在 DeepEP(Deep Expert Parallelism)架构中显著提升吞吐
  • 尤其适用于长 prompt + 多轮生成场景
  • 实测长序列生成效率提升明显

这类似于流水线中的“指令级并行”,让 GPU 几乎始终处于忙碌状态。


EPLB:专家并行负载均衡

MoE 模型的核心挑战之一是专家分配不均。某些专家可能被频繁调用,成为性能瓶颈。

vLLM 0.11.0 引入Expert Parallel Load Balancing(EPLB)(#23078, #22842):

  • 支持 Hunyuan-V1、Mixtral 等主流 MoE 模型
  • 提供静态分配策略(#23745),便于预测性调度
  • 推理开销降低40%(#24573)

通过更智能的路由策略,系统能动态平衡各专家的负载,避免“热点”问题。


分布式启动与部署友好性

  • 支持torchrun外部启动器(#24899):与 PyTorch 生态无缝对接
  • Ray placement groups 支持(#25026):便于资源隔离与弹性扩缩容
  • Triton DP/EP 内核优化(#24588):提升多节点协同效率

这些改进让 vLLM 更容易集成到现有 MLOps 流程中,无论是 Kubernetes 还是 Ray Serve,都能顺畅运行。


量化全面进化:FP8、W4A8、CompressedTensors 三箭齐发

低精度推理是降低成本的关键路径。vLLM 0.11.0 在量化领域取得重大进展。

FP8:迈向极致效率

  • 支持每 token 组量化(#24342)
  • 利用硬件指令加速 float→fp8_e4m3 转换(#24757)
  • torch.compile 支持 FP8 KV 缓存(#22758)
  • 分页注意力支持 FP8 更新(#22222)

FP8 不仅降低显存占用,还提升了带宽利用率。配合新一代 GPU 的张量核心,推理速度可大幅提升。


W4A8 与 NVFP4:兼顾精度与性能

  • W4A8 预处理时间加速(#23972)
  • NVFP4 支持 Gemma3、Llama 3.1 405B 等稠密模型(#22771, #25135)

W4A8(4-bit weights + 8-bit activations)是一种实用主义选择,在保持较高精度的同时大幅压缩模型体积。NVFP4 则是 NVIDIA 专属格式,针对其硬件做了深度优化。


CompressedTensors:结构化稀疏与块状量化

  • 支持 MoE 模型的块状 FP8 量化(#25219)
  • 重构密集 FP8 张量工具链(#21404)

CompressedTensors 是一种新兴的压缩格式标准,支持混合精度、稀疏结构、分组量化等高级特性。vLLM 的集成意味着它可以处理更复杂的量化模型,而不局限于简单的 GPTQ/AWQ。


API 与前端:OpenAI 兼容性再升级

作为生产级推理网关,vLLM 必须提供稳定、直观、兼容性强的 API。

OpenAI 接口增强

  • 支持返回所有 prompt 的 logprobs(#24956)
  • logprobs=-1表示返回完整词表概率分布(#25031)
  • 流式响应支持推理事件通知(#24938)
  • 引擎宕机时/health返回503(#24897)

这些细节看似微小,却极大提升了系统的可观测性和调试便利性。


多模态输入标准化

  • Media UUID 缓存机制(#23950):避免重复加载相同媒体资源
  • 图片路径支持'path'字段(#25081):简化本地文件引用
  • EVS 视频 token 剪枝(#22980):减少冗余计算

输入接口的规范化,使得客户端开发更加简洁可靠。


CLI 与日志改进

  • CLI 支持--enable-logging开关(#25610)
  • --help输出更清晰、结构化(#24903)

命令行工具不再是“附属品”,而是成为调试和部署的重要入口。


安全与依赖更新:稳健前行

任何生产系统都不能忽视安全与依赖管理。

安全修复

  • 修复 GHSA-wr9h-g72x-mwhm(CVE 关联漏洞)

该漏洞涉及恶意 payload 导致的资源耗尽风险,已在新版中彻底解决。


核心依赖升级

组件新版本说明
PyTorch2.8 (CPU)#25652
FlashInfer0.3.1#24470
CUDA13#24599
ROCm7.0#25178

⚠️ 构建要求:全局强制使用 C++17(#24823)

依赖更新确保了与最新工具链的兼容性,也为未来功能预留了空间。


结语:从推理加速器到智能基础设施

vLLM 0.11.0 的发布,标志着它已经超越了“单纯提速”的范畴,成长为一个集高性能、高可用、多功能于一体的 AI 推理基础设施

它不再只是一个库,而是一个可以支撑企业级 AI 应用的服务底座。无论你是要部署一个多语言客服机器人、一个视觉问答系统,还是一个自动化编程助手,vLLM 都能提供从模型加载、批处理调度、量化压缩到多模态交互的完整解决方案。

更重要的是,它的架构越来越清晰,社区越来越活跃,生态越来越健全。这种“统一、高效、智能”的发展方向,正是大模型时代所需要的。

如果你还在用传统方式部署大模型,不妨试试 vLLM 0.11.0。也许你会发现,那个曾经让你头疼的“推理瓶颈”,其实早已有了更好的答案。

📌立即体验最新特性
👉 GitHub Release v0.11.0

欢迎加入 vLLM 社区,共同推动大模型推理技术的发展!

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询