铁岭市网站建设_网站建设公司_企业官网_seo优化-佳木斯市网站建设公司

vLLM 0.11.0 发布：全面移除 V0 引擎，性能与多模态支持再升级

在大模型推理系统持续演进的今天，架构统一和效率提升已成为决定技术落地成败的关键。vLLM 0.11.0 的发布正是这一趋势下的里程碑式突破——V0 推理引擎正式退出历史舞台，V1 架构成为唯一核心执行路径。

这不仅是一次简单的版本迭代，更是一场深度重构的技术跃迁。本次更新包含538 次提交，由来自全球的207 名贡献者（其中65 名为新加入成员）共同完成，展现了开源社区强大的协同创新能力。

随着 AI 应用场景日益复杂，推理系统不再只是“跑得快”就够了。它需要更强的可维护性、更高的资源利用率、更广的硬件适配能力，以及对多模态、工具调用等新兴范式的原生支持。vLLM 0.11.0 正是在这些维度上实现了全面进化。

彻底告别 V0：迈向统一架构的新时代

过去，vLLM 同时维护着 V0 和 V1 两套推理引擎，这种双轨制虽然保障了兼容性过渡，但也带来了显著的技术债务：代码冗余、逻辑分支复杂、调试困难、潜在 Bug 隐患频发。

现在，这一切终于画上了句号。

从 vLLM 0.11.0 开始，以下组件已被永久移除：

AsyncLLMEngine、LLMEngine、MQLLMEngine等旧调度器
所有与 V0 相关的注意力后端实现
多模态处理中专用于 V0 的元数据接口
LoRA 动态加载中的 V0 分支逻辑

这意味着整个项目减少了约15% 的代码量，更重要的是，执行路径完全收敛至 V1 引擎，消除了因双引擎并行导致的状态不一致问题。

🔧迁移提示：所有依赖旧版 API 的服务必须尽快迁移到新的LLM类接口。例如：
```python
from vllm import LLM, SamplingParams
llm = LLM(model=”qwen3-vl”)
```
原AsyncLLMEngine已不可用，强行调用将抛出异常。

此举看似“激进”，实则是为未来铺路。一个清晰、单一的核心架构，才能支撑起更复杂的优化策略和更快的功能迭代节奏。

性能飞跃：默认启用 FULL_AND_PIECEWISE CUDA Graph 模式

如果说架构统一是“减负”，那么性能优化就是“增效”。vLLM 0.11.0 在底层计算图层面进行了关键升级——默认 CUDA graph 模式改为FULL_AND_PIECEWISE。

此前，系统采用PIECEWISE模式，即分段捕获 kernel 调用以提高灵活性。但在 MoE（Mixture of Experts）或长序列生成等场景下，频繁的启动开销限制了吞吐上限。

新引入的FULL_AND_PIECEWISE模式结合了两种优势：

全图捕获（Full Capture）：一次性记录完整的前向流程，最大化 GPU 利用率
自动回退机制：对于不支持全图模式的模型（如部分编码器-解码器结构），自动切换回PIECEWISE

该模式已在 Qwen3-Next、DeepSeek-V3.2 等复杂模型上验证，最高实现 18% 的吞吐提升，且无需用户手动配置。

# 默认行为已变更，无需显式设置 llm = LLM( model="qwen3-next", # cudagraph_mode="FULL_AND_PIECEWISE" # ← now default )

这对于生产环境尤为关键：开发者不再需要为了极致性能而深入理解底层细节，系统会自动选择最优路径。

支持更多前沿模型：覆盖文本、视觉、音频与工具链

vLLM 不再只是一个“语言模型加速器”，而是逐步演变为通用生成式 AI 推理平台。本版本新增对多个重量级模型系列的原生支持。

新增主流模型架构

模型系列	特性亮点
DeepSeek-V3.2-Exp	完整支持其 MoE 结构与动态路由机制
Qwen3-VL / Qwen3-Next	支持图文对话、视频理解等多种交互模式
OLMo3	首次集成 Allen Institute 开源大模型
LongCat-Flash	超长上下文高效处理，适用于日志分析、法律文档等场景
Ling2.0	多语言理解能力增强，尤其在低资源语种表现突出
CWM	中文写作专项优化，适配创作类应用

这些支持并非简单“能跑”，而是经过针对性调优，确保推理稳定性与性能达标。

多模态能力强化

✅RADIO 编码器集成（#24595）：提升跨模态表示学习能力
✅纯编码器模型支持（#25174）：Transformers 后端现已兼容 BERT、RoBERTa 等经典结构
✅视觉编码器启用数据并行：InternVL、Qwen2-VL、Qwen3-VL 均可在多卡环境下并行处理图像输入

工具调用与结构化输出

现代 AI 应用越来越依赖函数调用能力。vLLM 0.11.0 加强了对此类场景的支持：

Qwen3-Coder 支持 XML 解析器（#25028）
Hermes 风格工具 token 处理（#25281）
SeedOSS Reason Parser 集成（#24263）
LongCat-Flash 支持工具调用（#24083）

这意味着你可以直接构建具备“思考+行动”能力的应用，比如自动调用数据库查询、执行 Python 代码片段、控制机器人动作等。

V1 引擎深度进化：不只是快，更要稳、要省

当 V1 成为唯一引擎后，团队得以集中精力对其进行全方位打磨。这次升级不仅仅是性能数字的提升，更是工程层面的系统性优化。

KV 缓存卸载：应对显存瓶颈的利器

在高并发或多轮对话场景中，KV 缓存极易耗尽 GPU 显存。为此，vLLM 引入了基于 LRU 策略的 CPU 卸载机制：

--enable-kv-offload --kv-offload-cpu-lru-size=2GB

这项功能允许将不活跃请求的 KV 缓存临时转移到主机内存，待其重新激活时再按需加载回 GPU。相比静态预留方案，LRU 策略更具弹性，尤其适合批处理或离线推理任务。

背后的设计也颇具巧思：

卸载逻辑被抽象为CPUOffloadingSpec接口（#24251），便于未来扩展至 NVMe 或分布式存储
KV 连接器支持跨节点传输指标（#22188），为后续分布式缓存打下基础

这不仅是“救急”手段，更是通向更大规模服务的基础设施准备。

Prompt Embedding 输入支持：避免重复编码

许多高级用例中，用户希望直接传入预计算的嵌入向量（如检索增强生成 RAG 中的 query embedding）。以往做法是将其转换为 token ID 再输入模型，造成不必要的编码开销。

现在，通过 PR #24278，vLLM 支持直接传入prompt_embedding：

outputs = llm.generate( prompt_token_ids=None, prompt_embedding=prompt_embeds, # shape: [seq_len, hidden_size] sampling_params=sampling_params )

这不仅能节省计算资源，还能避免因 tokenizer 不匹配导致的语义偏差，特别适用于跨模型 pipeline 场景。

FlexAttention 与 RoPE 加速：编译级优化登场

底层算子的微小改进，往往带来巨大的整体收益。vLLM 0.11.0 在注意力机制层面做了多项深度优化：

✅FlexAttention 滑动窗口支持（#24089）：适配 HuggingFace 新推出的灵活注意力机制，提升长文本建模效率
✅融合 Q/K 的 RoPE 计算（#24511, #25005）：减少冗余旋转操作，性能提升11%
✅FlashInfer RoPE 内核加速（#21126）：速度提升达2 倍
✅torch.compile 集成 CUDAGraph Inductor 分区（#24281）：进一步释放编译优化潜力

这些改动大多发生在“看不见的地方”，但它们共同构成了高性能推理的基石。

分片状态加载与 LoRA 权重优化

超大规模模型部署常面临内存峰值过高问题。PR #25308 引入分片状态加载机制，允许将模型参数分块读取，降低初始化阶段的内存压力。

同时，LoRA 微调支持也更加成熟：

LoRA 权重加载速度显著提升（#25403）
新增weight_loader_v2接口（#23036），支持更复杂的自定义加载逻辑
自动跳过未量化模块的 LoRA 加载（#25455），避免无效操作

这对企业级定制化部署意义重大：既能快速切换专家模型，又能控制资源消耗。

全平台硬件支持：不止于 NVIDIA

vLLM 正在走出“NVIDIA Only”的局限，向真正的异构计算平台迈进。

🟩 NVIDIA：继续领跑

FP8 支持 FlashInfer MLA 解码（#24705）
Blackwell/Hopper 架构上 BF16 MoE 专家并行优化（#25503）
DeepGEMM 默认启用，吞吐提升5.5%（#24462, #24783）

尤其是 DeepGEMM 的默认开启，标志着 vLLM 开始充分利用新一代 GPU 的专用矩阵单元（Tensor Cores），进一步拉大性能差距。

🟨 AMD ROCm：稳步前进

支持 ROCm 7.0（#25178）
GLM-4.5 在 MI300X 上启用 Triton MoE 调优配置（#25703）
修复 aiter MHA FP8 等关键问题（#24991）

尽管生态仍不及 CUDA 成熟，但 ROCm 支持的持续完善，为企业提供了更多元的选择空间。

💜 Intel XPU：悄然发力

Whisper 模型支持 XPU（#25123）
修复 MoE 数据并行精度问题（#25465）
统一 KV 缓存布局（#24745）

Intel 平台虽非主流，但在特定边缘场景（如本地语音转录）中具备成本优势。vLLM 的支持使其也能享受高效的推理体验。

🟫 RISC-V 与 ARM：拥抱开放生态

添加 RISC-V 64 位支持（#22112）
支持非 x86 ARM CPU（#25166）
ARM 平台启用 4-bit 融合 MoE（#23809）

这是面向未来的布局。随着 RISC-V 在嵌入式 AI 领域的崛起，提前建立支持体系将有助于抢占新兴市场。

生产级服务能力：高吞吐、低延迟、易运维

vLLM 已不仅是研究工具，更是企业构建 AI 服务的核心基础设施。因此，本版本在分布式推理、负载均衡、监控等方面做了大量增强。

双批次重叠（DBO）：计算与通信零等待

PR #23693 引入 DBO（Double Batch Overlap）机制，实现预填充（prefill）与解码（decode）阶段的计算与通信重叠：

在 DeepEP（Deep Expert Parallelism）架构中显著提升吞吐
尤其适用于长 prompt + 多轮生成场景
实测长序列生成效率提升明显

这类似于流水线中的“指令级并行”，让 GPU 几乎始终处于忙碌状态。

EPLB：专家并行负载均衡

MoE 模型的核心挑战之一是专家分配不均。某些专家可能被频繁调用，成为性能瓶颈。

vLLM 0.11.0 引入Expert Parallel Load Balancing（EPLB）（#23078, #22842）：

支持 Hunyuan-V1、Mixtral 等主流 MoE 模型
提供静态分配策略（#23745），便于预测性调度
推理开销降低40%（#24573）

通过更智能的路由策略，系统能动态平衡各专家的负载，避免“热点”问题。

分布式启动与部署友好性

支持torchrun外部启动器（#24899）：与 PyTorch 生态无缝对接
Ray placement groups 支持（#25026）：便于资源隔离与弹性扩缩容
Triton DP/EP 内核优化（#24588）：提升多节点协同效率

这些改进让 vLLM 更容易集成到现有 MLOps 流程中，无论是 Kubernetes 还是 Ray Serve，都能顺畅运行。

量化全面进化：FP8、W4A8、CompressedTensors 三箭齐发

低精度推理是降低成本的关键路径。vLLM 0.11.0 在量化领域取得重大进展。

FP8：迈向极致效率

支持每 token 组量化（#24342）
利用硬件指令加速 float→fp8_e4m3 转换（#24757）
torch.compile 支持 FP8 KV 缓存（#22758）
分页注意力支持 FP8 更新（#22222）

FP8 不仅降低显存占用，还提升了带宽利用率。配合新一代 GPU 的张量核心，推理速度可大幅提升。

W4A8 与 NVFP4：兼顾精度与性能

W4A8 预处理时间加速（#23972）
NVFP4 支持 Gemma3、Llama 3.1 405B 等稠密模型（#22771, #25135）

W4A8（4-bit weights + 8-bit activations）是一种实用主义选择，在保持较高精度的同时大幅压缩模型体积。NVFP4 则是 NVIDIA 专属格式，针对其硬件做了深度优化。

CompressedTensors：结构化稀疏与块状量化

支持 MoE 模型的块状 FP8 量化（#25219）
重构密集 FP8 张量工具链（#21404）

CompressedTensors 是一种新兴的压缩格式标准，支持混合精度、稀疏结构、分组量化等高级特性。vLLM 的集成意味着它可以处理更复杂的量化模型，而不局限于简单的 GPTQ/AWQ。

API 与前端：OpenAI 兼容性再升级

作为生产级推理网关，vLLM 必须提供稳定、直观、兼容性强的 API。

OpenAI 接口增强

支持返回所有 prompt 的 logprobs（#24956）
logprobs=-1表示返回完整词表概率分布（#25031）
流式响应支持推理事件通知（#24938）
引擎宕机时/health返回503（#24897）

这些细节看似微小，却极大提升了系统的可观测性和调试便利性。

多模态输入标准化

Media UUID 缓存机制（#23950）：避免重复加载相同媒体资源
图片路径支持'path'字段（#25081）：简化本地文件引用
EVS 视频 token 剪枝（#22980）：减少冗余计算

输入接口的规范化，使得客户端开发更加简洁可靠。

CLI 与日志改进

CLI 支持--enable-logging开关（#25610）
--help输出更清晰、结构化（#24903）

命令行工具不再是“附属品”，而是成为调试和部署的重要入口。

安全与依赖更新：稳健前行

任何生产系统都不能忽视安全与依赖管理。

安全修复

修复 GHSA-wr9h-g72x-mwhm（CVE 关联漏洞）

该漏洞涉及恶意 payload 导致的资源耗尽风险，已在新版中彻底解决。

核心依赖升级

组件	新版本	说明
PyTorch	2.8 (CPU)	#25652
FlashInfer	0.3.1	#24470
CUDA	13	#24599
ROCm	7.0	#25178

⚠️ 构建要求：全局强制使用 C++17（#24823）

依赖更新确保了与最新工具链的兼容性，也为未来功能预留了空间。

结语：从推理加速器到智能基础设施

vLLM 0.11.0 的发布，标志着它已经超越了“单纯提速”的范畴，成长为一个集高性能、高可用、多功能于一体的 AI 推理基础设施。

它不再只是一个库，而是一个可以支撑企业级 AI 应用的服务底座。无论你是要部署一个多语言客服机器人、一个视觉问答系统，还是一个自动化编程助手，vLLM 都能提供从模型加载、批处理调度、量化压缩到多模态交互的完整解决方案。

更重要的是，它的架构越来越清晰，社区越来越活跃，生态越来越健全。这种“统一、高效、智能”的发展方向，正是大模型时代所需要的。

如果你还在用传统方式部署大模型，不妨试试 vLLM 0.11.0。也许你会发现，那个曾经让你头疼的“推理瓶颈”，其实早已有了更好的答案。

📌立即体验最新特性：
👉 GitHub Release v0.11.0

欢迎加入 vLLM 社区，共同推动大模型推理技术的发展！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

铁岭市网站建设_网站建设公司_企业官网_seo优化

vLLM 0.11.0 发布：全面移除 V0 引擎，性能与多模态支持再升级

彻底告别 V0：迈向统一架构的新时代

性能飞跃：默认启用 FULL_AND_PIECEWISE CUDA Graph 模式

支持更多前沿模型：覆盖文本、视觉、音频与工具链

新增主流模型架构

多模态能力强化

工具调用与结构化输出

V1 引擎深度进化：不只是快，更要稳、要省

KV 缓存卸载：应对显存瓶颈的利器

Prompt Embedding 输入支持：避免重复编码

FlexAttention 与 RoPE 加速：编译级优化登场

分片状态加载与 LoRA 权重优化

全平台硬件支持：不止于 NVIDIA

🟩 NVIDIA：继续领跑

🟨 AMD ROCm：稳步前进

💜 Intel XPU：悄然发力

🟫 RISC-V 与 ARM：拥抱开放生态

生产级服务能力：高吞吐、低延迟、易运维

双批次重叠（DBO）：计算与通信零等待

EPLB：专家并行负载均衡

分布式启动与部署友好性

量化全面进化：FP8、W4A8、CompressedTensors 三箭齐发

FP8：迈向极致效率

W4A8 与 NVFP4：兼顾精度与性能

CompressedTensors：结构化稀疏与块状量化

API 与前端：OpenAI 兼容性再升级

OpenAI 接口增强

多模态输入标准化

CLI 与日志改进

安全与依赖更新：稳健前行

安全修复

核心依赖升级

结语：从推理加速器到智能基础设施

热门文章

文章分类

标签云

需要专业的网站建设服务？

铁岭市网站建设_网站建设公司_企业官网_seo优化

vLLM 0.11.0 发布：全面移除 V0 引擎，性能与多模态支持再升级

彻底告别 V0：迈向统一架构的新时代

性能飞跃：默认启用 FULL_AND_PIECEWISE CUDA Graph 模式

支持更多前沿模型：覆盖文本、视觉、音频与工具链

新增主流模型架构

多模态能力强化

工具调用与结构化输出

V1 引擎深度进化：不只是快，更要稳、要省

KV 缓存卸载：应对显存瓶颈的利器

Prompt Embedding 输入支持：避免重复编码

FlexAttention 与 RoPE 加速：编译级优化登场

分片状态加载与 LoRA 权重优化

全平台硬件支持：不止于 NVIDIA

🟩 NVIDIA：继续领跑

🟨 AMD ROCm：稳步前进

💜 Intel XPU：悄然发力

🟫 RISC-V 与 ARM：拥抱开放生态

生产级服务能力：高吞吐、低延迟、易运维

双批次重叠（DBO）：计算与通信零等待

EPLB：专家并行负载均衡

分布式启动与部署友好性

量化全面进化：FP8、W4A8、CompressedTensors 三箭齐发

FP8：迈向极致效率

W4A8 与 NVFP4：兼顾精度与性能

CompressedTensors：结构化稀疏与块状量化

API 与前端：OpenAI 兼容性再升级

OpenAI 接口增强

多模态输入标准化

CLI 与日志改进

安全与依赖更新：稳健前行

安全修复

核心依赖升级

结语：从推理加速器到智能基础设施

热门文章

文章分类

标签云

相关文章

使用两个栈来实现一个队列

2026中专直播电商，考什么证书找工作有优势？

告别听不清困境，声网STT让每一次沟通都被精准捕捉

需要专业的网站建设服务？