安徽省网站建设_网站建设公司_Photoshop_seo优化-台东县网站建设公司

Qwen2.5-VL模型通过原生动态分辨率ViT、Window Attention和高效Patch Merger技术解决了高分辨率输入的计算不可扩展性问题；采用绝对坐标建模和Multimodal RoPE实现了真实尺度感知和绝对时间对齐；三阶段预训练范式逐步构建视觉表示、跨模态对齐和长上下文理解能力；最终实现了在文档、视频和Agent任务上的统一建模，为多模态AI应用提供了新的技术路径。

Qwen2.5-VL 模型围绕精细化视觉感知、原生尺度建模与长时序视频理解三大目标，对传统 Vision-Language 架构进行了系统性重构。与以往依赖固定分辨率、相对坐标与隐式时间建模的多模态模型不同，Qwen2.5-VL 通过原生动态分辨率 ViT、Window Attention、高效 Patch Merger 以及对齐绝对时间的 Multimodal RoPE（MRoPE），在保持计算可控的前提下显著提升了空间与时间理解能力。

模型参数

模型架构概览
=========

Qwen2.5-VL 采用经典的Vision Encoder + Vision-Language Merger + LLM Decoder三段式结构，其整体框架Figure 1所示。

模型架构

该架构的核心设计目标并非简单堆叠能力，而是解决当前 LVLM 面临的三个根本问题：

高分辨率输入导致的计算不可扩展性
视觉空间与真实物理尺度之间的脱节
视频时间建模依赖帧序而非真实时间
Vision Encoder：面向原生分辨率的高效 ViT 设计
===================================

2.1 设计动机

传统多模态模型通常采用以下策略之一：

将图像强制 resize 到固定尺寸（如 224×224、336×336）
依赖相对坐标或归一化坐标建模空间关系

这类设计在高分辨率文档、复杂 UI 界面以及细粒度定位任务中会引入不可逆的信息损失。Qwen2.5-VL 的 Vision Encoder 明确选择了一条更具挑战性的路径：原生分辨率输入（Native Resolution）。

2.2 Patch 划分与 Token 生成

输入图像以固定 patch 尺寸进行划分：

对于尺寸为 () 的图像，其视觉 token 数为：

其中：

(H, W) 为图像真实像素尺寸
不引入任何强制 resize 或 padding 到固定大小

该设计为后续绝对坐标建模与真实尺度感知提供了必要前提。

2.3 Window Attention：从二次复杂度到线性扩展

原生分辨率带来的直接挑战是 Self-Attention 的二次复杂度：

为此，Qwen2.5-VL 对 ViT 进行了关键性重构：

仅 4 层使用 Full Self-Attention[ {7, 15, 23, 31} ]
其余层采用Window Attention

窗口大小为：

Window Attention 的计算复杂度可近似写为：

其中：

(W) 为窗口内 patch 数（常数）
总复杂度随 token 数线性增长

这一设计在保持原生分辨率感知能力的同时，有效抑制了计算成本的爆炸式增长。相关结构可直接参考Figure 1 中 Vision Encoder 模块。

2.4 空间位置建模：2D Rotary Position Embedding

为显式建模二维空间关系，Qwen2.5-VL 在视觉侧采用2D-RoPE：

其中：

()：高度方向位置编码
()：宽度方向位置编码

该机制不仅避免了传统绝对位置 embedding 的插值问题，也为多模态位置统一（MRoPE）奠定了结构基础。

2.5 视频扩展：3D Patch 与时间降采样

对于视频输入，Qwen2.5-VL 将时间维度显式纳入视觉编码阶段：

两帧连续图像合并为一个 temporal patch
Patch 形态为：

该设计在保证时间连续性的同时，显著减少了输入到 LLM 的 token 数，提升了长视频处理效率。

2.6 LLM 风格 ViT Block：跨模态一致性的结构性对齐

2.6.1. 设计背景与动机

在传统 Vision Transformer（ViT）设计中，视觉编码器通常采用与语言模型完全不同的一套 block 结构，典型特征包括：

LayerNorm 而非 RMSNorm
GELU / ReLU 激活
与 LLM 不一致的参数初始化与数值尺度

这种“视觉–语言结构割裂”的设计，在纯视觉任务中问题不大，但在Vision-Language Model（VLM）中会引发两个隐性问题：

跨模态表示分布不一致视觉特征在注入 LLM 前，往往需要额外的 scale / projection 才能稳定工作
多阶段训练数值稳定性不足特别是在长序列、多模态混合训练中，梯度与激活分布更容易失控

Vision Encoder 的 block 结构应尽可能与 LLM 对齐，从而在结构层面缩小模态差异。

2.6.2. 结构设计：与 Qwen2.5 LLM 对齐的 ViT Block

Qwen2.5-VL 的 Vision Transformer Block 在结构上刻意模仿 Qwen2.5 LLM Decoder Block，核心体现在两个方面：

（1）RMSNorm 替代 LayerNorm

每个 ViT Block 使用RMSNorm而非 LayerNorm：

其中：

()：输入特征
()：可学习缩放参数
不使用均值中心化（no mean subtraction）

动机：

与 Qwen2.5 LLM 保持完全一致
在大模型与长序列场景下数值更稳定

class Qwen2_5_VLVisionBlock(GradientCheckpointingLayer): def __init__(self, config): self.norm1 = Qwen2RMSNorm(config.hidden_size, eps=1e-6) self.attn = Qwen2_5_VLVisionAttention(config) self.norm2 = Qwen2RMSNorm(config.hidden_size, eps=1e-6) self.mlp = Qwen2_5_VLMLP(config, bias=True)

可以看到：

两次 RMSNorm（attention 前 + MLP 前）
block 结构为典型的Pre-Norm Transformer
与 Qwen2.5 LLM Decoder 的 block 结构完全同构

（2）SwiGLU 前馈网络（FFN）

ViT 中的 MLP 被设计为SwiGLU（SiLU-Gated Linear Unit）形式：

其中：

()：gate projection
()：up projection
()：down projection
()：逐元素乘法

相比传统 GELU FFN，SwiGLU 具有：

更强的非线性表达能力
更平滑的梯度流
与 Qwen2.5 LLM 的前馈结构完全一致

class Qwen2_5_VLMLP(nn.Module): def forward(self, hidden_state): return self.down_proj( self.act_fn(self.gate_proj(hidden_state)) * self.up_proj(hidden_state) )

对应数学形式中的：

() →gate_proj
() →up_proj
SiLU →self.act_fn
() →down_proj

Vision-Language Merger：高效的 Patch 压缩机制
========================================

3.1 设计动机

即便使用 Window Attention，高分辨率图像仍会产生大量视觉 token。若直接送入 LLM，将显著增加推理成本。

Qwen2.5-VL 的策略是：

在视觉侧完成 token 压缩，而非依赖 LLM 消化冗余视觉序列。

3.2 Patch 分组与 MLP 投影

具体方法如下：

空间相邻的 4 个 patch 分为一组：
特征拼接：
两层 MLP 投影：

其中：

输入维度：()
输出维度：与 LLM hidden size 对齐（2048 / 3584 / 8192）

该 Merger 在不引入复杂跨模态注意力的前提下，大幅降低视觉 token 数量，是 Qwen2.5-VL 计算效率的重要保障。

LLM 与 Multimodal RoPE（MRoPE）
===============================

4.1 MRoPE 的三维拆解

Qwen2.5-VL 在 Qwen2-VL 的基础上，继续采用并扩展Multimodal Rotary Position Embedding：

文本 token：

等价于

图像 token：

() 固定
(, ) 反映空间位置

视频 token：

() 随时间变化
(, ) 同图像

4.2 绝对时间对齐：Qwen2.5-VL 的关键升级

在 Qwen2-VL 中：

这意味着：

不同 FPS 视频具有不同的时间语义

Qwen2.5-VL 的核心改进是：

即：

时间间隔本身成为模型可感知信号
FPS 差异不再破坏时间一致性

这一机制使模型能够实现：

秒级事件定位
小时级长视频理解

相关示意可直接参考Figure 1 中时间轴对齐示意。

三阶段预训练范式
===========

Qwen2.5-VL 的预训练共分为三个阶段（Table 2），体现出明显的能力渐进式构建思路。

5.1 阶段一：Visual Pre-Training

训练目标：构建稳定、高泛化的视觉表示
参数更新：仅 ViT
数据：Image Caption、Visual Knowledge、OCR
序列长度：8192

5.2 阶段二：Multimodal Pre-Training

训练目标：建立深度跨模态对齐
参数更新：ViT + LLM 全参数
数据：Interleaved、VQA、Grounding、Video、Agent
序列长度：8192

5.3 阶段三：Long-Context Pre-Training

训练目标：长上下文、多步推理、长视频理解
数据：Long Video、Long Agent、Long Document
序列长度：

后训练：SFT + DPO 的双阶段对齐
=======================

6.1 Supervised Fine-Tuning（SFT）

数据规模：约 200 万
模态比例：50% 文本 / 50% 多模态
使用 ChatML 格式
引入拒绝采样以强化 CoT 推理质量
ViT 冻结，仅优化 LLM

6.2 Direct Preference Optimization（DPO）

基于人类偏好对
强化有用性与安全性
每样本仅使用一次，避免过拟合

总结
=====

Qwen2.5-VL 的贡献并非单点创新:

空间上：原生分辨率 + 绝对坐标
时间上：绝对时间对齐的 MRoPE
效率上：Window Attention + Patch Merger
能力上：文档、视频、Agent 的统一建模

安徽省网站建设_网站建设公司_Photoshop_seo优化

2.1 设计动机

2.2 Patch 划分与 Token 生成

2.3 Window Attention：从二次复杂度到线性扩展

2.4 空间位置建模：2D Rotary Position Embedding

2.5 视频扩展：3D Patch 与时间降采样

2.6 LLM 风格 ViT Block：跨模态一致性的结构性对齐

2.6.1. 设计背景与动机

2.6.2. 结构设计：与 Qwen2.5 LLM 对齐的 ViT Block

（1）RMSNorm 替代 LayerNorm

（2）SwiGLU 前馈网络（FFN）

3.1 设计动机

3.2 Patch 分组与 MLP 投影

4.1 MRoPE 的三维拆解

4.2 绝对时间对齐：Qwen2.5-VL 的关键升级

5.1 阶段一：Visual Pre-Training

5.2 阶段二：Multimodal Pre-Training

5.3 阶段三：Long-Context Pre-Training

6.1 Supervised Fine-Tuning（SFT）

6.2 Direct Preference Optimization（DPO）

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

安徽省网站建设_网站建设公司_Photoshop_seo优化

2.1 设计动机

2.2 Patch 划分与 Token 生成

2.3 Window Attention：从二次复杂度到线性扩展

2.4 空间位置建模：2D Rotary Position Embedding

2.5 视频扩展：3D Patch 与时间降采样

2.6 LLM 风格 ViT Block：跨模态一致性的结构性对齐

2.6.1. 设计背景与动机

2.6.2. 结构设计：与 Qwen2.5 LLM 对齐的 ViT Block

（1）RMSNorm 替代 LayerNorm

（2）SwiGLU 前馈网络（FFN）

3.1 设计动机

3.2 Patch 分组与 MLP 投影

4.1 MRoPE 的三维拆解

4.2 绝对时间对齐：Qwen2.5-VL 的关键升级

5.1 阶段一：Visual Pre-Training

5.2 阶段二：Multimodal Pre-Training

5.3 阶段三：Long-Context Pre-Training

6.1 Supervised Fine-Tuning（SFT）

6.2 Direct Preference Optimization（DPO）

热门文章

文章分类

标签云

相关文章

【课程设计/毕业设计】基于python-CNN训练识别蔬菜是否新鲜基于python-CNN深度学习训练识别蔬菜是否新鲜

从参数竞赛到场景落地，收藏级干货助程序员和小白全面掌握AI大模型市场

深度学习毕设项目推荐-基于python_CNN卷积神经网络识别花卉

需要专业的网站建设服务？