白山市网站建设_网站建设公司_模板建站_seo优化-台湾省网站建设公司

BLIP-2是一种高效的视觉-语言预训练框架，通过轻量级Q-Former桥接冻结的图像编码器和大型语言模型。该方法计算高效（仅训练Q-Former）、通用性强（适配不同编码器和LLM），采用分阶段预训练解决模态鸿沟问题。Q-Former利用可学习查询向量从图像中提取关键信息，压缩为32个视觉表征传递给LLM，但存在信息损失和视觉信息不足的缺陷。

核心思想
=======

BLIP-2 提出了一种高效的视觉-语言预训练框架，利用冻结的预训练图像编码器和大型语言模型（LLM），通过轻量级 Querying Transformer（Q-Former）桥接两者的模态差异。其核心优势在于：

计算高效：冻结图像编码器和 LLM，仅训练 Q-Former，显著减少参数量和训练成本。
通用性：可灵活适配不同预训练图像编码器（如 CLIP-ViT、EVA-CLIP）和 LLM（如 OPT、FlanT5）。
分阶段预训练：分两阶段逐步对齐视觉与语言模态，解决冻结模型的模态鸿沟问题

模型结构
=======

BLIP-2 通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级查询 Transformer(Query Transformer,Q-Former)来对齐视觉和语言模型之间的模态。在整个模型中,Q-Former(也包括Q-Former之后的MLP)是唯一的可训练模块,而图像编码器和语言模型始终保持冻结状态。

与冻结的图像编码器交互的图像 transformer,用于视觉特征提取
文本 transformer(本质就是bert结构),用作文本编码器和解码器

图像 transformer 从图像编码器中提取固定数量的输出特征。
同时,图像transformer 接收若干查询嵌入作为输入,这些查询嵌入是可训练的。
这些查询还可以通过共享的自注意力层与文本进行交互。

模型训练
=======

Q-Former 分两个阶段进行预训练。第一阶段,图像编码器被冻结,Q-Former通过三个损失函数进行训练,并且使用三个不同的Mask以防止Attention信息泄漏(因为Attention权重是共享的):

Image-Text Contrastive Learning(ITC) loss:这个跟CLIP是一样的。通过对比正例与负例的图文相似度来最大化图像与文本的互信息。用单模态自注意力屏蔽使得query与文本各自独立学习特征,再从多个query中选取最高相似度与文本嵌入对齐,从而提升图文对齐能力。
Image-Text Matching(ITM) loss:在ITM任务中,模型需要通过一个二分类任务判断一对图像和文本是否匹配。采取的负样本挖掘策略是AlBEF采用的,即挖掘每一个batch里面,除了正样本外相似度最高的负样本。样本采用双向自注意力让query 与文本互相可见,并将所有query的输出经过线性分类器后取平均作为匹配分数,同时通过硬负例挖掘强化模型对图文细粒度对齐的判别能力。
Image-grounded Text Generation(ITG) loss:用于训练Q-Former 模型在给定输入图像条件下生成文本。在注意力机制上,queries 之间互相可见但是不能看到文本token,而文本 token可以看到所有的 queries以及它之前的文本token。此外将CLS token 替换为DEC token 以便提示模型进行解码任务。

通过第一阶段的训练,Query已经能够理解图片的含义了,接下来就是让LLM也能够理解图片信息,因此作者针对两类不同LLM设计了不同的任务:

Decoder 类型的LLM(如OPT):以Query做输入,文本做目标;
Encoder-Decoder类型的LLM(如FlanT5):以Query 和一句话的前半段做输入,以后半段做目标; 因为不同模型的embedding维度不同,所以这里还加上了一个全连接层。

```plaintext
BLIP2的缺陷点:作为模态间的连接器来对齐图像和文本,Q-Former并不是一个很好的方案,它使用了image queries来对图像进行抽取,希望基于给定的text prompt来精炼图像信息。但现在从理论和实验角度都证明,这样做实际上是有损压缩,这样会导致:1. 视觉信息不足,不利于细粒度识别任务,比如DocVQA;2. 有损压缩后,对视觉信息识别不够丰富,会强化模型的幻觉,有时候会按照LLM中的先验知识胡说八道。

作为图像-文本信息的对齐层,Projector使用MLP或者cross attention都会比Q-Former来得更好。

Q-Former实现细节
================

4.1 Q-Former是什么

Q-Former（Querying Transformer）是一个轻量级的、可独立训练的Transformer模块，其作用是作为 “桥梁”，将一个冻结的图像编码器（如 ViT）提取的视觉特征，转化为一组能够被冻结的大语言模型（LLM）理解的视觉表示。它并不直接生成最终的文本输出，而是通过一组可学习的查询向量（learned queries）去“询问”图像编码器，提取最关键、最与语言相关的信息，并以一种“语言友好”的方式传递给 LLM。

4.2 Q-Former 的架构设计

Q-Former 由两个共享自注意力层的子模块组成：

Image Transformer（图像变换器）
Text Transformer（文本变换器）这两个子模块共享同一组自注意力层的参数，从而实现统一的注意力机制。

4.3 输入与结构细节

4.3.1. 输入组件

图像输入：来自冻结图像编码器（如 ViT-L/14）的倒数第二层的 patch 特征（例如）。
文本输入：原始文本 token（例如描述或问题）。
可学习查询向量（Learned Queries）：一组个（实验中通常设为 32）可训练的嵌入向量，维度为 768（与 Q-Former 的隐藏层一致）。这些不是数据，而是模型参数。

4.3.2. 交叉注意力机制：

每隔一个 Transformer block，Q-Former 插入一个交叉注意力层（Cross-Attention），让可学习的查询（queries）与图像编码器输出的视觉特征进行交互。
查询向量通过交叉注意力，从图像中提取最相关的视觉信息。
自注意力机制：

查询之间通过自注意力层进行交互，使它们能协作地“讨论”要提取什么信息。
根据不同训练目标，控制查询与文本之间的交互方式（通过注意力掩码实现）。

4.3.3. 输出

Q-Former 输出的查询表示（对于 N=32）。
这是一个固定长度、紧凑、语义丰富的视觉表征，可以看作是“图像的本质摘要”，专门为了与语言模型交互而优化。

✅ 关键点：输入图像可能有上千个 patch，但 Q-Former 通过查询机制，只提取出 32 个最相关的“视觉提示”，极大地压缩了信息并聚焦于语言相关的内容。

白山市网站建设_网站建设公司_模板建站_seo优化

4.1 Q-Former是什么

4.2 Q-Former 的架构设计

4.3 输入与结构细节

4.3.1. 输入组件

4.3.2. 交叉注意力机制：

4.3.3. 输出

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

热门文章

文章分类

标签云

需要专业的网站建设服务？

白山市网站建设_网站建设公司_模板建站_seo优化

4.1 Q-Former是什么

4.2 Q-Former 的架构设计

4.3 输入与结构细节

4.3.1. 输入组件

4.3.2. 交叉注意力机制：

4.3.3. 输出

热门文章

文章分类

标签云

相关文章

程序员必看：大模型时代如何突围？从地铁求职广告看AI转型之路

从“需求解读员“到“大模型兜底侠“：我的AI产品实践 | 程序员必藏

springboot的智能民宿预定与游玩系统设计与实现

需要专业的网站建设服务？