白山市网站建设_网站建设公司_模板建站_seo优化
2026/1/18 17:02:44 网站建设 项目流程

BLIP-2是一种高效的视觉-语言预训练框架,通过轻量级Q-Former桥接冻结的图像编码器和大型语言模型。该方法计算高效(仅训练Q-Former)、通用性强(适配不同编码器和LLM),采用分阶段预训练解决模态鸿沟问题。Q-Former利用可学习查询向量从图像中提取关键信息,压缩为32个视觉表征传递给LLM,但存在信息损失和视觉信息不足的缺陷。


  1. 核心思想
    =======

BLIP-2 提出了一种高效的视觉-语言预训练框架,利用冻结的预训练图像编码器和大型语言模型(LLM),通过轻量级 Querying Transformer(Q-Former) 桥接两者的模态差异。其核心优势在于:

  • 计算高效:冻结图像编码器和 LLM,仅训练 Q-Former,显著减少参数量和训练成本。
  • 通用性:可灵活适配不同预训练图像编码器(如 CLIP-ViT、EVA-CLIP)和 LLM(如 OPT、FlanT5)。
  • 分阶段预训练:分两阶段逐步对齐视觉与语言模态,解决冻结模型的模态鸿沟问题
  1. 模型结构
    =======

BLIP-2 通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级查询 Transformer(Query Transformer,Q-Former)来对齐视觉和语言模型之间的模态。在整个模型中,Q-Former(也包括Q-Former之后的MLP)是唯一的可训练模块,而图像编码器和语言模型始终保持冻结状态。

  • 与冻结的图像编码器交互的图像 transformer,用于视觉特征提取
  • 文本 transformer(本质就是bert结构),用作文本编码器和解码器

  • 图像 transformer 从图像编码器中提取固定数量的输出特征。
  • 同时,图像transformer 接收若干查询嵌入作为输入,这些查询嵌入是可训练的。
  • 这些查询还可以通过共享的自注意力层与文本进行交互。
  1. 模型训练
    =======

Q-Former 分两个阶段进行预训练。第一阶段,图像编码器被冻结,Q-Former通过三个损失函数进行训 练,并且使用三个不同的Mask以防止Attention信息泄漏(因为Attention权重是共享的):

  • Image-Text Contrastive Learning(ITC) loss:这个跟CLIP是一样的。通过对比正例与负例的图文相似度来最大化图像与文本的互信息。用单模态自注意力屏蔽使得query与文本各自独立学习特征,再从多个query中选取最高相似度与文本嵌入对齐,从而提升图文对齐能力。
  • Image-Text Matching(ITM) loss:在ITM任务中,模型需要通过一个二分类任务判断一对图像和文本是否匹配。采取的负样本挖掘策略是AlBEF采用的,即挖掘每一个batch里面,除了正样本外相似度最高的负样本。样本采用双向自注意力让query 与文本互相可见,并将所有query的输出经过线性分类器后取平均作为匹配分数,同时通过硬负例挖掘强化模型对图文细粒度对齐的判别能力。
  • Image-grounded Text Generation(ITG) loss:用于训练Q-Former 模型在给定输入图像条件下生成文本。在注意力机制上,queries 之间互相可见但是不能看到文本token,而文本 token可以看到所有的 queries以及它之前的文本token。此外将CLS token 替换为DEC token 以便提示模型进行解码任务。

通过第一阶段的训练,Query已经能够理解图片的含义了,接下来就是让LLM也能够理解图片信息,因此作者针对两类不同LLM设计了不同的任务:

  • Decoder 类型的LLM(如OPT):以Query做输入,文本做目标;
  • Encoder-Decoder类型的LLM(如FlanT5):以Query 和一句话的前半段做输入,以后半段做目标; 因为不同模型的embedding维度不同,所以这里还加上了一个全连接层。

```plaintext
BLIP2的缺陷点:作为模态间的连接器来对齐图像和文本,Q-Former并不是一个很好的方案,它使用了image queries来对图像进行抽取,希望基于给定的text prompt来精炼图像信息。但现在从理论和实验角度都证明,这样做实际上是有损压缩,这样会导致:1. 视觉信息不足,不利于细粒度识别任务,比如DocVQA;2. 有损压缩后,对视觉信息识别不够丰富,会强化模型的幻觉,有时候会按照LLM中的先验知识胡说八道。

作为图像-文本信息的对齐层,Projector使用MLP或者cross attention都会比Q-Former来得更好。

  1. Q-Former实现细节
    ================

4.1 Q-Former是什么

Q-Former(Querying Transformer)是一个轻量级的、可独立训练的Transformer模块,其作用是作为 “桥梁”,将一个冻结的图像编码器(如 ViT)提取的视觉特征,转化为一组能够被冻结的大语言模型(LLM)理解的视觉表示。 它并不直接生成最终的文本输出,而是通过一组可学习的查询向量(learned queries)去“询问”图像编码器,提取最关键、最与语言相关的信息,并以一种“语言友好”的方式传递给 LLM。

4.2 Q-Former 的架构设计

Q-Former 由两个共享自注意力层的子模块组成:

  1. Image Transformer(图像变换器)
  2. Text Transformer(文本变换器) 这两个子模块共享同一组自注意力层的参数,从而实现统一的注意力机制。

4.3 输入与结构细节

4.3.1. 输入组件

  • 图像输入:来自冻结图像编码器(如 ViT-L/14)的倒数第二层的 patch 特征(例如)。
  • 文本输入:原始文本 token(例如描述或问题)。
  • 可学习查询向量(Learned Queries):一组 个(实验中通常设为 32)可训练的嵌入向量,维度为 768(与 Q-Former 的隐藏层一致)。这些不是数据,而是模型参数。

4.3.2. 交叉注意力机制:

  • 每隔一个 Transformer block,Q-Former 插入一个交叉注意力层(Cross-Attention),让可学习的查询(queries)与图像编码器输出的视觉特征进行交互。
  • 查询向量通过交叉注意力,从图像中提取最相关的视觉信息。
  • 自注意力机制:
  • 查询之间通过自注意力层进行交互,使它们能协作地“讨论”要提取什么信息。
  • 根据不同训练目标,控制查询与文本之间的交互方式(通过注意力掩码实现)。

4.3.3. 输出

  • Q-Former 输出 的查询表示 (对于 N=32)。
  • 这是一个固定长度、紧凑、语义丰富的视觉表征,可以看作是“图像的本质摘要”,专门为了与语言模型交互而优化。

✅ 关键点:输入图像可能有上千个 patch,但 Q-Former 通过查询机制,只提取出 32 个最相关的“视觉提示”,极大地压缩了信息并聚焦于语言相关的内容。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询