13.7 多模态生成模型:CLIP、DALL-E、Stable Diffusion原理
多模态生成模型旨在理解并生成跨越不同模态(如文本与图像)的内容。本节聚焦于三个里程碑式的工作:CLIP作为跨模态理解的基础,DALL-E作为基于自回归架构的文本到图像生成模型,以及Stable Diffusion作为基于潜在扩散模型的文本到图像生成框架。三者共同构成了现代多模态生成系统的技术基石。
13.7.1 CLIP:跨模态对比学习与联合表征
CLIP(Contrastive Language–Image Pre-training)的核心思想是通过海量的“图像-文本对”进行对比学习,构建一个能够对齐视觉与语言概念的共享表示空间,从而实现开放世界的零样本识别能力[1]。
模型架构与训练目标:
CLIP采用双编码器结构:一个图像编码器(如Vision Transformer或ResNet)将图像III映射为特征向量vI\mathbf{v}_IvI;一个文本编码器(如Transformer)将文本描述TTT映射为特征向量vT\mathbf{v}_TvT。模型的目标是使得配对(I,T)(I, T)(I,T)的特征相似度远高于非配对组合。
给定一个包含NNN个“图像-文本对”的批次,CLIP的对称对比损失函数如下:
Lcontrast=12[Limage+Ltext] \mathcal{L}_{contrast} = \frac{1}{2} \left[ \mathcal{L}_{image} + \mathcal{L}_{text} \right]Lcontrast=21[Limage+Ltext]
其中:
Limage=−1N∑i=1Nlogexp(vIi⋅vTi/τ)∑j=1Nexp(vIi⋅vTj/τ) \mathcal{L}_{image} = -\frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(\mathbf{v}_{I_i} \cdot \mathbf{v}_{T_i} / \tau)}{\sum_{j=1}^{N} \exp(\mathbf{v}_{I_i} \cdot \mathbf{v}_{T_j} / \tau)}Limage=−N1i=1∑Nlog∑j=1Nexp(