盐城市网站建设_网站建设公司_CSS_seo优化
2025/12/23 21:56:21 网站建设 项目流程

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

2 方法论
我们提出了VL-JEPA(图1),这是一种用于视觉语言任务的具有联合嵌入预测架构(JEPA)的模型。 VL-JEPA 使用三元组
\((X_V,X_Q,Y)\)
进行训练,其中
\(X_V\)
表示视觉输入(单个图像或视频帧序列),
\(X_Q\)
是文本查询(即问题),
Y
是文本目标 (即答案)要预测。 VL-JEPA 由四个组件组成:

  1. X-Encoder
    (
    X
    V

    S
    V
    )
    将大量视觉输入压缩为紧凑的视觉嵌入——类似于经典 VLM 中的“视觉标记”的连续向量序列。
  2. 预测器
    (

    S
    V
    ,
    X
    Q


    S
    hat
    Y
    )
    是VL-JEPA的核心组件。 它将视觉嵌入映射到目标嵌入的预测,并以文本查询作为条件。
  3. Y-Encoder
    (
    Y

    S
    Y
    )
    将文本目标嵌入到连续的潜在空间中作为预测目标。 目标嵌入有望抽象出与任务无关的信息。
  4. Y-Decoder
    (
    S
    hat
    Y

    Y
    hat
    )
    在VL-JEPA的主要训练阶段不参与。 在推理时,它会在必要时将预测的嵌入转换为人类可读的文本。
    图2说明了我们如何实例化本文中的VL-JEPA架构。 对于 X-Encoder,我们选择了 V-JEPA 2 (Assran 等人,2025),这是一个视觉 Transformer,它输出一系列视觉标记,然后将其投影并输入到使用 Llama 3 Transformer 层初始化的 Predictor 中。 查询调节是通过标记化和嵌入文本查询并将生成的文本标记嵌入与视觉嵌入一起输入到 Predictor 中来实现的。 Llama 3 Transformer 层的输出被池化并投影到由 EmbeddingGemma-300M (Vera 等人, 2025) 初始化的 Y-Encoder 生成的目标嵌入空间中。 我们在§LABEL:sec:implementation_details中提供了更多技术细节。

培训目标。 JEPA 模型通常联合优化两个目标:1)嵌入空间中的预测误差,2)避免表示崩溃的额外正则化(Bardes 等人,2021;Balestriero 和 LeCun,2025)。 任何实现这两个属性的损失都可以应用于 VL-JEPA。 或者,正则化项可以用其他防崩溃策略代替,例如对Y-Encoder(Assran等人,2025)使用指数移动平均(EMA)或冻结Y-Encoder(Zhou等人,2025)。

在这项工作中,由于 InfoNCE 损失 (Radford 等人,2021) 由于其在视觉语言领域的成熟度,我们采用了它。 更先进的非样本对比正则化,例如 VICReg (Bardes 等人,2021) 和 SIGReg (Balestriero and LeCun, 2025) 也可以应用,但我们将探索留给未来的工作。 InfoNCE 损失可以在数学上分为(Wang 和 Isola,2020):1)表示对齐项,它最小化归一化预测和目标嵌入之间的距离;2)均匀性正则化项,将批次中的嵌入彼此分开,从而避免表示崩溃。 我们使用双向 InfoNCE 损失联合训练 预测器 和 Y 编码器,使它们能够相互学习。

与生成式 VLM 使用的标记空间损失相比,由于简化的目标分布,计算嵌入空间中的训练损失是有益的。 具体来说,许多现实世界的预测任务本质上是不适定的:对于相同的输入
X
,可能存在多个都可以接受的合理目标
Y
。 例如,假设查询“如果我向下扳动灯开关,会发生什么?”,“灯已关闭” 和 “房间将变暗” 都是有效答案。 然而,在原始的独热 Token 空间中,两个序列是正交的,因为它们不共享重叠的 Token 。 但是,当 VL-JEPA 的 Y-Encoder 将它们嵌入到附近的点(理想情况下产生紧凑的单峰分布)时,学习任务变得更加容易:模型不再需要在稀疏标记空间中拟合多个不相交的高密度区域,而只需要在连续嵌入空间中拟合单个相干模式。

多任务处理。 VL-JEPA 使用单一、统一架构支持多种任务(图2)。 对于视觉文本到文本生成任务,例如字幕或开放式 VQA,查询
X
Q
是字幕提示或问题,预测器学习预测目标输出
S
hat
Y
的嵌入,然后将其解码为文本。 VL-JEPA 还支持 CLIP 式开放词汇分类和判别性 VQA,其中候选标签文本被编码到嵌入中,并与预测
S
hat
Y
进行比较以选择最接近的匹配。 对于文本到视频检索,使用检索字幕提示将候选视频映射到其预测嵌入
S
hat
Y
,然后根据与编码的文本检索查询的相似性进行排名。

选择性解码。 现实世界的视频应用通常需要在线流式推理,例如跟踪智能眼镜中的用户操作以提供程序协助(Chen等人,2024c),监控世界状态以进行在线规划、导航和机器人(Shukor等人,2025;Black等人,2025;Song等人,2025)。 一个核心挑战是平衡两个相互竞争的需求:模型必须在新帧到达时不断更新语义,但计算效率和延迟至关重要。

现有的 VLM 通常依赖显式内存机制(Zhou 等人,2024;Qian 等人,2024) 来决定何时解码或复杂的 KV 缓存优化(Di 等人,2025) 来提高效率,因为自回归语言模型连续运行的成本很高。 相比之下,VL-JEPA 本身支持选择性解码。 由于它预测嵌入非自回归的语义答案,因此该模型提供了可以实时监控的连续语义流
S
hat
Y
。 This stream can be stabilized with simple smoothing (e.g., average pooling) and decoded only when a significant semantic shift is detected, such as when the local window variance exceeds a threshold. 通过这种方式,VL-JEPA 保持始终在线的语义监控,同时避免不必要的解码,实现响应速度和效率。

3 VL-JEPA的实现
3.1 模型架构
X-编码器。 除非另有说明,我们使用具有 304M 参数的冻结的 V-JEPA 2 ViT-L (Assran 等人,2025),这是一种在图像和视频任务上都表现出色的自监督视觉模型。 每个视频输入均以 2562 分辨率统一采样为帧。 对于图像输入,复制相同的图像以匹配输入形状。

预测器。 预测器使用 Llama-3.2-1B 的最后 8 个 Transformer 层进行初始化,从而产生 490M 个可训练参数。 文本标记生成器和标记嵌入也来自 Llama-3.2-1B。 我们允许最多 512 个查询 Token ,并为短查询放置 [PAD] Token 。 我们禁用因果注意掩模,以便视觉和查询嵌入可以共同参与。 线性投影将预测器与视觉和文本嵌入连接起来,并应用非[PAD]标记上的平均池化来获得预测的目标嵌入。

Y 编码器。 我们使用 EmbeddingGemma-300M (Vera 等人, 2025) 作为 Y-Encoder 的初始化。 我们将最大上下文长度设置为 512 来处理详细的标题。 我们发现,为所有文本编码器参数设置学习率乘数
×
0.05 可以提高性能,因为嵌入预测的质量在训练开始时不是最佳的。 线性投影头应用于Predictor和Y-Encoder,获得1536维的共享嵌入空间,在其中计算损失。

3.2 两阶段训练
大规模预训练。 VL-JEPA 分两个阶段进行训练。 第一个无查询预训练阶段旨在使用大量字幕数据建立强大的视觉语言对齐。 我们使用 PLM-Image-Auto (Cho 等人, 2025)、Datacomp (Gadre 等人, 2023) 和 YFCC-100M (Thomee 等人, 2016) 来处理图文数据。 对于视频文本数据,我们包括 PLM-Video-Auto (Cho 等人, 2025)、Ego4D 原子动作描述 (Grauman 等人, 2022) 以及内部数据集 Action100M,其中包含在 HowTo100M 视频 (Chen 等人, 2025b) 上生成的字幕。

我们首先在 Datacomp 和 YFCC-100M 上进行仅图像训练,每个视觉输入仅 1 帧,这使我们能够使用 24k 的大批量。 经过 100k 次迭代后,该模型已经看到了 2B 个样本,并实现了 61.6% 的 ImageNet 零样本准确率(没有提示集成)。 然后,我们继续进行联合图像视频预训练,每个输入 16 帧。 The pretraining takes 2 weeks using 24 nodes with 8
×
NVIDIA H200 GPUs each. 我们采用
5
×
10

5
的恒定学习率来促进扩展训练。 我们将生成的模型称为VL-JEPA
BASE
,并使用该模型测量零样本分类和检索性能。

监督微调。 第二个查询条件监督微调 (SFT) 阶段增强了 VL-JEPA VQA 功能,同时保持分类和检索的预训练视觉语言对齐。 训练数据选自PLM数据混合(Cho等人,2025),包括25M VQA样本、280万字幕样本、180万分类样本和下采样预训练阶段数据,以避免灾难性遗忘。

我们训练模型 35k 步骤,批量大小为 6k(

2 天,24 个节点),并应用余弦学习率退火来提高收敛性。 由于此 SFT 数据混合物中包含过多的人类标记数据,因此我们不再强调此阶段生成的 VL-JEPA
SFT
的零样本评估。 相反,我们评估 VQA 功能并将其与最先进的专家模型进行比较。

表1:视频分类和文本到视频检索。 每个数据集中的最佳零样本性能均突出显示。 样本看到

训练步骤
×
有效批量大小。
Video Classification (Top-1 Accuracy) Text-to-video Retrieval (Recall@1)
Model

Parameters

Samples Seen

Zero-shot

Generalist Model

Average

SSv2

EK100

EgoExo4D

Kinetics-400

COIN (SR)

COIN (TR)

CrossTask (SR)

CrossTask (TR)

Average

MSR-VTT

ActivityNet

DiDeMo

MSVD

YouCook2

PVD-Bench

Dream-1k

VDC-1k

RN50 75M 12.8B 21.8 2.1 1.5 1.9 41.4 8.6 39.0 10.9 68.7 28.3 28.7 17.7 24.7 29.7 5.1 27.6 47.2 46.0
ViT-B 124M 12.8B 25.3 3.1 1.3 2.4 49.5 11.2 47.3 16.2 71.5 29.3 31.0 19.5 25.7 34.0 6.1 27.0 48.5 42.9
CLIP ViT-L 389M 12.8B ✓ ✓ 30.9 3.8 3.7 3.6 58.3 14.7 63.5 20.8 78.5 35.3 35.9 23.4 30.7 41.9 7.9 36.7 56.8 49.3
ViT-B 375M 40B 33.9 5.2 2.3 4.9 57.8 20.6 69.9 27.7 82.9 39.6 40.2 25.0 32.1 48.6 13.8 52.1 60.9 43.7
ViT-L 882M 40B 38.7 5.9 4.5 7.0 63.6 24.2 78.5 35.1 90.8 45.4 41.6 32.7 35.1 53.5 19.0 59.2 71.6 50.9
SigLIP2 ViT-g 1.9B 40B ✓ ✓ 39.9 6.1 6.1 6.4 68.0 26.0 80.4 35.1 90.8 47.5 43.4 33.9 38.9 56.0 22.2 60.4 73.0 52.5
ViT-B 448M 58B 37.3 5.8 3.3 6.3 65.4 21.5 77.1 26.9 91.8 44.9 46.5 35.4 35.3 49.1 15.2 59.8 68.7 49.2
ViT-L 671M 58B 42.8 9.3 6.0 10.9 73.4 27.1 83.3 37.5 95.3 50.2 48.9 41.7 40.8 56.2 22.5 64.7 75.9 51.0
PE-Core ViT-G 2.3B 86B ✓ ✓ 44.6 9.0 6.4 13.0 76.4 29.0 86.0 40.3 97.2 58.1 51.6 49.1 44.5 58.7 26.0 77.0 89.2 68.5
VL-JEPA
BASE
ViT-L 1.6B 2.0B ✓ ✓ 46.4 16.1 13.3 21.1 57.8 39.8 74.4 60.5 88.0 58.4 37.6 55.4 49.2 47.9 23.1 78.2 88.8 87.2
VL-JEPA
SFT
ViT-L 1.6B 2.5B ✗ ✓ 70.7 68.2 38.8 59.5 81.4 60.3 86.8 77.1 93.0 59.5 43.7 53.8 46.2 49.1 28.8 81.1 86.4 86.7
SoTA (including specialist models) ✗ ✗ - 77.5 56.4 47.8 92.1 67.3 95.3 64.5 96.0 - 62.8 74.1 74.2 61.4 28.9 77.0 89.2 68.5

4 实验

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询