丹东市网站建设_网站建设公司_SSL证书_seo优化
2025/12/22 4:43:17 网站建设 项目流程

13.3 变分自编码器:重参数化技巧、ELBO与后验坍缩

变分自编码器是一种基于变分推断原理的深度生成模型,它通过一个编码器-解码器结构将概率生成模型与神经网络相结合,旨在学习数据的高效、连续的潜在表示。与只能进行确定性编码的自编码器不同,VAE引入了隐变量的概率分布,使其能够从学习到的潜在空间中进行随机采样并生成新的数据样本[1]。本节将深入解析VAE的三个核心支柱:变分下界重参数化技巧以及训练中常见的挑战后验坍缩

13.3.1 从自编码器到概率生成模型

标准自编码器由编码器和解码器组成,通过学习将输入数据x xx压缩为低维潜在编码z zz(编码过程),再尽可能准确地重建x xx(解码过程)。其目标是最小化重建误差,如均方误差。然而,标准的自编码器存在两个主要缺陷:

  1. 潜在空间不规则性:学习到的潜在空间可能是不连续或不平滑的,导致对潜在点z zz进行插值或随机采样时,解码器可能产生无意义或低质量的输出。
  2. 非概率性:它是一个确定性映射,无法直接用于生成新的、多样化的数据。

VAE通过将编码过程概率化来解决这些问题。VAE假设每个真实数据点x xx都由某个未观察到的连续隐变量z zz生成。具体来说,数据生成过程是:先从先验分布p ( z ) p(z)p(z)(通常为标准正态分布N ( 0 , I ) \mathcal{N}(0, I)N(0,I))中采样一个潜在变量z zz,然后从由参数化分布p θ ( x ∣ z ) p_{\theta}(x|z)pθ(xz)(由解码器建模)中生成数据x xx。我们的目标是最大化所有数据点的边际似然p θ ( x ) = ∫ p θ ( x ∣ z ) p ( z ) d z p_{\theta}(x) = \int p_{\theta}(x|z)p(z) dzpθ(x)=pθ(xz)p(z)dz。由于这个积分难以直接计算(涉及难以处理的后验分布p θ ( z ∣ x ) p_{\theta}(z|x)pθ(zx)),VAE引入变分推断来近似求解。

13.3.2 证据下界:变分推断的核心

为了最大化真实的数据似然log ⁡ p θ ( x ) \log p_{\theta}(x)logpθ(x),VAE引入一个由编码器建模的变分分布q ϕ ( z ∣ x ) q_{\phi}(z|x)qϕ(zx)来逼近真实但未知的后验分布p θ ( z ∣ x ) p_{\theta}(z|x)pθ(zx)。通过数学推导,可以将对数似然分解为:
log ⁡ p θ ( x ) = D K L ( q ϕ ( z ∣ x ) ∥ p θ ( z ∣ x ) ) + L ( θ , ϕ ; x ) \log p_{\theta}(x) = D_{KL}(q_{\phi}(z|x) \parallel p_{\theta}(z|x)) + \mathcal{L}(\theta, \phi; x)logpθ(x)=DKL(qϕ(zx)pθ(zx))+L(θϕ;x)
其中,D K L ( ⋅ ∥ ⋅ ) D_{KL}(\cdot \parallel \cdot)DKL()表示KL散度,用于衡量两个分布的差异。由于KL散度非负,因此有:
log ⁡ p θ ( x ) ≥ L ( θ , ϕ ; x ) \log p_{\theta}(x) \geq \mathcal{L}(\theta, \phi; x)log

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询