全期望公式将问题分解为条件情形简化计算,在分层随机性、重复试验问题中非常有效。
其核心思想是先计算条件期望作为随机变量Y的函数,再对Y 取期望。
这里先探索全期望公式的应用示例,然后进一步探索其在DDIM推导中的所起的作用。
所用示例参考和修改自网络资料。
1 全期望公式
全期望公式(也称“塔定律”)是概率论中的重要定理,表述为:
对于随机变量X和Y,
其中,外层期望是对随机变量Y的分布取的,的期望等于其条件期望的期望。
在给定另一个随机变量的条件下,公式变为:
这里,内层期望是对X在给定Y和Z下的条件期望,外层期望是对Y在给定Z下的分布取的。
1.1 离散随机变量示例
设Y为离散随机变量:
。
在给定Y下,X的条件分布为:
- 若Y=1,X可能取 1 或 2,即P(X=1|Y=1)=0.5, P(X=2|Y=1)=0.5;
- 若Y=2,X可能取 2 或 3,即P(X=2|Y=2)=0.5, P(X=3|Y=2)=0.5。
求E[X]。
1)直接法
先求X的边缘分布,具体为
因为X可能取1、2或3。
X=1,P(X=1|Y=1)=P(X=1, Y=1)/P(Y=1), P(Y=1) = 0.6, P(X=1|Y=1)=0.5,因此 P(X=1, Y=1) = 0.3
又因为X=1时,Y只能取1,所以P(X=1, Y=2) = 0
所以,P(X=1) = P(X=1, Y=1) + P(X=1, Y=2) = P(X=1, Y=1) = 0.3
X=2,P(X=2|Y=1) = P(X=2, Y=1)/P(Y=1), 故P(X=2, Y=1) = P(X=2|Y=1) P(Y=1) = 0.5 * 0.6 = 0.3
P(X=2|Y=2) = P(X=2, Y=2)/P(Y=2), 故P(X=2, Y=2) = P(X=2|Y=2) /P(Y=2) = 0.5 * 0.4 = 0.2
故P(X=2) = P(X=2, Y=1) + P(X=2, Y=2) = 0.5
X=3, P(X=3|Y=2)=P(X=3, Y=2)/P(Y=2),故P(X=3, Y=2) = P(X=3|Y=2) P(Y=2) = 0.5 * 0.4 = 0.2
所以 E(X) = 1 * P(X=1) + 2 * P(X=2) + 3 * P(X=3) = 1 * 0.3 + 2 * 0.5 + 3 * 0.2 = 1.9
得E[X] = 1.9。
2)全期望公式:
计算条件期望:
E[X|Y=1] = 1 * P(X=1|Y=2) + 2 * P(X=2|Y=1) + 3 * P(X=3|Y=1) = 0.5 + 2 * 0.5 + 0 = 1.5
E[X|Y=2] = 1 * P(X=1|Y=2) + 2 * P(X=2|Y=2) + 3 * P(X=3|Y=2) = 0 + 2 * 0.5 + 3 * 0.5 = 2.5
对Y取期望:
E(X) = E(X|Y=1) * P(Y=1) + E(X|Y=2) * P(Y=2) = 1.5 * 0.6 + 2.5 * 0.4 = 1.9
1.2 连续随机变量示例
设,且给定
时,
。
求。
由全期望公式:
因为
1.3 经典问题示例
这里采用矿工逃生问题示例。
矿工有三个门可选(等概率):
- 门1:3小时到达地面;
- 门2:5小时返回原点;
- 门3:7小时返回原点。
每次选择独立,求逃出时间的期望。
设Y为第一次选择的门:
-
-(返回后重试)
-(返回后重试)
由全期望公式:
解得:
整理得(小时)。
1.4 条件期望作为随机变量
设Y为掷骰子的点数(1到6等概率),定义X为在给定Y下从二项分布中生成的数:若Y=y,则,求
。
已知二项分布的期望为
,故
。
又因为
由全期望公式可得如下结论。
2 DDIM推导中具体应用
全期望公式在DDIM中,主要用来由定义的边缘分布
与DDPM一致。
2.1 变量对应关系说明
-:
-:
-:
应用全期望公式:
具体含义说明如下
给定
时
的期望,等于:
1. 先固定和
,求
的条件期望(这是
的函数)
2. 再对这个函数关于在给定
下的分布求期望
2.2 具体计算步骤
已知条件分布:
其中:
第一步:内层条件期望
第二步:外层期望
需要计算。
已知的分布:
因此:
计算外层期望:
2.3 计算结论解释
应用DDIM后,依然得到:
这正是DDPM中的期望。
这说明无论取何值,只要条件分布
按上述形式定义,边缘分布的均值就与DDPM一致。
这个等式允许间接计算边缘分布的矩,而无需显式地写出边缘分布的密度函数。
通过将的生成过程分解为两步(先由
生成
,再由
生成
)。
可以利用已知的简单分布()和设计的条件分布来计算复杂的边缘分布特性。
类似地,对于方差
使用全方差公式(Law of Total Variance):
- 第一项:条件方差的期望 =
- 第二项:条件期望的方差 =
相加得:,也与DDPM一致。
2.4 全期望公式作用总结
全期望公式在DDIM推导中起到了关键作用。
1)连接了条件分布和边缘分布,通过中间变量
架起了桥梁
2)简化了计算,避免了对联合分布直接积分求边缘分布的复杂计算
3)验证了构造的正确性,证明了无论
如何选择,只要条件分布按特定形式定义,边缘分布就能保持与DDPM一致
这正是DDIM能够设计非马尔可夫前向过程而保持训练目标不变的理论基础。
reference
---
SD稳定扩散模型理论基础的探索
https://blog.csdn.net/liliang199/article/details/156280004
DDIM扩散模型改进采样策略的推理探索
https://blog.csdn.net/liliang199/article/details/156433365