攀枝花市网站建设_网站建设公司_测试上线_seo优化
2025/12/26 23:51:37 网站建设 项目流程

\[\newcommand{\cur}[1]{\left\{#1\right\}} \newcommand{\s}{\mathscr} \newcommand{\comp}{\complement} \newcommand{\co}[2]{{\color{#1}{#2}}} \newcommand{\Z}{\mathbb Z} \newcommand{\R}{\mathbb R} \newcommand{\eps}{\epsilon} \newcommand{\deq}{\overset d=} \newcommand{\dto}{\overset d\to} \newcommand{\pto}{\overset p\to} \newcommand{\d}{\mathrm d} \newcommand{\mat}[1]{\begin{matrix}#1\end{matrix}} \newcommand{\E}{\mathop{\mathbb E}} \newcommand{\io}{\operatorname{i.o.}} \newcommand{\var}{\text{var}} \newcommand{\i}{\mathtt i} \newcommand{\p}{\partial} \]

Measure Theory

\(\Omega\):任意集合。

\(\s F\)\(\sigma\)-域,要验证 非空关于补集封闭关于可数并集封闭 三条。

  • 易验证关于交集封闭、包含空集和全集。

\(\mu\)\(\s F\to[0,+\infty)\cup\co{red}{\cur{+\infty}}\) 的映射,要求 非负空集为零关于可数不交并集可加 三条。

\(P\):满足 规范性 也即 \(P(\Omega)=1\) 的测度。

性质:

  • 单调性。
  • 次可加性。(可数并集的测度不超过测度之和)
  • 下连续性:若 \(A_n\uparrow A\)\(\mu(A_n)\uparrow\mu(A)\)
  • 上连续性:当至少有一个 \(\co{red}{\mu(A_n)}\) 非无穷时,若 \(A_n\downarrow A\)\(\mu(A_n)\downarrow\mu(A)\)

不可数个 \(\sigma\)-域的交仍然是 \(\sigma\)-域。因此对于任意集族 \(\s A\) 都可以找到包含之的最小 \(\sigma\)-域,记作 \(\sigma(\s A)\)

Stieltjes Measure Function (S.M.F.) 是满足单调不降和右连续性(\(y\downarrow x\implies F(y)\downarrow F(x)\))的实函数。由不在考纲内的 π-λ 定理,可以保证由任何 S.M.F. 唯一确定对应的测度 \(\mu\),且满足 \(\mu((a,b])=F(b)-F(a)\)。由 S.M.F. \(F(x)=x\) 确定的测度就是 Lebesuge 测度。事实上,S.M.F. 和局部有限的 Borel 测度间存在双射。


两个可测空间 \((\Omega,\s F),(S,\s G)\) 之间可以定义可测映射。可测映射是对于像集中所有可测集,其原像均可测的映射。

对于映射 \(X\)\(X^{-1}(B)\) 表示 \(B\) 的原像,有时也简记为 \(\cur{X\in B}\)

为强调其定义域,可以称 \(X\)\(\s F\)-可测的,有时也简记为 \(X\in\s F\)

可测映射的充分条件:假如 \(\s G=\sigma(\s A)\),则只要全体 \(A\in\s A\) 的原像都属于 \(\s F\)​ 即可。

[!TIP]

对于不一定可测的映射 \(X\),只要 \(\s F\)\(\sigma\)-域,则 \(\s B=\cur{B:X^{-1}(B)\in\s F}\) 也是 \(\sigma\)-域。这是通过缩减值域的方式来增强可测性的方式。

而对于可测映射 \(X\)\(\cur{X^{-1}(B):B\in\s G}\) 必是 \(\sigma\)-域,则其是使得 \(X\) 可测的最小 \(\sigma\)-域,记作 \(\sigma(X)\)

可测映射具有复合律。特别地,当 \(f\)\((S,\s G)\) 上的一个可测自映射时,\(f\circ X\) 仍是一个随机元,此时可记作 \(f(X)\)。进一步,对于 r.v. \(X_1,\dots,X_n\) 和可测的 \(f:(\R^n,\s B(\R^n))\to(\R,\s B(\R))\),有 \(f(X_1,\dots,X_n)\) 是 r.v.。因此 r.v. 关于加法封闭。

假如其定义域上存在概率测度,则 \(X\) 称作随机元。其值域是 \((\R^n,\s B(\R^n))\) 时称作随机向量,是 \((\R,\s B(\R))\) 时称作随机变量。


可测映射可以传递测度:有 \(\mu\circ X^{-1}\)\(\s G\) 上的合法测度,且该测度是概率测度时,其正规性同样可以被传递。这个被传递的概率测度即称作 分布 (distribution)。两个具有相同分布的随机元称作同分布,记作 \(X\deq Y\)

当该映射是 r.v. 时,分布可以使用 CDF 或称 distribution function \(F(x)=P(X\leq x)\) 描述。CDF 首先是一个 S.M.F.,此外其还满足额外性质:\(F(x\to+\infty)\to1,F(X\to-\infty)\to0\);定义 \(F(x^-)=\lim_{y\uparrow x}F(y)\),则 \(F(x^-)=P(X<x)\)\(P(X=x)=F(x)-F(x^-)\)

任何正无穷处趋于 \(1\)、负无穷处趋于 \(0\) 的 S.M.F 都对应着某个 CDF:可以取 \(\Omega=(0,1),X(\omega)=\sup\cur{y:F(y)<\omega}\)。则 \(\cur{\omega:X(\omega)\leq x}=\cur{\omega:\omega\leq F(x)}\)。这个 \(X\) 有时被记作 \(F^{-1}\)(尽管 \(F\) 不一定可逆)。因此,CDF 与 distribution measure 间存在双射。

当 CDF \(F\) 满足 \(F(x)=\int_{-\infty}^xf(y)\d y\)(这里的积分是常规 Riemann 积分)时, 其对应的 \(f\) 称作 PDF 或称 density function,生成其的 r.v. \(X\) 为绝对连续 r.v.。另一方面,任何非负且积分为 \(1\)\(f\) 均可以生成对应的 \(F\)

存在可数 \(S\) 满足 \(P(X\notin S)=0\) 的 r.v. 是离散 r.v.。


\(\sigma\)-有限测度 \(\mu\) 是存在集合列 \(A_n\) 满足 \(\mu(A_n)<\infty\)\(\bigcup A_n=\Omega\) 的测度。w.l.o.g,可以假设 \(A_n\) 不交或 \(A_n\uparrow\Omega\)

我们只对从这样的测度空间至 \((\R,\s B(\R))\) 的可测函数 \(f\) 定义 Lebesgue 积分 \(\int f\d\mu\)。可测函数的条件主要是为了允许从对值域的切分反推出对应的可测集。

Lebesgue 积分需要满足:

  • 对于 \(f\geq0\) a.e. 的 \(f\),有 \(\int f\d\mu\geq0\)
  • 对于一切实数 \(a\) 均有 \(\int af\d\mu=a\int f\d\mu\)
  • \(\int(f+g)\d\mu=\int f\d\mu+\int g\d\mu\)
  • 对于 \(f\geq g\) a.e. 的 \(f,g\),有 \(\int f\d\mu\geq\int g\d\mu\)
  • 对于 \(f=g\) a.e. 的 \(f,g\),有 \(\int f\d\mu=\int g\d\mu\)
  • \(|\int f\d\mu|\leq\int|f|\d\mu\)

只需要证明前三条,后三条自然推知。

简单函数(可以写成 \(\sum_{i=1}^nc_i1_{A_i}\),且 \(A_i\) 不交测度有限)的 Lebesgue 积分是 \(\sum_{i=1}^nc_i\mu(A_i)\)

有界函数(定义域有界——存在 \(\mu(E)<\infty\) 满足 \(f(E^C)=0\);值域有界——\(|f|\leq M\))的 Lebesgue 积分是所有小于等于其的简单函数积分的上界,或是所有大于等于其的简单函数积分的下界。证明通过将 \(M\) 的值域无限细分,然后定义相应的取下界函数和取上界函数,二者积分值逼近可以证明上下界相等。

简单函数和有界函数的积分都是有限值。

非负函数的 Lebesgue 积分通过所有小于等于其的有界函数积分的上界定义。另一种定义方式是对于 \(E_n\uparrow\Omega\)\(\int_{E_n} f\wedge n\d\mu\) 定义,且该定义在 \(n\) 前乘任何常系数均有效。证明通过对一切有界 \(M\)\(h\) 考虑 \(n\geq M\) 时的场景得到。

一般函数的 Lebesgue 积分通过将其拆分成正部 \(f\vee n\) 和负部 \((-f)\vee n\) 积分的差得到。

非负函数的积分不一定有限;一般函数的积分在正部和负部至少一者积分有限时良定义,但可积需要绝对值的积分有限。

在值域是 \((\R^d,\s B(\R^d),\lambda)\) 时,可以使用 \(\int f(x)\d x\) 代替 \(\int f\d\lambda\)

在测度 \(\mu\) 有对应 S.M.F. \(G\) 时,可以使用 \(\int f(x)\d G(x)\) 代替 \(\int f\d\mu\)

在值域是 \((\Omega,2^\Omega,|\cdot|)\)\(\Omega\) 可数时,可以使用 \(\sum_{i\in\Omega}f(i)\) 代替。

当强调被积分对象时,也可以使用 \(\int f(y)\mu(\d y)\) 的记号。


测度 \(\nu\) 关于测度 \(\mu\) 绝对连续,如果一切 \(\mu\) 零测集都是 \(\nu\) 零测集,记作 \(\nu\ll\mu\)

Radon-Nikodym 定理:对于 \(\sigma\)-有限测度 \(\nu,\mu\),如果 \(\nu\ll\mu\) 则存在 \(g\geq0\) 使得 \(\forall E\in\s F\) 均有 \(\int_Eg\d\mu=\nu(E)\),且 \(g\) 关于 \(\mu\) 是唯一的。这个 \(g\) 可测且被称作 Radon-Nikodym 导数 \(g=\dfrac{\d\nu}{\d\mu}\)

当任意测度关于 Lebesgue 绝对连续时,可以直接省略对象,称为绝对连续。当这个测度是某个 r.v. 引导的 distribution measure 时,其对应的 R-N 导数是 PDF,此时可直接称该 r.v. 绝对连续。

R-N 导数满足:

  • 如果 \(\nu_1,\nu_2\ll\mu\),则 \(\nu_1+\nu_2\ll\mu\)
  • \(\dfrac{\d(\nu_1+\nu_2)}{\d\mu}=\dfrac{\d\nu_1}{\d\mu}+\dfrac{\d\nu_2}{\d\mu}\)
  • 对于 \(\nu\ll\mu\)\(f\geq0\),有 \(\int f\d\nu=\int f\dfrac{\d\nu}{\d\mu}\d\mu\)
  • 对于 \(\pi\ll\nu\ll\mu\),有 \(\dfrac{\d\pi}{\d\mu}=\dfrac{\d\pi}{\d\nu}\dfrac{\d\nu}{\d\mu}\)
  • 如果有 \(\nu\ll\mu\)\(\mu\ll\nu\),则 \(\dfrac{\d\mu}{\d\nu}=\left(\dfrac{\d\nu}{\d\mu}\right)^{-1}\)

对于函数列 \(f_n\) 和函数 \(f\)

  • 一致收敛指其在每个取值处收敛速度一致(存在界控制全体位置的收敛)。
  • 逐点收敛指其在每个取值处均收敛。
  • 几乎一致收敛指可以刨除任意小的测度使得剩余集合一致收敛。(比几乎处处的「零测」弱)
  • 几乎处处收敛指其不收敛的取值是 \(\mu\)-零测的。(比几乎一致的「任意小测度」强……吗?)其另一种等价形式是对于一切 \(\eps>0\)\(\mu(|f_n-f|>\eps\io)=0\),其中 i.o. 是 infinitely often 的意思。
  • 依测度收敛指其对于一切 \(\eps>0\)\(\mu(|f_n-f|>\eps)\to0\)

converge a.e. 的零测条件事实上可以放宽为同样的「刨除测度任意小集合后驻点收敛」。这是因为不收敛集合必然属于全体被刨除的集合,于是其测度小于一切 \(1/m\) 也即必然零测。于是知 almost uniformly converge 推出 converge a.e.。

Egorov 定理给出反向的结论:只要存在测度有限的支撑集,converge a.e. 即可反推出 almost uniformly converge。我作业里的证明是对于一切 \(1/m\) 找到了某个 \(E_{n_m}^m\),满足 \(\mu(E\setminus E_{n_m}^m)<\eps/100m^2\) 且所有 \(E_{n_m}^m\) 中的元素都在 \(n_m\) 后差不超过 \(1/m\),然后取全体 \(m\) 的并。更好的证明似乎是反过来对那些在 \(n_m\) 后仍然不收敛的位置处理。

不存在测度有限的支撑集的场合可以使用 \(1_{[n,n+1)}\) 作反例。

几乎一致收敛进一步推出依测度收敛。

在讨论的函数其实是 r.v. \(\cur{X_n}\)\(X\) 时,converge a.e. 也被称作 converge almost surely,converge in measure 也被称作 converge in probability。

有界收敛定理 (BCT):有界(值域支撑集双重有界)函数依测度收敛时,极限和积分可换序。证明把差超过 \(\eps\) 的测度不超过 \(\delta\) 的部分用 \(M\delta\) bound,不超过 \(\eps\) 的用 \(\eps\mu(E)\) bound。

Fatou 引理:非负场合,\(\liminf_{n\to\infty}\int f_n\d\mu\geq\int(\liminf_{n\to\infty}f_n)\d\mu\)。证明使用 liminf 的等价定义,然后先对两边同时限制定义域和值域后用 BCT,然后再由有界积分定义即证。

控制收敛定理 (DCT):绝对值被同一个可积函数控制且 converge a.e. 的函数列,极限和积分可换序。证明对 \(g+f_n\)\(g-f_n\) 用两次 Fatou 即可。

单调收敛定理 (MCT):非负且 \(f_n\uparrow f\) 时,积分和极限可换序。证明由 Fatou 得到一侧,大小关系得到另一侧。

[!TIP]

BCT 要求依测度,DCT 要求 a.e.,MCT 要求单调,结论均是可换序;Fatou 几乎什么都不要求,结论也更弱。


随机变量 \(X\) 的期望是 \(\int X\d P\)。换元定理:对于值域为 \((S,\s G)\)、分布为 \(\mu\) 的随机元,如果 \(f\)\((S,\s G)\to(\R,\s B(\R))\) 的可测映射,则 \(f(X)\) 是 r.v.,且满足

\[\E f(X)=\int_Sf(y)\mu(\d y) \]

的式子,这样就不需要回到定义域上的 \(\int (f\circ X)\d P\) 定义了。

\((S,\s G)=(\R,\s B(\R))\)\(\mu\ll\lambda\) 时,由 R-N 定理,有 \(\E f(X)=\int f\d\mu=\int f\dfrac{\d\mu}{\d\lambda}\d\lambda=\int f(x)p(x)\d x\),其中 \(p\) 是 PDF。


两个测度空间 \((\Omega,\s F,\mu_1)\)\((S,\s G,\mu_2)\) 可以组合定义乘积测度空间 \((\Omega\times S,\sigma(\s F\times\s G),\mu_1\times\mu_2)\),其中 \(\mu_1\times\mu_2\) 是唯一一个满足 \(\mu(A,B)=\mu_1(A)\mu_2(B)\) 的测度 \(\mu\)(证明类似 S.M.F. 和 Borel 测度的一一对应性),被称作乘积测度。

在乘积测度空间上定义的可测函数的积分,何时能与累次积分换序,由 Fubini 定理——\(\int|f|\d\mu<\infty\) 和 Tonelli 定理——\(f\geq0\) 保证。

Independence

两个事件 \(A,B\) 独立如果 \(P(A\cap B)=P(A)P(B)\)。两个 r.v. \(X,Y\) 独立如果对于一切 \(C,D\in\s B(\R)\) 均有 \(\cur{X\in C},\cur{Y\in D}\) 两事件独立。两 \(\sigma\)-域 \(\s F,\s G\) 独立,如果一切事件 \(A\in\s F,B\in\s G\) 均独立。

如果 \(X,Y\) 独立,则使得它们可测的 \(\sigma\)-域中最小的一个,也即 \(\sigma(X),\sigma(Y)\),独立。反之,如果 \(\s F,\s G\) 独立,则所有在其上可测的 r.v. \(X,Y\),也即 \(X\in\s F,Y\in\s G\),均有 \(X,Y\) 独立。

独立事件任意取补后仍然独立。因此 \(A,B\) 独立当且仅当 \(1_A,1_B\) 独立。

扩展到有限多元时,多个 \(\sigma\)-域独立,如果各取一个 \(A_i\) 后有 \(P(\bigcap A_i)=\prod P(A_i)\)。多个 r.v. 独立,如果各取一个 \(B_i\) 后有 \(P(\bigcap\cur{X_i\in B_i})=\prod P(\cur{X_i\in B_i})\)。多个事件独立,如果对于一切 \(I\sube[n]\) 均有 \(P(\bigcap_{\co{red}{i\in I}}A_i)=\prod_{\co{red}{i\in I}}P(A_i)\)

[!NOTE]

这里对一切子集验证确有必要。单独对 \(I=[n]\) 满足该条件不保证任何性质。

多个事件独立时,任意取补后仍独立。事件独立与对应的随机变量 \(1_{A_i}\) 独立等价。

上述独立称为联合独立,与两两独立区分。一般单独提到独立均指联合独立。

扩展到可数多元时,多个 \(\sigma\)-域/r.v./事件独立,如果它们的所有有限子集全部独立。

独立不仅适用于 \(\sigma\)-域间,还可以进一步泛化到任何集族——但此时同样要对一切 \(I\in[n]\) 验证。要想只验证 \(I=[n]\),就需要保证所有集族均包含全集。

集族 \(\s A\) 是一个 \(\pi\)-系统,如果对于一切 \(A,B\in\s A\) 都有 \(A\cap B\in\s A\)。定理:对于独立集族,只要每个集族都是一个 \(\pi\)-系统,则它们生成的 \(\sigma\)-域同样独立。

联合独立的充分条件:要验证 r.v. 的联合独立,不需要对全体 \(\cur{X_i\in B_i}\) 验证,只需要检查 \(\cur{X_i\leq x_i}\) 即可,其中 \(x_i\in\R\cup\co{red}{\cur{+\infty}}\)

联合独立具有「分组性质」。具体而言,如果全体 \(i\in[n],j\in[m_i]\) 均有 \(\s F_{i,j}\) 独立,则令 \(\s G_i=\sigma(\bigcup_j\s F_{i,j})\),则有 \(\s G_i\) 独立。

进一步,如果全体 \(i\in[n],j\in[m_i]\) 均有 \(X_{i,j}\) 独立,\(f_i\)\(\R^{m_i}\to\R\) 的可测映射,则有 \(f_i(X_{i,1},\dots,X_{i,m_i})\) 独立。


如果 \(X_1,\dots,X_n\) 是定义域相同的独立 r.v.,且它们的分布分别为 \(\mu_1,\dots,\mu_n\),则 \((X_1,\dots,X_n)\) 是一个 \(\R^n\) 上分布为 \(\prod\mu_i\) 的 r.v.。

[!NOTE]

这里的联合分布和 Fubini 的乘积测度空间不是同一个东西。前者要求所有 r.v. 的定义域相同且独立,生成的新随机元的定义域保持不变,值域是原始值域的 Cartesian 积;后者不做要求,但是生成的新随机元的定义域和值域同时作 Cartesian 积。二者的共同点是均使用乘积刻度刻画生成的分布。

虽然定义域不一样,但通过换元定理就可以只对值域分析,而 Fubini-Tonelli 的应用条件同样只对值域积分作要求,所以我们即得:

对于 \(\R^2\to\R\) 的可测 \(h\),如果 \(h\geq0\)\(\E|h(X,Y)|<\infty\),则有

\[\E h(X,Y)=\int\int h(x,y)\mu(\d x)\nu(\d y) \]

特别地,如果 \(h(X,Y)=f(X)g(Y)\),其中 \(f,g\) 要么均非负要么均可积。则有

\[\E h(X,Y)=\E[f(X)g(Y)]=\E[f(X)]\E[g(Y)] \]

进一步,对于独立的 \(X,Y\),令 \(F,G\) 为 CDF,则有

\[P(X+Y\leq z)=\int F(z-y)\d G(y) \]

回忆起此处的 \(\d G(y)\) 就是指使用 S.M.F \(G(y)\) 引导的测度——也就是 \(Y\) 的 distribution——进行的积分。由此可以得到 \(F*G(z)\),被称作 \(F\)\(G\) 的卷积。卷积与 CDF 一样,是一个常规的实变函数,但其同时也是随机变量 \(X+Y\) 的 CDF。

Conditional Distribution and Expectation

对于两个事件 \(A,B\),条件概率 \(P(A\mid B)=\dfrac{P(A\cap B)}{P(B)}\)

对于一个 \((\Omega,\s F,P)\) 上满足 \(\E|X|<\infty\) 的 r.v. \(X\),对于某个 \(\s G\sube\s F\),如果 r.v. \(Y\) 满足以下条件:

  • \(Y\in\s G\)

  • \(\E|Y|<\infty\)

  • 对于一切 \(G\in\s G\),均有

    \[\int_GX\d P=\int_G Y\d P \]

则称其为条件期望 \(\E[X\mid\s G]\) 的一个 version因此,条件期望其实是针对一个可测集定义的一个变量。

定理:满足上述条件的 \(Y\) 关于 \(P\) a.s.,即 \(P(Y\neq\tilde Y)=0\)。因此,条件期望可以不止有一种,但它们的差异均是零测的,所以我们只能称之为一个 version。

我们有相关定理:

  • \(\E[aX+Y\mid\s F]=a\E[X\mid\s F]+\E[Y\mid\s F]\)
  • \(X\leq Y\implies\E[X\mid\s F]\leq\E[Y\mid\s F]\)
  • \(X_n\geq0\land X_n\uparrow X\implies\E[X_n\mid\s F]\uparrow\E[X\mid\s F]\)
  • \(\s F\sube\s G\land\E[X\mid\s G]\in\s F\implies\E[X\mid\s F]=\E[X\mid\s G]\)
  • \(\s F_1\sube\s F_2\implies\E[\E[X\mid\s F_1]\mid\s F_2]=\E[\E[X\mid\s F_2]\mid\s F_1]=\E[X\mid\s F_1]\)
  • \(X\in\s F\implies\E[X\mid\s F]=X\)

\(\s G=\sigma(Z)\),其中 \(Z\) 是另一个 r.v. 时,其也被记作 \(\E[X\mid Z]\)。存在 \(g\) 使得 \(\E[X\mid Z](\omega)=g(Z(\omega))\)。因此。当我们在讨论 \(\E[X\mid Z=z]\) 时,我们其实是在讨论 \(g(z)\)

[!TIP]

这其实是所谓 Doob-Dynkin 引理的推论:任何 \(Y\in\sigma(Z)\),均存在 \(g\) 使得 \(Y=g(Z)\)

那么在描述 \(\E(X\mid Z)\) 时,我们只需要找到一个合适的 \(g\),即可表示之。这个 \(g\) 有其专有名称,即大名鼎鼎的 回归函数 (regression function)。


在离散的场合,可以定义

\[g(z_j)=\E[X\mid Z=z_j]=\sum_ix_iP(X=x_i\mid Z=z_j) \]

对于一切 \(G\in\sigma(Z)\) 均有 \(G=\bigcup\cur{Z=z_j}\)。因此我们只需要对每个 \(\cur{Z=z_j}\) 分析即可。

\[\int_{\cur{Z=z_j}}Y\d P=g(z_j)P(Z=z_j)=\sum_ix_iP(X=x_i\mid Z=z_j)P(Z=z_j) \\=\sum x_iP(X=x_i,Z=z_j)=\sum_i\int_{\cur{X=x_i,Z=z_j}}X\d P=\int_{\cur{Z=z_j}}X\d P \]

因此其确实满足条件,是期望的一个版本。


在连续尤其是绝对连续的场合,上述定义不再有效,因为处处均有 \(P(X=x_i,Z=z_j)=0\)。以下考虑绝对连续场合,此时存在 joint PDF \(f_{X,Z}(x,z)\) 和 marginal PDF \(f_Z(z)\)。定义 elementary conditional PDF \(f_{X\mid Z}(x\mid z)=f_{X,Z}(x,z)/f_Z(z)\),则 regression function 是 \(g(z)=\int xf_{X\mid Z}(x\mid z)\d x\)

分析对于 \(G=\cur{Z\in B}\) 展开。

\[\int_\cur{Z\in B}Y\d P=\int_Bg(z)f_Z(z)\d z=\int_B\int xf_{X\mid Z}(x\mid z)f_Z(z)\d x\d z \\=\int_{\R\times B}xf_{X,Z}(x,z)\d\lambda^2=\int_{\cur{Z\in B}}X\d P \]

则此时有 \(\E[X\mid Z](\omega)=g(Z(\omega))=\int xf_{X\mid Z}(x\mid Z(\omega))\d x\)


使用条件期望可以反过来定义连续场合的条件概率。对于 \(F\in\s F\),定义 \(P(F\mid\s G)\)\(\E[1_F\mid\s G]\) 的任一 version。如果以下条件成立:

  • 对于 a.e. 的 \(\omega\),均有 \(\mu(\cdot)=P(\cdot\mid\s G)(\omega)\)\(\s F\) 上的一个概率测度。

则其即为 正则条件概率。绝大多数场合该条件是成立的,但存在不成立的场合。

特别地,上式在 elementary conditional PDF 的场合自动成立,即对于一切 \(A\in\s B(\R)\),有

\[\omega\mapsto\int_Af_{X\mid Z}(x\mid Z(\omega))\d x \]

\(P(X\in A\mid Z)\) 的一个 version;且在 \(\omega\) 固定时,其作为 distribution 的积分,确实引导一个概率测度。

Laws of Large Number

我们的目标是证明 强大数定理:对于 \(X_1,\dots,X_n,\dots\) 的 i.i.d with \(P\) 的分布,令它们的期望有限且为 \(\mu\),令 \(S_n=\sum_{i=1}^n X_n\),则 \(S_n/n\to\mu\) a.s.。

首先为方便,我们可以假设它们是零期望的——非零期望的场合可以定义 \(X'_i=X_i-\mu\)。于是只需证明 \(S_n/n\to0\) a.s. 即可。

然后使用一个 truncation 技巧:定义 \(Y_i=X_i\cdot1_\cur{|X_i|\leq i}\),移除那些可能导致方差过大的极端值,并证明 truncate 掉的部分影响是可忽略的。具体而言,拆分

\[X_i=\co{lightblue}{X_i1_\cur{|X_i|\leq i}}-\co{pink}{\E[X_i1_\cur{|X_i|\leq i}]}+\co{cyan}{X_i1_\cur{|X_i|>i}}-\co{violet}{\E[X_i1_\cur{|X_i|>i}]} \]

其中粉色和紫色的部分被加进来是因为我们假设了零期望性。

然后浅蓝色和粉色的部分就是 \(Y_i-\E[Y_i]\),我们希望证明有 \(\dfrac1n\sum_{i=1}^n(Y_i-\E[Y_i])\to0\) a.s.。

对每个取值分别使用 Kronecker 引理:对于单调递增正实数序列 \(a_n\uparrow\infty\),若 \(\sum_{i=1}^n\dfrac{x_i}{a_i}\to s<\infty\),则 \(\sum_{j=1}^n\dfrac{x_j}{a_n}\to0\)。于是这等效于证明 \(\sum_{i=1}^n\dfrac{Y_i-\E[Y_i]}i\) a.s. 收敛到有限值。

这恰好适用于 Khintchine-Kolmogorov 收敛定理:对于独立、零期望、方差和有限的随机变量列,\(\sum_{i=1}^nX_n\) a.s. 收敛到有限值。 所以这就是我们为什么要使用 truncation——我们要保证方差和有限。另一方面,减去 \(\E[Y_i]\) 同样是必须的,以保证零期望。

于是只需要证明 \(\sum_{i=1}^\infty\var\left(\dfrac{Y_i-\E[Y_i]}i\right)\) 有限即可。

\[\sum_{i=1}^\infty\var\left(\dfrac{Y_i-\E[Y_i]}i\right)=\sum_{i=1}^\infty\dfrac{\var(Y_i)}{i^2}=\sum_{i=1}^\infty\dfrac{\E[X_i^21_\cur{|X_i|\leq i}]}{i^2} \]

由 i.i.d. 性,有 \(\E[X_i^21_\cur{|X_i|\leq i}]=\E[X_1^21_\cur{|X_1|\leq i}]\),于是进一步 Fubini 换序知

\[=\E\left[X_1^2\sum_{i=1}^\infty\dfrac1{i^2}1_\cur{|X_1|\leq i}\right] \\=\E\left[X_1^2\sum_{i\geq\max(1,|X_1|)}^\infty\dfrac1{i^2}\right] \]

对于这个 \(1/i^2\) 的后缀和,有一个经典结论是 \(1/n^2\leq2/n(n+1)=2/n-2/(n+1)\),于是知

\[\\\leq\E\left[X_1^2\dfrac2{\max(1,|X_1|)}\right] \\=2(\E\left[X_1^2\cdot1_\cur{|X_1|\leq1}\right]+\E\left[|X_1|\cdot1_\cur{|X_1|>1}\right]) \\\leq2(1+\E|X_1|)<\infty \]

证明的主体已经完成,现在回过头来证明核心分解式中青色和紫色两项是可忽略的。

首先对于青色项,我们希望证明 \(\dfrac1n\sum_{i=1}^nX_i1_\cur{|X_i|>i}\to0\) a.s.。定义 \(A_i=\cur{|X_i|>i}\)。则有

\[P(A_i)=P(|X_i|>i)=P(|X_1|>i) \\\sum_{i=1}^\infty P(A_i)\leq\int_0^\infty P(|X_1|>y)\d y \]

使用引理可知其等于 \(\E|X_1|\),乃是有限值。于是由 Borel-Cantelli 引理,\(P(A_n\io)=0\)。于是对于几乎所有 \(\omega\),均有数列 \(\cur{X_i(\omega)1_\cur{|X_i|>i}(\omega)}\) 只有有限个值,求平均后必然趋于零。于是青色项确实是 a.s. 趋于 \(0\) 的。

最后看向紫色项,其是青色项的期望。当然因为套了期望,我们可以直接转成对 \(\dfrac1n\sum_{i=1}^n\E[X_11_\cur{|X_1|>i}]\) 的分析。由 Cesàro 均值定理,我们只需证明 \(\E[X_11_\cur{|X_1|>i}]\to0\)。其显然被 \(X_1\) 所控制,于是使用 DCT 即知为零。

于是我们分别:

  • 隔离出了零期望、方差和有限的「浅蓝色」和「粉色」,并使用 K-K 收敛定理和 Kronecker 引理证明其趋于零。
  • 对尾项「青色」,使用 B-C 引理得到其几乎处处只有有限次出现。
  • 对期望项「紫色」,使用换序和 DCT 证明其趋于零。

由此,强大数定律证明完毕,本节的剩余部分将补齐上面提到的一车引理。


定义集合列的上极限 \(\limsup_{n\to\infty}A_n=\lim_{m\to\infty}\bigcup_{n=m}^\infty A_n\)。其等价形式是所有出现了无穷多次的元素集合,简记为 \(\cur{A_n\io}\)。同理有下极限 \(\liminf_{n\to\infty}A_n=\lim_{m\to\infty}\bigcap_{n=m}^\infty A_n\),等价形式是仅在有限个集合内不出现的元素集合,但是比较少用。

定理:\(X_n\to X\) a.s.,当且仅当 \(\forall\eps>0\)\(P(|X_n-X|>\eps\io)=0\)

[!NOTE]

定义 \(A_n(\eps)=\cur{|X_n-X|>\eps}\),则可以额外证明,上述两条与 \(P(\bigcup_{\eps>0}\limsup A_n(\eps))=0\) 等价。

首先可以证明 \(\cur{X_n\not\to X}\supe\cur{|X_n-X|>\eps\io}\)。于是 \(X_n\to X\implies P(X_n\not\to X)=0\implies P(|X_n-X|>\eps\io)=0\)

其次,对于 \(\eps_1<\eps_2\),有 \(A_n(\eps_1)\supe A_n(\eps_2)\),于是 \(\limsup A_n(\eps_1)\supe\limsup A_n(\eps_2)\)。那么可以取任意 \(\eps_n\to0\),则有 \(\bigcup_{\eps>0}\limsup A_n(\eps)=\bigcup_{\eps_i}\limsup A_n(\eps_i)\)。于是

\[P(\bigcup_{\eps>0}\limsup A_n(\eps))\leq\sum_{\eps_i}P(\limsup A_n(\eps_i))=\sum_{\eps_i}P(A_n(\eps_i)\io)=0 \]

最后,任何 \(X_n\not\to X\)\(w\) 必然对于某个 \(\eps\),有 \(w\)\(A_n(\eps)\) 中出现了无限次,于是循环成功建立,三命题等价。

Borel-Cantelli 引理:如果 \(\sum_{n=1}^\infty P(A_n)<\infty\),则 \(P(A_n\io)=0\)。证明直接 Fubini 换序至 \(\int\sum1_{A_n}\d P<\infty\) 然后知出现无穷次位置集合必然零测即可。

第二 Borel-Cantelli 引理:如果 独立\(\sum_{n=1}^\infty P(A_n)=\infty\),则 \(P(A_n\io)=1\)。证明先转成 \(\liminf\) 然后使用独立把交集变乘法,最后使用 exp 放缩。

Kronecker 引理:对于单调递增正实数序列 \(a_n\uparrow\infty\),若 \(\sum_{i=1}^n\dfrac{x_i}{a_i}\to s<\infty\),则 \(\sum_{j=1}^n\dfrac{x_j}{a_n}\to0\)

证明使用 Abel 变换 的手法,它是分部积分的离散版本。定义 \(b_n=\sum_{i=1}^n\dfrac{x_i}{a_i}\),且令 \(a_0=b_0=0\),则 \(x_n=a_n(b_n-b_{n-1})\)。则

\[\sum_{j=1}^nx_j=\sum_{j=1}^na_j(b_j-b_{j-1}) \\=\sum_{j=1}^na_jb_j-\sum_{j=1}^na_jb_{j-1} \\=a_nb_n-\sum_{j=1}^nb_{j-1}(a_j-a_{j-1}) \]

而我们知道 \(b_n\to s\),因此存在 \(N\) 使得一切 \(n>N\) 都有 \(|b_n-s|<\eps\),则

\[\dfrac1{a_n}\sum_{j=1}^nx_j=\co{lightblue}{b_n}-\co{pink}{\dfrac1{a_n}\sum_{j=1}^{N-1}b_{j-1}(a_j-a_{j-1}})-\co{cyan}{\dfrac1{a_n}\sum_{i=N}^n(a_j-a_{j-1})s}-\co{violet}{\dfrac1{a_n}\sum_{i=N}^n(a_j-a_{j-1})(b_{j-1}-s)} \]

蓝色的第一项 \(\to s\)。粉色的第二项后面是常数,前面的 \(\dfrac1{a_n}\to0\),因此也 \(\to0\)。青色的第三项等于 \(\dfrac1{a_n}(a_n-a_{N-1})s\to s\)。最后紫色第四项,其绝对值不超过 \(\dfrac1{a_n}(a_n-a_{N-1})\eps\to\eps\),于是整个式子 \(\to\eps\),而 \(\eps\) 可以任意小,于是其 \(\to0\)

Khintchine-Kolmogorov 收敛定理:对于独立、零期望、方差和有限的随机变量列,\(\sum_{i=1}^nX_n\) a.s. 收敛到有限值。

其证明需要 Kolmogorov 最大值不等式:对于独立、零期望且有限方差的 \(X_1,\dots,X_n\),定义 \(S_j=\sum_{i=1}^jX_j\),则对于一切 \(\eps\),有

\[P(\max_{1\leq j\leq n}|S_j|\geq\eps)\leq\dfrac{\var(S_n)}{\eps^2} \]

[!TIP]

其是 Cherbyshev 不等式的推广:该不等式保证 \(P(|S_n|\geq\eps)\leq\var(S_n)/\eps^2\)。Kolmogorov 最大值不等式不仅保证最终结果的界,还将这一结果扩展到路径中的每一项。

对于 \(\eps\) 定义 \(T(\omega)\) 为最小的满足 \(|S_j(\omega)|\geq\eps\)\(j\)——如果不存在这样的 \(j\) 则令其为 \(+\infty\)(其实任何 \(>n\) 的数均可)。则有 \(\cur{\max_{1\leq j\leq n}|S_j|\geq\eps}=\cur{T\leq n}\)。于是有

\[P(\max_{1\leq j\leq n}|S_j|\geq\eps)=P(T\leq n)=\E[1_\cur{T\leq n}] \\\leq\E[\dfrac{S_T^2}{\eps^2}1_\cur{T\leq n}]\leq \eps^{-2}\E[S_{T\wedge n}^2] \\=\eps^{-2}\E\left|\sum_{i=1}^{T\wedge n}X_j\right|^2=\eps^{-2}\E\left|\sum_{i=1}^nX_j1_\cur{T\geq j}\right|^2 \\=\co{lightblue}{\eps^{-2}\E[\sum_{j=1}^nX_j^21_\cur{T\geq j}]}+\co{pink}{2\eps^{-2}\sum_{i<j}\E[X_iX_j1_\cur{T\geq j}]} \]

有一个事实是,是否有 \(T\geq j\) 只与 \(X_1,\dots,X_{j-1}\) 相关,所以有 \(1_\cur{T\geq j}\)\(X_j,\dots,X_n\) 全都彼此独立。那么蓝色的部分就可以把 \(\E[1_\cur{T\geq j}]\) 提出来并放缩到 \(1\),粉色部分则可以把 \(\E[X_j]\) 提出来,且因为零期望性所以直接知粉色部分为零。于是有

\[\leq\eps^{-2}\E[\sum_{j=1}^nX_j^2]=\eps^{-2}\E[\sum_{j=1}^n\var(X_j)]=\eps^{-2}\var(S_n) \]

现在回头证明 K-K 收敛定理。其核心目标是使用 Cauchy 审敛法证明 \(S_n\) 几乎处处是 Cauchy 列。具体而言,我们的目标是证明对于一切 \(\eps\) 均有

\[P(\sup_{m,n\geq M}|S_m-S_n|\geq2\eps)\to0 \]

因为这个 \(\sup\) 是递减的,所以 in probability 可以推出 a.s.。

现在考虑把这个 \(\sup\) 拆成两半,证明 \(P(\sup_{n\geq M}|S_n-S_M|\geq\eps)\to0\) 即可。这就轮到 Kolmogorov 最大值定理派上用场了:

\[P(\max_{M\leq n\leq m}|S_n-S_{M}|\geq\eps)\leq\dfrac{\var(S_m-S_M)}{\eps^2} \]

因为方差和有界,所以可以先让 \(m\to\infty\) 把左侧转成 \(\sup\),然后同样令 \(M\to\infty\) 即可。

引理:对于 \(Y\geq0\)\(p>0\),有 \(\E[Y^p]=\int_0^\infty py^{p-1}P(Y\geq y)\d y\)

\[\int_0^\infty py^{p-1}P(Y\geq y)\d y \\=\int_0^\infty\int py^{p-1}1_\cur{Y\geq y}\d P\d y \\=\int\int_0^Y py^{p-1}\d y\d P \\=\int Y^p\d P=\E[Y^P] \]

Cesàro 均值定理:若 \(a_n\to k\),则 \(\dfrac1n\sum a_n\to k\)​。证明直接 play with epsilon 即可。


这种证法还能进一步获取收敛速率。具体而言,令有 \(\E X_i=0,\E X_i^2=\sigma^2<\infty\)——注意朴素的强大数定律并不要求方差有界(因此需要 truncate 到有界方差后,才能用 K-K 让 \(\sum X_i/i\) 收敛,之后再接 Kronecker)——则有 \(\dfrac1{\sqrt n(\log n)^{1/2+\eps}}S_n=\dfrac{\sqrt n}{(\log n)^{1/2+\eps}}\bar X_n\to0\)。换言之,\(\bar X_n=o\Big(\dfrac{(\log n)^{1/2+\eps}}{\sqrt n}\Big)\)

[!TIP]

事实上,此处这个奇怪系数可以是任何满足 \(\sum a_n^2\) 有限的 \(a_n\)。在上述例子中,\(a_n=\dfrac1{\sqrt n(\log n)^{1/2+\eps}}\),是一个经典的平方收敛列。

\(\sum\var(X_n\cdot a_n)=\sigma^2\sum a_n^2<\infty\)。因此可以直接使用 K-K + Kronecker 的丝滑连招。

进一步,还有 Marcinkiewicz-Zygmund 强大数定律:只要对于某个 \(0<p<2\) 满足 \(\E|X_i|^p<\infty\),则:

  • \((S_n-n\E X)/n^{1/p}\to0\),如果 \(1\leq p<2\)
  • \(S_n/n^{1/p}\to 0\),如果 \(0<p<1\)

特别地,在 \(p=1\) 时,它就是朴素的 Kolmogorov 强大数定律,不知道收敛速率;

\(p>1\) 时,其给出收敛速率:\(\bar X-\E X=o(1/n^{1-1/p})\)

\(p<1\) 时,\(\E X\) 可能是发散的,所以式子中并没有 \(\E X\)(然而,如果 \(\E X\) 收敛,那么可以由 Kolmogorov 强大数定律知必有 \(\E X=0\))另一方面,\(\bar X_n\) 同样可能是发散的,在乘上一个趋于零的 \(n^{1-1/p}\) 后才能收敛。

在理解以上内容时可能有用的引理:对于 \(0<p_1<p_2<\infty\)\(\E|X|^{p_2}\) 收敛推出 \(\E|X|^{p_1}\) 收敛。这是因为期望可以分为 \(|X|\geq1\)\(|X|<1\) 两部分:前一半有 \(|X|^{p_1}\leq|X|^{p_2}\),于是 DCT 知收敛;后一半的正数幂次不超过 \(1\),显然收敛。

弱大数定律:对于 i.i.d. 的 \(X_n\),如果满足当 \(x\to\infty\) 时有 \(xP(|X|>x)\to0\)(换句话说,尾部概率 \(P(|X|>x)\)\(o(x^{-1})\) 的),则有 \(\bar X_n-\mu_n\to0\) in probability,其中 \(\mu_n\)截断期望 \(\E[X_11_\cur{|X_1|\leq n}]\)

[!TIP]

之所以它是「弱」大数定律,并非指它被强大数定律完全包含,而是指它需要的条件更弱:尾部概率收敛是期望有限的必要条件

\[xP(|X|>x)=x\E[1_\cur{|X|>x}]\leq\E[|X|1_\cur{|X|>x}]\to0 \]

其中最后一条由 DCT 保证。另一方面,当期望有限时,同样由 DCT 可知,阶段期望会趋于真实期望。也即,在期望有限时,强大数定律推出弱大数定律。

总结:

强大数定律:i.i.d. 且期望有限的 r.v. 列,均值几乎必然趋于期望。

M-Z 强大数定律:\(1<p<2\) 阶矩有限时,均值趋于期望的速率有保障;\(0<p<1\) 阶矩有限时,均值可能发散,需要乘上对应系数才能把它扳到零。

弱大数定律:i.i.d. 且尾部概率以 \(o(1/x)\) 速度收敛的 r.v. 列,均值依概率收敛于截断期望。

K-K 收敛定律:独立、零期望、方差和有限的 r.v. 列,和几乎处处收敛。

Kronecker 引理:对于 \(0<a_n\uparrow\infty\)\(\sum_{i=1}^nx_i/a_i\) 有限推出 \(\sum_{i=1}^nx_i/a_n\to0\)

结合使用:零期望的场合,只要 \(X_i/a_i\) 的方差和有限,\(S_i/a_n\) 就趋于零。

Central Limit Theorem

定义:称 CDF 序列 \(\cur{F_n}\) converge weakly to \(F\),如果在 \(F\) 的一切连续点均有 \(F_n(y)\to F(y)\)

定义:称 r.v. 列 \(\cur{X_n}\) 依分布收敛于 \(X\),如果它们的 CDF 弱收敛。记作 \(X_n\dto X\)

依分布收敛比依概率收敛更弱。但是在某些场合,例如独立随机变量的和,二者是等价的,依分布收敛能反推出依概率收敛。

本章的目标是证明中心极限定理:当 \(\E X=\mu,\var(X)=\sigma^2\) 时,有

\[\sqrt n\dfrac{\bar X_n-\mu}{\sigma}\dto\mathcal N(0,1) \]

换句话说,\(\bar X_n-\mu\) 会是一个标准差不断减小,也即分布不断集中在 \(0\) 周围的 Gaussian。它是强大数定律的扩展,更加精细地研究均值的分布,同时也揭示了 Gaussian 为什么重要。


研究中心极限定理需要一种特殊的函数,即特征函数 \(\varphi:\R\to\C\),且满足 \(\varphi_X(t)=\E[\exp(\i tX)]\)

[!NOTE]

在久远的回忆中,我们曾经见过矩生成函数 (MGF) \(M_X(t)=\E[\exp(tX)]\),它在证明 Chernoff Bound 时很有用。但是之所以我们不用 MGF,是因为矩不一定存在,所以 MGF 同样不一定存在。然而 ch.f. 因为 \(|\exp(\i tX)|=1\) 所以必然存在,因此其具有更高的泛用性。

实际使用的公式是

\[\varphi_X(t)=\E[\cos(tX)]+\i\E[\sin(tX)] \]

因为它们被 \(1\) bound 所以其必然收敛。

有一些好用的小技巧:

  • 如果 \(\varphi\)\(X\) 的特征函数,则 \(\bar\varphi\)\(-X\) 的。
  • 如果 \(\varphi_1,\varphi_2\)\(X_1,X_2\) 的特征函数,则对于归一化的 \(a,b\)\(a\varphi_1+b\varphi_2\) 是混合随机变量的特征函数。
  • 对于独立的 \(X_1,X_2\),有 \(\varphi_{X_1+X_2}=\varphi_{X_1}\varphi_{X_2}\)
  • \(\varphi_{aX}(t)=\varphi_X(at)\)

[!TIP]

这其实类似 Fourier 变换中对卷积(\(X_1+X_2\) 对应着 CDF 的卷积)和乘法的互换。事实上,它和连续 Fourier 变换的公式

\[\hat f(\xi)=\int f(x)\exp(-\i2\pi x\xi)\d x \]

的公式就差了 \(-2\pi\) 的系数。

事实上,正如 Fourier 变换有其逆变换一样,同样有如下定理:

Inversion Theorem:若 \(\varphi_X=\varphi_Y\),则 \(X\deq Y\)

事实上,\(X\) 的概率测度可以由 \(\varphi\) 的表达式显式计算出。令 \(X\) 引导的概率测度是 \(\mu\),则从 \(\mu\)\(\varphi\) 的公式是 \(\varphi(t)=\int\exp(\i tx)\mu(\d x)\)。另一方面,有从 \(\varphi\)\(\mu\) 的 Inversion Formula

\[\mu((a,b))+\dfrac12\mu(\cur{a,b})=\dfrac1{2\pi}\lim_{T\to\infty}\int_{-T}^T\dfrac{\exp(-\i ta)-\exp(-\i tb)}{\i t}\varphi(t)\d t \]

[!NOTE]

内侧的神秘分式 \(\dfrac{\exp(-\i ta)-\exp(-\i tb)}{\i t}\) 其实是 \(\int_a^b\exp(-\i ty)\d y\),因此其被 \(b-a\) bound。同时这也保证该分式在 \(0\) 附近良定义。

如果要记这个公式的话,其实 PDF 的反演形式很优美

\[f(x)=\dfrac1{2\pi}\int_{-\infty}^\infty\exp(-\i tx)\varphi(t)\d t \]

而上述模式就是由 PDF 转 CDF,套一个积分后 Fubini 换进去即可。

定义 \(I_T=\int_{-T}^T\dfrac{\exp(-\i ta)-\exp(-\i tb)}{\i t}\varphi(t)\d t\),则展开 \(\varphi\) 的定义则有

\[I_T=\int_{-T}^T\dfrac{\exp(-\i ta)-\exp(-\i tb)}{\i t}\left(\int\exp(\i tX)\mu(\d x)\right)\d t \]

使用 Fubini 换序,然后由 \(\sin\) 的奇性、\(\cos\) 的偶性以及 \([-T,T]\) 积分区间的对称性 可知

\[I_T=\int\left(\int_{-T}^T\dfrac{\sin(t(x-a))}t\d t-\int_{-T}^T\dfrac{\sin(t(x-b))}t\d t\right)\mu(\d x) \]

[!TIP]

所以这就是我们以 \([-T,T]\) 区间取极限的原因:我们需要其对称性来帮助我们简化式子。其更不能直接一步到位写成

\[\mu((a,b))+\dfrac12\mu(\cur{a,b})=\dfrac1{2\pi}\int_{-\infty}^\infty\dfrac{\exp(-\i ta)-\exp(-\i tb)}{\i t}\varphi(t)\d t \]

的形式——右侧的广义积分不一定存在!这个证明只保证其沿 \([-T,T]\) 的极限存在,不保证任意路径的极限均存在。

内侧的积分就是一个纯粹的微积分问题了。这里略过不谈,只说结论:其在 \(x\in(a,b)\) 时取 \(2\pi\)\(x=a\lor x=b\) 时取 \(\pi\)\(x\notin[a,b]\) 时取 \(0\)。于是知 \(\dfrac1{2\pi}I_T\to\mu((a,b))+\dfrac12\mu(\cur{a,b})\)。进一步由 S.M.F. 相关性质可知这样的 \(\mu\) 是唯一的。

特别地,如果 \(\int|\varphi(t)|\d t\) 收敛,则广义积分 \(\dfrac1{2\pi}\int_{-\infty}^\infty\dfrac{\exp(-\i ta)-\exp(-\i tb)}{\i t}\varphi(t)\d t\) 确实是存在的,且被 \(\dfrac{|b-a|}{2\pi}\int|\varphi(t)|\d t\) bound。于是知 \(\mu\) 没有点密度,并有 density \(p(y)=\dfrac1{2\pi}\int\exp(-\i ty)\varphi(t)\d t\)

[!TIP]

这个公式就相当于我们最常见的逆 Fourier 变换公式!


允许我们使用特征函数视角分析的原因是 Lévy 连续性定理:对于 r.v. 列 \(X_n\) 和对应的特征函数列 \(\varphi_n\)

  • 如果 \(X_n\overset d\to X\),则 \(\varphi_n\) 逐点收敛至 \(\varphi_X\)
  • 反之,如果 \(\varphi_n\) 逐点收敛至某个 \(\varphi\),且 \(\varphi(t)\)\(0\) 处连续,则 \(\varphi\) 是某个 \(X\) 的特征函数,且 \(X_n\overset d\to X\)

于是,在证明中心极限定理时,我们即可转而分析特征函数。

现在定义 \(Y_i=(X_i-\mu)/\sigma\),则它们仍然是 i.i.d. 的,并满足 \(\E[Y]=0,\var(Y)=1\)。令 \(Z_i=\dfrac1{\sqrt n}\sum_{i=1}^nY_i\)。令 \(\varphi_n(t)\)\(Z_i\) 的 ch.f.,则有

\[\varphi_n(t)=\prod\varphi_{Y_i/\sqrt n}(t)=\varphi_Y(t/\sqrt n)^n \]

现在在原点处作 Taylor 展开(为何、何时能展开,以及高阶导数如何求参见此处),则有

\[\varphi_Y(t)=\varphi_Y(0)+t\varphi_Y'(t)+\dfrac{t^2}2\varphi_Y''(t)+o(t^2) \]

其中 \(\varphi_Y(0)=1,\varphi_Y'(0)=\i\E[Y]=0,\varphi_Y''(0)=\i^2\E[Y^2]=-1\)。于是

\[\varphi_Y(t)=1-\dfrac12t^2+o(t^2) \]

我们在意的是 \(\varphi(t/\sqrt n)\),则有

\[\varphi_Y(t/\sqrt n)=1-\dfrac1{2n}t^2+o(t^2) \]

现在我们要分析其 \(n\) 次幂的极限。这里使用一个非常常见的引理:对于序列 \(c_n\to c\in\C\),则 \((1+c_n/n)^n\to\exp c\)

[!TIP]

这个引理其实是实指数函数定义在复数域上的推广。两侧取对数,然后使用 \(\ln(1+x)\approx x\) 的常见 Taylor 展开可以提供一个感性的证明。

于是知 \(\varphi_Z(t)=\exp(-t^2/2)\)。简单验证可知,这个特征函数恰为标准 Gaussian 的特征函数,且其在 \(x=0\) 处连续。则由 Lévy 连续性定理,CLT 证毕。


现在来详细分析对特征函数的 Taylor 展开。首先是微分何时能与 Lebesgue 积分换序:我们有如下引理:

引理(微分与积分换序):对于概率空间 \((\R,\s B(\R),\mu)\),考虑函数 \(f:\R\times \R\to\C\)(例如,\(\exp(\i tx)\) 就是一个例子)。关于某个点 \(y\),如果对于某个 \(\delta>0\)\(x\in(y-\delta,y+\delta)\),以下四条件全部满足:

  • \(u(x)=\int f(x,s)\d\mu(s)\),且 \(\int|f(x,s)|\d\mu(s)<\infty\)
  • 对于固定的 \(s\)\(\dfrac{\p}{\p x}f(x,s)\) 存在,且关于 \(x\) 连续。
  • \(v(x)=\int\dfrac{\p}{\p x}f(x,s)\d\mu(s)\)\(y\) 处连续。
  • \(\int\int_{-\infty}^\infty|\dfrac\p{\p x}f(x+\theta,s)|\d\theta\d\mu(s)<\infty\)

则有 \(u'(y)=v(y)\)。换言之,偏导可与积分换序。

其证明仍然是使用 Fubini。具体而言,有

\[\begin{aligned} &u(y+h)-u(y) \\=&\int[f(y+h,s)-f(y,s)]\d\mu(s)&(\text I) \\=&\int\int_0^h\dfrac{\p}{\p x}f(y+\theta,s)\d\theta\d\mu(s)&(\text{Newton-Leibniz}) \\=&\int_0^h\int\dfrac{\p}{\p x}f(y+\theta,s)\d\mu(s)\d\theta&(\text{Fubini}) \\=&\int_0^hv(y+\theta)\d\theta&(\text{III}) \end{aligned} \]

于是两边同时除以 \(h\),令 \(h\to0\) 并使用 III 即可。

\(f\) 是特征函数 \(\varphi(t)=\E[\i tX]\) 的场合,只要 \(\E[|X|^n]<\infty\),即可验证最重要的第四条的成立,于是直接归纳即可得 特征函数的高阶导数与随机变量矩的关系:对于一切 \(m\leq n\) 均有

\[\varphi^{(m)}(0) = \int (\i x)^m d\mu(x) = \i^m \E[X^m] \]

现在要证明 Taylor 展开(的 Taylor 余项形式),只需要把余项 bound 住即可。引理(常数的 Taylor 余项分析):对于常数 \(x\),有

\[\left|\exp(\i x)-\sum_{m=0}^n\dfrac{(\i x)^m}{m!}\right|\leq\min\left(\dfrac{|x|^{n+1}}{(n+1)!},\dfrac{2|x|^n}{n!}\right) \]

证明是对一个特殊的积分进行分部积分得到

\[\int_0^x(x-s)^n\exp(\i s)\d s=\dfrac{x^{n+1}}{n+1}+\dfrac\i{n+1}\int_0^x(x-s)^{n+1}\exp(\i s)\d s \]

这个积分能在升幂的同时自动创造出所有需要的 \(\dfrac{(\i x)^m}{m!}\) 项,因此从 \(n=0\) 开始重复 \(m\) 次即知

\[\exp(\i x)=\sum_{m=0}^n\dfrac{(\i x)^m}{m!}+\dfrac{\i^{n+1}}{n!}\int_0^x(x-s)^n\exp(\i s)\d s \]

[!TIP]

这个积分正是 Taylor 展开的积分余项。

现在考虑对积分余项的放缩。一种方法是直接套上绝对值并利用 \(|\exp(\i s)|=1\),得到一个界是 \(\dfrac{|x|^{n+1}}{(n+1)!}\);另一种是回退到上一步的分部积分结果,此时有

\[\exp(\i x)-\sum_{m=0}^{n-1}\dfrac{(\i x)^m}{m!}=\dfrac{\i^n}{(n-1)!}\int_0^x(x-s)^{n-1}\exp(\i s)\d s-\dfrac{(\i x)^n}{n!} \\=\dfrac{\i^n}{n!}\int_0^x(x-s)^{n-1}(\exp(\i s)-1)\d s \]

其中最后一步是将多项式项也转为积分形式。然后仍然套绝对值并取 \(|\exp(\i s)-1|\leq2\) 即可放缩到另一个界 \(\dfrac{2|x|^n}{n!}\)

那么将单个实数的语言翻译到随机变量的语言,即有

\[R_n(t)=\varphi(t)-\sum_{m=0}^n\frac{\varphi^{(m)}(0)}{m!}t^m \\|R_n(t)|\leq\E\min\left(\dfrac{|tX|^{n+1}}{(n+1)!},\dfrac{2|tX|^n}{n!}\right) \\\lim_{t\to0}\dfrac{|R_n(t)|}{t^n}\leq\lim_{t\to0}\E\min\left(\dfrac{|X|^{n+1}}{(n+1)!}t,\dfrac{2|X|^n}{n!}\right) \]

其中,\(\min\) 中后一项的 \(|X|^n\) 保证了 DCT 的适用性,真实使用的则是前一项,将极限移入期望即可知左侧极限是 \(\E[0]=0\)。那么余项确实是 \(o(t^n)\) 的,正文中使用的 Taylor 展开式得证。

现在证明我们的引理,即 \(c_n\to c\in\C\)\((1+c_n/n)^n\to\exp c\)

这使用了两个辅助不等式:

  • 对于模长不超过 \(\theta\)\(\cur{z_i}\)\(\cur{w_i}\),有 \(|\prod z_i-\prod w_i|\leq\theta^{n-1}\sum|z_i-w_i|\)。证明直接归纳。
  • 如果 \(|b|\leq1\)\(|\exp(b)-(1+b)|\leq|b|^2\)。这个通过检查之前的 Taylor 展开式等可知。

于是令 \(z_i=(1+c_i/i),w_i=\exp(c_i/i)\)。由于 \(c_n \to c\),存在一个 \(R > |c|\) 使得对足够大的 \(n\),有 \(|c_n| < R\)。此时 \(|z_m|\)\(|w_m|\) 都可以被一个共同的界 \(\theta = e^{R/n}\) 控制。于是使用第一个辅助不等式,知

\[|(1+c_n/n)^n-\exp(c_n/n)^n|\leq[\exp(R/n)]^{n-1}n|\exp(c_n/n)-(1+c_n/n)| \]

再使用第二个辅助不等式,有 \(\exp(c_n/n)-(1+c_n/n)\leq|c_n/n|^2\),于是右式等于 \(\exp(R(1-1/n))\cdot\dfrac{c_n^2}{n}\);当 \(n\to\infty\) 时,易知其 \(\to0\)。于是 \((1+c_n/n)^n-\exp(c_n/n)^n\to0\),即 \((1+c_n/n)^n\to\exp c\)


上述经典的 CLT(也称 Lévy-Lindeberg CLT)适用条件较严格,要求随机序列是 i.i.d. 的,且仅仅定性告诉我们其收敛,并没有定量地描述收敛速率(正如 Kolmogorov SLLN 和 Marcinkiewicz-Zygmund SLLN)的关系一样。这导致其两种可能的加强方式:

第一种方式是 Lindeberg-Feller CLT,其考虑独立但不同分布的 \(\cur{X_k}\)。它们应满足独立、零期望、\(\var(X_k)=\sigma^2_k<\infty\)。则 \(S_n\) 的方差是 \(s_n^2=\sum_{i=1}^n\sigma_i^2\),则关心的归一化随机变量是 \(Z_n=\dfrac{S_n}{s_n}\)。为了保证收敛,应满足「个别的 \(X_k\) 不应对整体的 \(S_n\) 起过大作用」,即 Lindeberg 条件:对于任意固定的 \(\epsilon > 0\),当 \(n \to \infty\) 时均有

\[\lim_{n\to\infty}\dfrac1{s_n^2}\sum_{k=1}^n\E[X_k^21_\cur{|X_k|>\eps s_n}]=0 \]

[!NOTE]

即,相对于总方差 \(s_n^2\),所有事件的尾部部分贡献的误差是 negligible 的。

[!TIP]

在所有 \(X_k\) 同分布且方差有限时,由 DCT 可知 Lindeberg 条件天然成立,此时 L-F CLT 退化为经典 CLT。

此时即有 \(Z_n\to\mathcal N(0,1)\)

最后,还有最强的 三角阵列 CLT。其作用于三角列 \(\cur{X_{n,m}}\),其中 \(1\leq m\leq n\)。它们应独立、零期望,且满足:

  • 方差收敛条件:行和的方差趋于稳定,即 \(\sum_{m=1}^n\E X_{n,m}^2\to\sigma^2>0\)
  • 三角阵列 Lindeberg 条件:一切 \(\eps>0\) 都有 \(\lim_{n\to\infty}\sum_{m=1}^n\E|X_{n,m}|^21_\cur{|X_{n,m}|>\eps}=0\)

此时即有 \(S_n\dto\mathcal N(0,\sigma^2)\)

[!TIP]

对于适用于 L-F CLT 条件的序列 \(\cur{X_k}\),取 \(X_{n,m}=X_m/s_n\) 即可得到满足三角阵列条件的三角列。于是三角阵列 CLT 自动推出 L-F CLT。

证明之。首先,Lindeberg 条件可以推出单个方差相较于总方差的可忽略性,即 \(\max_{m=1}^n\E X_{n,m}^2\to0\)

\[\E X_{n,m}^2=\E X_{n,m}^21_\cur{|X_{n,m}|>\eps}+\E X_{n,m}^21_\cur{|X_{n,m}|\leq\eps} \\\leq\E X_{n,m}^21_\cur{|X_{n,m}|>\eps}+\eps^2 \\\max_m\E X_{n,m}^2\leq\eps^2+\max_m\E X_{n,m}^21_\cur{|X_{n,m}|>\eps}\leq\eps^2+\sum_m\E X_{n,m}^21_\cur{|X_{n,m}|>\eps}\to\eps^2 \]

因为 \(\eps\) 可以任意小所以即证。

审视一下我们的目标:即 \(\prod\varphi_{X_{n,m}}(t)=\exp(-\sigma^2t^2/2)\)。这个乘积我们不是很喜欢,把它变成 \(\exp(\sum\log\varphi_{X_{n,m}}(t))\)

[!TIP]

在常规 CLT 的场合,这个乘积是单纯的幂次,所以没有这一步。

一方面,我们有

\[|\exp(\i x)-1-\i x|\leq|x|^2/2 \\|\E\exp(\i tX_{n,m})-1-\i t\E X_{n,m}|\leq t^2\E|X_{n,m}|^2/2 \]

于是由 \(\E X_{n,m}=0\)\(\max_m\E|X_{n,m}|^2\to0\),有 \(\max_m|\varphi_{X_{n,m}}-1|\to0\)

另一方面,进一步有

\[|\exp(\i x)-1-\i x+x^2/2|\leq\min(|x|^2,|x|^3/6) \\|\E\exp(\i tX_{n,m})-1-\i t\E X_{n,m}+t^2\E X_{n,m}^2/2|\leq \E\min(|tX_{n,m}|^2,|tX_{n,m}|^3/6) \\\leq\E|tX_{n,m}|^21_\cur{|X_{n,m}|>\eps}+\E(|tX_{n,m}|^3/6)1_\cur{|X_{n,m}|\leq\eps} \\\leq t^2\co{red}{\E|X_{n,m}|^21_\cur{|X_{n,m}|>\eps}}+\dfrac{t^3\eps}{6}\E|X_{n,m}|^2 \]

对这个东西关于 \(m\) 求和后取 \(n\to0\),则红色部分因为 Lindeberg 条件趋于 \(0\)\(\eps\) 又可以任意小,所以有

\[\lim_{n\to\infty}\sum_m\varphi_{X_{n,m}}-1=\lim_{n\to\infty}\sum_m-t^2\E X_{n,m}/2=-\sigma^2t^2/2 \]

这里已经凑出来最终我们想要的部分了。最后只要把 \(\sum_m\log\varphi_{X_{n,m}}\) 挂钩到第一项即可。

利用性质:对于 \(|z|\leq1/2\),有 \(|\log(1+z)-z|\leq|z|^2\)。于是因为对于足够大的 \(n\)\(|\varphi_{X_{n,m}}-1|\leq1/2\),所以

\[|\log\varphi_{X_{n,m}}-(\varphi_{X_{n,m}}-1)|\leq|\varphi_{X_{n,m}}-1|^2\leq|\dfrac{t^2}{2}\E X_{n,m}^2|^2=\dfrac{t^4}4(\E X_{n,m}^2)^2 \\|\sum_m\log\varphi_{X_{n,m}}-\sum_m(\varphi_{X_{n,m}}-1)|\leq\sum_m|\varphi_{X_{n,m}}-1|^2\leq\dfrac{t^4}4\sum_m(\E X_{n,m}^2)^2 \\\leq\dfrac{t^4}4\max_m\E X_{n,m}^2\sum_m\E X_{n,m}^2 \]

\(\max\) 一项趋于零,\(\sum\) 一项趋于 \(\sigma^2\),于是整个乘积趋于 \(0\)。故 \(\sum_m\log\varphi_{X_{n,m}}\)\(\sum_m(\varphi_{X_{n,m}}-1)\) 的极限相同。证毕。

还有第二种方式是 Berry-Esseen 界,其回到 i.i.d. 的 \(\cur{X_n}\),并通过 三阶矩 来定量地描述收敛速率。具体而言,若有 \(\E X_i=0,\E X_i^2=\sigma^2,\E|X_i|^3=\rho\),则有

\[\sup_t|P(Z_n\leq t)-P(Z\leq t)|\leq3\rho/\sigma^3\sqrt n \]

换言之,它们的 CDF 间最大差异以 \(O(1/\sqrt n)\) 速度衰减。这个 \(3\)​ 并非严格常数,还在不断被收紧。

Statistics

有两组各自 i.i.d. 的变量 \(X_i\)\(Y_i\)。我们要判断它们服从的分布的均值是否相同。令假设 \(H_0\)\(\mu_X=\mu_Y\),即效果为阴性;\(H_1\)\(\mu_X\neq\mu_Y\),即效果为阳性。

一个直觉是看收集到样本均值的差也即 \(\bar X-\bar Y\)。大的差值会支持 \(H_1\),而小的差值则支持 \(H_0\)。但区分二者的阈值如何设置?

CLT 告诉我们 \(\bar X\) 会趋近于 \(\mathcal N(\mu_X,\sigma^2_X/n)\),而 \(\bar Y\) 会趋近于 \(\mathcal N(\mu_Y,\sigma^2_Y/n)\),二者的差同样会是一个 Gaussian。但问题在于,我们只能获取样本方差 \(\hat\sigma_X,\hat\sigma_Y\),无法接触真实方差——但这不是问题。有定理可以保证代入样本方差后,仍然有

\[T=\dfrac{\bar X-\bar Y}{\sqrt{\hat\sigma^2_1/n+\hat\sigma^2_2/n}}\to\mathcal N(0,1) \]

[!TIP]

Slutsky 定理:对于 \(A_n\dto A\)\(B_n\pto b\)(其中 \(b\) 是常数),有 \(A_n+B_n\dto A+b,A_nB_n\dto bA\)

以下给出第二种场景 \(A_n\) 可积时 的一个简单证明。考虑

\[\Delta_n=|\varphi_{A_nB_n}-\varphi_{bA_n}|=|\E[\exp(\i tA_nB_n)]-\E[\exp(\i tbA_n)]| \\\leq\E|\exp(\i tA_nB_n)-\exp(\i tbA_n)| \]

现在取 \(E_n=\cur{|B_n-b|\leq\delta}\),则

\[=\co{lightblue}{\E[|\exp(\i tA_nB_n)-\exp(\i tbA_n)|1_{E_n}]}+\co{pink}{\E[|\exp(\i tA_nB_n)-\exp(\i tbA_n)|1_{E_n^\comp}]} \]

对粉色项应用 \(|\exp(\i ta)-\exp(\i tb)|\leq2\) 可放缩到 \(2P(1_{E_n^\comp})\)。因为 \(B_n\pto b\) 所以知其 \(\to0\)

对蓝色项应用 \(|\exp(\i ta)-\exp(\i tb)|\leq|a-b|\),有

\[|\exp(\i tA_nB_n)-\exp(\i tbA_n)|\leq|tA_nB_n-tbA_n|=t|A_n||B_n-b|\leq t|A_n|\delta \]

于是只要 \(\E|A_n|<\infty\),因为 \(\delta\) 任意小所以即有 \(\Delta_n\to0\),即 \(\varphi_{A_nB_n}\to\varphi_{bA_n}\)

第一种场景则更为简单,相似的分析可以直接得到一般结论:

\[\Delta_n=|\varphi_{A_n+B_n}-\varphi_{A_n+b}|=|\E\exp(\i t(A_n+B_n))-\E\exp(\i t(A_n+b))| \\\leq\E|\exp(\i t(A_n+B_n))-\exp(\i t(A_n+b))| \\=\E|\exp(\i t A_n)(\exp(\i tB_n)-\exp(\i t b))| \\=\E|\exp(\i tB_n)-\exp(\i tb)| \]

仍然定义 \(E_n=\cur{|B_n-b|\leq\delta}\),则

\[=\E|\exp(\i t(B_n-b))|1_{E_n}+\E|\exp(\i t(B_n-b))|1_{E_n^\comp} \\\leq\E|B_n-b|1_{E_n}+\E1_{E_n^\comp} \\\leq\delta+P(E_n^\comp) \to\delta \]

剩余分析同上。

根据 \(T\) 值是否是 Standard Gaussian 大概率产出的结果,我们即可展开判断。


在设阈值前,我们先对错误判断做分类:

  • Type-I Error,即假阳性(误报)。实际结果是阴性,被报成了阳性。在新药上市等场合,这种错误是需要被竭力避免的。我们的目标是将假阳性率控制在一个很小的范围内,即不超过阈值 significance level \(\alpha\)
  • Type-II Error,即假阴性(漏报)。这种错误是可以被容忍——代价只不过是错过了一款药而已。

在这个前提下,我们只需计算 \(T\) 值是否落在 \(1-\alpha\) 置信区间中——如果在其中,则即可保留 \(H_0\),认为药无效;否则即拒绝 \(H_0\),认为药有效。


除了简单地判断「信任」还是「不信任」,其概率也可进一步被量化。定义当前统计量 \(\hat T\)\(p\)-值为假设 \(H_0\) 为真的前提下,观察到比 \(\hat T\) 更极端的量的概率,也即

\[p=P(|Z|\geq|\hat T|):Z\sim\mathcal N(0,1) \]

\(\alpha\) 的另一种描述是,当 \(p<\alpha\) 时我们认为差异显著并拒绝 \(H_0\),否则接受。

此外,\(p\) 值本身可以看做是 \(\hat T\) 的一个函数,同样也是一个随机变量。那么当 \(H_0\) 为真时,有

\[\lim_{n\to\infty}P(p\leq\alpha)=\alpha \]

Martingale

首先复习一下条件概率的若干性质:

  • \(\E[aX+Y\mid\s F]=a\E[X\mid\s F]+\E[Y\mid\s F]\)
  • \(X\leq Y\implies\E[X\mid\s F]\leq\E[Y\mid\s F]\)
  • \(X_n\geq0\land X_n\uparrow X\implies\E[X_n\mid\s F]\uparrow\E[X\mid\s F]\)
  • \(\s F\sube\s G\land\E[X\mid\s G]\in\s F\implies\E[X\mid\s F]=\E[X\mid\s G]\)
  • \(\s F_1\sube\s F_2\implies\E[\E[X\mid\s F_1]\mid\s F_2]=\E[\E[X\mid\s F_2]\mid\s F_1]=\E[X\mid\s F_1]\)
  • \(X\in\s F\implies\E[X\mid\s F]=X\)
  • \(X\in\s F\implies\E[XY\mid\s F]=X\E[Y\mid\s F]\)。(前提:\(\E|Y|,\E|XY|<\infty\)
  • \(X\)\(\s F\) 独立(即,\(\sigma(X)\)\(\s F\) 独立),则 \(\E[X\mid\s F]=\E[X]\)。这是因为 \(\E[X1_G]=\E[X]P(G)=\E[\E[X]1_G]\)

定义:一个 Filtration 是不降的 \(\sigma\)-代数列 \(\s F_1\sube\s F_2\sube\dots\)

[!TIP]

这个概念有一个基于拓扑学的名称「滤子」,但是更形象的方式是「信息流」,它描述了交互过程中不断获取新信息的过程。

r.v. 列 \(\cur{X_n}\) 是关于某个 Filtration 的 (martingale),如果其满足以下条件:

  • 可积性:\(\E|X_n|<\infty\)
  • 适应性:\(X_n\in\s F_n\)
  • 鞅性质:\(\E[X_{n+1}\mid\s F_n]=X_n\) a.s.。

如果第三条变成 \(\E[X_{n+1}\mid\s F_n]\leq X_n\) a.s.,则其是 上鞅 (supermartingale);变成 \(\geq\) 则是 下鞅 (submartingale)。


一个例子是独立、零期望的 r.v. 列 \(\cur{\xi_i}\),令 \(S_n=\sum\xi_i\)\(\s F_n=\sigma(\xi_1,\dots,\xi_n)\),则

\[\E[S_{n+1}\mid\s F_n]=\E[S_n\mid\s F_n]+\E[\xi_{n+1}\mid\s F_n]=\co{lightblue}{S_n}+\co{pink}{\E[\xi_{n+1}]}=S_n \]

其中浅蓝项是因为 \(S_n\in\s F_n\),粉色项是因为 \(\xi_{n+1}\)\(\s F_n\) 独立。于是其成鞅,这个鞅被称作 线性鞅 (linear martingale)。


称序列 \(\cur{H_n}\) 是可预测的,若 \(H_n\in\s F_{n-1}\)。可预测序列可以看做是一种决策(只能依赖已有信息)。

定义 离散随机积分

\[(H\cdot X)_n=\sum_{m=1}^nH_m(X_m-X_{m-1}) \]

可以看做是 \(m\) 时刻下注 \(H_m\) 的累计收益。

[!TIP]

它有一个类似 Abel 和的形式,虽然在证明里没啥用罢了。

其另一种称呼是 鞅变换 (Martingale Transform)。

一个例子是其在赌博场合的应用:\(\xi_i\in\cur{-1,1}\) 是每一轮的胜负情况,\(X_n=\sum\xi_i\),然后

\[H_0=1,H_n=\begin{cases}2H_{n-1}&(\xi_{n-1}=-1)\\1&(\xi_{n-1}=1)\end{cases} \]

即,失败则加倍下注,成功则重置赌注。在这种策略下,只要赢一次,就能覆盖之前所有亏损并盈利。但这种策略依赖于无限的本金。


\(X_n\) 是上鞅且 \(H_n\) 是非负、有界的可预测序列,则 \((H\cdot X)_n\) 亦是上鞅。

\[\E[(H\cdot X)_{n+1}\mid\s F_n]=\E[(H\cdot X)_n\mid\s F_n]+\E[H_{n+1}(X_{n+1}-X_n)\mid\s F_n] \\=(H\cdot X)_n+H_{n+1}\E[X_{n+1}-X_n\mid\s F_n] \\\leq(H\cdot X)_n \]

其中,第一行到第二行是因为若 \(X\in\s F\)\(Y,XY\) 均可积则 \(\E[XY\mid\s F]=X\E[Y\mid\s F]\),第二行到第三行是由 \(X\) 的上鞅性和 \(H\) 的非负性。

同样的证明对下鞅和鞅的场合亦有效。这表明,在一个公平的游戏中,任何基于历史信息的可预测策略都无法改变期望收益。若市场是不利的(上鞅),任何策略都无法扭转平均亏损的局面。

[!TIP]

前述翻倍策略不依赖于 \(\xi_i\) 的分布,只要其有可能成功就能盈利。但正如前文所说,其中的 \(H\) 是无界的,因此并不适用于该定理。


定义:自然数随机变量 \(N\to\N\cup\cur{+\infty}\)停时 (stopping time),如果对于一切 \(n\) 都有 \(\cur{N=n}\in\s F_n\)。这也等价于 \(\cur{N\leq n}\in\s F_n\),并直接推出 \(\cur{N\geq n}=\cur{N\leq n-1}^\comp\in\s F_{n-1}\)

对于鞅 \(X_n\) 和参数 \(a<b\),定义停时序列

  • \(N_0=0\)
  • \(N_{2k-1}=\inf\cur{m>N_{2k-2}:X_m\leq a}\)
  • \(N_{2k}=\inf\cur{m>N_{2k-1}:X_m\geq b}\)
  • 如果某个集合为空,定义相应的值为 \(+\infty\)
  • 易验证每个 \(N_i\) 都是停时随机变量。

[!TIP]

其一个实际意义是,在价格 \(X\) 低于 \(a\) 时即买入,高于 \(b\) 时即卖出。

\(N_{2k-1}\)\(N_{2k}\) 被称作一次 上穿 (upcrossing)。定义 \(U_n=\sup\cur{k:N_{2k}\leq n}\) 为截至时刻 \(n\) 的 upcrossing 数目。


Doob's Upcrossing Inequality:若 \(X_n\) 是下鞅,则有

\[(b-a)\E U_n\leq\E(X_n-a)^+-\E(X_0-a)^+ \]

考虑构造截断下鞅 \(Y_n=(X_n-a)^++a=\max(X_n,a)\)。现在,应用 条件 Jensen 不等式:对于凸函数 \(\varphi\),若 \(\E|X|<\infty\)\(\E|\varphi(X)|<\infty\),则 \(\varphi(\E[X\mid\s F])\leq\E[\varphi(X)\mid\s F]\)。则因为 \(\max(\cdot,a)\) 是凸函数,所以有

\[\begin{aligned} \E[Y_{n+1}\mid\s F_n]&\geq\max(\E[X_{n+1}\mid\s F_n],a)&&(\text{Conditional Jensen}) \\&\geq\max(X_n,a)&&(\text{Submartingale; Increasing}\max(\cdot,a)) \\&=Y_n \end{aligned} \]

于是知 \(\cur{Y_n}\) 仍然是下鞅。同时,必有 \(Y_{N_{2k-1}}=a\)\(Y_{N_{2k}}\geq b\)

现在构造策略

\[H_m=[\exists k:N_{2k-1}<m\leq N_{2k}] \]

\(H_m\) 是可预测的:因为

\[\cur{N_{2k-1}<m\leq N_{2k}}=\cur{N_{2k-1}\leq m-1}\cup\cur{N_{2k}\leq m-1}^\comp\in\s F_{m-1} \]

[!TIP]

这个策略恰好满足了前述实际意义。

现在考虑序列 \((H\cdot Y)_n\)

  • 一个完整的上穿会贡献 \(Y_{N_{2k}}-Y_{N_{2k-1}}\geq b-a\)
  • 最后一个不完整的上穿贡献非负(因为 \(Y_n\geq Y_{N_{2k-1}}=a\)
  • 因此必有 \((b-a)U_n\leq(H\cdot Y)_n\)

现在证明 Doob 上穿定理。取 \(K_n=1-H_n\),则因为 \(Y\) 是下鞅,所以 \((K\cdot Y)_n\) 亦为下鞅,因此 \(\E[(K\cdot Y)_n]\geq0\),于是由前述定理可知

\[\E(X_n-a)^+-\E(X_0-a)^+=\E[Y_m-Y_0]=\E[(H\cdot Y)_n]+\E[(K\cdot Y)_n]\geq(b-a)U_n \]

[!NOTE]

Doob 上穿定理几乎没用,一般只会被用作证明 MCT。


Martingale Convergence Theorem:对于下鞅 \(X_n\),若其满足 \(\ell_1\) 有界性

\[\sup_n\E[X_n^+]<\infty \]

则存在 r.v. \(X\) 满足 \(\E|X|<\infty\)\(X_n\to X\) a.s.。

[!TIP]

一般意义上的 \(\ell_1\) 有界指的是 \(\E|X_n|<\infty\)。但在下鞅的场合,其与 \(\E X_n^+<\infty\) 等价。这是因为 \(\E X_n^-=\E X_n^+-\E X_n\),而由下鞅性质有 \(\E X_n\) 不降,因此 \(\E X_n^-\leq\E X_N^+-\E X_0\)。又因 \(\E X_0\) 是有限常数,所以有 \(\sup_n\E[X_n^-]\leq\sup_n\E[X_n^+]-\E X_0<\infty\)。故 \(\sup_n\E|X_n|<\infty\)

特别地,在非下鞅场合,不能作此推导。

首先,由上穿不等式,有

\[\E U_n\leq\dfrac{\E(X_n-a)^+}{b-a}\leq\dfrac{|a|+\E X_n^+}{b-a} \]

\(\ell_1\) 有界性可知 \(\E X_n^+\) 有界,于是亦有 \(\E U_n\) 有界。那么由 Fatou 引理,有

\[\infty>\sup\E U_n\geq\liminf\int U_n\d P\geq\int\liminf U_n\d P \]

然后因为 \(U_n\) 是单调增的,所以有 \(\liminf=\lim\),于是知 \(U_n\) 的极限 \(U\) a.s. 有限,且 \(\E U<\infty\)

[!TIP]

这里的 \(U_n\) 其实和 \(X_n\) 满足相同的条件,即 \(\ell_1\) 有界性(由 Doob 上穿不等式和 \(X_n^+\) 的有界性共同推出)。不同的是,因为其递增性,所以 Fatou 可以给出更强的结果。

考虑事件

\[\cur{\omega:\liminf X_n(\omega)<a<b<\limsup X_n(\omega)} \]

则如果 \(\omega\) 属于该事件,则 \(X_n(\omega)\) 必然产生无穷次上穿,故 \(U(\omega)=\infty\),因此该事件必然是零测的。现在关于所有有理数对 \((a,b)\),把上述事件求并,并集仍然是零测的,且恰为 \(\cur{\liminf X_n<\limsup X_n}\)。于是知 \(X_n\) a.s. 存在极限 \(X\)。由前文,有 \(\sup_n\E|X_n|<\infty\),于是亦有 \(\E|X|<\infty\)(仍然使用 Fatou)。

[!NOTE]

为了保证 \(X_n\) 收敛,我们需要排除两种不想看到的情况,即趋于无穷和反复震荡。

趋于无穷被 \(\ell_1\) 有界性排除了;反复震荡则是被 Doob 上穿定理排除了。最终的证明其实就是把两种排除分别用严谨的语言表述出来。


MCT 的作用之一是证明 K-K 收敛定理,即独立、零期望、方差和有限的随机变量列,\(\sum_{i=1}^nX_n(w)\) a.s. 收敛到一个有界值。首先 \(S_n\) 会是鞅,且因为方差和有限所以 \(\E|S_n|^2\) 有界,于是由 Jensen 得到 \((\E|S_n|)^2\) 同样有界,于是 \(\ell_1\)​ 有界性得证,由 MCT 可得其收敛。


特别地,对于 \(X_n\geq0\) 的上鞅,可以用 MCT 知其收敛至 \(X\),然后再用 Fatou 引理得到 \(\E[\liminf X_n]\leq\liminf\E X_n\),然后再结合 \(\E X_n\) 的不增性得到 \(\E X\leq\E X_n\)

特别地,a.s. 收敛并不能推出 \(\ell_1\) 收敛(即 \(\E X_n\to\E X\))。反例是 1D 游走首次归零时刻:令 \(S_0=1\)\(S_n\)\(\xi_i:P(\xi_i=1)=P(\xi_i=-1)=1/2\) 的和,\(N=\inf\cur{n:S_n=0}\)\(X_n=S_{N\wedge n}\)


一个应用是有界差的鞅要么无穷震荡要么收敛。具体地,若一个鞅满足 \(|X_{n+1}-X_n|\leq M<\infty\),则

\[P(\cur{\lim X_n\text{ exists and finite}}\cup\cur{\limsup X_n=+\infty\land\liminf X_n=-\infty})=1 \]

证明考虑取阈值 \(K>0\) 并令 \(N=\inf\cur{n:X_n<-K}\) 为初次越界时刻,则有 \(X_{n\wedge N}\geq-K-M\),于是 \(X_{n\wedge N}+K+M\) a.s. 收敛,即在 \(\cur{N=\infty}\) 上有 \(X_n\) 收敛;令 \(K\to\infty\) 可知在 \(\cur{\liminf X_n>-\infty}\) 上收敛。同理可得到另一侧的界。

现在引入 Doob 分解:任何下鞅 \(X_n\) 都可以被唯一分解为 \(M_n+A_n\),其中 \(M_n\) 是鞅而 \(A_n\) 是可预测且 \(A_0=0\) 的列。

直接代入即可知有

\[\E[X_n\mid\s F_{n-1}]=\E[M_n\mid\s F_{n-1}]+\E[A_n\mid\s F_{n-1}]=M_{n-1}+A_n=X_{n-1}+A_n-A_{n-1} \\A_n-A_{n-1}=\E[X_n\mid\s F_{n-1}]-X_{n-1}\geq0 \\A_n=\sum\E[X_m-X_{m-1}\mid\s F_{m-1}] \]

而反过来代回即可知 \(M\) 确实是鞅。

现在结合这两者证明 第二 Borel-Cantelli 引理 的扩展版本:对于满足 \(\s F_0=\cur{\varnothing,\Omega}\) 的 Filtration \(\s F_n\) 和事件集 \(B_n\in\s F_n\),有

\[\cur{B_n\io}=\cur{\sum P(B_n\mid\s F_{n-1})=\infty} \]

\(X_n=\sum 1_{B_m}\),则其是下鞅,且 Doob 分解中的 \(A_n=\sum\E[1_{B_m}\mid\s F_{m-1}]\),于是对应的 \(M_n=\sum1_{B_m}-P(B_m\mid\s F_{m-1})\),而其是差被 \(1\) bound 的鞅,应用上述定理即证。


Optional Stopping Theorem:对于 有界 停时 \(N\)(也即存在 \(k\) 使得 \(P(N\leq k)=1\))和下鞅 \(X\),有 \(\E X_0\leq\E X_N\leq\E X_k\)

对于左侧,定义可预测决策 \(H_n=1_\cur{N\geq n}\),则离散积分 \((H\cdot X)_n=X_{N\wedge n}-X_0\) 会是下鞅(鞅性关于离散积分的可继承性),于是会有

\[0=\E[(H\cdot X)_0]\leq\E[(H\cdot X)_k]=\E X_N-\E X_0 \]

于是左侧即证。而右侧则定义 \(K_n=1-H_n\),则 \((K\cdot X)_n=X_n-X_{N\wedge n}\) 同样是下鞅,于是

\[0=\E[(K\cdot X)_0]\leq\E[(H\cdot X)_k]=\E X_k-\E X_N \]

于是 OST 证毕。

[!NOTE]

OST 是一个非常 intuitive 的定理:下鞅性本身即保证了下标为常数时的 \(\E[X_0]\leq\E[X_1]\leq\dots\leq\E[X_k]\),现在不过是将下标的偏序关系扩张到 \(0\leq N\leq k\) 的停时上而已。

另一方面,其中 \(X_{N\wedge n}\) 是下鞅的结论被称作 Doob 停止定理


Doob 最大值不等式:对于下鞅 \(X\),对于任何阈值 \(\lambda>0\),令 \(A=\cur{\max_{1\leq i\leq n}X_i\geq\lambda}\),则有

\[P(A)\leq\dfrac{\E X_n1_A}\lambda\leq\dfrac{\E X_n^+}\lambda \]

构造 \(N=\inf\cur{m:X_m\geq\lambda}\wedge n\),则 \(N\) 会是有界 \(n\) 的停时,应用 OST 知 \(\E X_N\leq\E X_n\)。关于 \(A\) 拆分可知有

\[\E X_N1_A+\E X_N1_{A^\comp}\leq\E X_n1_A+\E X_n1_{A^\comp} \]

一方面,在 \(A\) 上会有 \(X_N\geq\lambda\);另一方面,在 \(A^\comp\) 上会有 \(X_N=X_n\)。因此直接有

\[\E X_n1_A\geq\E X_N1_A\geq\E\lambda1_A=\lambda P(A) \\P(A)\leq\E X_n1_A/\lambda\leq\E X_n^+/\lambda \]

[!NOTE]

一方面,该定理在格式和证明方面其实均非常像 Markov 不等式。另一方面,它又可以被看做是 Kolmogorov 最大值不等式 的扩展。

事实上,可以使用其证明 Kolmogorov 最大值不等式,即 \(P(\max_{1\leq j\leq n}|S_j|\geq\eps)\leq\var(S_n)/\eps^2\)。首先 \(S_n\) 是鞅,那么因为平方是凸的所以 \(S_n^2\) 是下鞅,然后直接代入 Doob 即可。


\(N\) 无界甚至可以取 \(\infty\) 的场合,OST 不一定成立。但是如果有额外的条件控制尾部分布,也即 一致可积性 (Uniformly Integrablity),则仍可得到相似结果。该性质要求

\[\lim_{M\to\infty}\sup\E[|X_i|1_\cur{|X_i|>M}]=0 \]

[!TIP]

这个定义和 Riemann 积分中的一致可积性相同,为所有位置提供了同步的界。

首先,UI 本身蕴含 \(\ell_1\) 有界性即 \(\sup\E|X_i|<\infty\):可以找到 \(M\) 使得 \(\sup\E|X_i|1_\cur{|X_i|>M}\leq1\),于是有

\[\E|X_i|=\E|X_i|1_\cur{|X_i|>M}+\E|X_i|1_\cur{|X_i|\leq M} \\\sup\E|X_i|\leq\sup\E|X_i|1_\cur{|X_i|>M}+\sup\E|X_i|1_\cur{|X_i|\leq M}\leq1+M \]

于是由 MCT 可知 \(X_i\) a.s. 收敛到某个 \(X\)。不仅如此,其还能提供 \(\ell_1\) 收敛性:即有 \(\E|X_n-X|\to0\)

以下证明 \(\ell_1\) 收敛。定义 clamp 函数 \(c_M(X)=\max(\min(X,M),-M)\),则有

\[|X_n-X|\leq|X_n-c_M(X_n)|+|X-c_M(X)|+|c_M(X_n)-c_M(X)| \\\E|X_n-X|\leq\co{lightblue}{\E|X_n|1_\cur{|X_n|>M}}+\co{pink}{\E|X|1_\cur{|X|>M}}+\co{violet}{\E|c_M(X_n)-c_M(X)|} \]

现在令两侧取关于 \(n\) 的极限。浅蓝色项由 UI 性可以取足够大的 \(M\) 得到界为 \(\eps/2\);粉色项由 DCT 同样可以取足够大的 \(M\) 得到 \(\eps/2\);紫色项则是有 \(M\) 作为值域界因此由 BCT 即可知其趋于 \(0\)。于是有 \(\E|X_n-X|\leq\eps\),而 \(\eps\) 可以任意小。

[!TIP]

这个定理是 Vitali 收敛定理(的一部分)。其可以概括为:在 a.s.(或依概率)收敛的前提下,\(\ell_1\) 收敛与 UI 性是等价的。

以上分析针对鞅本身进行,现在额外考虑停时 \(N\)

我们之前通过鞅关于离散积分的继承性,证明了关于下鞅与停时定义的 \(X_{N\wedge n}\) 仍然是下鞅(Doob 停止定理)。此处我们进一步证明,假如作为基础的下鞅具有 UI 性,则停时过程 \(X_{N\wedge n}\) 同样如此。

首先仍然使用 Jensen 不等式可知 \(X_n^+\) 是下鞅,且由 OST 知 \(\E|X_{N\wedge n}^+|\leq\E|X_n^+|\),然后由后者的 \(\ell_1\) 有界性推出前者的 \(\ell_1\) 有界,于是 DCT 的条件验证完毕。

另一方面,若 \(N(\omega)<\infty\) 则对于足够大的 \(n\)\(N(\omega)\wedge n=N(\omega)\),于是此处有 \(X_{N\wedge n}\to X_N\);而若 \(N(\omega)=\infty\) 则有 \(X_{N\wedge n}=X_n\to X_\infty=X_N\)(由 MCT 知 \(X_n\to X_\infty\) a.s.)。于是有 \(X_{N\wedge n}\to X_N\) a.s.。于是由 MCT 可知 \(\E|X_N|<\infty\),最后验证 UI 性:

\[\E|X_{N\wedge n}|1_\cur{|X_{N\wedge n}|>M} \\=\E|X_N|1_\cur{|X_N|>M\land N\leq n}+\E|X_n|1_\cur{|X_n|>M\land N>n} \\\leq\co{lightblue}{\E |X_N|1_\cur{|X_N|>M}}+\co{pink}{\E|X_n|_\cur{|X_n|>M}} \]

浅蓝色项用 DCT(已证明 \(\E|X_N|<\infty\)),粉色项用 UI,即可证明其 UI 性。

最后来证明 UI 场合亦有 OST。

首先由受限 OST 有 \(\E X_0\leq\E X_{N\wedge n}\leq\E X_n\)。令 \(n\to\infty\),则有 \(X_{N\wedge n}\to X_N\)\(X_n\to X_\infty\)。但是 a.s. 收敛不意味着期望收敛,而此时就是 \(\ell_1\) 连续性派上用场的时刻了(易验证 \(\ell_1\) 连续性推出期望收敛)。因 \(X_{N\wedge n}\)\(X_n\) 均为 UI 下鞅,所以由 Vitali 可知它们都有 \(\ell_1\) 连续性,于是取极限即知 \(\E X_0\leq\E X_N\leq\E X_\infty\)

[!NOTE]

一般形式 OST 的思想概括为:

  • UI 推出了 \(X_n\)\(\ell_1\) 有界性,结合 MCT 推出 a.s. 且 \(\ell_1\) 收敛至 \(X_\infty\)
  • \(X_{N\wedge n}\) 仅由 \(X_n\to X_\infty\) a.s. 即可知其 a.s \(\to X_N\)。使用 OST 验证 \(\E|X_{N\wedge n}^+|\leq\E|X_n^+|\) 后,使用 MCT 可知 \(\E|X_N|<\infty\),然后可以用 DCT 推出 \(X_{N\wedge n}\) 的 UI 性。
  • 直接对截断停时的一般形式 OST 求极限即可。

一个结论是 \(X_n\leq\E[X_\infty\mid\s F_n]\)。直接验证:对于 \(A\in\s F_n\)\(m>n\)

\[\int_AX_n\d P\leq\int_AX_m\d P \]

右侧因为 \(\E|X_m-X_\infty|\to0\) 所以有 \(\E|X_m-X_\infty|1_A\to0\),于是取极限即可。

(另一种可行视角是 Doob 分解定理)


事实还有另两种 OST,即满足

  • 过程有界,即 \(|X_n|\leq B\)\(N\) 有限。
  • 差有界,即 \(\E[|X_{n+1}-X_n|\mid\s F_n]\leq B\)\(\E[N]<\infty\)

这两者均给出 \(\E X_0\leq\E X_N\)

显然后者更强。证明方法是使用 DCT。考虑为 \(X_{N\wedge n}-X_0\) 寻找界 \(Y\),定义 \(Y=\sum_{n=1}^N|X_n-X_{n-1}|\)。则

\[Y=\sum|X_n-X_{n-1}|1_\cur{N\geq n} \\\E[Y]=\sum\E[|X_n-X_{n-1}|1_\cur{N\geq n}]=\sum\E[\E[|X_n-X_{n-1}|1_\cur{N\geq n}\mid\s F_{n-1}]] \\=\sum\E[1_\cur{N\geq n}\E[|X_n-X_{n-1}|\mid\s F_{n-1}]]\leq\sum\E[1_\cur{N\leq n}B]=B\E[N]<\infty \]

Conclusion

\(\sigma(\s A)\):全体包含 \(\s A\)\(\sigma\)-域中,最小的一个。

\(X\in\s F\)\(X\)\(\s F\)-可测的。

\(\cur{X\in B}=X^{-1}(B)=\cur{w:X(w)\in B}\)\(\cur{X\leq x}=\cur{w:X(w)\leq x}\)

\(\sigma(X)\):所有使得 \(X\)\(\s F\)-可测的 \(\sigma\)-域中,最小的一个。等于全体原像构成的集合(其同时也是 \(\sigma\)-域)。

\(\int f(y)\mu(\d y)\):就是 \(\int f\d\mu\) 强调积分变量后的写法。

  • 一致收敛指其在每个取值处收敛速度一致(存在界控制全体位置的收敛)。换言之,\(\sup_\omega|X_n(\omega)-X(\omega)|\to0\)
  • 逐点收敛指其在每个取值处均收敛。
  • 几乎一致收敛指可以刨除任意小的测度使得剩余集合一致收敛。
  • 几乎处处收敛指其不收敛的取值是零测的。
    • 原始描述:\(P(X_n\not\to X)=0\)
    • 尾部上确界形式:对于一切 \(\eps\) 均有 \(\lim_{n\to\infty}P(\sup_{k\geq n}|X_k-X|>\eps)=0\)
    • Borel-Cantelli 形式:对于一切 \(\eps\) 均有 \(P(|X_n-X|>\eps\io)=0\)
    • Cauchy 审敛形式:对于一切 \(\eps\) 均有 \(\lim_{n\to\infty}P(\sup_{m\geq n}|X_m-X_n|>\eps)=0\)
  • \(\ell_p\)-收敛指 \(\E|f_n-f|^p\to0\),其中 \(p\geq1\)
    • Vitali 收敛定理:依概率收敛且 \(|X_n|^p\) 一致可积。
    • Radon-Riesz 定理:依概率收敛且 \(\E|X_n|^p\to\E|X|^p\)
  • 依测度收敛指其对于一切 \(\eps\) 均有 \(P(|X_n-X|>\eps)\to0\)
    • Riesz 子序列定理:任意子序列均存在进一步的 a.s. 收敛子序列。
    • Cauchy 审敛形式:对于一切 \(\eps\) 均有 \(P(|X_n-X_m|>\eps)\to0\)
  • 依分布收敛指 PDF 在所有连续点处收敛。

必然成立的关系:

  • 一致 \(\implies\) 逐点 \(\implies\) a.s.
  • a.s \(\iff\) 几乎一致(Egorov 定理)
  • \(\ell_p\) \(\implies\) 依概率(Markov 不等式:\(P(|X_n-X|\geq\eps)\leq\E|X_n-X|^p/\eps^p\)
  • \(\ell_p\) \(\implies\) \(\ell_q\)\(p>q\);Hölder 不等式)
  • 概率 \(\implies\) 分布

满足条件时逆向关系:

  • 概率 \(\to\) a.s.:\(\sum P(|X_n-X|<\eps)\)
  • 概率 \(\to\) \(\ell_p\):UI。
  • 分布 \(\to\) 概率:趋于常数。或者,序列是独立随机变量的和(证明使用 Cauchy 列 + 特征函数)。

性质:

  • \(\sigma\)-域:非空、关于补集和可数并集封闭。
  • 测度:非负、空集为零、可数可加。
  • S.M.F.:单调不降、右连续。
  • CDF:S.M.F.,无穷极限分别为 \(0/1\)
  • 可测映射:生成集的全体原像均符合条件。
  • 条件期望:可积、适应性、积分相等。
  • 鞅:可积、适应性、鞅性质。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询