这张图把频率学派线性回归(左)和贝叶斯线性回归(右)做了一个“同题不同解”的对比。
1) 图左:频率学派(Frequentist)在说什么
假设模型:
β0,β1 是固定但未知的常数
通过最小二乘/极大似然从数据里估出一个最佳点估计(图里例子给出
)
最终画出来就是一条线(外加你可能会另外算“置信区间/预测区间”,但核心仍是“参数固定”)
2) 图右:贝叶斯回归在说什么(图的关键)
贝叶斯的核心换了一句话:
参数不是固定常数,而是“带不确定性的随机变量”。
(1) 先给参数一个先验(prior)
图中画了两条钟形曲线,表示:
直观解释:
μ:你“先验上觉得”截距/斜率大概在哪
σ2:你对这个猜测有多自信(越大=越不确定)
(2) 数据生成假设(likelihood)
右侧写着:
意思是:给定 β0,β1 后,y 围绕直线 β0+β1x 有高斯噪声。
(3) 用数据更新先验 → 得到后验(posterior)
贝叶斯公式一句话:
先验:你原本的看法
似然:数据“支持哪些参数”
后验:综合之后你对参数的新信念(不确定性通常会变小)
(4) “sampling” 与右图那一束线
图中 “sampling” 表示:从后验里抽样出很多组参数
每抽到一组参数,就对应一条回归线:
所以你看到右图不是一条线,而是一束线 + 灰色不确定带:
线束越“散”,表示参数/预测越不确定
数据多、噪声小、先验强,线束会更“收拢”
3) 贝叶斯回归最有用的输出:预测分布(predictive)
贝叶斯最爽的地方是它天然给你:
它不是“给一个点”,而是直接给你在某个 x\* 下,y\* 会落在哪些范围的概率。
右图灰带就可以理解成某种“可信区间/预测区间”(比如 95% credible interval)。
4) 你可以用它解决哪些“频率学派不好用/不直观”的问题
小样本:先验能稳定估计,避免斜率飘得离谱
正则化的自然解释:
给 β 正态先验 ≈ 一种“L2 正则”(岭回归的贝叶斯视角)不确定性更直观:直接说“β1 有 95% 概率在 [a,b]”
融入领域知识:比如你确定斜率应该为正、或大概在某个范围
5) 一句话总结这张图
频率学派:一条最佳线(参数固定)
贝叶斯:一团可能的线(参数有分布),并且能直接给出预测的不确定性。
那我就用一个**“能手算/看懂”**的小例子,把贝叶斯线性回归从先验 → 后验 → 采样 → 预测区间完整走一遍(对应你图右边的 sampling + 灰色不确定带)。
0) 玩具数据
我们观测 3 个点(看起来接近 y=1+2x):
| x | 0 | 1 | 2 |
|---|---|---|---|
| y | 1 | 3 | 5 |
1) 模型(likelihood)
贝叶斯线性回归常用的高斯噪声模型:
为了让例子简单、计算干净,我们先假设噪声方差已知:
(现实里也可以一起贝叶斯化,后面我会说一句怎么做。)
2) 先验(prior)
给参数一个“你原本的看法”。比如“我觉得截距/斜率大概在 0 附近,但不确定性很大”:
这就对应你图里 β0,β1 的两条钟形曲线:均值是你先验猜测,不确定性由方差控制。
3) 后验(posterior):把数据“喂进去”更新先验
在“高斯噪声 + 正态先验”的设置下是共轭的:后验仍是正态分布。
把设计矩阵写出来(第一列全 1 表示截距项):
后验的公式(你可以把它当成一个“贝叶斯版的正规方程”):
在本例中计算结果是:
解释:
后验均值(最“像”频率学派点估计的那一个数):
β0≈1.013
β1≈1.953
很接近直觉的 1 和 2。
但更关键的是:你还得到了不确定性(协方差矩阵),这就是图右边“不是一条线,而是一束线”的根源。
顺便给个 95% “参数可信区间”(就是把后验当正态做区间):
β0 大约在 [−0.683, 2.709]
β1 大约在 [0.631, 3.275]
4) sampling:为什么会出现“一束回归线”
图右边的 sampling 就是:
我从这个后验里随手抽 5 组(示例):
(0.879, 1.989)
(0.499, 2.371)
(1.540, 1.738)
(0.126, 3.025)
(1.328, 1.147)
每一组都对应一条线:
所以你会看到:很多条“可能的回归线”叠在一起——这就是图里的灰色带/线束。
5) 预测分布:灰色不确定带到底是什么
贝叶斯回归最实用的输出是:
对本例(已知):
预测均值:
预测方差(注意这里多了一个
,因为观测本身也有噪声):
举例:取 x\*=1.5
预测均值 ≈3.943
预测标准差 ≈1.205
95% 预测区间 ≈[1.581, 6.304]
这类区间/灰带就是你图右边视觉上表达的东西:“在这个 x 处,y 可能落在哪些范围,以及概率多大”。
6) 和频率学派一句话对照
频率学派:给你一个
(再额外做置信区间)
贝叶斯:直接给你
和
不确定性是第一等公民,自然出现“线束 + 灰带”。
把刚才那个例子升级成(噪声方差)也未知的“完整贝叶斯线性回归”。这一步做完,你图里右侧那条灰带就更有“概率意义”了,而且预测分布会变成Student-t(更厚尾,更稳健)。
1) 模型:参数 + 噪声都当随机变量
数据仍是那 3 个点:(0,1),(1,3),(2,5)
似然(likelihood)
先验(共轭:Normal–Inverse-Gamma)
为了能“手算/闭式更新”,经典选:
其中。
我用一个“弱先验”(不太干预数据):
(表示先验很宽松)
(几乎不设定噪声大小)
2) 后验更新(闭式公式)
设设计矩阵,样本数 n=3。
后验仍然是 Normal–Inverse-Gamma,更新为:
把数字代进去(本例算出来):
(后验“最中心”的截距和斜率)
(参数不确定性与相关性)
顺便:的后验是
。它的后验均值为
(这里仅作直觉参考)
3) 关键变化:预测分布变成 Student-t
当你把积分掉(不再“假设已知”),得到:
(A) 回归“均值线”在
的后验分布(只看线的不确定性)
令,则
(B) 真实观测
的预测分布(线的不确定性 + 噪声)
其中自由度
这就是你图里灰色带更“厚”、并且在样本外会明显变宽的原因:
既有“参数不确定性”,也有“噪声不确定性”,而且是 t 分布厚尾。
4) 用两个点看灰带怎么出来
我给你直接算出95% 预测区间(对应灰带更像“预测带”):
在
(样本区间内)
预测均值:
95% 预测区间:[2.388, 5.497]
在
(样本区间外,灰带会更宽)
预测均值:
95% 预测区间:[4.563, 9.182]
你会看到:离数据越远,不确定性越大(灰带越宽),这和右图直觉一致。
5) 这一步在图里对应什么“sampling”?
现在 sampling 更完整了,不只抽 β0,β1,还会抽:
抽
再抽
得到一条线
,再叠很多条就是“一束线”
若再加上观测噪声,就能画“预测带”(灰色区域)