昌都市网站建设_网站建设公司_原型设计_seo优化
2026/1/8 13:32:21 网站建设 项目流程

这张图把频率学派线性回归(左)和贝叶斯线性回归(右)做了一个“同题不同解”的对比。


1) 图左:频率学派(Frequentist)在说什么

  • 假设模型:

  • β0,β1 是固定但未知的常数

  • 通过最小二乘/极大似然从数据里估出一个最佳点估计(图里例子给出

  • 最终画出来就是一条线(外加你可能会另外算“置信区间/预测区间”,但核心仍是“参数固定”)


2) 图右:贝叶斯回归在说什么(图的关键)

贝叶斯的核心换了一句话:

参数不是固定常数,而是“带不确定性的随机变量”。

(1) 先给参数一个先验(prior)

图中画了两条钟形曲线,表示:

直观解释:

  • μ:你“先验上觉得”截距/斜率大概在哪

  • σ2:你对这个猜测有多自信(越大=越不确定)

(2) 数据生成假设(likelihood)

右侧写着:

意思是:给定 β0,β1​ 后,y 围绕直线 β0+β1x 有高斯噪声。

(3) 用数据更新先验 → 得到后验(posterior)

贝叶斯公式一句话:

  • 先验:你原本的看法

  • 似然:数据“支持哪些参数”

  • 后验:综合之后你对参数的新信念(不确定性通常会变小)

(4) “sampling” 与右图那一束线

图中 “sampling” 表示:从后验里抽样出很多组参数

每抽到一组参数,就对应一条回归线:

所以你看到右图不是一条线,而是一束线 + 灰色不确定带

  • 线束越“散”,表示参数/预测越不确定

  • 数据多、噪声小、先验强,线束会更“收拢”


3) 贝叶斯回归最有用的输出:预测分布(predictive)

贝叶斯最爽的地方是它天然给你:

它不是“给一个点”,而是直接给你在某个 x\*​ 下,y\*​ 会落在哪些范围的概率
右图灰带就可以理解成某种“可信区间/预测区间”(比如 95% credible interval)。


4) 你可以用它解决哪些“频率学派不好用/不直观”的问题

  • 小样本:先验能稳定估计,避免斜率飘得离谱

  • 正则化的自然解释
    给 β 正态先验 ≈ 一种“L2 正则”(岭回归的贝叶斯视角)

  • 不确定性更直观:直接说“β1​ 有 95% 概率在 [a,b]”

  • 融入领域知识:比如你确定斜率应该为正、或大概在某个范围


5) 一句话总结这张图

  • 频率学派:一条最佳线(参数固定)

  • 贝叶斯:一团可能的线(参数有分布),并且能直接给出预测的不确定性

那我就用一个**“能手算/看懂”**的小例子,把贝叶斯线性回归从先验 → 后验 → 采样 → 预测区间完整走一遍(对应你图右边的 sampling + 灰色不确定带)。


0) 玩具数据

我们观测 3 个点(看起来接近 y=1+2x):

x012
y135

1) 模型(likelihood)

贝叶斯线性回归常用的高斯噪声模型:

为了让例子简单、计算干净,我们先假设噪声方差已知:

(现实里也可以一起贝叶斯化,后面我会说一句怎么做。)


2) 先验(prior)

给参数一个“你原本的看法”。比如“我觉得截距/斜率大概在 0 附近,但不确定性很大”:

这就对应你图里 β0,β1 的两条钟形曲线:均值是你先验猜测,不确定性由方差控制


3) 后验(posterior):把数据“喂进去”更新先验

在“高斯噪声 + 正态先验”的设置下是共轭的:后验仍是正态分布。

把设计矩阵写出来(第一列全 1 表示截距项):

后验的公式(你可以把它当成一个“贝叶斯版的正规方程”):

在本例中计算结果是:

解释:

  • 后验均值(最“像”频率学派点估计的那一个数):

    • β0≈1.013

    • β1≈1.953
      很接近直觉的 1 和 2。

  • 但更关键的是:你还得到了不确定性(协方差矩阵),这就是图右边“不是一条线,而是一束线”的根源。

顺便给个 95% “参数可信区间”(就是把后验当正态做区间):

  • β0​ 大约在 [−0.683, 2.709]

  • β1​ 大约在 [0.631, 3.275]


4) sampling:为什么会出现“一束回归线”

图右边的 sampling 就是:

我从这个后验里随手抽 5 组(示例):

  1. (0.879, 1.989)

  2. (0.499, 2.371)

  3. (1.540, 1.738)

  4. (0.126, 3.025)

  5. (1.328, 1.147)

每一组都对应一条线:

所以你会看到:很多条“可能的回归线”叠在一起——这就是图里的灰色带/线束。


5) 预测分布:灰色不确定带到底是什么

贝叶斯回归最实用的输出是:

对本例(已知):

  • 预测均值:

  • 预测方差(注意这里多了一个,因为观测本身也有噪声):

举例:取 x\*=1.5

  • 预测均值 ≈3.943

  • 预测标准差 ≈1.205

  • 95% 预测区间 ≈[1.581, 6.304]

这类区间/灰带就是你图右边视觉上表达的东西:“在这个 x 处,y 可能落在哪些范围,以及概率多大”


6) 和频率学派一句话对照

  • 频率学派:给你一个(再额外做置信区间)

  • 贝叶斯:直接给你
    不确定性是第一等公民,自然出现“线束 + 灰带”。

把刚才那个例子升级成(噪声方差)也未知的“完整贝叶斯线性回归”。这一步做完,你图里右侧那条灰带就更有“概率意义”了,而且预测分布会变成Student-t(更厚尾,更稳健)。


1) 模型:参数 + 噪声都当随机变量

数据仍是那 3 个点:(0,1),(1,3),(2,5)

似然(likelihood)

先验(共轭:Normal–Inverse-Gamma)

为了能“手算/闭式更新”,经典选:

其中

我用一个“弱先验”(不太干预数据):

  • (表示先验很宽松)

  • (几乎不设定噪声大小)


2) 后验更新(闭式公式)

设设计矩阵​​,样本数 n=3。

后验仍然是 Normal–Inverse-Gamma,更新为:

把数字代进去(本例算出来):


(后验“最中心”的截距和斜率)


(参数不确定性与相关性)

顺便:的后验是。它的后验均值为

(这里仅作直觉参考)


3) 关键变化:预测分布变成 Student-t

当你把积分掉(不再“假设已知”),得到:

(A) 回归“均值线”在的后验分布(只看线的不确定性)

,则

(B) 真实观测的预测分布(线的不确定性 + 噪声)

其中自由度

这就是你图里灰色带更“厚”、并且在样本外会明显变宽的原因:
既有“参数不确定性”,也有“噪声不确定性”,而且是 t 分布厚尾。


4) 用两个点看灰带怎么出来

我给你直接算出95% 预测区间(对应灰带更像“预测带”):

(样本区间内)

  • 预测均值:

  • 95% 预测区间:[2.388, 5.497]

(样本区间外,灰带会更宽)

  • 预测均值:

  • 95% 预测区间:[4.563, 9.182]

你会看到:离数据越远,不确定性越大(灰带越宽),这和右图直觉一致。


5) 这一步在图里对应什么“sampling”?

现在 sampling 更完整了,不只抽 β0,β1​,还会抽

  1. 再抽

  2. 得到一条线,再叠很多条就是“一束线”

  3. 若再加上观测噪声,就能画“预测带”(灰色区域)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询