定西市网站建设_网站建设公司_Django_seo优化
2025/12/22 20:55:21 网站建设 项目流程

最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学中用于估计概率分布参数的方法。其核心思想是:在已知观测数据的概率分布模型的情况下,通过调整模型参数,使得观测到当前数据的概率最大。以下从定义、数学原理和详细范例进行介绍:

定义

设有一组独立同分布的观测数据X = { x 1 , x 2 , ⋯ , x n } X = \{x_1, x_2, \cdots, x_n\}X={x1,x2,,xn},其概率密度函数(连续情况)或概率质量函数(离散情况)为p ( x ∣ θ ) p(x|\theta)p(xθ),其中θ \thetaθ是待估计的参数。最大似然估计的目标是找到一个参数值θ ^ \hat{\theta}θ^,使得似然函数L ( θ ∣ X ) = ∏ i = 1 n p ( x i ∣ θ ) L(\theta|X)=\prod_{i = 1}^{n}p(x_i|\theta)L(θX)=i=1np(xiθ)取得最大值。为了方便计算,通常会对似然函数取对数,得到对数似然函数ln ⁡ L ( θ ∣ X ) = ∑ i = 1 n ln ⁡ p ( x i ∣ θ ) \ln L(\theta|X)=\sum_{i = 1}^{n}\ln p(x_i|\theta)lnL(θX)=i=1nlnp(xiθ),然后求其对θ \thetaθ的导数并令其为0,解方程得到θ ^ \hat{\theta}θ^

数学原理

  • 似然函数:它是在给定参数θ \thetaθ的情况下,观测到数据X XX的联合概率。由于观测数据X XX已经发生,所以将似然函数看作参数θ \thetaθ的函数,其值越大意味着在当前参数下观测到给定数据的可能性越大。
  • 对数似然函数:因为乘积的运算不如求和方便,且对数函数是单调递增函数,所以对似然函数取对数后,使函数更容易处理,同时不改变参数的极值点。

范例:抛硬币实验

实验设定

假设有一枚硬币,我们想知道它正面朝上的概率p pp。为了估计这个概率,我们进行抛硬币实验,独立重复抛n nn次,记录正面朝上的次数k kk

建立概率模型

每次抛硬币是一个伯努利试验,设x i x_ixi表示第i ii次抛硬币的结果,x i = 1 x_i = 1xi=1表示正面朝上,x i = 0 x_i = 0xi=0表示反面朝上。则x i x_ixi服从参数为p pp的伯努利分布,其概率质量函数为p ( x i ∣ p ) = p x i ( 1 − p ) 1 − x i p(x_i|p)=p^{x_i}(1 - p)^{1 - x_i}p(xip)=pxi(1p)1xi

构建似然函数

由于n nn次抛硬币是相互独立的,所以n nn次抛硬币的联合概率(似然函数)为:
L ( p ∣ x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i L(p|x_1,x_2,\cdots,x_n)=\prod_{i = 1}^{n}p^{x_i}(1 - p)^{1 - x_i}L(px1,x2,,xn)=i=1npxi(1p)1xi

构建对数似然函数

对似然函数取对数可得:
ln ⁡ L ( p ∣ x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n [ x i ln ⁡ p + ( 1 − x i ) ln ⁡ ( 1 − p ) ] \ln L(p|x_1,x_2,\cdots,x_n)=\sum_{i = 1}^{n}[x_i\ln p+(1 - x_i)\ln(1 - p)]lnL(px1,x2,,xn)=i=1n[xilnp+(1xi)ln(1p)]
= ( ∑ i = 1 n x i ) ln ⁡ p + ( n − ∑ i = 1 n x i ) ln ⁡ ( 1 − p ) =\left(\sum_{i = 1}^{n}x_i\right)\ln p+\left(n-\sum_{i = 1}^{n}x_i\right)\ln(1 - p)=(i=1nxi)lnp+(ni=1nxi)ln(1p)
k = ∑ i = 1 n x i k = \sum_{i = 1}^{n}x_ik=i=1nxi,即正面朝上的总次数,则上式可化为:
ln ⁡ L ( p ∣ k ) = k ln ⁡ p + ( n − k ) ln ⁡ ( 1 − p ) \ln L(p|k)=k\ln p+(n - k)\ln(1 - p)lnL(pk)=klnp+(nk)ln(1p)

求解最大似然估计

ln ⁡ L ( p ∣ k ) \ln L(p|k)lnL(pk)关于p pp求导,并令导数为0:
d ln ⁡ L ( p ∣ k ) d p = k p − n − k 1 − p = 0 \frac{d\ln L(p|k)}{dp}=\frac{k}{p}-\frac{n - k}{1 - p}=0dpdlnL(pk)=pk1pnk=0
解上述方程:
k p − n − k 1 − p = 0 k ( 1 − p ) − p ( n − k ) = 0 k − k p − p n + k p = 0 k − p n = 0 p = k n \begin{align*} \frac{k}{p}-\frac{n - k}{1 - p}&=0\\ k(1 - p)-p(n - k)&=0\\ k - kp - pn + kp&=0\\ k - pn&=0\\ p&=\frac{k}{n} \end{align*}pk1pnkk(1p)p(nk)kkppn+kpkpnp=0=0=0=0=nk
再对ln ⁡ L ( p ∣ k ) \ln L(p|k)lnL(pk)关于p pp求二阶导数:
d 2 ln ⁡ L ( p ∣ k ) d p 2 = − k p 2 − n − k ( 1 − p ) 2 < 0 \frac{d^2\ln L(p|k)}{dp^2}=-\frac{k}{p^2}-\frac{n - k}{(1 - p)^2}<0dp2d2lnL(pk)=p2k(1p)2nk<0
二阶导数小于0,说明ln ⁡ L ( p ∣ k ) \ln L(p|k)lnL(pk)p = k n p = \frac{k}{n}p=nk处取得最大值。

所以,抛硬币正面朝上概率p pp的最大似然估计值为p ^ = k n \hat{p}=\frac{k}{n}p^=nk,即正面朝上的频率。例如,若抛100次硬币,正面朝上40次,则p pp的最大似然估计值为p ^ = 40 100 = 0.4 \hat{p}=\frac{40}{100}=0.4p^=10040=0.4

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询