参数估计(Parameter Estimation)是根据从总体中抽取的样本来估计总体分布中包含的未知参数的方法。包括:最小二乘估计(Least Square Estimation)、极大似然估计(Maximum Likelihood Estimation,MLE)贝叶斯估计(Bayesian Estimation)等。
参数估计问题可以描述为:总体 X X X的概率密度函数为 f ( x ∣ θ ) f(x|\theta ) f(x∣θ),根据观测到的一组样本 ( x 1 , x 2 , . . . , x n ) ∈ R (x_{1},x_{2},...,x_{n})\in\mathbb R (x1,x2,...,xn)∈R,来估计总体参数 θ \theta θ的过程。
对于函数 f ( x ∣ θ ) f(x|\theta ) f(x∣θ),有两个输入: x x x表示某一具体的数据, θ \theta θ表示模型的参数。
(1)如果 θ \theta θ是已知确定的, x x x是变量, f ( x ∣ θ ) f(x|\theta ) f(x∣θ)叫概率函数(Probability Function),它描述对于不同的样本点 x x x,其出现的概率是多少。
(2)如果 x x x是已知确定的, θ \theta θ是变量, f ( x ∣ θ ) f(x|\theta ) f(x∣θ)叫似然函数(Likelihood Function),它描述对于不同的模型参数 θ \theta θ,出现 x x x这个样本点的概率是多少。
此外,在 A. Tarantola《Inverse Problem Theory and Methods for Model Parameter Estimation》一书中,关于似然函数的解释为:Likelihood function is the probability of the data given a certain value of the parameters.
极大似然估计是频率学派的观点,认为待估参数 θ \theta θ是客观存在的,当 θ = θ ^ M L E \theta=\hat\theta_{MLE} θ=θ^MLE时,观测样本 ( x 1 , x 2 , . . . , x n ) (x_{1},x_{2},...,x_{n}) (x1,x2,...,xn)出现的可能性最大.
极大似然估计可描述为:
L ( θ ∣ x ) = f ( x ∣ θ ) = f ( x 1 , x 2 , . . . , x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) θ ^ M L E = a r g m a x θ L ( θ ∣ x ) L(\theta|x)=f(x|\theta)=f(x_{1},x_{2},...,x_{n}|\theta)=\prod_{i=1}^{n}f(x_{i}|\theta) \\ \hat\theta_{MLE}=\mathop{argmax}\limits_{\theta}L(\theta|x) L(θ∣x)=f(x∣θ)=f(x1,x2,...,xn∣θ)=i=1∏nf(xi∣θ)θ^MLE=θargmaxL(θ∣x)
因此,极大似然估计的目标为:求使得 f ( x ∣ θ ) = m a x f(x|\theta)=max f(x∣θ)=max的 θ \theta θ 的值。即:在 x = x 0 x=x_{0} x=x0时,求一个 θ 0 \theta_{0} θ0,使得 x = x 0 x=x_{0} x=x0发生的概率最大。
贝叶斯估计是贝叶斯学派的观点,认为待估参数 θ \theta θ也是随机变量,因此只能根据观测样本估计参数 θ \theta θ的分布。
在贝叶斯估计中,利用了先验信息、观测信息来得到后验信息。先验信息是在未获取观测数据时对总体参数 θ \theta θ已有的了解。贝叶斯公式可表示为:
P ( θ ∣ x ) = P ( θ ) P ( x ∣ θ ) P ( x ) P(\theta|x)=\frac{P(\theta)P(x|\theta)}{P(x)} P(θ∣x)=P(x)P(θ)P(x∣θ)
贝叶斯估计的数学描述为:
π ( θ ∣ x ) = f ( x ∣ θ ) π ( θ ) m ( x ) = f ( x ∣ θ ) π ( θ ) ∫ f ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{m(x)}=\frac{f(x|\theta)\pi(\theta)}{\int{f(x|\theta)\pi(\theta)}d\theta} π(θ∣x)=m(x)f(x∣θ)π(θ)=∫f(x∣θ)π(θ)dθf(x∣θ)π(θ)
式中 π ( θ ) \pi(\theta) π(θ)为参数 θ \theta θ的的先验分布,表示对参数 θ \theta θ的主观认识,是非样本信息。 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)为参数 θ \theta θ的后验分布。因此,贝叶斯估计可认为是利用样本信息去校正先验分布,得到后验分布。
根据参数的后验概率密度分布 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)可以估计参数 θ \theta θ的值(或特征)。主要有:
(1)最大后验概率(MAP)
θ ^ M A P = a r g m a x θ π ( θ ∣ x ) \hat\theta_{MAP}=\mathop{argmax}\limits_{\theta}\pi(\theta|x) θ^MAP=θargmaxπ(θ∣x)
(2)后验均值(期望)
θ ˉ = E ( π ( θ ∣ x ) ) \bar{\theta}=E(\pi(\theta|x)) θˉ=E(π(θ∣x))
通常取后验分布的期望作为参数的估值。除此之外,还可以根据后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)计算参数的协方差矩阵、一维边缘概率密度等。通常需要借助采样方法进行求解(如MCMC等)。
在贝叶斯估计中,如果考虑采用极大似然估计的思想,令后验分布极大化求解 θ \theta θ,作为参数的估计值,这就是极大后验估计。
极大验后估计可描述为:
θ ^ M A P = a r g m a x θ π ( θ ∣ x ) = a r g m a x θ f ( x ∣ θ ) π ( θ ) m ( x ) = a r g m a x θ f ( x ∣ θ ) π ( θ ) \hat\theta_{MAP}=\mathop{argmax}\limits_{\theta}\pi(\theta|x)=\mathop{argmax}\limits_{\theta}\frac{f(x|\theta)\pi(\theta)}{m(x)}=\mathop{argmax}\limits_{\theta}f(x|\theta)\pi(\theta) θ^MAP=θargmaxπ(θ∣x)=θargmaxm(x)f(x∣θ)π(θ)=θargmaxf(x∣θ)π(θ)
因此,极大验后估计的目标为:求使得 π ( θ ∣ x ) = m a x \pi(\theta|x)=max π(θ∣x)=max的 θ \theta θ 的值。即:在 x = x 0 x=x_{0} x=x0时,求一个 θ 0 \theta_{0} θ0,使得 θ = θ 0 \theta=\theta_{0} θ=θ0发生的概率最大。
贝叶斯估计只能根据观测样本估计参数 θ \theta θ的分布。但计算非常困难。因此,作为贝叶斯估计的一种近似解,MAP利用了从样本中无法获得的先验信息。
https://zhuanlan.zhihu.com/p/61593112
https://blog.csdn.net/Gou_Hailong/article/details/121404135
https://blog.csdn.net/u011508640/article/details/72815981