机器学习统计篇——指数族exponential family 和 似然likelihood

这一篇估计会是非常长时间积累的博客。

Random Sample

iid概念:如果 X1,...Xn 彼此之间相互独立的变量,并且每一个变量 Xi 的边缘概率pdf或pmd都是一样的函数 f(x) ,那么我们就把变量 X1,...Xn 称作是 f(x) 的随机取样。也可以说, X1,...Xn 是independent and identically distrubuted randome variables(独立同分布),且pdf或pmf是 f(x)

那么不难得到iid的联合概率分布是 f(x1,...,xn|θ)=ni=1f(xi|θ)

  1. 样本均值: X¯=1nXi
  2. 样本方差: S2=1n1(XiX¯)2
  3. 定义 x1,...,xn 是任意数字,且 x¯=(x1+...+xn)/n ,则我们有
    3.1 mina(xia)2=(xix¯)2
    3.2 (n1)S2=(xix¯)2=x2inx¯2

其中 x¯ s2 是对应于 X¯ S2 观测值。

Data Reduction

我们使用 T(X) 这个统计量来定义data reduction或者数据总结。如果只使用观测到的统计值数据 T(X) ,而不是所有的观测样例 x ,那么只要两个观测样例符合 T(x)=T(y) ,就认为这两个观测样例一样,尽管实际的样例数值会有不一样的地方。

data reduction对于某种统计来说,可以认为是对样本空间 χ 的分割。比如, T={t:t=T(x) for some xχ} T(x) 在空间 χ 的镜像。那么 T(X) 就把样本空间分割成了集合 At,tT ,其中 At={x:T(x)=t} 。统计量就总结样本为,与反应整个样本空间不同,他只反映 T(x)=t 的部分,或者是指反映 xAt 的样本。

比如, T(x)=x1+...+xn ,那么这个统计量就只反映实际样本数值的和。可能有其他的样本会有同样的样本数之和。下面就讨论一下这种data reduction方法的利弊。

我们主要讨论三个原则。希望使用的data reduction能够不会损失关于未知参数 θ 的重要信息,并且不用考虑无关信息。充分性原则(sufficiency principle)保证了不损失关于 θ 的信息,同时获取数据的一些总结(summaries)。似然原则(likelihood principle)根据观测到的样本,描述了参数的函数,包含了所有能从样本中获取的关于 θ 的信息。同变性原则(equivariance principle)指定了另外一种data reduction的方法,仍然能够保持模型的某些重要特征。

The Sufficiency Principle(充分性原则)

If T(X) is a sufficient statistic for θ , the nany inference about θ should depend on the sample X only through the value T(X) . That is, if x and y are two sample points such that T(x)=T(y) , then the inference about θ should be the same whether X=x or X=y is observed.

对于某个参数 θ 的充分统计量(sufficient statistics),就获取关于 θ 的所有信息。而所有样本中的额外信息都不包含在内。这就是充分性原则。

充分统计量

统计量 T(X) 是充分统计量,当样本 X 的条件分布,给定 T(X) 时,不依赖于 θ

概念理解:首先对于连续的分布,概率密度分布(pdf)在某一个点是0,也就是 Pθ(T(X)=t)=0 ,所以条件概率也是0,与 θ 无关。考虑离散分布的情况。

对于离散值,首先 t 是某一个 T(X) 的可能数值,也就是 Pθ(T(X)=t)>0 。根据定义,我们考虑 Pθ(X=x|T(X)=t) ,其实x是样本点。

  • 如果样本点 x T(x)t ,那么明显 Pθ(X=x|T(X)=t)=0
  • 因此更感兴趣的是 Pθ(X=x|T(X)=T(x)) 。(根据定义,如果 T(X) 是充分统计量,那么这个条件概率对于所有的 θ 都一样,所以可以忽略下标, P(X=x|T(X)=t) 。)
    下面就要证明 Pθ(X=x|T(X)=x) θ 无关。同时根据定义,知道 X=x T(X)=T(x) 的子集。我们可以得到:
    Pθ(X=x|T(X)=T(x))=X=x and T(X)=T(x)Pθ(T(X)=T(x))=P(X=x)Pθ(T(X)=T(x))=p(x|θ)q(T(x)|θ)

    其中 p(x|θ) 是样本 X 的联合pmf(注:更确切地说,这是条件pmf,不过条件pmf也是联合pmf的一种,只要包含两个及以上的变量)。 q(t|θ) T(X) 的pmf。因此,根据定义, T(X) θ 的充分统计量,当且仅当对于任意的 x ,上面的比例是对于 θ 常数的函数。具体定义如下:

如果 p(x|θ) X 的联合概率密度或联合概率质量, q(t|θ) T(X) 的概率密度或概率质量,那么 T(X) θ 的充分统计量,如果满足对于样本空间内的任意 x p(x|θ)/q(T(x)|θ) 的比是 θ 的固定常数函数。

举一个例子: X1,...Xn 是iid的伯努利分布,参数为 θ ,符合 0<θ<1 。证明 T(X)=X1+...+Xn θ 的充分统计量。

提示: T(X) 是统计的 Xi 中值为1的数量,所以 T(X) 是二项分布。且 t=xi

因此比例就是

P(x|θ)q(T(x)|θ)=θxi(1θ)1xi(nt)θt(1θ)nt=θt(1θ)nt(nt)θt(1θ)nt

通常不会给定一个模型,让我们去找一个充分统计量。更多的是,给定一个充分统计量,找 T(X) 的pmf或pdf,然后检查上面所述的特殊比是否依赖于 θ 。而下面的定义就比较方便我们找到充分统计量。

因式分解定理: f(x|θ) 表示联合样本 X 的概率密度或联合概率质量。统计量 T(X) θ 的充分统计量,当且仅当存在函数 g(t|θ) h(x) ,满足对于所有的样本点 x 和参数点 θ

f(x|θ)=g(T(x)|θ)h(x)

比如对于正态分布:

f(x|μ)=(2πσ2)n/2exp((xix¯)2/(2σ2))exp(n(x¯μ)2/(2σ2))

也就是 h(x)=(2πσ2)n/2exp((xix¯)2/(2σ2)) ,与 θ 无关。

g(t|μ)=exp(n(tμ)2/(2σ2)) ,这里 T(X)=X¯ μ 的充分统计量。

再比如,如果对于正态分布,两个参数都未知,即 μ,σ 都未知,那么可以进行如下分解:

θ=(μ,σ2) ,另 T1(x)=x¯ T2(x)=s2=(xix¯)/(n1) 。定义 h(x)=1

g(t|θ)=g(g1,t2|μ,σ2)=(2πσ2)n/2exp((n(t1μ)2+(n1)t2)/(2σ2))

因此 f(x|μ,σ2)=g(T1(x),T2(x)|μ,σ2)h(x) 。那么充分统计量就是 T(X)=(T1(X),T2(X))=(X¯,S2)

极小充分统计量

相关统计量 (ancillary statistics)

似然原则 The Likelihood Principle

似然函数

f(x|θ) 表示样本 X=(X1,...Xn) 的联合pdf或者pmf。如果 X=x 是观测值,那么似然函数就定义为

L(θ|x)=f(x|θ)

这个定义和pdf或pmf是一样的。唯一的区别就是考虑哪一个变量时固定的,哪一个变量是变化的。

如果 X 是离散的,那么 L(θ|x)=Pθ(X=x) 。如果再比较两个参数点的似然函数,发现 Pθ1(X=x)=L(θ1|x)>L(θ2|x)=Pθ2(X=x) ,那么就说 θ=θ1 θ=θ2 更有可能。

如果 X 是连续的实数随机变量,就用小的 ϵ 来逼近, Pθ(xϵ<X<xϵ)2ϵf(x|θ)=2ϵL(θ|x) 。因此

Pθ1(xϵ<X<xϵ)Pθ2(xϵ<X<xϵ)L(θ1|x)L(θ2|x)

标准似然性原则

同变性原则 The Equivariance Principle

点估计 Point Estimation

估计量(estimator)和估计值(estimate)的区别:估计量是样本的一个函数,而估计值是当一个样本实际获取之后,一个估计量的实例化数值(也就是一个数字)。在表示上,估计量是定义在随机变量 X1,...,Xn 的函数,而估计值是实际样例 x1,...,xn 的函数值。

寻找估计量的方法

动差法 Method of Moments

先说明一下人口population和样本sample的概念:

在统计学中,数据集被认为是定义在概率空间上的随机变量的实现或观察值。概率方法P就叫做人口population。而数据集合或者产生数据的随机元素就叫做来自P的样本sample。
人口P只有在这种情况下会认定为已知:当前仅当每一个事件A发生的概率P(A)都已知。

X1,...,Xn 是样本,其pdf或pmf是 f(x|θ1,...,θk) 。动差估计量就是将前面k个样本冲量和对应的人口冲量相等,然后求解最终的等式。

m1=1nni=1X1i,μ1=EX1m2=1nni=1X2i,μ2=EX2mk=1nni=1Xki,μ1=EXk

人口冲量 μj 是一个基于 θ1,...,θk 的函数。冲量的估计值 θ~1,...,θ~k 通过求解下面的等式获取:

m1=μ1(θ1,...,θk)m2=μ2(θ1,...,θk)mk=μk(θ1,...,θk)

例:假设 X1,...,Xn 是iid的,并且服从 N(μ,σ2) 。按照前面我们已经提到了标记,可以有 θ1=μ θ2=σ2 。就有 m1=X¯,m2=(1/n)X2i,μ1=θ,μ2=θ2+σ2 ,因此必须求解如下

X¯=θ,1nX2i=θ2+σ2

而求解 θ σ2 则会用到冲量估计量的方法:

θ~=X¯,σ~2=1nX2iX¯2=1n(X2iX¯2)

在这个例子中,这个例子与我们的理想的结果不一致,但这个方法在没有明显的估计量的时候更有用。

Maximum Likelihood Estimators 最大似然估计量

X1,...,Xn 是n个iid的抽样样本,且符合pdf。似然函数的定义是

L(θ|x)=i=1nf(xi|θ)

对于每一个样本点x,让似然函数 L(θ|x) 针对 θ 取得最优值在 θ^(x) 处,而 X 是固定的。那么对于样本 X θ 的最大似然估计量就是 θ^(x)

因为在计算联合概率的时候,对于independent分布,通常是连乘。所以对MLE求导来获取极值通常会加上log,也就是log-likelihood,来把乘法变成加法进行求导。

MLE的不变性:如果 θ^ θ 的MLE,那么对于任意的函数 τ(θ) ,它的MLE是 τ(θ^)

练习:对于未知 μ σ 的正态分布,给定iid观测值 X1,...,Xn ,求解MLE。(提示,用log-likelihood)

Bayes Estimator 贝叶斯估计量

想法是这样,给定一个先验分布(prior distribution)。然后从population中获得一个取样样本,然后用这个样本来更新先验分布(prior distribution),更新后的分布就叫做后验分布(posterior distribution)。这种更新的过程通过贝叶斯法则实现。

Notation: π(θ) 是先验分布,样本分布符合 f(x|θ) ,那么给定样本 x θ 的条件概率(也就是 θ 的后验分布)就是:

π(θ|x)=f(x|θ)π(θ)/m(x)

因为根据贝叶斯法则 f(x|θ)π(θ)=f(x,θ) 。而 m(x) 是边缘分布,即为 m(x)=f(x|θ)π(θ)dθ

如上面定义中提到的,后验分布是一个基于观测值/样本值的条件分布。

最大后验概率 MAP

共轭家族Conjugate Family

EM 算法

当模型中有一些隐藏状态的时候,MLE无法直接得到。这个时候就引入EM算法来得到一个近似解。

EM(Expectation-Maximization)期望最大算法,是在难以得到likelihood maximization时,使用一系列更容易得到的maximization来得到一个贴近的答案。特别适用于有missing data的情况。使用EM的时候,考虑两种情形,一个是有missing data,一个是complete data。

例:观测值 X1,...,Xn Y1,...,Yn 是相互独立的,其中 YiPoisson(βτi) XiPoisson(τi) 。(注意,不是iid,只是independent)

那么联合pmf就是 f((x1,y1),(x2,y2),...,(xn,yn)|β,τ1,τ2,...,τn)=ni=1eβτi(βτi)yiyi!eτi(τi)xixi!

通过求导,可以得到似然估计量, β^=ni=1yini=1xi , τj=xj+yjβ^+1

这里 (x1,y1),(x2,y2),...,(xn,yn) 是完整数据。

假设 Y=Y1,...,Yn 是不完整的数据,而 X 是augmented数据(就是正好弥补可以弥补Y缺少的部分,以及一些隐含状态变量),那么 (Y,X) 一起就组成了complete data,所以Y的密度概率 g(|θ) 就定义为:

g(y|θ)=f(y,x|θ)dx

如果我们把以上公式转换成likelihood,那么 L(θ|y)=g(y|θ) 就是incomplete-data likelihood,而 L(θ|y)=f(y,x|θ) 就是complete-data likelihood。如果incomplete-data likelihood很难计算的时候,经常性的,complete-data likelihood会比较容易计算。

继续例题。incomplete-data likelihood就是对 x1 求和,就变成了

L(β,τ1,τ2,...,τn|y1,(x2,y2),...,(xn,yn))=i=1neβτi(βτi)yiyi!i=2neτi(τi)xixi!

其中 y1,(x2,y2),...,(xn,yn) 是不完整的数据。通过对MLE进行求导,可以得到:

β^=ni=1yini=1xiy1=τ^1β^xj+yj=τ^j(β+1),j[2,n]

然后通过EM来求解。

定义: L(θ|y,x)=f(y,x|θ),L(θ|y)=g(y|θ) ,然后定义变量X给定 θ y 的条件概率为 K(x|y,θ)=f(y,x|θ)g(y|θ)

logL(θ|y)=logL(θ|y,x)logk(x|θ,y)

因为x是missing的,没有观测到的数据,所以将右面替换成 k(x|θ,y) 下的期望,得到

logL(θ|y)=E[logL(θ|y,x)|θ,y]E[logk(x|θ,y)|θ,y]

θ θ(0) 开始,通过以下式子更新:

θ(r+1)=argmaxθE[logL(θ|y,x)|θ(r),y]

E步骤计算期望的log likelihood,而M步骤找到最大值。

再回到例子。Notation: (x,y)=((x1,y1),(x2,y2),...,(xn,yn)) 表示complete-data; (x(1),y)=(y1,(x2,y2),...,(xn,yn)) 表示incomplete-data。那么期望的complete-data log likelihood就是

E[L(β,τ1,τ2,...,τn|(x,y))|τr,(x(1),y)]=x1=0log(i=1neβτi(βτi)yiyi!eτi(τi)xixi!)eτ(r)1(τ(r)1)x1x1!

最后求解MLE的结果:

β^r+1=ni=1yiτ(r)1+ni=2xiτ^(r+1)1=τ^(r)1+y1β^(r+1)+1τ^(r+1)j=xj+yjβ^(r+1)+1

Appendix

Statictical Inference, by George Casella and Roger L. Berger,这本书是被很多人推荐的一本,适合入门。

Mathematical Statics, by Jun Shao。这本书是作者在UW-Madison Ph.D.期间整理下的内容,有点偏难。

你可能感兴趣的:(Machine,Learning,-,Stat)