这一篇估计会是非常长时间积累的博客。
iid概念:如果 X1,...Xn 彼此之间相互独立的变量,并且每一个变量 Xi 的边缘概率pdf或pmd都是一样的函数 f(x) ,那么我们就把变量 X1,...Xn 称作是 f(x) 的随机取样。也可以说, X1,...Xn 是independent and identically distrubuted randome variables(独立同分布),且pdf或pmf是 f(x) 。
那么不难得到iid的联合概率分布是 f(x1,...,xn|θ)=∏ni=1f(xi|θ) 。
- 样本均值: X¯=1n∑Xi
- 样本方差: S2=1n−1∑(Xi−X¯)2
- 定义 x1,...,xn 是任意数字,且 x¯=(x1+...+xn)/n ,则我们有
3.1 mina∑(xi−a)2=∑(xi−x¯)2
3.2 (n−1)S2=∑(xi−x¯)2=∑x2i−nx¯2
其中 x¯ , s2 是对应于 X¯ , S2 观测值。
我们使用 T(X) 这个统计量来定义data reduction或者数据总结。如果只使用观测到的统计值数据 T(X) ,而不是所有的观测样例 x ,那么只要两个观测样例符合 T(x)=T(y) ,就认为这两个观测样例一样,尽管实际的样例数值会有不一样的地方。
data reduction对于某种统计来说,可以认为是对样本空间 χ 的分割。比如, T={t:t=T(x) for some x∈χ} 是 T(x) 在空间 χ 的镜像。那么 T(X) 就把样本空间分割成了集合 At,t∈T ,其中 At={x:T(x)=t} 。统计量就总结样本为,与反应整个样本空间不同,他只反映 T(x)=t 的部分,或者是指反映 x∈At 的样本。
比如, T(x)=x1+...+xn ,那么这个统计量就只反映实际样本数值的和。可能有其他的样本会有同样的样本数之和。下面就讨论一下这种data reduction方法的利弊。
我们主要讨论三个原则。希望使用的data reduction能够不会损失关于未知参数 θ 的重要信息,并且不用考虑无关信息。充分性原则(sufficiency principle)保证了不损失关于 θ 的信息,同时获取数据的一些总结(summaries)。似然原则(likelihood principle)根据观测到的样本,描述了参数的函数,包含了所有能从样本中获取的关于 θ 的信息。同变性原则(equivariance principle)指定了另外一种data reduction的方法,仍然能够保持模型的某些重要特征。
If T(X) is a sufficient statistic for θ , the nany inference about θ should depend on the sample X only through the value T(X) . That is, if x and y are two sample points such that T(x)=T(y) , then the inference about θ should be the same whether X=x or X=y is observed.
对于某个参数 θ 的充分统计量(sufficient statistics),就获取关于 θ 的所有信息。而所有样本中的额外信息都不包含在内。这就是充分性原则。
统计量 T(X) 是充分统计量,当样本 X 的条件分布,给定 T(X) 时,不依赖于 θ 。
概念理解:首先对于连续的分布,概率密度分布(pdf)在某一个点是0,也就是 Pθ(T(X)=t)=0 ,所以条件概率也是0,与 θ 无关。考虑离散分布的情况。
对于离散值,首先 t 是某一个 T(X) 的可能数值,也就是 Pθ(T(X)=t)>0 。根据定义,我们考虑 Pθ(X=x|T(X)=t) ,其实x是样本点。
如果 p(x|θ) 是 X 的联合概率密度或联合概率质量, q(t|θ) 是 T(X) 的概率密度或概率质量,那么 T(X) 是 θ 的充分统计量,如果满足对于样本空间内的任意 x , p(x|θ)/q(T(x)|θ) 的比是 θ 的固定常数函数。
举一个例子: X1,...Xn 是iid的伯努利分布,参数为 θ ,符合 0<θ<1 。证明 T(X)=X1+...+Xn 是 θ 的充分统计量。
提示: T(X) 是统计的 Xi 中值为1的数量,所以 T(X) 是二项分布。且 t=∑xi 。
因此比例就是
通常不会给定一个模型,让我们去找一个充分统计量。更多的是,给定一个充分统计量,找 T(X) 的pmf或pdf,然后检查上面所述的特殊比是否依赖于 θ 。而下面的定义就比较方便我们找到充分统计量。
因式分解定理: f(x|θ) 表示联合样本 X 的概率密度或联合概率质量。统计量 T(X) 是 θ 的充分统计量,当且仅当存在函数 g(t|θ) 和 h(x) ,满足对于所有的样本点 x 和参数点 θ ,
f(x|θ)=g(T(x)|θ)h(x)
比如对于正态分布:
也就是 h(x)=(2πσ2)−n/2exp(∑(xi−x¯)2/(2σ2)) ,与 θ 无关。
而 g(t|μ)=exp(−n(t−μ)2/(2σ2)) ,这里 T(X)=X¯ 是 μ 的充分统计量。
再比如,如果对于正态分布,两个参数都未知,即 μ,σ 都未知,那么可以进行如下分解:
θ=(μ,σ2) ,另 T1(x)=x¯ , T2(x)=s2=∑(xi−x¯)/(n−1) 。定义 h(x)=1 。
g(t|θ)=g(g1,t2|μ,σ2)=(2πσ2)−n/2exp(−(n(t1−μ)2+(n−1)t2)/(2σ2)) 。
因此 f(x|μ,σ2)=g(T1(x),T2(x)|μ,σ2)h(x) 。那么充分统计量就是 T(X)=(T1(X),T2(X))=(X¯,S2) 。
让 f(x|θ) 表示样本 X=(X1,...Xn) 的联合pdf或者pmf。如果 X=x 是观测值,那么似然函数就定义为
L(θ|x)=f(x|θ)
这个定义和pdf或pmf是一样的。唯一的区别就是考虑哪一个变量时固定的,哪一个变量是变化的。
如果 X 是离散的,那么 L(θ|x)=Pθ(X=x) 。如果再比较两个参数点的似然函数,发现 Pθ1(X=x)=L(θ1|x)>L(θ2|x)=Pθ2(X=x) ,那么就说 θ=θ1 比 θ=θ2 更有可能。
如果 X 是连续的实数随机变量,就用小的 ϵ 来逼近, Pθ(x−ϵ<X<x−ϵ)≈2ϵf(x|θ)=2ϵL(θ|x) 。因此
估计量(estimator)和估计值(estimate)的区别:估计量是样本的一个函数,而估计值是当一个样本实际获取之后,一个估计量的实例化数值(也就是一个数字)。在表示上,估计量是定义在随机变量 X1,...,Xn 的函数,而估计值是实际样例 x1,...,xn 的函数值。
先说明一下人口population和样本sample的概念:
在统计学中,数据集被认为是定义在概率空间上的随机变量的实现或观察值。概率方法P就叫做人口population。而数据集合或者产生数据的随机元素就叫做来自P的样本sample。
人口P只有在这种情况下会认定为已知:当前仅当每一个事件A发生的概率P(A)都已知。
X1,...,Xn 是样本,其pdf或pmf是 f(x|θ1,...,θk) 。动差估计量就是将前面k个样本冲量和对应的人口冲量相等,然后求解最终的等式。
人口冲量 μ′j 是一个基于 θ1,...,θk 的函数。冲量的估计值 θ~1,...,θ~k 通过求解下面的等式获取:
例:假设 X1,...,Xn 是iid的,并且服从 N(μ,σ2) 。按照前面我们已经提到了标记,可以有 θ1=μ 和 θ2=σ2 。就有 m1=X¯,m2=(1/n)∑X2i,μ′1=θ,μ′2=θ2+σ2 ,因此必须求解如下
而求解 θ 和 σ2 则会用到冲量估计量的方法:
在这个例子中,这个例子与我们的理想的结果不一致,但这个方法在没有明显的估计量的时候更有用。
X1,...,Xn 是n个iid的抽样样本,且符合pdf。似然函数的定义是
对于每一个样本点x,让似然函数 L(θ|x) 针对 θ 取得最优值在 θ^(x) 处,而 X 是固定的。那么对于样本 X 的 θ 的最大似然估计量就是 θ^(x) 。
因为在计算联合概率的时候,对于independent分布,通常是连乘。所以对MLE求导来获取极值通常会加上log,也就是log-likelihood,来把乘法变成加法进行求导。
MLE的不变性:如果 θ^ 是 θ 的MLE,那么对于任意的函数 τ(θ) ,它的MLE是 τ(θ^) 。
练习:对于未知 μ 和 σ 的正态分布,给定iid观测值 X1,...,Xn ,求解MLE。(提示,用log-likelihood)
想法是这样,给定一个先验分布(prior distribution)。然后从population中获得一个取样样本,然后用这个样本来更新先验分布(prior distribution),更新后的分布就叫做后验分布(posterior distribution)。这种更新的过程通过贝叶斯法则实现。
Notation: π(θ) 是先验分布,样本分布符合 f(x|θ) ,那么给定样本 x 的 θ 的条件概率(也就是 θ 的后验分布)就是:
π(θ|x)=f(x|θ)⋅π(θ)/m(x)
因为根据贝叶斯法则 f(x|θ)π(θ)=f(x,θ) 。而 m(x) 是边缘分布,即为 m(x)=∫f(x|θ)π(θ)dθ 。
如上面定义中提到的,后验分布是一个基于观测值/样本值的条件分布。
当模型中有一些隐藏状态的时候,MLE无法直接得到。这个时候就引入EM算法来得到一个近似解。
EM(Expectation-Maximization)期望最大算法,是在难以得到likelihood maximization时,使用一系列更容易得到的maximization来得到一个贴近的答案。特别适用于有missing data的情况。使用EM的时候,考虑两种情形,一个是有missing data,一个是complete data。
例:观测值 X1,...,Xn 和 Y1,...,Yn 是相互独立的,其中 Yi∼Poisson(βτi) , Xi∼Poisson(τi) 。(注意,不是iid,只是independent)
那么联合pmf就是 f((x1,y1),(x2,y2),...,(xn,yn)|β,τ1,τ2,...,τn)=∏ni=1e−βτi(βτi)yiyi!e−τi(τi)xixi! 。
通过求导,可以得到似然估计量, β^=∑ni=1yi∑ni=1xi , τj=xj+yjβ^+1
这里 (x1,y1),(x2,y2),...,(xn,yn) 是完整数据。
假设 Y=Y1,...,Yn 是不完整的数据,而 X 是augmented数据(就是正好弥补可以弥补Y缺少的部分,以及一些隐含状态变量),那么 (Y,X) 一起就组成了complete data,所以Y的密度概率 g(⋅|θ) 就定义为:
如果我们把以上公式转换成likelihood,那么 L(θ|y)=g(y|θ) 就是incomplete-data likelihood,而 L(θ|y)=f(y,x|θ) 就是complete-data likelihood。如果incomplete-data likelihood很难计算的时候,经常性的,complete-data likelihood会比较容易计算。
继续例题。incomplete-data likelihood就是对 x1 求和,就变成了
其中 y1,(x2,y2),...,(xn,yn) 是不完整的数据。通过对MLE进行求导,可以得到:
然后通过EM来求解。
定义: L(θ|y,x)=f(y,x|θ),L(θ|y)=g(y|θ) ,然后定义变量X给定 θ 和 y 的条件概率为 K(x|y,θ)=f(y,x|θ)g(y|θ)
⟹logL(θ|y)=logL(θ|y,x)−logk(x|θ,y)
因为x是missing的,没有观测到的数据,所以将右面替换成 k(x|θ′,y) 下的期望,得到
logL(θ|y)=E[logL(θ|y,x)|θ′,y]−E[logk(x|θ,y)|θ′,y]
θ 从 θ(0) 开始,通过以下式子更新:
E步骤计算期望的log likelihood,而M步骤找到最大值。
再回到例子。Notation: (x,y)=((x1,y1),(x2,y2),...,(xn,yn)) 表示complete-data; (x(−1),y)=(y1,(x2,y2),...,(xn,yn)) 表示incomplete-data。那么期望的complete-data log likelihood就是
最后求解MLE的结果:
Statictical Inference, by George Casella and Roger L. Berger,这本书是被很多人推荐的一本,适合入门。
Mathematical Statics, by Jun Shao。这本书是作者在UW-Madison Ph.D.期间整理下的内容,有点偏难。