核密度估计基础-Part I

核平滑方法理论-I

@(机器学习)[MachineLearning, Econometrics]

0. Introduction

核密度估计是一种非参数估计方法,在机器学习领域,是一种非监督性学习方法。用于从给定分布的样本重建总体的分布函数。

优点
- 非参数:假设少,不假设样本服从任何分布

缺点
- 计算量:比起参数估计,非参数估计运算量大很多

1. 核密度估计(Kernel Density Estimation)

1.1 单变量(Univariable)密度估计

1.1.1 单变量的核密度估计

定理 1.1: 均匀核估计量

f^(x)=1nhi=1nk(Xixh)

f^ f 的一致估计量,只要核函数 k() 满足
1. 归一化, k(v)dv=1
2. 对称性, k(v)=k(v)
3. 二阶矩有限, v2k(v)dv<

并且可证明 f^ 有一个渐进正态分布,也就是说 f^(x) 统计量服从中心极限定理。

注意到

f^(x)=1nhi=1nk(Xixh)=(F^kh)(x)

其中 表示卷积, F^(x)=ni=1δ(xXi) ,是一堆针刺。这也就是说,通过总体的密度分布 f^ 是利用宽度为 h 的核函数 kh 平滑了针板函数 F^(x) 得到的。

均方误差(Mean Square Error)分析

MSE[f^(x)]E[(f^f(x))2]=var[f^(x)]+[E(f^(x))f(x)]2=var[f^(x)]+bias2[f^(x)]

可以利用Taylor展开方便的证明 f^(x) 具有均方误差一致收敛速度满足下面定理

定理 1.2:设三阶可微概率密度 f(x) 有一组i.i.d.的 n 个观测值 {Xn} 。核函数 k() 满足归一性,对称性和二阶矩存在,且当 n 时,有 h 宏观无穷小 h0 ,微观无穷大 nh 。则对于 xsupp(X)

MSE[f^(x)]=bias2[f^(x)]+var[f^(x)]=h44[κ2f(2)(x)]2+κf(x)nh+o(h4+(nh)1)

其中 κ=k2(x)dx κ2=x2k(x)dx 由核函数性质决定。并且 |f(1)(x)|< |x3k(x)|dx<

因此 f^(x) 在均方误差意义下一致收敛于 f(x)

更近一步,如果将MSE作为判据,为了使MSE最小( dMSE(f^(x))dh=0 ),应该选取的核宽度为

hopt=c(x)n1/5

其中 c(x)={κf(x)(κ2f(2)(x))2}1/5

注意到上面的窗口宽度随着 x 变化的函数,如果希望使用固定窗口宽度,我们选择固定核宽度的积分均方误差作为评判标准,即估计密度函数和总体密度之间的期望希尔伯特距离

IMSE[f^(x)]E[(f^(x)f(x))2]dx=14h4κ22[f(2)(x)]2dx+κnh+o(h4+(nh)1)

在这个意义下,可以求得是IMSE最小的优化 hopt
hopt=c0n1/5

其中 c0=κ2/52κ1/5{[f(2)(x)]2dx}1/5>0

1.1.2 窗宽选择

  1. 插入法(plug-in methods)
    为了求出在IMSE条件下最有的窗宽,需要确定常数 c0 中的 [f(2)(x)]2dx 。由于 f 是未知的,所以这个量无法事先知道。如果选择一个 h 初始的“试验值”(pilot value),然后将这个值代入 hopt 的计算式求出的优化 h ,则这种方法称为“插入法”(plug-in methods)。
    Silverman(1986)提出假定 f 是一个以 σ2 为方差的正态分布,则其二阶导可确定, [f(2)(x)]2dx=38πσ5 ,代入优化窗宽,可以得到试验窗宽估计

    hpilot=(4π)1/10[(3/8)π]1/5σn1/51.06σn1/5

    用此试验值进一步迭代计算 [f^(2)(x)]2dx ,定出最终的优化结果 hopt
    Silverman还提出一种更加稳健的分散程度度量,就是用 min{σ,q1/4/1.34} 来代替 σ ,其中 q1/4 表示四分位矩。

  2. 交错鉴定法
    交错鉴定法是一种完全由数据驱动的方法,其核心在于用一部分样本拟合模型来检验另一部分样本的拟合程度。通过不断改变训练集合测试集,来评价模型的好坏。当每次都只留一个样本作为检验对象,其他样本均做训练集时,所得到的估计量称为去一估计量(leave-one-out estimator)。
    通过这种方法,我们可以来估计 f^ f 的希尔伯特距离,并以距离作为判据来选择窗宽,这种方法称为最小二乘交叉检验

    L(f^,f)=[f^(x)f(x)]2dx=f^(x)2dx2f^(x)f(x)dx+f(x)2dx

    其中第三项和 f^ 无关,视为常数
    f(x)2dx=C

    第二项采用去一估计量估计,即
    f^(x)f(x)dx=EX[f^(X)]=1ni=1nf^i(Xi)+O(n1/2)

    其中 Ex[] 是对 x 求期望,用来区别对观测量 Xi 求期望。在 Xi 处的去一估计量 f^i(Xi) 定义为
    f^i(Xi)=1(n1)hjink(XiXjh)

    表示用除了 Xi 这个观测量外的其他观测量来估计 Xi 处的密度函数。
    第一项直接代入 f^(x) 的估计式,可以得到
    f^(x)2dx=[1nhi=1nk(Xixh)]2dx=1n2hi=1nj=1nk¯(XiXjh)

    其中 k¯(t)=k(x)k(tx)dx k() 的重卷积核(two-fold convolution),一般是两个独立同分布的随机变量之和的分布。可证明, k¯() 也是偶函数。

    定理 1.3 总体分布函数为 f(x) ,通过去一核估计交叉检验得到的估计量 f^ 的积分平方误差 CV

    CVf(h)=1n2hi=1nj=1nk¯(XiXjh)2n(n1)hi=1njink(XiXjh)+C

    其中 k¯(t)=k(x)k(tx)dx k() 的重卷积核。

    可以通过成熟的数值算法对 CVf(h) 进行优化求解得到使交叉检验 CVf 最小的核宽度 h
    CVf(h) 的首项提出,并使首项最小,会发现得到的最优解退化为IMSE最优解的情形。

    除了最小二乘方法,还可以使用最概然交叉检验。根据玻尔兹曼熵定义,这种方法以最大化去一核最概然函数的对数为标准来选取 h ,即

    L=klnL=ki=1nln[f^i(Xi)]

    其中 k 为玻尔兹曼常数。这种方法受到尾部行为影响严重,对厚尾分布会引起不一致的结果,因此最概然交错检验不太流行

1.2 单变量累计分布函数

1.2.1 累计分布函数的核估计

为了得到平滑的CDF估计量,我们从核函数出发,将密度分布函数估计进行积分

F^(x)=xf^(x)dx=1ni=1nG(xXih)

其中 G(x)=xk(x)dx 是核的累计分布函数。其均方误差有下面定理给出

定理 1.4:总体的累计分布函数 F(x) 二阶连续可微,且二阶倒数Holder连续, k(x) 为对称的核函数, G(x)=xk(x) 为核积分函数。则当 n 时,

MSE[F^]=bias[F^]2+var[F^]={12κ2h2F(2)(x)+o(h2)}2+{1nF(x)[1F(x)]1nα0f(x)h+o(hn)}=c0(x)n1c1(x)hn1+c2(x)h4+o(h4+hn1)

其中系数项为
c0(x)c1(x)c2(x)α0κ2=F(x)[1F(x)]=α0f(x)=[κ22F(2)(x)]2=2xG(x)k(x)dx=x2k(x)dx

系数由总体分布函数 F(x) 和核确定 k(x)

因此,可以容易的 F^ 到积分均方误差IMSE

IMSE(F^)=E[F^(x)F(x)]2dx=C0n1C1hn1+C2h4+o(h4+hn1)

其中 Ci=ci(x)dx 是和 x 无关的常数。
首项最小化可以的到优化的核宽度选择
hopt=[C14C2]1/3n1/3

这比密度估计( n1/5 )收敛速度要快。

渐进正态特性,根据Liapunov中心极限定理,分布上

n[F^F]N(0,F(x)[1F(x))])

误差满足正态分布。

1.2.2 窗宽选择

交叉检验法:累计分布函数估计 F^(x) 的交叉检验函数定义如下

CVF(h)=1ni=1n[1(Xix)F^i(x)]2dx

其中 1 是示性函数, F^i(x)=1n1jiG(xXjh) 为去一核估计量。

可以证明交叉检验函数期望的首项和 IMSE(F^) 的首项相同。因此用交叉检验和用IMSE得到的效果相同

1.3 多变量(Multivariable)联合分布密度估计

1.3.1 联合分布的核估计

当我们考察的对象从标量随机变量扩充为 q 维随机向量时,我们需要的估计的密度分布函数就也称为了联合密度分布。我们将问题形式化如下,假定有 n q 维随机向量 {Xn} 且i.i.d服从联合密度函数 f(x1,x2,,xq) ,记 Xis Xi 的第 s 个分量。即

s = 1 2 q
X1 = ( X11 , X12 , …, X1q )
X2 = ( X21 , X22 , …, X2q )
= ( …, …, …, )
Xn = ( Xn1 , Xn2 , …, Xnq )

联合分布的核函数通过单变量核函数的乘积构造,这样的构造的联合密度核函数是假设 q 个核相互独立时的联合分布函数, X 的分量之间并不需要限制是独立的。也就是说, X 分量之间有依赖时也可以通过这样的核估计出来。我们用下面的方法来估计联合概率密度 f(x)

f^=1nh1hqi=1nK(Xixh)

其中,核函数
K(Xixh)=i=1qk(Xixhi)

k(x) 则是单变量核函数。

均方误差的计算类似于单变量的其概况,可以得到

定理 1.5:设三阶梯度存在的 q 维联合概率密度分布函数 f(x)f(x1,x2,,xq) 有一组i.i.d.的 n 个观测值 {XnRq} 。核函数 K(x) 为单变量核函数之积。且当 n 时,有格子体积宏观无穷小 maxihi0 ,微观无穷大 nh1h2hq 。则对于 xsupp(X)

MSE[f^(x)]=bias2[f^(x)]+var[f^(x)]={κ22s=1qh2s2f(x)x2s+O(s=1qh3s)}2+{1nh1h2hq[κqf(x)+O(s=1qh2s)]}=O(s=1qh2s)2+(nh1h2hq)1=O(L4+(nV)1)

其中 κ=k2(x)dx κ2=x2k(x)dx 由单变量核函数性质决定。 L 为核宽度超立方体的对角线长度,而 V 为超立方体的体积。

渐进正态性讨论
如果 n ,格子宏观无穷小 maxihi0 ,微观无穷大 nV 时,并且 nVqs=1h6s0 ,密度估计量具有渐进正态性。

f^(x)f(x)bias[f^(x)]N(0,κqf(x)nV)

即其无偏误误差服从均值为0的正态分布。

1.3.2 窗框选择

插入法
优化的核宽度选择应当平衡偏误和方差,也就是说,对于所有的 s 应当有

h4s=O((nh1h2hq)1)

因此,优化的 hs 应满足
hs=csn1/(q+4)

在应用中,需要对常数 cs 进行选择,经验法则山,一般选取 cs=1.06 。但由于总体的分布函数可能各向异性,所以这样一概而论的常数缺乏灵活性。

对于插入法,一般通过 f^(x) 的偏误和方法首项进行估计,其中包含了总体分布 f(x) 和二阶偏导数,这在高维情况中是复杂的。在实际中插入法没有广泛使用,也不推荐使用

交叉检验法
自然地将一维交叉检验函数扩充到高维的情况,定义交叉检验目标函数为

CVf(h1,,hq)=1n2i=1nj=1nK¯¯¯h(Xi,Xj)2n(n1)i=1njinKh(Xi,Xj)

其中
Kh(Xi,Xj)=s=1q1hsk(XisXjshs)K¯¯¯h(Xi,Xj)=s=1q1hsk¯(XisXjshs)

是单变量版本的乘积形式。可以通过数值方法来寻求目标函数的最小化。

从理论分析上交叉检验目标函数 CVf(h1,,hq) 的首项通过下式给出

CVf0(h1,h2,,hq)=[s=1qBs(x)h2s]2dx+κqnh1h2hq

其中 Bs(x)=κ222f(x)x2s κ=k2(x)dx κ2=x2k(x)dx
为了分离出样本数 n 的影响,我们定义 as=hsn1/(q+4) ,代换 hs 得到
CVf0(h1,h2,,hq)=n1/(q+4)χ(a1,a2,,aq)

其中 χ(a1,a2,,aq) 适合 n 无关的常数,定义为
χ(h1,h2,,hq)=[s=1qBs(x)a2s]2dx+κqa1a2aq

因此可以看到,最大化首项的 hs 应满足 hs=O(n1/(q+4)) 。同时可以证明 CVf0 的首项也是 E[CVf] 的首项,也就说说,最优化 hs 也使得积分均方误差的首项最小化。

最概然交叉检验和单变量情况通过最大化熵来给出最优化窗宽,虽然执行简单,单依然会有厚尾分布时出现缺陷的情况,会出现过度平滑。

1.4 高阶核函数

定义 1.1: 一个 ν 阶核函数( ν2 )应满足如下条件
1. 归一化, k(x)dx=1
2. 低阶矩为0, xlk(x)dx=0 l=1,,ν1
3. ν 阶矩有限, xνk(x)dx=κν0<

则称核函数 k() ν 阶核函数。

通常使用的核都属于二阶核函数 ν=2 。与二阶核类似,对于总体分布函数 f(x) ν 阶可微,所有的维度使用相同阶核函数时,可以证明

bias[f^(x)]var[f^(x)]=O(s=1qhνs)=O((nh1h2hq)1)

利用这个结果,可以得到均方差和估计的误差

定理 1.6: 对于一个 ν 阶核函数, nu2 ,其误差由下式给出

MSE[f^(x)]f^(x)f(x)=O(s=1qh2νs+(nh1h2hq)1)=Op(s=1qhνs+(nh1h2hq)1/2)

利用一个高阶和可以同时较少偏误和方法。

值得注意的是,对于 ν>2 ,不存在非负核函数。也就意味着,我们有可能得到负的密度估计。对于有限样本来说,一个非负的二阶核函数经常比高阶核函数得到更稳定的结果。因此,高阶核函数经常被用于理论目次,而不太在实践中运用。

高阶核函数可以通过低阶核函数与多项式乘积的形式进行构造,通过矩约束求解多项式系数。

1.5 展望

  1. 放开窗口宽度常数限制,使用变长窗口宽度。
  2. 采用变换分布,消除偏度的影响。

参考资料

[1] Q. Li & J. S. Racine, Nonparametric Econometrics Theory and Practice, Peking University Press, 2007
[2] T. Hastie, R. Tibshirani & J. Friedman, The Elements of Statistical Learning, Second Edition, Springer, 2009
[3] B. Silverman, Density Estimation for Statistics and Data Analysis, Springer, 1986

你可能感兴趣的:(Probability,and,Statistics)