@(机器学习)[MachineLearning, Econometrics]
核密度估计是一种非参数估计方法,在机器学习领域,是一种非监督性学习方法。用于从给定分布的样本重建总体的分布函数。
优点:
- 非参数:假设少,不假设样本服从任何分布
缺点:
- 计算量:比起参数估计,非参数估计运算量大很多
定理 1.1: 均匀核估计量
f^(x)=1nh∑i=1nk(Xi−xh)
要 f^ 是 f 的一致估计量,只要核函数 k(⋅) 满足
1. 归一化, ∫k(v)dv=1
2. 对称性, k(v)=k(−v)
3. 二阶矩有限, ∫v2k(v)dv<∞并且可证明 f^ 有一个渐进正态分布,也就是说 f^(x) 统计量服从中心极限定理。
注意到
均方误差(Mean Square Error)分析
定理 1.2:设三阶可微概率密度 f(x) 有一组i.i.d.的 n 个观测值 {Xn} 。核函数 k(⋅) 满足归一性,对称性和二阶矩存在,且当 n→∞ 时,有 h 宏观无穷小 h→0 ,微观无穷大 nh→∞ 。则对于 x∈supp(X)
MSE[f^(x)]=bias2[f^(x)]+var[f^(x)]=h44[κ2f(2)(x)]2+κf(x)nh+o(h4+(nh)−1)
其中 κ=∫k2(x)dx , κ2=∫x2k(x)dx 由核函数性质决定。并且 |f(1)(x)|<∞ , ∫|x3k(x)|dx<∞ 。
因此 f^(x) 在均方误差意义下一致收敛于 f(x) 。
更近一步,如果将MSE作为判据,为了使MSE最小( dMSE(f^(x))dh=0 ),应该选取的核宽度为
注意到上面的窗口宽度随着 x 变化的函数,如果希望使用固定窗口宽度,我们选择固定核宽度的积分均方误差作为评判标准,即估计密度函数和总体密度之间的期望希尔伯特距离
插入法(plug-in methods)
为了求出在IMSE条件下最有的窗宽,需要确定常数 c0 中的 ∫[f(2)(x)]2dx 。由于 f 是未知的,所以这个量无法事先知道。如果选择一个 h 初始的“试验值”(pilot value),然后将这个值代入 hopt 的计算式求出的优化 h ,则这种方法称为“插入法”(plug-in methods)。
Silverman(1986)提出假定 f 是一个以 σ2 为方差的正态分布,则其二阶导可确定, ∫[f(2)(x)]2dx=38π√σ5 ,代入优化窗宽,可以得到试验窗宽估计
交错鉴定法
交错鉴定法是一种完全由数据驱动的方法,其核心在于用一部分样本拟合模型来检验另一部分样本的拟合程度。通过不断改变训练集合测试集,来评价模型的好坏。当每次都只留一个样本作为检验对象,其他样本均做训练集时,所得到的估计量称为去一估计量(leave-one-out estimator)。
通过这种方法,我们可以来估计 f^ 和 f 的希尔伯特距离,并以距离作为判据来选择窗宽,这种方法称为最小二乘交叉检验。
定理 1.3 总体分布函数为 f(x) ,通过去一核估计交叉检验得到的估计量 f^ 的积分平方误差 CV 为
CVf(h)=1n2h∑i=1n∑j=1nk¯(Xi−Xjh)−2n(n−1)h∑i=1n∑j≠ink(Xi−Xjh)+C
其中 k¯(t)=∫k(x)k(t−x)dx 是 k(⋅) 的重卷积核。
可以通过成熟的数值算法对 CVf(h) 进行优化求解得到使交叉检验 CVf 最小的核宽度 h 。
将 CVf(h) 的首项提出,并使首项最小,会发现得到的最优解退化为IMSE最优解的情形。
除了最小二乘方法,还可以使用最概然交叉检验。根据玻尔兹曼熵定义,这种方法以最大化去一核最概然函数的对数为标准来选取 h ,即
为了得到平滑的CDF估计量,我们从核函数出发,将密度分布函数估计进行积分
定理 1.4:总体的累计分布函数 F(x) 二阶连续可微,且二阶倒数Holder连续, k(x) 为对称的核函数, G(x)=∫x∞k(x) 为核积分函数。则当 n→∞ 时,
MSE[F^]=bias[F^]2+var[F^]={12κ2h2F(2)(x)+o(h2)}2+{1nF(x)[1−F(x)]−1nα0f(x)h+o(hn)}=c0(x)n−1−c1(x)hn−1+c2(x)h4+o(h4+hn−1)
其中系数项为
c0(x)c1(x)c2(x)α0κ2=F(x)[1−F(x)]=α0f(x)=[κ22F(2)(x)]2=2∫xG(x)k(x)dx=∫x2k(x)dx
系数由总体分布函数 F(x) 和核确定 k(x) 。
因此,可以容易的 F^ 到积分均方误差IMSE
渐进正态特性,根据Liapunov中心极限定理,分布上
交叉检验法:累计分布函数估计 F^(x) 的交叉检验函数定义如下
可以证明交叉检验函数期望的首项和 IMSE(F^) 的首项相同。因此用交叉检验和用IMSE得到的效果相同。
当我们考察的对象从标量随机变量扩充为 q 维随机向量时,我们需要的估计的密度分布函数就也称为了联合密度分布。我们将问题形式化如下,假定有 n 个 q 维随机向量 {Xn} 且i.i.d服从联合密度函数 f(x1,x2,…,xq) ,记 Xis 为 Xi 的第 s 个分量。即
s | = | 1 | 2 | … | q | ||
---|---|---|---|---|---|---|---|
X1 | = | ( | X11 , | X12 , | …, | X1q | ) |
X2 | = | ( | X21 , | X22 , | …, | X2q | ) |
… | = | ( | …, | …, | …, | … | ) |
Xn | = | ( | Xn1 , | Xn2 , | …, | Xnq | ) |
联合分布的核函数通过单变量核函数的乘积构造,这样的构造的联合密度核函数是假设 q 个核相互独立时的联合分布函数,但 X 的分量之间并不需要限制是独立的。也就是说, X 分量之间有依赖时也可以通过这样的核估计出来。我们用下面的方法来估计联合概率密度 f(x)
均方误差的计算类似于单变量的其概况,可以得到
定理 1.5:设三阶梯度存在的 q 维联合概率密度分布函数 f(x)≡f(x1,x2,…,xq) 有一组i.i.d.的 n 个观测值 {Xn∈Rq} 。核函数 K(x) 为单变量核函数之积。且当 n→∞ 时,有格子体积宏观无穷小 maxihi→0 ,微观无穷大 nh1h2⋯hq→∞ 。则对于 x∈supp(X)
MSE[f^(x)]=bias2[f^(x)]+var[f^(x)]={κ22∑s=1qh2s∂2f(x)∂x2s+O(∑s=1qh3s)}2+{1nh1h2⋯hq[κqf(x)+O(∑s=1qh2s)]}=O⎛⎝(∑s=1qh2s)2+(nh1h2⋯hq)−1⎞⎠=O(L4+(nV)−1)
其中 κ=∫k2(x)dx , κ2=∫x2k(x)dx 由单变量核函数性质决定。 L 为核宽度超立方体的对角线长度,而 V 为超立方体的体积。
渐进正态性讨论
如果 n→∞ ,格子宏观无穷小 maxihi→0 ,微观无穷大 nV→∞ 时,并且 nV∑qs=1h6s→0 ,密度估计量具有渐进正态性。
插入法
优化的核宽度选择应当平衡偏误和方差,也就是说,对于所有的 s 应当有
对于插入法,一般通过 f^(x) 的偏误和方法首项进行估计,其中包含了总体分布 f(x) 和二阶偏导数,这在高维情况中是复杂的。在实际中插入法没有广泛使用,也不推荐使用。
交叉检验法
自然地将一维交叉检验函数扩充到高维的情况,定义交叉检验目标函数为
从理论分析上交叉检验目标函数 CVf(h1,…,hq) 的首项通过下式给出
因此可以看到,最大化首项的 hs 应满足 hs=O(n−1/(q+4)) 。同时可以证明 CVf0 的首项也是 E[CVf] 的首项,也就说说,最优化 hs 也使得积分均方误差的首项最小化。
最概然交叉检验和单变量情况通过最大化熵来给出最优化窗宽,虽然执行简单,单依然会有厚尾分布时出现缺陷的情况,会出现过度平滑。
定义 1.1: 一个 ν 阶核函数( ν≥2 )应满足如下条件
1. 归一化, ∫k(x)dx=1
2. 低阶矩为0, ∫xlk(x)dx=0 , l=1,⋯,ν−1
3. ν 阶矩有限, ∫xνk(x)dx=κν≠0<∞则称核函数 k(⋅) 为 ν 阶核函数。
通常使用的核都属于二阶核函数 ν=2 。与二阶核类似,对于总体分布函数 f(x) 是 ν 阶可微,所有的维度使用相同阶核函数时,可以证明
定理 1.6: 对于一个 ν 阶核函数, nu≥2 ,其误差由下式给出
MSE[f^(x)]f^(x)−f(x)=O(∑s=1qh2νs+(nh1h2⋯hq)−1)=Op(∑s=1qhνs+(nh1h2⋯hq)−1/2)
利用一个高阶和可以同时较少偏误和方法。
值得注意的是,对于 ν>2 ,不存在非负核函数。也就意味着,我们有可能得到负的密度估计。对于有限样本来说,一个非负的二阶核函数经常比高阶核函数得到更稳定的结果。因此,高阶核函数经常被用于理论目次,而不太在实践中运用。
高阶核函数可以通过低阶核函数与多项式乘积的形式进行构造,通过矩约束求解多项式系数。
[1] Q. Li & J. S. Racine, Nonparametric Econometrics Theory and Practice, Peking University Press, 2007
[2] T. Hastie, R. Tibshirani & J. Friedman, The Elements of Statistical Learning, Second Edition, Springer, 2009
[3] B. Silverman, Density Estimation for Statistics and Data Analysis, Springer, 1986