密度估计理论(部分)

课程笔记:

1、密度估计

考虑任何随机数量 X 有概率密度函数 f, 我们用以下公式计算其概率密度:
在这里插入图片描述
假设我们有一组来自未知密度函数的观察到的数据点,我们的目标是从观测到的数据估计他们的估算密度函数。

有两种方法做密度估计:

  • 参数化的方法,假设数据是服从一个已知的分布,如已知均值和方差的高斯分布;
  • 非参数化的方法,如直方图密度估计和核密度估计。

## 直方图方法:

直方图方法是最早也是最广泛被使用的密度估计方法。
直方图就是将图片的像素分类,落在不同的bin中,h为带宽,直方图由以下公式定义:
在这里插入图片描述
直方图可以推广到,带宽可以变化:
在这里插入图片描述
以下是直方图密度估计的一个例子:

密度估计理论(部分)_第1张图片

直方图存在许多缺点:

  • 直方图只使用了像素级信息,没有使用像素之间的空间位置信息,所以在做一些归类和非参数决策问题时丢失了很多信息,没有充分使用数据;
  • 直方图不是连续的,所以不能对它求梯度;
  • 初始参数的选择可能在很大程度上影响效果;
  • 无法用直方图表示二元或三元数据。

下图展示了不同的初始值选择对结果有很大影响
密度估计理论(部分)_第2张图片

Naive Estimator(朴素估计量)
如果随机样本的密度函数f为:
在这里插入图片描述
因此,Naive Estimator可以写成以下形式:
在这里插入图片描述
我们用以下公式定义权重函数:
在这里插入图片描述
结合上述两个公式:
密度估计理论(部分)_第3张图片
观察目前公式,我们可以将目前的估计看成将一个宽为2h高为(1/2nh)的盒子放在每次观测过程。当x恰好为一个bin的中心的时候,这个朴素量估计就变成了直方图估计。

Naive Estimator的缺点:

  • 估计函数不是连续的,而且在xi±h的会有跳跃其他地方会有导数为0的点,如下图:
    密度估计理论(部分)_第4张图片

Kernel Estimator(核密度估计)
核密度估计是对naïve estimator的一般化(generalization),将先前的权重函数替换成K,K如下:
在这里插入图片描述
于是高斯估计可以写成以下形式:
在这里插入图片描述
h是带宽,他是平滑参数,K是一个核函数。

下面就是一个高斯核的例子。
密度估计理论(部分)_第5张图片

带宽的选择对密度估计效果有很大的影响:

  • 当h接近于0时,密度估计就像Dirac delta function的和;
  • 当h很大时,密度估计模糊不清,区分不出密度块。
    以下是三个例子
    密度估计理论(部分)_第6张图片

密度估计理论(部分)_第7张图片

核密度估计的缺点:

  • 因为窗口宽是固定的,所以在估计的末尾会出现假峰,也就是假的高密度中心;
  • 如果使用平滑操作去除假峰,那某些真正的局部最高点可能会被平滑掉。
    密度估计理论(部分)_第8张图片

Nearest Neighbour Method(最近邻方法)
这是一种平滑局部密度的方法,平滑是被一个参数k控制的,一般的在这里插入图片描述
定义d(x,y)表示两个点之间的距离,d1(t)≤d2(t) ≤… ≤ dn(t),k近邻可以用一下函数来表示:
在这里插入图片描述

最近邻方法优点:
解决在平滑操作中主峰也被过度平滑的问题,因为真正的最高点周围的点多,假峰周围的点少,所以做局部自适应的平滑操作可以在不影响主分布的前提下消除噪声。

缺点:

  • 这个方法得到的结果不是平滑的曲线,它的导数不连续;
  • 如果需要整个密度的估计,则此估计是不合适的。
    密度估计理论(部分)_第9张图片

你可能感兴趣的:(密度估计)