参数估计

参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中，人们假定数据分布符合某种特定的性态，如线性、可化线性或指数性态等，然后在目标函数族中寻找特定的解，即确定回归模型中的未知参数。在参数判别分析中，人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明，参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距，这些方法并非总能取得令人满意的结果。

[参数估计：最大似然估计MLE][参数估计：文本分析的参数估计方法]

非参数估计方法

由于上述缺陷，Rosenblatt和Parzen提出了非参数估计方法，即核密度估计方法。由于核密度估计方法不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布特征的方法，因而，在统计学理论和应用领域均受到高度的重视。

核密度估计（kernel density estimation）是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

核密度估计在估计边界区域的时候会出现边界效应。

[https://zh.wikipedia.org/zh-hans/核密度估计]

因此，一句话概括，核密度估计Kernel Density Estimation(KDE)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。

在密度函数估计中有一种方法是被广泛应用的——直方图。如下图中的第一和第二幅图（名为Histogram和Histogram, bins shifted）。直方图的特点是简单易懂，但缺点在于以下三个方面：密度函数是不平滑的；密度函数受子区间（即每个直方体）宽度影响很大，同样的原始数据如果取不同的子区间范围，那么展示的结果可能是完全不同的。如下图中的前两个图，第二个图只是在第一个图的基础上，划分区间增加了0.75，但展现出的密度函数却看起来差异很大；直方图最多只能展示2维数据，如果维度更多则无法有效展示。

核密度估计Kernel Density Estimation(KDE)概述密度估计的问题_第1张图片

核密度估计有多种内核，图3（Tophat Kernl Density）为不平滑内核，图4（Gaussian Kernel Density,bandwidth=0.75）为平滑内核。在很多情况下，平滑内核（如高斯核密度估计，Gaussian Kernel Density）使用场景较多。

虽然采用不同的核函数都可以获得一致性的结论（整体趋势和密度分布规律性基本一致），但核密度函数也不是完美的。除了核算法的选择外，带宽（bandwidth）也会影响密度估计，过大或过小的带宽值都会影响估计结果。如上图中的最后三个图，名为Gaussian Kernel Density,bandwidth=0.75、Gaussian Kernel Density,bandwidth=0.25、Gaussian Kernel Density,bandwidth=0.55.

核密度估计的应用场景

股票、金融等风险预测：在单变量核密度估计的基础上，可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理，可以建立不同的风险价值的预测模型。

密度估计中应用较多的算法是高斯混合模型以及基于近邻的核密度估计。高斯混合核密度估计模型更多会在聚类场景中应用。

[核密度估计Kernel Density Estimation(KDE)]

核密度分析可用于测量建筑密度、获取犯罪情况报告，以及发现对城镇或野生动物栖息地造成影响的道路或公共设施管线。可使用 population 字段根据要素的重要程度赋予某些要素比其他要素更大的权重，该字段还允许使用一个点表示多个观察对象。例如，一个地址可以表示一栋六单元的公寓，或者在确定总体犯罪率时可赋予某些罪行比其他罪行更大的权重。对于线要素，分车道高速公路可能比狭窄的土路产生更大的影响，高压线要比标准电线杆产生更大的影响。[ArcGIS中的介绍]

热力图大家一定听说过，其实热力图就是核密度估计。

总而言之，核密度就是用来估计密度的，如果你有一系列空间点数据，那么核密度估计往往是比较好的可视化方法

皮皮blog

核密度估计

所谓核密度估计，就是采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。

核密度估计（Kernel density estimation），是一种用于估计概率密度函数的非参数方法，为独立同分布F的n个样本点，设其概率密度函数为f，核密度估计为以下：