机器学习-累计分布函数(CDF)

1.累计分布函数(The Cumulative Distribution Function):在x点左侧事件发生的总和。

机器学习-累计分布函数(CDF)_第1张图片

累计分布函数的特性:

①因为累计分布函数是计算x点左侧的点的数量,所以累计分布函数CDF是单调递增的。

②CDF比没有直方图变化剧烈,但是CDF包含了相同的信息,并且减少了噪声。。

③由于CDF不存在装箱(分段),因此比直方图能更好的展现数据。

④所有的CDF中,在x趋近-∞时,CDF趋近于0,当x趋近+∞时,CDF趋近与1(100%)

⑤对于给定的数据集,CDF是唯一的

CDF可以看做直方图的积分,直方图可以看做是CDF对x的导数。

机器学习-累计分布函数(CDF)_第2张图片

2 对比概率图和特定分布

通过直方图/KDE和理论的密度函数对比是非常困难的,通过CDF进行对比是一个好点的选择,但是也不是特别容易。

针对高斯分布:

取反函数:

因此这个式子是斜率为σ并且截距是μ的一条直线。

针对垂直轴,采用原来数据的单位,针对水平轴x可以称为概率单位(probits)。

需要生成一个概率图,不但需要数据本身,还需要知道每一个点xi对应的分位点(quantile)yi。分位点取得方法如下:

①把数据进行升序排列

②分配每个数据的级别(rank),从1开始

③数据的分位点(quantile)yi定义为级别(rank)除以n+1,n是数据的总个数。

以下是例子:

机器学习-累计分布函数(CDF)_第3张图片

 

你可能感兴趣的:(机器学习)