如何画QQ-plot

看到QQ-plot,首先要注意的就是这个QQ和那个大家熟知的QQ不是一回事!

那接下来我们看看这个QQ图到底是啥呢?

先上图:

如何画QQ-plot_第1张图片

根据Wiki的定义:

在统计学中,QQ图[1] (Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。因此画出的是一条含参数的曲线,参数为概率区间的分割数。

如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y = x。QQ图同样可以用来估计一个分布的位置参数。

QQ图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。[2]另外,QQ图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,QQ图是一种比直方图更加有效的方法,但是理解QQ图需要更多的背景知识。

说人话:QQ图就是通过比较两个分布的分位数来看两个分布是不是线性相关的,这也是QQ这个名字的由来:quantile-quantile plot

分位数-分位数 图,说到这那可能有人会问,那分位数是啥?还是直接上定义:

分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能分出4个区间。

那对QQ图的进一步解释就是给你两个分布,各在其中找到N个分位点,然后从小到大排序后一一对应就可以得到图中的坐标了。

QQ图最经常的用途就是验证一个样本是否满足某种分布:

举个栗子:我们生成了一个样本X = {x1,x2,x3,..,xn}, 想要验证这个分布是不是满足指数分布E,设指数分布的条件密度函数为f。

第一步我们认为得到的样本就是我们生成的分布的N个分位点(N分位点)S,也就是y轴 sample quantile

第二步那就需要产生指数分布E的N个分位点了,也就是x轴 theoretical quantile, 这也是很多人不理解的一点。对于一个分布的N分位点,也就是概率的N分位点对应的值,具体操作就是,首先在【0,1】内产生N个等距的点,然后利用条件密度函数f的逆函数(还可以加一些修正操作)来得到对应的随机变量的取值,这样就可以得到N个取值T

第三步那就将S和T都按从小到大排列,然后一一对应就可以得到qq-plot中的坐标了。

好了,到这里就大功告成了!不过在具体画图的时候,很多科学计算平台都提供了画图的函数,调用函数就好了!

 

参考资料:

http://onlinestatbook.com/2/advanced_graphs/q-q_plots.html

你可能感兴趣的:(机器学习)