上一节挖了个大坑——PZ值,不同软件里面,计算方法和表达方法是有所不同的,因为我们主要讲空间统计,所以我在这里会扣着ArcGIS来讲。
在讲PZ之前,我们还是先再来看看一个统计学里面的基础概念——零假设。这个词也曾经让才开始学习和研究空间统计学的虾神焦头烂额……所以幸运的趟过了地雷阵的虾神,把这个概念用最小白的方式给大家聊一聊。
零假设(null hypothesis),有时候又称原假设,官方的解释是:指进行统计检验时预先建立的假设。
为什么说是“零”呢,因为在数学计算上,通常会设定某些变量值为0,比如灵魂画手虾神,站在N层楼上,手上拿个板砖准备扔下去砸一个大怪兽……
在出手之前,虾神先蹲在楼上,中学数学物理老师附体——计算出了各种变量……高度、重力加速度、出手角度等等。
好了,现在问,中学老师附体的虾神,按照最后一道大题满分的水平计算出来的结果,是不是一定能够砸中怪兽?
答案肯定是……理论上可以,实际上不一定!
为什么呢?很容易理解,因为我们计算的时候,除了已知变量以外,其他的变量都假设为0!什么风、摩擦力、空气阻力、地球的自转(高度足够的时候)……乃至于虾神出手瞬间不会手抽筋、板砖飞到中途也不会被一只鸟给撞偏了……等等等等,这一切现实中有可能出现的事件,在计算的时候,都会被假设为0。
这就是0假设的来源。所以,我们可以理解为:在检验你的结果之前,先对这些结果假设一个数值区间,这个区间一般是符合某种概率分布的情况,如果你的真实结果偏离了你设定的区间,就表示发生了小概率事件。这样你原来的假设就不成立了。
回来板砖砸怪兽这个命题——我们先假设除了我指定的变量以外,其他的变量都是0,(比如化身为上帝的虾神先排除其他所有的变量,就设定板砖飞到中途会被一只鸟给撞偏这个变量是唯一影响命中率的变量,我们先来假设这个变量为0)
结果也就只有两种:
一、接受了这种设定(接受零假设),板砖一定能够砸中怪兽。(没有其他条件影响的话,这将是一个大概率事件)
二、拒绝了这种设定(拒绝零假设),板砖在飞到半途,被突然而来的一只鸟给撞歪了,导致没有砸中怪兽(小概率事件)。
那么能否砸中怪兽的概率,就是这样的了:
上面这张图,拒绝零假设,会有正负两端,怎么理解呢?也就是说,你的板砖扔下去之后,如果拒绝了零假设(也就是没有砸中怪兽),会有两种可能:
1、出现了小概率事件;
2、你的计算出现了错误。
看到这里,应该能够隐约明白零假设是干嘛的了吧……它实际上就是用来对说服你的实验(或者计算)是否是正确(合理)的,如果能够拒绝零假设,则表示你的预设条件和结果是正确的。(中学老师附体计算出来的方程果然是满分),但是不能拒绝零假设,则表示出现了异常值或者计算(实验设计)出现了偏差。
这个神奇的零假设有啥用呢?看下面这个例子:
我们来抛一枚硬币,(我发现统计学,特别是经典统计学最喜欢抛硬币了),在丢之前,我们就已经设定了无论正反两面的概率都在50%左右,(实际上更接近48%——52%这个区间)
那么如果我们丢出来的结果,出现了正面概率高达80%,而反面才出现了20%,那就是说,超出了我预设的范围,发生了小概率现象,那么这种小概率现象就很值得研究了,虾神就可以认为,如果出现了这种情况,最大可能是这个硬币被做了手脚。
当然,还有可能是出现硬币竖立了起来这种极小概率的事情……这种就得归类到异常值里面去了。
在经典统计里面,零假设认为你统计计算的数据是符合某种概率的,那么在空间统计里面,零假设表示什么呢?
如果说,A市在7月份发生了20起械斗(或者是持刀伤人)案件,理论上,不设定条件的话,这20起案件应该是平均的分布在A市的每个区域的——这种设定,就是零假设(假设其他的对案发区域产生影响的变量为0)——但是实际上这是不可能的,我们会发现某些地区,案发率远远高于其他地区。
在空间统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分布(在自然现象里面,均匀分布是极小概率才会出现的,基本上都可以忽略了,所以一般谈的就是完全随机)。
按照这样的假设,我们就对整个城市的案件案发地点进行统计分析,如果计算出来的结果,符合我们假设(接受了零假设),那么就只能说,这20起案件,发生的地点是随机的,没有固定的规律(也就是没有影响这些案件的其他因素存在)。而算出来的结果,是出现了聚集(或者离散)分布,那么自然就说明,有其他的因素影响了案发的位置——或者是哪里的治安管理混乱,或者是路灯、摄像头等设备缺失,又或者是在那里出现了一个新的帮派?
这种拒绝了零假设之后,得到的小概率事件,就是我们要着重研究探索的内容。
从第一节开始,我们就一直在说,在空间数据的分析中,有一个很重要内容,就是知道数据分布是否有规律。而且空间统计学,主要就是研究数据的空间上的分布的一门科学。
拿到一份数据的时候,第一时间,要了解的,就是这份数据是不是有规律,因为有规律的数据才能进行更好的分析,而如果你拿到的这份数据是一份随机分布的数据,那么一般来说,就没有啥分析研究的可能了。因为纯随机(完全随机)是无法预测也无法找到模式的,就像素数(素数在数轴上出现的位置就是完全随机的,无法找到任何规律和模式)。
那么如何解读一份数据,是否是随机的呢?下一章我们来看看在ArcGIS里面,如何通过PZ值来解读一份数据的随机性。
待续未完
分享、点赞、打赏——大家随缘