前面我们说的都是点数据的分析,今天来说说一个用于分析线要素的算法(工具),就是线性方向平均值(LinearDirectional Mean )。
总所周知,线要素只有两个属性,一个是长度,第二个就是方向,而对于人类的认知来说,对方向的重要性丝毫不亚于位置的重要性。
对线数据进行统计的时候,首先就是了解他们的方向,如果只有一条线段,那么方向当然就不用统计了。但是如果线段数据非常多的时候,就需要对这些线段的平均角度进行计算,以对数据进行探索。
如下所示:
一条河流的的支流的流向可能都不一样,那么如何对整条河流的方向进行度量和描述呢?在这种情况下,我就可以使用这个工具来进行计算和分析。
在讲工具之前,同样先进入历史科普时间:线性平均方向这个算法,最早是由英国统计学家和遗传学家罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher 1890~1962)爵士在1953年提出的(详情请见:Fisher, RA (1953) Dispersionon a sphere. Proc. Roy. Soc. London Ser. A., 217, 295–305)。
罗纳德·艾尔默·费希尔爵士
如果是学统计学的同学,对这位号称“现代统计学之父”的费希尔爵士,肯定是如雷贯耳了。他首次创立了随机对照试验的体系,并且推动了理论统计学和应用统计学很多具体方面的发展。他的贡献被认为为现代数学统计学奠定了基础。与此同时,他还为遗传学领域,尤其是进化和生物测定学方面做出了杰出的贡献。
好了,回归我们的正文。
首先听这个名字,好像是用来计算角度的,因为一组线要素的趋势通常我们也用平均角度来进行度量。用于计算该趋势的统计量称为就被称为“方向平均值”。尽管这个统计量本身被称为“方向平均值”,但我们实际上都用它来测量方向或方位。特别是描述一组数据的方向。
一般线状要素通常都会指向一个方向(有起点和终点,从起点的位置指向终点的位置)。这样的线在也经常用于表示实际中的一些信息,比如车辆的行车轨迹,每一次转弯,都表示一段行程;或者是飓风运动的轨迹。当然,也有一些线是没有方向的,比如等高线。而还有一类线段,他们可能有方位值,但是没有方向值,如断层线(断层面与地面的交线称断层线,反映断层的延伸方向和延伸规模),这种断层线一般的描述是“具有西北-东南方位”,但是不具有具体的方向性。
这个一个“线性方向平均值”工具,只能用于计算一组线的平均方向或者平均方位。
我们来看一个具体的实例:下面是某车的行车轨迹记录:
可以看见从出发到回到车站,全天的行程都被记录了下来,那么现在如果提出一个问题,这辆车今天的主要运行方向是什么?回答这个问题的话,我们可以通过这个工具来进行计算(算法公式我贴到最后了,喜欢数学的同学可以先跳到最后看公式),计算的结果如下:
中间那个小黑点,就是计算出来的线性平均方向要素,因为最终的结果生成的是一根线段,在小比例尺下面,就只能看见一个小黑点了,放大之后,如左下角的视图窗(这是我放大之后截图和信息窗组合的结果)。
可见,这个工具最后会创建一个其中包含一条以所有输入数据的质心的平均中心点为其中心的线要素的新的要素类,线要素的长度等于所有输入数据的平均长度,而且其方位或方向所有输入数据的平均方位或平均方向。
新的线要素的属性值如下:
其他的估计都比较好理解,但是这个工具引入了一个叫做“圆方差”(thecircular variance)的概念,啥叫“圆方差”呢,这是一个与标准差类似的概念,圆方差用来表示,你要进行分析的这些数据的方向的变异程度。圆方差范围为 0 至 1。如果所有分析数据具有完全相同(或非常相似)的方向,则圆方差将很小(接近于0)。当输入的数据方向跨越整个罗盘时,圆方差将很大(接近于1)。——圆方差越大,分析的数据之间的方向变化越明显。
最后,我们来看看几个该算法可能的应用场景:
1、比较两组或多组线。例如,研究河谷中麋鹿和驼鹿迁移状况,野生生物学家们可以通过计算这两个物种迁徙路径,来获得它们迁徙的方向趋势。
2、比较不同时期的要素。例如,鸟类学家可逐月计算猎鹰迁徙的趋势。现在很多动物研究都在样本身上绑上了GPS一类的收集数据的仪器,但是样本一多,就会变得杂乱无章。方向平均值可以汇总多个个体的飞行路径,并对每日的迁移进行平滑处理。这样便可很容易地了解鸟类在哪个月行进得最快,以及迁徙在何时结束。
3、可以用动态和静态的数据进行对比,比如评估森林中的伐木状况以了解该区域天气情况中的风型和风向。
4、在冰川学研究中,分析可以指示冰川移动方式的冰擦痕。
5、在犯罪研究中,可以用来标识汽车失窃及被盗车辆追回的大体方向。
附录,计算公式:
如有问题,请关注如下虾神的公众号: