人类(行为)动力学(3)——分布规律

人类行为动力学分布规律

随着数据存储能力、数据挖掘算法和分析处理技术的长期发展和广泛应用,人们从大量数据中总结出不同的分布规律。

1、正态/高斯分布

正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态分布(Normal distribution)是一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
人类(行为)动力学(3)——分布规律_第1张图片
在这里插入图片描述
其中:

  • μ为均值;
  • σ为标准差。

当μ=0,σ=1时为标准正态分布:
在这里插入图片描述
正态分布是一种最重要最广泛的分布形式,和其它类型的分布(如泊松分布、二项分布等)有着密切关系。t分布、F分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、泊松(Poisson)分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。

对数正态分布

如果一个随机变量的对数服从正态分布,就称该随机变量服从正态分布,即:若x是服从正态分布的随机变量,则Y=exp(x)服从对数正态分布:若Y服从对数正态分布,则X=log(Y)服从正态分布。
人类(行为)动力学(3)——分布规律_第2张图片

2、泊松分布

如何通俗理解泊松分布?
泊松分布 & 指数分布
人类(行为)动力学(3)——分布规律_第3张图片
人类(行为)动力学(3)——分布规律_第4张图片
人类(行为)动力学(3)——分布规律_第5张图片
通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。
人类(行为)动力学(3)——分布规律_第6张图片
人类(行为)动力学(3)——分布规律_第7张图片
鉴于二项分布与泊松分布的关系,可以很自然的得到一个推论,当二项分布的 p 很小的时候,两者比较接近:
人类(行为)动力学(3)——分布规律_第8张图片
人类(行为)动力学(3)——分布规律_第9张图片
因此要使事件发生的数量近似服从泊松分布,并没有必要要求各个事件发生的概率相同,只要这些概率都较小即可。
在这里插入图片描述

3、指数分布

虽然许多人对人类行为动力学的研究都倾向于胖尾分布,但是仍有少数学者发现排队论中经典模型仍然适用。
指数分布用于描述泊松过程的时间间隔(在概率论和统计学中,指数分布(Exponential distribution)是一种连续概率分布。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔。),泊松过程中的事件以恒定速率连续且独立发生。是几何分布的连续类别。需要注意的是指数分布与指数分布族的区别,后者是一大类分布,包括指数分布、正态分布、二项分布、伽马分布、泊松分布。
在这里插入图片描述
人类(行为)动力学(3)——分布规律_第10张图片
许多电子产品的寿命分布一般服从指数分布。有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最常用的一种分布形式。指数分布是伽玛分布和威布尔分布的特殊情况,产品的失效是偶然失效时,其寿命服从指数分布。
人类(行为)动力学(3)——分布规律_第11张图片
其中λ称为rate parameter,表示泊松分布过程的到达率。
人类(行为)动力学(3)——分布规律_第12张图片
指数分布的图形表面上看与幂律分布很相似,实际两者有极大不同,指数分布的收敛速度远快过幂律分布。
指数分布的一个重要特征是无记忆性memeryless,即在等待时间已经超过s秒的前提下继续等待超过t秒的概率和一开始的时候等待时间超过t秒的概率相等。并且,指数分布和几何分布是唯一具有无记忆性的概率分布。
如何理解指数分布?
樊超等人(《人类行为动力学研究综述》)对国内两所不同大学图书馆的真实借阅记录为研究对象进行统计分析,发现读者的图书借阅时间具有随机性和均匀性。

4、幂律分布

在过去,出于对问题的简化,人们认为人类行为的发生是均匀的,长时间的静默和短时间的爆发都可被忽略。也就是说人类行为可由泊松过程刻画,即行为发生的时间间隔服从负指数分布,事件发生的数量服从泊松分布。
近年来,对邮件通信、股票交易、网页浏览、博客评论等大量行为的研究,从海量数据中挖掘,发现人类行为短时间内频繁发生,然后又会在很长一段时间寂静下来,即人类行为的时间间隔分布并不都是均匀的,而是具有阵发重尾的特征。相邻两个事件的时间间隔分布存在满足反比幂函数的胖尾特性。
在这里插入图片描述

重尾分布

重尾分布(heavy-tailed distribution)是指一类不存在指数阶矩的分布函数。
在这里插入图片描述
较为直观的定义是:如果密度函数是以幂指数衰减至0的,则称该分布函数为重尾的。(也有将长尾分布称为重尾分布)
长尾分布是指:对于非负随机变量τ,其分布函数F(t)=P{τ≤t},补分布函数Fc(t)=1-F(t),
在这里插入图片描述
如下图(a为泊松分布,b为重尾分布)所示,与泊松分布相比,重尾分布的衰减速度较慢且拖着长长的尾巴,使得出现较大观测值的概率远远高于基于泊松分布的预测,反应在时间间隔的分布规律上即“阵发”特征。
人类(行为)动力学(3)——分布规律_第13张图片
人类(行为)动力学(3)——分布规律_第14张图片

幂律分布

在人类动力学的实证分析中普遍存在的分布形式是幂律分布及其各种扩展形式。(《人类通信模式中基于时间统计的实证研究》)
数学上,如果一个随机变量X的密度函数为
在这里插入图片描述
则称X服从幂律分布。其中α是一个常量,称为幂律分布的幂指数或标度参数。
幂律分布是一类特殊的重尾分布
现实情况中很少有分布能在整个取值范围内服从幂律分布,并且幂律分布不存在峰值,在幂指数为正值的情况下,概率分布会随x→0并在某最小值xmin以下偏离幂律,而这个最小值不一定那么明显,所以我们常说某分布的尾部服从幂律分布。
幂律分布表现出很强的非均匀性,这种非均匀性说明不能用一个统一的“标度(scale)”来表征幂律分布所描述的数据集。
事实上,幂律分布是唯一具有无标度性质(scale-free)的分布
解读幂律与无标度网络 | 网络科学入门

重尾分布与幂律分布

目前人类动力学领域的文献中对于“重尾分布”这一概念的使用非常宽泛,也不严格区分重尾分布和幂律分布。
一般情况下,那些明显偏离泊松形态、具有宽广尾部的分布都被归为重尾分布,既包括如幂律分布这样的单一分布形式,也包括了如幂律和指数相结合的各种混合分布形式,尽管后者并不严格满足重尾定义中不存在指数阶矩的要求。
人类动力学中涉及到的间隔时间等待时间逗留时间等主要指标是连续型随机变量,因此上述主要论述的是连续型随机变量的重尾分布和幂律分布。

指数截断的幂律分布

实际上很多现实的分布规律都难以用单一的分布函数来拟合或者预测,而是者混合的,一种常见的混合分布即带有指数截断的幂律分布。如下图所示,两个分布分别可由包含一个幂律和两个幂律部分。
人类(行为)动力学(3)——分布规律_第15张图片
人类(行为)动力学(3)——分布规律_第16张图片
带指数截断的幂律分布是幂律的一种重要变形,是一种幂律与指数混合的分布形式。其原理非常简单,在幂律项后面乘以一个指数项即可。
在这里插入图片描述
指数截断中的指数衰减因子会在分布尾部超越幂律行为占据主导作用,这样的分布不是幂律分布的近似,而是在尾部之前的有限区域内有近似的标度行为。

截断幂律

这种分布是指数截断的幂律分布的另一种叫法,是一种幂律与指数混合的分布形式,该分部也被视为双幂律(double power law),且这样的幂律可由广延指数分布(stretched exponential form)拟合。
在这里插入图片描述

5、 广延指数分布

广延指数分布对律幂分布的不均衡性有了一定的改善。(《QQ群消息中的人类行为动力学研究》)通常我们在双对数坐标下研究幂律,但双对数坐标有缺陷,并且实证中的幂律也很难在整个区间都表现为一条直线,于是有人提出广延指数分布,作为整个区间上的一种替代性的分布。
在这里插入图片描述

6、双峰分布

通过对短信通讯的研究Ye Wu等人(《Evidence for a bimodal distribution in human communication》)发现时间间隔分布服从双峰分布,并且总结了社会系统中的金融、贸易等行为和世界上海啸、降雨等自然灾害也服从该分部。
在这里插入图片描述
人类(行为)动力学(3)——分布规律_第17张图片
这种双峰分布中,指数尾部与幂律的连接处形成驼峰,而不是幂律外推形成的直线。

人类(行为)动力学(3)——分布规律_第18张图片

7、多尺度分布

以维基百科为对象,赵飞等人(《在线协同写作的人类动力学分析》)对在线协同协作进行统计特性分析和内容更新统计分析,所有文章版本提交时间间隔在双对数坐标下频率分布情况,分布曲线表现出三个尺度:1min和30min到24h两个时间段上时间间隔分别服从指数为1.62和1.16的幂律分布,而大于24h的时间间隔服从如下形式的累积分布。
在这里插入图片描述
人类(行为)动力学(3)——分布规律_第19张图片

你可能感兴趣的:(数据挖掘与数据分析,人类行为动力学,数据分析)