最近大 BOSS“迷上”了一个网络游戏(什么游戏就不多说啦~),让我写个程序帮他算一下(现在他让另一个同事写了,我要改 bug 没时间,所以,我主要是没事时“凑热闹”提点想法)。期间,发现这个游戏一定是基于某个数学模型,于是在网上找了一个 VaR 模型,虽然现在觉得正态分布更合适。 VaR 模型最初是 J.P Morgan 用来预测金融风险的数学模型,现在有很多改进型。我对里边使用的一些统计名词有些模糊,就找资料回忆了一下,毕竟我不是学统计学的,虽然知道点,但认识得不深、不系统。
本文主要说明平均数、中位数和众数,以及它们之间的关系,这三种的目的类似,都是为了反应一组数据的一般情况(代表性),只是适用的场景不同。我们对平均数很熟悉,但它并不是“万能的”,若数据中出现极大或极小值,则平均数受到的影响很大,而中位数则不会。这也就是为什么,早先一些娱乐节目,台下的评委评分后,主持人会去掉一个最小分数和一个最大分数,再取平均数的原因。或是,上学时,老师对成绩差的学生会特别“愤怒”,常说“你拉下了全班的成绩”、“拖了大家的后退~”。
平均数(Mean),或均值是统计中的一个重要概念。是集中趋势的最常用测度值,目的是确定一组数据的均衡点。这里的平均数是指算术平均数,即一组数据的和除以这组数据的个数所得的平均值,也叫算术平均值。
平均数的计算公式为:
在统计中,算术平均数常用于表示统计对象的一般水平,描述数据集中程度的一个量。我们既可以用它来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以便看出组与组之间的差别。用平均数可以直观、简明地表示一组数据的情况,所以日常生活中经常用到,如中小学学生的平均身高,由于生活条件的改善,现在孩子的身高肯定比80年代要高;平均成绩,这个一定不陌生,上学时,老师对成绩差的学生会特别“愤怒”,常说“你拉下了全班的成绩”、“拖了大家的后退~”。
统计学上,算术平均数较中位数、众数更少地受到随机因素影响,但缺点是它更容易受到极端值影响。
除了算术平均数,还有几何平均数、调和平均数、平方平均数、移动平均数等。
算术平均数用于数值型数据,不能用于分类数据和顺序数据。
平均数很简单,但引出它主要是为了跟后面的中位数和众数进行比较。
中位数(Medians)是一个统计学的专有名词,代表一个样本、种群或概率分布中的一个数值,可以将数值集合划分为相等的两部分,即,若设连续随机变量 X 的分布函数为 F(X),那么满足条件 F(X)=1/2 ,称为 X 或分布 F 的中位数。中位数是用来衡量集中趋势的方法。对于一个有限的、有序的数集,位于中间位置的那个数值就是中位数,用 Me 表示。
“中位数”中的“位”,即“位置”,看后“意义”小节,你会理解这段话的意思。
若集合的项数为奇数,则处于中间位置的数据为中位数;若项数为偶数,则中位数为处于中间位置的两个数值的算术平均数。
实数 ,按大小顺序(降序、升序都可)排列为 。则实数数列 的中位数为 :
若有包含8个数值的数组 ,按升序为 ,则中位数为 (23+25)/2=24。
中位数趋于数据集合的中间,是所有数据的代表值,它不受分布数列的极大或极小值影响,对极大极小值不敏感,一定程度上提高了中位数对分布数列的代表性。有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
中位数的作用与算术平均数相近,也是作为数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
在数列中出现了极端值的情况下,用中位数作为代表值比算术平均数更好。如果研究的目的是为了反映中间水平,应该用中位数。在统计数据的处理和分析时,可结合使用中位数。
例如,有序组数 x=(200, 250, 300, 1000,2000),其平均数为 750,中位数为 300,因为一半比 300 多,另一个半比 300 少;若有序数组为 x=(200,250,300,500,1000),其平均数变为 450,但中位数还是 300。
因此,平均数的变化较大。而中位数相对于平均数不太受极大极小值的影响。
众数(Statistical Mode)是数据中出现频率最多的数。用众数代表一组数据,适合于数据量较多时使用,且众数不受极端数据的影响,并且求法简便。在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”就比较适合。
当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,由于可能无法良好定义算术平均数和中位数。例子:(苹果, 苹果, 香蕉, 橙, 橙, 橙, 桃) 的众数是“橙”。
一组数据可能没有众数或有多个众数。在高斯分布(正态分布)中,众数位于峰值。
众数主要用于分类数据,也可用于顺序数据和数值型数据。
若有数组 (2, 2, 3, 3, 4),则其众数为 (2, 3);若数组为 (1, 2, 3, 4) ,则其没有众数。
平均数、中位数和众数三者之间,一个有趣的经验关系是: