从自来水涨价看中位数与平均值

今天从微博上看到一则消息:

【中国水务董事长:水价至少要上涨十倍才行】“水价要提高到30元到40元一吨才行,我坚决支持水价上涨。”中国水务董事长王文柯表示。在他看来,通过较高的水价收费,能够有效遏制生活和工业中的水资源浪费:“目前用水成本在家庭开支中占比小,没有家庭因为交水费而交穷的。

感慨下物价飞涨,政策乱行的同时,老陆评论:当前在新加坡每个月水电费需要1000大洋。

于是乎好奇咨询了下新加坡的居民平均收入,答曰:“中位数在35000”。在疑惑其为何不答平均值情况下,简单搜集了相关资料,现整理如下:

 

1、什么叫做中位数,什么叫做平均值?

 

中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。简单的说,有一半数比Me大,另一半比Me小。

而平均值呢,不难理解,就是把所有的数据样本求和,然后除以样本的个数。

 

2、中位数与平均值有什么关系?

 

从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。

2012年5月份的时候,西南财经大学发布了《中国家庭金融调查报告》,数据显示中国城市家庭资产平均247万元,自有住房拥有率为89.68%,遭到网友质疑。又比如:有两户人家,其中一户年家庭收入为1000万,而另外一户人家年家庭收入为1万,从两户人家取平均,可以得出结论:年平均家庭收入为500.5万。不难看出“平均值”带有一定的“欺诈性”。

学过数理统计的同学,应该会对正态分布曲线印象深刻:

从自来水涨价看中位数与平均值_第1张图片

只有当数据本身符合正态分布的统计特性,平均数才能代表绝大多数人的情形,否则当数据分布本身不符合这一规律时,平均值就不能反映绝大多数人的真实情况,对于这类情形,相比平均值,中位数更能说明问题。而相关统计同样给出了中位数的结果,与家庭资产247万这一平均值对应的中位数为40.5万,相信假如以这一数值作为参照,绝大多数公众并不会有太多异议,调查的样本与客观性本身也不会受到太多的质疑。

换言之,当我们看到一个统计报告上显示“平均值”时,我们第一个应该质疑的就是——数据样本是否是正态分布的?

 

3、如何判断数据满足正态分布?


当前判断正态分布的方法可以在spss(Statistical Package for the Social Sciences,即“社会科学统计软件包”)里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下:Analyze-----Descriptive Statistics-----Frequencies,打开频数统计对话框,在Statistics里可以选择获得各种描述性的统计量,如:均值、方差、分位数、峰度、标准差等各种描述性统计量。在Charts里可以选择显示的图形类型,其中Histograms选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(With norma curve),这样我们可以直观观察该组数据是否大致符合正态分布。如下图:

从自来水涨价看中位数与平均值_第2张图片

从正态分布的定义来讲,只有当随机变量X服从一个数学期望为μ、标准方差为σ2情况下,才称为正态分布。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值。

对于普通百姓而言,很多情况下是获取不到这些样本数据的,无法论证其统计数据是否满足正态分布,更无法去求其数学期望μ,因此看“中位数”不失为一种好的选择。

 

参考资料:

1、  《MBA智库 中位数》http://wiki.mbalib.com/wiki/%E4%B8%AD%E4%BD%8D%E6%95%B0

2、  《高富帅的“平均值”与屌丝的“中位数”》http://review.jschina.com.cn/system/2012/05/17/013357752.shtml

3、  《正态分布》http://wiki.mbalib.com/wiki/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

你可能感兴趣的:(研发管理)