昨天读《赤裸裸的统计学》

昨天没什么事,(。。。怎么会没什么事)。看了一本书叫做《赤裸裸的统计学》看起来就很诱人,是吧?统计学现在炒的最热的名词了。嗯,我已经看过了。

    该书的整体印象是很浅显,但是很深刻,不过要看这本书手边最好准备两样东西,1、纸笔,2、概率论与数理统计

全书共计14章:

第一章是广告,主要是说统计学是大数据时代最炙手可热的学问,通过识别恐怖分子,SAT考试的效度问题,网飞是如何推荐影片的等几个例子来介绍统计学是如何发挥作用的。其实主要就是模式分类,预测,聚类这几个统计应用的几个实际例子。

第二章是说的描述统计学,描述统计学主要是用来给大家介绍如何用频数,众数,中位数,均值,方差等数学变量描述统计的。使用直方图,盒装图,可以直观地表示数据出现的频率,及分布情况。很显然均值的使用应该是在没有明显差距的一组数中,而在数据较分散的情况下使用均值很可能会混淆视听,使用等分位数或者众数及中位数可以更好的显示数据的分布情况和对整体情况的把握。标准差及方差很好地描述了数据的离散情况,使我们可以更好的把握数据的分布。本章还介绍正态分布这个重要的分布(但仅仅是介绍他是一个钟形图形而已)。

话说老子为了画这个正态分布图查了半天资料。


第三章介绍不恰当(别有用心的)使用统计学常常会给人带来一些困惑。如前所说的中位数与平均数的问题,即使同样适用平均数或中位数对同一个数据的纵向比较也要考虑多方面因素(如通胀),当然说这些都是无用统计带来的问题,导致马克吐温说过:“世界上有三种谎言:谎言,该死的谎言,统计”造成这种情况的原因就是无用统计。


第四章介绍相关性和相关系数。相关系数是一个在-1到1之间的数据,当相关系数为-1时表示负相关,当相关系数为1是为正相关当相关系数为0时为不相关。具体计算方式为sum((xi-mean(x))*(yi-mean(y))/var(x)*var(y))/n。很显然相关系数是评价相关性的一个重要工具,也是分析数据关系的一个重要工具.


第五章介绍概率与期望值。主要介绍概率实际上是一个长期的频度,而不是一个确定量,期望也是一样。因此小概率事件总是可能发生的。


第六章介绍蒙提霍尔悖论,说的很神秘。其实么就是介绍了划分的一个概念。


第七章介绍黑天鹅事件,仍然强调小概率事件发生的可能性,


第八章介绍试验中数据可靠的重要性,如果基础数据具有某种倾向性,或者比较片面,或者抽样时本身就带着某种偏见数据必然不会准确。


第九章介绍中心极限定理,中心极限定理是说多个样本抽样的平均值符合正态分布,通过使用标准误差这个概念可以很好地检验被抽样的样本是否属于假定主体。其中标准误差的计算方法为:SE = 被抽样的标准差S/sqrt(被抽样的个数n)。这里有几个重要的正太标准值norm(1) = 0.64 norm(1.96)=0.95 norm(2.54)= 0.99.


第十章介绍统计推断和假设检验。假设分为I型假设,和II型假设,一般对于I型假设设定显著程度即P值大于0.05才算是可以推翻该结论。

MD今天累了,休息下在写。




你可能感兴趣的:(昨天读《赤裸裸的统计学》)