《大数据时代下的统计学》杨轶莘(编著)中国工信出版集团+电子工业出版社 2015年9月第1版 ISBN 978-7-121-26936-3 博文金融
在《大不列颠百科全书》中统计学定义如下:收集、分析、表达和解释数据的艺术和科学。(p1-2)
Stanley Smith Stevens在1946的《科学》中将变量分为4类: 无序分类变量(Nominal)、 有序分类变量(Ordinal)、 定距变量(Interval)和 定比变量(Ratio)。(p9)
大数据本身多为 二手数据(Second Hand Data),一般是在没有任何目的的情况下收集的,过程中缺乏监督,导致数据本身质量不高,充满噪音。(p11)
谷歌的流感预测模型失败的原因:大数据思维只关心相关性(A和B同时发生)忽略对因果关系(A导致B发生)的探寻。——“大数据,大偏差”(p12)
随机样本(Random Sample)是指来自总体的、能够正确反映总体情况的元素总称。满足如下条件:①被研究的总体要有明确的定义。②总体的每个个体有一个已知的概率包含在该样本中。③抽样过程中必须遵循随机原则。(p17)
方便样本(Convenient Sample)是指研究者出于方便性的原因而选取的“唾手可得”的样本。 自愿回应样本(Voluntary Response Sample)是指通过来信来电的方式收集的民情民意。大致来说,这两种方式取得的样本是有偏差的,从中得到的结论很难严格推广到总体。(p17)
简单随机抽样是指从总体N个元素中任意抽取n个元素作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。简单随机抽样具有如下特点:①总体个数N是有限的。②样本数n不大于总体个数N。③简单随机抽样是不放回抽样。④总体中每个个体被选入样本的可能性均为n/N。(p21)
不回应(Nonresponse)是指不能够从样品中的受访者取得数据。(p24)
响应误差(Response Error)是相对应不响应误差的一个概念。它是指在问卷调查的过程中,因为问题在问卷中所处的位置、提问问题的方式和访问员的个人影响而引入的误差。(p29)
有效性(Validity),测量的是精度(Accuracy),衡量问题是否成功地测量了它原来想要测量的东西; 可靠性(Reliability),测量的是一致性(Consistency),衡量的是,如果对同一个问题进行重复测量,其结果间是否能够保持一致性。(p29)
中位数和均值一样,都能代表一组数的中心。中位数比均值更稳定,更不容易受极端值的影响。(p39)
三个 四分位数Q1、Q2、Q3可以在一张统计图中体现出来,就是 盒图(boxplot),它用来表示数据的离散的分布情况。(p40)
标准差和标准误的区别是,标准误用来衡量抽样误差。均值的标准误比观测值的标准差小(因为除了一个√ñ)。(p43)
标准差(Standard Deviation)的正式名称是标准偏差,测量观测值和均值之间的平均距离,说明观测值与均值相差多远。(p43)
标准误(Standard Error)的正式名称是样本平均数的标准误。标准误是多个样本均值的标准差,用来衡量抽样误差的大小。人们习惯用样本均值来推断总体均值,那么样本均值的离散程度越大,抽样误差就越大。
均值的标准误比观测值的标准差小,这不难理解,均值的变化理应比观测值本身更稳定。标准差和标准误的最大区别在于:只需要一个样本就能计算出标准差,但却需要多个样本才能计算出标准误。(p46)
饼状图(Pie Chart)特别适用于取值没有顺序之分的分类变量,用于表示各个取值占总体的比例。(p48)
条状图(Bar Chart)是用一系列不同长度的条纹表示数据分布的情况的图,通常用来比较两个或以上的值。和饼状图相比,条状图能更好地展示各部分之间的相对大小。(p49)
散点图(Scatter Plot)用来表示两个变量间的关系及它们相互影响和变化的大致趋势。(p50)
国内数据分析第一门户网站—— 中国统计网,其中有一个很重要的版块叫“看图说话”。(p51)
数据可视化(Data Visualization)是指合理运用图形的特点,包括形状、色彩、对比度、大小等,让人们更快、更直接地认识数据特征。数据可视化的最终目的是通过可视化处理,能够明确、有效地传递信息。(p55)
次数不多的试验中,试验的均值是随机的。但如果是要很多次(趋近于无限)之后,均值则趋近于随机变量的 数学期望(Expectation)。(p61)
方差(Variance)用来衡量随机变量和它的期望之间的偏离程度。(p62)
若要全面了解事情的统计规律,就一定要知道试验的全部可能的结果及各种结果对应的概率,这就是说,要了解随机试验的 概率分布(Probability Distribution)。(p62)
大数定律(Law of Large Numbers),又称为大数定理或大数法则,是一种描述当试验次数很大时所呈现的概率性质的定律。大数定律是以确切的数学形式表达了大量重复出现的随机现象的统计规律性,即频率的稳定性和平均结果的稳定性。(p65)
多个大小不一正态分布累加之后其结果仍然是一个正态分布。(p66)
正态分布(Normal Distribution)又称为高斯分布(Gaussian Distribution),是一种常见的、最重要的连续型对称分布。正态密度的概率密度函数曲线呈钟形,因此经常把它称为钟形曲线。(p68)
标准正态分布是标准化后的正态分布,以0为均数(期望μ决定正态曲线的中心位置),以1为标准差(σ决定正态曲线的陡峭或扁平程度)。(p68)
正态分布的深层次内涵被广泛应用就是因为它符合人类的审美天性。正态分布让人们能够使用它去检验事物本身的一致性是否遭到破坏。(p69)
当独立的随机变量个数不断增加时,其和的分布趋于正态分布,这就是 中心极限定理(Central Limit Theorem,CLT)的大意。(p70)
统计推断(Statistical Inference),通常指通过随机样本来对未知总体作出的推断。通过样本来检验命题成立与否,这是统计推断的另外一种形式——假设检验。(p74)
样本统计量(Sample Statistic)是关于样本的一个已知函数,用于收集样本中能够反映总体的信息。它是从样本数据中计算出来的,只依赖于样本。在总体中与之相对应的量称为 总体参数(Population Parameter),是未知的。
点估计(Point Estimation)是由样本数据x=(x1,x2,...,xn)计算出的能够代表总体的未知参数Θ或者Θ的函数g(θ)。它通常被称作“参数的点估计”。点估计和区间估计共同组成统计推断中的参数估计。衡量一个点估计量的好坏有很多标准,其中比较常见的标准有: 无偏性(Unbiasedness点估计的期望值应该等于总体参数的值)、 有效性(Effeciveness对同一总体参数,如果有两个无偏估计量,那么其中标准差更小的估计量更有效)和 一致性(Consistency随着样本量的增大,点估计的值越来越接近被估总体的参数)。(p78)
置信水平(Confidence Level)是指总体参数值落在样本统计值某一区内的概率,用来衡量人们对某件事合理性和真实性的相信程度。按照惯例,研究者和读者一般默认抽样误差都是按照95%的置信水平计算的。(p79-80)
置信区间(Confidence Interval)又称为区间估计,代表一个能够包含总体参数真实值的区间。置信区间呈现的是总体参数的真实值有一定概率落在点估计的周围。置信区间给出的是点估计可信程度,即置信水平。(p80)
在一定的置信水平下,样本量越大,置信区间越窄;在一定的样本量下,置信水平越低,置信区间越窄。(p80-81)
置信区间不是指“总体参数有95%的概率落在这个区间”,而是百分之百包含真值。(p81)
“弃真”——把无罪的人判为有罪(α),第一类错误(type I error),“假阳性”,拒绝了零假设(p82-83)
“存伪”——把有罪的人判为无罪(β),第二类错误(type II error),“假阴性”,接受了零假设(p82-83)
零假设(H0,Null Hypothesis)是统计检验时的一类假设。零假设的内容一般是希望证明其错误的假设。零假设的反面是 备择假设(Hα,Alternative Hypothesis),即不希望看到的另一种可能。(p84)
在抗击埃博拉病毒的例子中,美国政府选择“姑息”第二类错误,因为一个大国要避免民众的过度恐慌。而在打击恐怖分子的例子中,同样的政府却严格控制第二类错误,原因是为了不给恐怖分子任何威胁公共安全的机会。(p85)
基于零假设为真的前提,却依然观测到这种结果的概率如果不到5%,那么就可以拒绝零假设→假设检验(p86-87)
显著性水平是事先给定的,如果等数据出来再决定,就容易反机会主义倾向的错误。(p88)
p值是零假设为真时得到样本所观测到的结果或者更极端结果出现的频率。 p值越小,由样本数据所提供的拒绝零假设的证据就越强。(p88)
当由样本中计算出来的 p值小于事先设定的显著性水平 α时,就可以说样本数据在 α的显著性水平下是统计显著的。(p88-89)
当样本很大时,许多效应即使差异不大,也会产生统计显著的效果。统计显著并不一定意味着实际显著。(p89)
第一种: “双侧检验” 第二种: “单侧检验”
根据理论和常识无法对估计系数的影响方向做一个肯定的判断,即有可能为正也有可能为负,故作双侧检测。而单测检测则相反,能够依据常识或理论对估计系数的影响方向做一个明确的断定,即要么为正要么为负。(p91)
p值操纵(p-hacking),意思是通过不断增大样本量来获得自己想要的 p值。(p94)
设 X1, X2, ..., Xn 相互独立,且都服从标准正态分布N(0,1),则称统计量 χ2 = X12 + X22 + ... + Xn2 服从自由度为n的卡方(x2)分布,计为 x2~x2(n)。(p99)
卡方检验是对于实际值的分布数列与理论数列是否在合理范围内相符合,即样本观察次数与期望次数之间是否存在显著性差异的检验方法。实际值与期望值相差越大,即样本观测值越分散,卡方值就越大,检验的结果拒绝原假设的可能性越高;反之,检验结果没有充分理由拒绝原假设的可能性越大。(p100)
在实际的运用中,卡方检验主要应用于拟合优度检验和独立性检验。两者的区别在于卡方拟合优度检验是针对总体分布的假设检验问题,通过对总体进行假设,相应地也就预先确定了总体期望值;卡方独立性检验则是对多个因素是否独立进行判断,其总体期望值不是预先确定的,而是需要运用样本资料计算得到。(p100)
相关关系是指变量之间客观存在的相互依存关系。按所涉及变量的多少,相关关系可以分为单相关、负相关和偏相关;按相关的密切程度可分为完全相关、不完全相关和不相关;按表现形态不同,可分为线性相关和非线性相关;按相关方向的不同,可以分为正相关和负相关。(p105)
相关分析是指研究一个变量与另一个变量或另一组变量之间相互关系(相关方向和相关密切程度)的统计分析方法。(p105)
相关系数是对变量之间线性关系的密切程度进行度量的统计量,通常记为ρ(ρ表示相关系数是基于总体数据计算得到的,在运用中依据样本数据计算的记为r)。(p106)
当 0< ρ≤1,表示X与Y之间为正线性相关关系;当 -1< ρ≤0,二者为负相关关系;| ρ|=1,为完全线性关系; ρ=0,不存在线性相关关系。(p106)
当用样本数据计算样本相关系数时,由于样本量 n较小,计算出的 r的绝对值通常会很大。因此,不能仅凭相关系数较大就认为变量间有密切的线性关系。这时就需要对相关系数是否为0进行假设检验。通常,使用T检验方法。假设检验的原假设为H0: ρ=0(p106)
T检验可以用来检验两个总体的均值是否有显著的差异。(p108)
同时判断多个正态总体均值是否相等的统计方法,称为 方差分析法(Analysis of Variance,ANOVA)。(p108)
方差分析的基本思想是将试验得到的数据的差异分为两类来源(随机因素和试验条件,可有多个试验条件),基于可加性假设对试验数据的差异进行分解,分析不同来源的差异对总体的影响是否显著,只有所有试验条件对总体的影响均不显著时,才能认为各总体均值之间不存在显著的差异。(p108)
方差分析基本假设是将分析限定在针对正态总体的分析,以及对样本为来自同一总体的简单随机样本的要求。(p109)
总离差平方和SST,反映所有样本之间总变异的程度。 组内离差平方和SSE,反映各状态样本观测值与样本均值的差异,即表示随机误差项,通常也称作误差平方和。 组间离差平方和SSA,反映各状态下的样本期望与样本总平均的差异,这是由各状态的效应和随机误差引起的,通常也称作效应平方和。SST=SSE+SSA(p110-111)
各离差平方和的大小与观测值的多少有关,为消除其对离差平方和大小的影响,需要将其平均。离差平方和与其自由度的比值,称为该离差平方和的均方,记为MS。(p111)
组内均方(组内方差)MSE, 组间均方(组间方差)MSA。(p112)
同一实验中可存在多个试验条件,根据试验所安排的影响因素的多少,方差分析可以分为单因素双因素和多因素试验的方差分析。(p113)
根据双因素试验是否重复,双因素方差分析又分为双因素无重复试验的方差分析和双因素有重复试验的方差分析。(p114)
双因素无重复试验的方差分析
双因素有重复试验的方差分析
“向平均数方向的回归”(Regression Toward Mediocrity)(p117)
回归分析是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。回归分析根据自变量的数量有一元回归和多元回归;根据变量(或参数)的形式又可分为线性回归和非线性回归。(p119)
随机误差项是代表所有对因变量有影响但未能包括在回归模型中的那些变量的替代变量。(p119)
最小二乘法(Method of Ordinary Least Squares,OLS),即通过求解,使残差平方和(Sum of Squares for Error,SSE)尽可能小。(p120)
建立了回归方程,回归分析并没有结束。当样本量n较小时,不能仅凭相关系数较大就认为变量间有密切的线性关系,在回归分析中也是如此。因此,同样的,需要采用T检验、F检验对系数的显著性进行判断。同时,关于模型对序列的拟合效果通常需要进行拟合优度的度量。(p121)
回归分析T检验
回归分析F检验
拟合优度R2:拟合优度是回归平方和与总离差平方和之间的比值,用来反映回归直线对总体的解释程度。(p123)
R2=ρ2,当解释变量与被解释变量间的线性相关程度越高时,建立线性回归模型的拟合效果就越好。(p123)
回归分析揭示的是变量之间的相关关系,而不是确定的因果关系。(p131)
没有最优的模型,只有最合适的模型。(p132)
Svensson Method是一套专门针对成对问卷调查数据的非参数方法。成对数据,就是同一组个体,针对一个问题,在两个场合的回答。(p135)
条件概率是指在已知一定条件的前提下某件事情发生的概率。(p138)
条件概率,一言以蔽之,即条件改变后我们拥有了更多的信息,可以利用这些信息对原来的概率进行一个量化的调整。(p142)
极大似然估计(Maximum Likelihood Estimation,MLE)又称作最大似然估计,是参数估计的一种常用方法。这种参数估计的方法的基础是极大似然的思想:在给定模型的情况下,最优的模型参数一定是使得这个已知样本出现的可能性最大的参数。(p142)
在国际学术交流中,有一条被默认的“潜规则”:只要是用用SPSS做出的统计分析,则不需要说明算法。(p146)
在贝叶斯范例中,把对模型参数现有信息的了解浓缩到一个假定的参数概率分布中,这个分部成为 “先验分布”,常记作:P(θΘ)。贝叶斯推理的核心思想就是把新观察到的数据信息和之前的先验假定组合,或者理解为对先验假定的一种信息更新,从而产生了模型参数的新概率分布,即所谓的“后验分布”。(p150-151)
当新的观测数据y到手时,它们所包含的关于模型参数有关的信息被“似然函数”表示,这个似然函数与给定模型参数的观测数据概率分布成正比,记作:P(y|θΘ)。(p151)
贝叶斯的核心思想其实就是一个预判+信息更新和调整的过程,先预估一个 “先验概率”,然后根据得知数据后的结果来看看这个实际的过程到底是增强还是削弱了先验概率,调整后得到更精确的 “后验概率”。(p152)
《大数据时代》的作者维克多·迈尔·舍恩伯格强调,不能单纯的把大数据理解为数据规模很大,大数据具有著名的4V特点,即海量规模(Volume)、多样形式(Variety)、高速产生(Velocity)和巨大的潜在价值(Value)。(p162)
大数据时代,数据科学家更关注相关关系而非因果关系。(p164)
就大数据“术”的层面,无论是技术还是数据资产的规模,中外的差距微乎其微;但上升到“道”的层面,在数据服务意识上,中外差距就非常明显。(p165)
大数据企业运营应用金字塔模型(p171)
商业智能(Business Intelligence,BI)是对商业信息的收集、管理、分析、推论的过程,目的是使公司的各级决策者获得信息和洞察力,可以作为更有价值的决策。(p177)
数据挖掘(Data Mining)是指源数据经过清洗和转换等成为合适的数据集。(p178)
市场智能(Market Intelligence,MI)的特点是结合抽样、静态分析,目前单数据源是主流,但随着大数据普及,未来的市场研究的趋势是整合多数据源。(p179)
消费智能(Consumer Intelligence,CI)是指把数据分析作为一项服务由企业提供给消费者,支持消费者的消费决策。(p182)