《数据分析的统计基础》的读书笔记
作 者:经管之家、曹正凤
出版社:电子工业出版社
版 次:2015年2月第1次出版
作者简介:
经管之家:原人大经济论坛,于2003年成立。经管之家从2006年起在国内最早开展数据分析培训教材,累计培训学员数万人。在大数据的趋势背景下,创立“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供最优质、最科学、最系统的数据分析教育。
曹正凤:统计学博士,经管之家大数据中心总工程师,经管之家CDA大数据分析师培训负责人,北京博宇科技有限公司技术总监。致力于大数据分析前沿领域研究,主持人大经济论坛基于Hadoop架构的论坛主题歌推荐系统项目。
本书的重点内容和理解:
第1章 数据分析概述
1、什么是数据分析?
数据分析的三方面:第一、目标。数据分析的关键在于设立目标,专业上叫作“有针对性”,其实就是对业务需求的把握;第二、方法。数据分析的方法包括描述性分析、统计分析、数据挖掘和大数据分析四种。不同的分析方法所使用的情景和功能都是不一样的,这需要在做数据分析时结合具体的情况选择使用。第三、结果。数据分析的最终要得出分析的结果,结果对目标解释的强弱,结果的应用效果如果。
数据分析是指通过某种方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律等分析结果,为特定的研究或商业目的提供参考。
2、数据分析的六部曲:明确分析目的和内容、数据收集、数据预处理、数据分析、数据展现和报告撰写六个步骤。
1)明确分析目的和内容。回答:数据分析的对象是谁?数据分析的商业目的是什么?最后的结果是解决什么样的业务问题?对数据分析目的的把握,是数据分析项目成败的关键。
2)数据收集:通常数据收集方法包括观察法、访谈法、问卷法、测验法和数据库获取法等。在商业数据收集的一般来源于数据库,也就是直接到数据库中获取数据,该办法需要使用到数据库工具---SQL语言。对于数据分析师来说,只需要掌握如何查询数据的语法就可以了,无法完全掌握所有SQL语言的语法。
3)数据预处理:数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。包括数据审查、数据清理、数据转换和数据验证四个步骤。
3.1)数据审查:如:检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数,数据个数、缺失值或空值个数等。
3.2)数据清理:对数据审查过程中发现的明显错误错、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变成“干净”数据,保证后续的数据分析得到可靠的结论。当然,数据清理还包括对重复记录进行删除。
3.3)数据转换:强调分析对象的可比性,但不同变量值由于计量单位不同,往往造成数据不可比。在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、以及属性构造等。
3.4)数据验证:可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。
数据预处理阶段在整个数据分析过程中占据极为重要的位置,从工作量上看,它占数据分析全部工作量的30%~50%,因为在数据分析时,我们根据数据分析的目标,不是一次性就能把问题解决的,而是需要反复去取数据、清洗数据,将业务逻辑转变成可被分析的量化的数据。如SPSS软件中的数据探索功能。
4)数据分析:其一要熟悉常用的数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果和解释;其二要熟悉1+1种数据分析工具。其中一种数据分析工具是指EXCEL,它是一个常用也是最简单的数据分析工具。当我们对EXCEL增加新的插件后,就可以进行数理统计和数据挖掘了。由于EXCEL是一个大众化的数据分析工具,使用它不太严谨。另一种数据分析工具是要熟悉一个专业的分析软件,便于进行专业的数据分析、数据建模等。如SPSS、SAS、MATLAB、R等。
5)数据展现:常用的图形包括饼形图、折线图、柱形图、条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图等。
6)报告撰写:首先需要有一个好的分析框架,并且结构清晰、主次分明、图文并茂,能够让读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容。图文并茂可以令数据更加生动、活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。
3、数据分析方法简介
1)单纯的数据加工方法---SQL、EXCEL。
2)基于数理统计的数据分析方法论---SPSS Statistics、SAS EG等工具实现
2.1)方差分析:又称“变异数分析”、“F检验”,它是用于两个及两个以上样本均数差别的显著性检验。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
2.2)回归分析:是确定两个或两个以上变量之间想到依赖的定量关系的一种统计分析方法。分为一元线性回归和非线性回归分析。
2.3)因子分析:指研究从变量群中提取共性因子的统计技术。
3)基于数据挖掘的数据分析方法:SPSS Modeler、SAS EM和R软件。
3.1)聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
3.2)分类分析
3.2.1)决策树:CART和CHAID,这些算法的不同之处都是在生成决策树过程中,树干分支成多个枝叶时分枝规则的生成函数。优点:可以生成可理解的规则;计算量相对来说不是很大;可以处理连续和离散变量;决策树可以清晰地显示出哪些变量比较重要。缺点:对连续性的变量比较很预测;当类别太多时,错误可能会增加得比较快;一般的算法在分类时,仅根据一个属性来进行分类;不是全局最优。
3.2.2)人工神经网络:ANNs。就是通过输入多个非线性模型及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。BP神经网络。特点:可以充分逼迫任意复杂的非线性关系;可学习和自适应不知道或不确定的系统;能够同时处理定量、定性知识。
3.2.3)贝叶斯分类方法:
3.2.4)支持向量机:与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升了,因此它成为机器学习领域的热点之一。
3.3)关联规则:应用关联规则最经典的案例就是购物篮分析,通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。
3.4)回归分析:多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化。
4)基于大数据的数据分析方法
基于大数据的数据分析方法的理论基础是数据挖掘和分布式计算原理。大数据技术要解决两个重要的现实问题:一是要解决海量数据在多台计算机上的存储;二是要解决如何在多台机器上存储的数据进行分析。Hadoop是一个分布式的计算系统。Yahoo、Facebook、Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadhoop为基础搭建自己的分布式计算系统。
5)数理统计与数据挖掘的区别和联系
5.1)数据统计与数据挖掘的联系:从两者的理论来源来看,它们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。
5.2)数据统计与数据挖掘的区别:数据统计在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。
正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。
第2章 描述性统计分析
1、直方图
1.1 什么是直方图?由一批长方形构成,通过长方形的面积(频率)或高度(频数)来代表对应组在数据中所占的比例。
1.2 如何看直方图?观看直方图的关键是看区间对应面积的大小。在频率直方图中,长方形的面积可以看成该区间中三国人物的密集程度,长方形的面积越大,说明三国人物在该区间的人数越多。
1.3 如何画直方图?第一步对数据进行分区(注:小组区间包含左端点,但不包含右端点。最后一个区间包含右端点)。第二步画一条水平轴(注:水平轴的画法需要注意平均分布);第二步画长方形。
2、数据的计量尺度
数据的计量尺度是指对计量对象量化时采用的具体标准,它分为四类:定类尺度、定序尺度、定距尺度、定比尺度。定类尺度比如:性别、民族、职业;定序尺度比如:职称、健康状况、质量等级;定距尺度比如:摄氏温度、纬度;定比尺度:质量、长度、能量。
3、数据的集中趋势:集中趋势在统计学中是指一组数据向某一中心值靠拢的程度。
3.1 平均数。为了消除极端值对平均数的影响也可根据实际情况去掉极端值。
3.2 分位数。有百分位数、四分位数和中位数。中位数是一种特殊的四分位数。一组数据按大小顺序排列后,处在数据中位置的数值,则被称为中位数。
3.3 众数。是指一组数据中出现次数最多的变量值。
4、数据的离中趋势
4.1 极差。是一组数据中的最大值与最小值的差距。利用极差有助于及时发现问题,以便采取措施,保证产品质量。
4.2 分位距。是对极差的一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于全距的指标。有四分位距,八分位距和十分位距。四分位距=第三个四分位数-第一个四分位数。
4.3 平均差。是数据组中各数据值与其算术平均数离差绝对值的算术平均数。
4.4 方差与标准差。是数据组中各数据值与其算术平均数离差平方的算术平均数。标准差是用平方法消除离差的正负号,然后对离差的平方计算算术平均数,并开方出标准差,这既克服了平均差计算中用绝对值取消离差正负带来的弊病,又增加子指标本身的“灵敏度”,这些优点使它成为各种离中趋势指标中最重要的一种。
4.5 离散系统:极差、平均数、标准差都是对数据的离中趋势进行绝对或平均差异的测定。在通常情况下,他们都带有计量单位,而且其离中趋势大小与变量平均水平的高低有关。常用的离散系统指标是标准差系统。
例子:由于甲、乙两班成绩的平均值和标准差都不一样,无法使用标准差来比较哪个班的波动,因此必须使用离散系统来判断。从计算可以看出,乙小于甲,所以乙的成绩波动小一些,则其班级的平均成绩更有代表性。
5、数据分布的测定:数据分布就是指当把取得的数据按某种分组画出直方图后,将每个直方图的上边的中点用一根曲线连接在一也即拟合一根曲线。各种数据有不同的数据分布曲线,在统计学中,有一个常用的数据分布,叫作正态分布。在描述性统计中,数据分布形态的测定主要以正态分布为标准进行衡量。
5.1 数据偏态及其测定。数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。如果众数在左边,平均数在右边,即数据的极端值在右边,数据分布曲线向右延伸,则称为右向偏态。
5.2 数据峰度及其测定。峰度是指数据分布的类峭程度或峰凸程度。根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。
5.3 数据的偏度和峰度的作用。第一、将偏度和峰度结合起来用于检查样本的分布是否属于正态分布。以便判断总体的分布。如果样的偏度系统接近于0而峰度系统接近于3,就可以推断总体的分布是接近于正态分布的。第二、利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推算。
6、数据的展示----统计图(条形图、饼图、折线图、茎叶图、箱线图、直方图)
6.1 面对一组数据,选择恰当的统计图来表达数据分析的目的,是数据分析人员必须要掌握的一种技能。统计图使用注意事项:1)图是语言的一种重要形式,如果运用得当,则比起表格来更能明快清晰地进行沟通;2)决定统计图形式的不是数据,也不是尺寸,而是你想说明的主题和你想指出的内容要点;3)统计图在于精,而不在于多,只有当统计图能够帮助你表达所想的主题时才使用;4)统计图是直观教具,它不能取代书写和讲述,只有在帮助你传达主题时,它才起作用。
6.2 使用EXCEL分别实现三个国家人物武力描述性统计分析
1)在集中趋势方面,看平均值、中位数和众数,吴国人物的此三个数值都较大,说明从平均水平看吴国人物的武力在其他两个国家之上。
2)在离中趋势方面,由于平均值和标准差都不一样,只能看离散系统,吴国人物武力的离散系统最小,则其数据变化最小,说明其武将之间的武力差距不大。
3)在数据分布方面,吴国的偏度最大,说明其人物武力分布左偏明显。
将三者结合起来看,吴国人物的数据总体表现还不错,但这使我们产生了一个疑问:在三国时间应该是吴国势力偏弱(这是业务背景),但这里的数据表现一个相反的结论,肯定是分析过程中存在没有考虑到的因素。这是数据分析过程中经常出现的现象,即在初步分析结束后,没有得到想要得到的结果,这时候需要对业务背景更加熟悉,进行进一步的分析和思考。此处,由于吴国人物左偏明显,吴国的文官对均值影响较大,而在比较武力时,最好不要考虑文官。上述分析没有考虑到人物属性因素,即此人物是武将还是文官。因此,接下来我们只分析三个国家武装的武力数据,将文官的数据剔除,进行进一步的分析。
第3章 数据理统计基础
1、抽样估计基础
1.1 随机事件
1.1.1 随机现象:结果不止一个,哪一个结果出现事先不知道。
1.1.2 样本空间:是随机现象的一切可能结果组成的集合
1.1.3 随机事件:随机现象的一次发生。随机事件是样本空间的一个子集。
1.2 随机事件的概率:是随机事件出现的可能性的度量,它是概率论中最基本的概念之一。
1.2.1 条件概率:在事件B发生的条件下,事件A发生的概率称为事件A在事件B已发生条件下的条件概率。记作P(A|B)。当P(A|B)=P(AB)/P(B);当P(B)=0时,规定P(A|B)=0。
如:某家庭中有两个孩子,问两个孩子都是女孩的概率为多大?1/4;
某家庭中有两个孩子,已知其中一个是女孩,问两个孩子都是女孩的概率为多大?1/3;
某家庭中有两个孩子,已知老大是女孩,问两个孩子都是女孩的概率为多大?1/2;
可以看出,随着条件地增加,随机事件A的条件概率也在增加,这也就是为什么人们在数据分析时,希望尽可能多地知道研究目标的信息。
1.2.2 相互独立事件。如果事件A与事件B满足P(A)=P(A|B),则称事件A关于事件B是独立的。在实际的数据分析中,往往根据问题的实际意义去判断两个随机事件是否独立。
1.3 随机变量及其概率分布
1.3.1 随机变量。用来表示随机现象结果的变量被称为随机变量,常用大写字母X、Y、Z...表示,也有用希腊字母ζ、η、ξ...表示。分为离散型随机变量和连续随机变量。
1.3.2 随机变量的概率分布
离散随机变量分布的特点:1、一个随机变量的概率都在0和1之间取值。2、所有随机变量的概率之和为1。一旦概率分布确定了,那么随机现象就从不规律变得有规律了。
连续随机变量分布的特点:用概率密度曲线来表示。
1.4 随机变量的数字特征
1.4.1 随机变量的数字期望:随机变量按概率的加权平均,表征其概率分布的中心位置,反映随机变量平均取值的大小。又称为随机变量的期望或均值。
1.4.2 随机变量的方差和标准差。方差用来表示随机变量概率分布的散布大小。方差大意味着随机变量的取值分布较宽,较分散,方差小意味着随机变量的取值分布较窄、较集中。
2、正态分布及三大分布:在进行数据分布时,大部分的分析对象都表现出一种正态分布的形态,因此数据分析师们在用数据统计的分析方法进行数据分布时,必须要掌握来自正态总体的分布。其中主要包括正态分布、卡方分布、T分布和F分布。
2.1 正态分布的概率密度函数:在相同条件下,我们随机地对某一测试对象进行多次测试时,测得的数值在一定范围内波动,其中接近平均值的数据占多数,远离平均值的占少数。具有这种分布规律的随机变量的分布被称为正态分布。正态曲线呈钟形,具有两头低、中间高、左右对称等特点。
2.2 正态分布的特征。第一、对称性。第二、非负性;第三、服从正态分布的随机变量分布由平均值μ和标准差σ完全决定。
2.3 标准正态分布
2.3.1 标准正态分布的概率密度函数及图形
当μ=0且σ=1时,正态分布被称为标准正态分布。记为N(0,1)
2.3.2 正态分布转换为标准正态颁布。一般而言,所有的正态分布都可以通过公式转化为标准正态分布。
2.3.3 如何查标准正态分布表。
由于现实生活中很多数据分析的对象都是服从正态分布的随机变量,通过标准化转换,所有的正态颁布都可以转化为标准正态分布。而标准正态分布是一个确定的图形。因此标准正态分布就成了数据统计的基础性分布。正是由于其基础性地位,科室家们为标准正态分布设立了正态分布表,供人们在做数据分析的过程中查阅。
2.3.4 标准正态分布的“3σ原则”
2σ=68.3%;4σ=95.4%;6σ=99.7%.
2.4 基于正态分布的三大分布:χ2分布、t分布、F分布。χ2分布:用于分类变量的卡方检验;F分布用于方差比例的检验,以及用于方差分析、回归分析和方差齐性检验。t分布:在信息不足的情况下,一般使用t分布。例如在不知道总体方差的情况下,对总体均值的检验用t统计量。
3、中心极限定理
3.1 中心极限定理的提法:如果一个随机变量决定于大量随机因素的总和。其中每个随机因素的单位作用微不足道,而且各因素作用相对均匀,那么它就服从或近似地服从正态分布。
3.2 中心极限定理的意义与应用:中心极限定理是概率论中最著名的结果之一。它指出,大量的独立随机变量之和具有近似于正态的颁布。
第4章 抽样估计
1、抽样估计的基本概念
1.1 总体及总体指标:总体指标有很多,不同分析目标的总体,需要计算不同的总体指标。例如,当数据分析师需要观测总体的平均数时,可以将每一个个体的测量值之和进行平均,求得总体平均数,用μ表示......
通常,如果一个总体是无限总体,则其对应的随机变量就是连续型随机变量,如果一个总体是有限总体,则其对应的随机变量就是离散型随机变量。
1.2 样本及样本指标:数据分析师通常取得的数据,也是一次抽样的结果。有几个常用的指标,例如样本平均数、样本方差、样本标准差,这些指标通常用来推断总体的指标,反映总体的特征。
1.3 抽样估计的思想:抽样估计是利用抽样调查所获得的样本信息,根据概率论所揭示的随机变量的一般规律性,对总体的某些数量特征进行估计的一种统计分析方法。
要求:随机性、独立性。
抽样方法:重复抽样:每次抽样是每次抽选都是独立的。即前一次抽选不影响后一次抽选,每个单位中选或不中选的机会在各次抽选中是相同的。而不重复抽样是每次抽选都不是独立的,即前一次抽选影响下一次抽选,每个单位中选或不中选的机会在各次抽选中是不相同的。
1.4 抽样估计的理论基础:抽样估计是建立在概率论的大数定律和中心极限定理基础上的,大数定律和中心极限定理等一系列定理为抽样估计提供了数学依据。
大数定律:论证了抽样平均数走近了总体平均数的趋势。为抽样估计提供了重要的依据。
中心极限定理:变量和的分布符合正态分布。中心极限定理所回答的问题是独立或弱相依的随机变量之和的极限条件在什么条件下是正态的,它揭示了大部分的社会经济现象表现为正态分布的本质原因。
1.5 样本统计量及分布:一般在确定数据分析的目标后,就能找到对应的总体指标,也能找到总体指标对应的样本统计量。一个总体指标通常和一个或多个样本统计量对应,数据分析人员在使用某一种统计方法进行数据分析时,除了要明白该方法在软件中的操作过程,还要理解方法所使用的样本统计量,这样才能从根本上理解该方法的使用场合,从而实现对统计方法的灵活运用。
2、抽样估计的方法-----点估计:就是用在某一次随机抽样过程中,计算得到的样本统计量的值直接作为总体指标。
2.1 优良点估计的样本统计量的衡量标准:无偏性;有效性;一致性。点估计的例子:统计学家在二战时期使用点估计预测二战期间德军坦克数量,从而让盟军很好地进行战略部署。由于许多战略上的理由,盟军非常想知道二战期间德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行连续编号。在战争进行过程中,盟军缴获了一些德军的坦克,并记录了它们的编号。那么怎样用这些号码来估计总数呢?我们知道,制造出来的坦克数肯定大于记录中的最大编号。因此,点估计的方法之一就是计算出被缴获坦克编号的平均值。并认为这个值是德军全部坦克编号的中点,用样本均值乘以2就是总数的一个估计值。从战后发现的德军记录来看,盟军的估计值非常接近德军所生产坦克的真实记录。
3、抽样估计的误差:必须要指出的是,抽样误差是抽样所特有的误差。凡进行抽样就一定会产生抽样误差。这种误差虽然是不可避免的,但可以控制,所以,又被称为可控制误差。
4、抽样估计的方法----区间估计
前面所述的点估计,是用样本指标直接作为总体指标的估计值,一般不考虑抽样误差。而区间估计则与之不同,它是根据样本指标的分布律,按照一定要求,先确定出两个数据θ1,θ2,使总体指标θ包括在区间[θ1,θ2]内的概率=1-α,则为区间估计。
第一、区间θ1≤θ≤θ2被称为置信区间。第二、1-α称为置信系统。第三、α被称为显著性水平。置信区间表达了区间估计的准确性,置信系统表达了区间的可靠性,它是区间估计的可靠概率。
4.1 区间估计的步骤:根据给定的置信度要求,推算出抽取极限误差的可能范围。
首先:抽取样本,计算抽样指标作为总体参数的估计值,计算出样本标准差用以推算抽样平均误差。
其次:根据给定置信度的要求,查《正态分布概率表》求得概率度t值。
最后,根据概率率t和抽样平均误差推算抽样极限误差的可能范围,再根据极限误差求出被估计总体指标的上限、下限,对总体参数做区间估计。
5、抽样的组织形式和抽样数目的确定
5.1 抽样的组织形式:简单随机抽样;分层抽样;等距抽样;整群抽样;多阶段抽样
5.2 抽样数据的确定:第一、估计总体均值时,必要的抽样数目;第二、估计总体比例时,必要的抽样数目。两种类型都做了相应规定。
第5章 假设检验
1、假设检验是数据分析中经常用到的一种统计分析方法。它是抽样推断的主要内容之一。在实际的数据分析过程中,能否根据经验假定总体指标的值,然后根据样本数据,使用某种尺度去检验这种假定是否正确,从而实现对总体指标的分析。这种从对总体的假设出发用样本数据去检验,实现对总体指标分析的过程,就是假设检验。
1.1 基本思想:对总体指标进行某种假设,以小概率事件不发生基准,运用反证法的思想,按照总体的假设,并根据所获样本的数据,通过样本统计量的分布,得出小概率事件在某一次抽样中发生的错误现象,从而对总体指标的假设做出拒绝的判断。
2、假设检验的分析方法
2.1 假设检验的基本步骤:建立假设;选择检验统计量;寻找检验的拒绝域;计算样本统计量的值,根据拒绝域作出判断。
2.2 假设检验与区间估计的联系:假设检验是从对总体进行假设,使用样本数据进行检验,而敬意估计是从样本数据出发,估计总体的参数,但两者从本质上是一致的。
2.3 利用P值进行决策:P值是进行假设检验决策的另一个依据,是最常用的一个统计学指标,统计和计量软件输出结果都有P值,如SPSS软件,随着计算机技术的迅猛发展,特别是统计分析软件的普及,通过比较检验统计量与临界值的大小的检验方法逐渐被P值检验所取代,因此数据分析人员一定了解P值的含义和掌握如何P值进行检验。
3、常见的检验统计量:一般来讲,统计分析方法都需要使用某种统计量,因此在学习统计分析方法时,应重点掌握该方法使用的统计量及其分布,这样才能把握该方法的本质思想,才能做出好的数据分析报告。统计学中最难的内容就是构造统计量,对于一般的数据分析人员来说,掌握一些常见的统计量及其使用时机就可以了。如:检验统计量;t检验统计量;χ2检验统计量;F检验统计量
第6章 方差分析
1、方差分析:是比较多个总体的均值是否相等的检验方法。方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响的。
2、如果一个试验中所考察的因子只有一个,那么就是单因子试验问题。基本假定:1)在水平Ai下,指标服从正态分布,即在同一水平下,观测指标的数据均来自正态总体。2)在不同水平下,方差相等,即在不同水平下,观测指标的数据波动程度相同。3)数据Yij相互独立。
3、单因素方差分析的基本步骤:
1)提出假设:H0无差异;H1有显著差异。
2)选择检验统计量:采用的检验统计量是F统计量,即F值检验。
3)计算检验统计量的观测值和概率P值,该步骤的目的就是根据样本数据计算检验统计量的观测值,依据样本统计量的分布,由样本统计量的观测值计算相应的概率P值。
4)给定显著性水平,并得出方差分析结果。根据数据分析的要求,人为给定显著性水平,例如测定显著性水平α=0.05,如果P值小于0.05,则拒绝原假设。即各分类总体的均值不同时相等。
5)对方差分析的结果进行对比分析。一般来说,方差分析的显示性检验都会拒绝原假设,也就是说,在不同的因素水平下,观察值的均值不会同时相等。那么是不是有某几个水平的均值是相等或者不相等的呢?这就需要进行对比分析。对比分析的过程,就是在原假设不成立的情况下,进一步分析哪几个因素水平的均值是不相等的,其实也就是进行各水平之间的两两对比检验,其对应原假设是某两个水平对应的均值相等,需要使用检验统计量进行假设检验。
第7章 相关与回归分析
1、变量间的关系。一般可分为两类:确定性关系(函数关系)和非确定关系(相关关系)。相关关系的特点:第一、一个变量的取值不能由另一个变量唯一确定,两者是一种相互说明的关系。第二、对大量的数据进行观察研究,就会发现许多变量之间存在着一定的客观规律。第三、当把自变量和因变量投放到坐标轴上时,各观测点分布在直线或曲线的周围。
2、相关性分析步骤:一是绘制两个变量的散点图;二是计算变量之间的相关系数;三是相关系统的显著性检验。
3、相关系数及其种类。分为皮尔逊相关系统,斯皮尔曼相关系统和肯德尔相关系统。如:武将的统御力和武力的相关系统r=0.586907,根据相关系统的经验解释,可以认为武将的武力和其统御力存在中度相关。
4、相关系统的显著性检验:r是根据样本数据计算的,应称为样本相关系统,也可称为皮尔逊相关系统。在进行数据分析时,每次得到的数据其实都是从总体中抽样得到的,因此总有一个唯一确定的总体相关系统和样本相关系统相对应。
一般来说,总体相关系统是无法得到的,只能通过样本统计量r进行估计,既然相关相关系统r是抽样估计的量,这就必然需要进行显著性检验。这一检验过程称为相关系统的显著性检验员。
5、一元线性回归分析:当两个变量之间存在线性相关关系统时,我们常常希望在两者之间建立定量关系,两个相关变量之间的定量关系的表达即是一元线性回归方程。当估计这条直接后,就可以利用这个直线方程根据给定的自变量来预测因变量,这就是一元线性回归分析要解决的问题。