CDA学习-------描述性统计分析

统计学含义

统计学是一门收集、处理、分析、解释数据并从数据中得到结论的科学。

数据分析步骤

收集数据----->处理数据----->分析数据----->解释数据

描述性统计分析:

        研究数据收集、处理和描述的统计方法

        总体规模、对比关系、集中趋势、离散程度、偏态、峰态

推断性统计分析:

        研究如何利用样本数据来推断总体特征的统计学方法

        估计、假设检验、列联分析、方差分析、相关分析、回归分析

数据的分类

按计量尺度分类:分类型数据、顺序型数据、数值型数据

按来源分类:直接来源、间接来源

按收集方式分类:观测数据、实验数据

按与时间的关系分类:截面数据、时间序列数据、混合数据(面板数据)

按概型分类:离散型数据、连续型数据

描述性统计

think:某超市后台记录了一年内63万多条消费者的消费数据,请问如何做描述性统计分析?

从5个角度进行分析:

        1、总体规模的描述-----总量指标

                反映在一定时间、空间条件下某种现象的总体规模、总体水平或总成果的统计指标

        2、对比关系的描述-----相对指标

                是两个有相互联系的指标数值之比(eg:目标完成率=实际完成/计划完成)

        3、集中趋势的描述-----平均指标

                        分类型数据可用众数

                        顺序型数据可用众数、分位数(eg:上四分位数3n/4、下四分位数据n/4)

                        数值型数据可用众数、分位数、均值

                均值(易受极端值影响):

                算术平均值:简单算术平均数、加权算术平均数

                加权算术平均值

                CDA学习-------描述性统计分析_第1张图片

                几何平均数

           CDA学习-------描述性统计分析_第2张图片

     CDA学习-------描述性统计分析_第3张图片  

                调和平均数(变量值倒数的算术平均数的倒数):

                CDA学习-------描述性统计分析_第4张图片

                均值不等式:

                        算术平均数≥几何平均数≥调和平均数

        4、离散程度的描述-----变异指标

                极差:R=max(xi)-min(xi)

                平均差

                CDA学习-------描述性统计分析_第5张图片

                方差和标准差

                        a.数据离散程度的最常用测度值

                        b.反映了各变量值与均值的平均差异:

                                方差或标准差越大,表示变量值与均值的平均差异越大

                       CDA学习-------描述性统计分析_第6张图片

                      CDA学习-------描述性统计分析_第7张图片

                    离散系数(变异系数)

                         CDA学习-------描述性统计分析_第8张图片

                     变异指标:标准差与均值之比

                  CDA学习-------描述性统计分析_第9张图片

                      标准化值(相对位置的度量)

                  CDA学习-------描述性统计分析_第10张图片

                     CDA学习-------描述性统计分析_第11张图片

                        切比雪夫不等式

                        (1)如果一组数据不是对称分布,适合使用切比雪夫不等式,对任何分布形状的                                数据都适用;

                        (2)切比雪夫不等式提供的是“下界”,即“所占比例至少是多少”;

                        (3)对于任意分布形态的数据,根据切比雪夫不等式,至少有1-\frac{1}{​{K}'2'}的数据落在                                  平均数加减K个标准差之内。其中K是大于1的任意值,但不一定是整数。

                        CDA学习-------描述性统计分析_第12张图片

        5、分布形态的描述-----偏态峰态

              一、 偏态

                1、定义:是指数据分布偏斜程度。

                2、测量方法:使用偏态系数来测度数据的偏态。偏态系数用符号SK表示。

                3、偏态系数的计算:

                CDA学习-------描述性统计分析_第13张图片

                4、偏态的程度:

                               低度偏态分布:0<|SK|\leqslant0.5

                               中度偏态分布:0.5<|SK|\leqslant1

                               高度偏态分布:|SK|>1

                5、偏态对众数、中位数和均值之间关系的影响

                        对称分布:均值=中位数=众数

                        左偏分布:均值<中位数<众数

                        右偏分布:众数<中位数<均值

        一、 峰态

                1、定义:是指数据分布的扁平程度

                2、测量方法:使用峰态系数来测度数据的峰态。峰态系数用符号K表示。

                3、峰态系数的计算:

                 CDA学习-------描述性统计分析_第14张图片

                4、峰态的判断:

                        K=0扁平峰度适中

                        K>0尖峰分布

                         K=0扁平分布

               5、峰度的程度

                        低度尖峰分布:0<|K|\leqslant0.5

                         中度尖峰分布:0.5<|K|\leqslant1

                         高度尖峰分布:|K|>1

       6、描述性统计图标(可视化)

               直方图:能够显示各组频数分布的情况,易于显示各组之间频数的差别。

               散点图:展示数据的分布情况,发现变量之间的关系。

               箱型图(盒须图/箱线图):显示一组数据分散情况的统计图。

统计分布

1、离散分布:两点分布、二项分布

CDA学习-------描述性统计分析_第15张图片

 

2、连续分布:正态分布、标准正态分布

3、抽样分布{X}'2'分布(卡方分布)、t分布、F分布

相关分析

1、相关关系的度量:

(1)协方差Cov

CDA学习-------描述性统计分析_第16张图片

(2)相关系数Cor

 CDA学习-------描述性统计分析_第17张图片

CDA学习-------描述性统计分析_第18张图片

                

你可能感兴趣的:(CDA,学习,数据分析,数据挖掘)