3.4 描述性统计分析 之 探索性分析

探索性分析(Explore)主要用于在数据的分布情况未知时,检验数据的奇异值或输入错误,并使用图形、描述统计量的方法获得数据的基本特征,主要适用于区间数据分析。主要有以下几种功能:

  • 计算描述统计量
  • 进行正态性检验:检验数据是否服从正态分布
  • 进行方差齐性检验:利用Levene检验不同组数据方差是否相等
  • 绘制多种统计分布图,观察其分布特征
  • 探测数据中的极端值(奇异值、离群值)
    示例:对数据中危重病人的APACHEIII评分及其预后情况进行探索性分析,了解不同预后情况下的APACHEIII评分状况,数据如下:


    image.png
  1. 打开 分析—描述统计—探索分析
    image.png
  2. 参数说明
    (1) 变量选择
  • 因变量列表:需要分析的变量,可选择多个变量,必须是数值型变量
  • 因子列表:分组变量,可选择多个变量,最好是分类变量
  • 注意:若同时选入多个因变量和多个因子列表,将对他们之间的两两组合分别进行分析。
  • 显示栏:Statistics(统计量表格)、Plots(图形)、Both(统计量表格和图形)
    (2) 统计量设置
  • 描述:输出描述性统计量,包括均值、中位数、众数、5%截尾均值、方差等想用统计量
  • 平均值的置信区间:默认95%置信区间
  • M-估计量:M估计值,描述平均水平;计算并输出比均值和中位数更稳定的数据中心估计值,包括:Hubers/Andrews/Hampels/Tukeys
  • 离群值:列出极端值,即最大和最小各5个数据
  • 百分位数:输出5%、10%、25%、50%、75%、90%、95%的百分位数
    image.png

    (3) 图设置
    a.箱式图:

因子级别并置:对于每个因素变量,每图只显示一个因变量,默然选项
因变量并置:对每个因素变量,每张图显示所有因素变量
无:顾名思义,不显示箱式图

b.描述图:

茎叶图:显示茎叶图,默认选项
直方图:做相应变量的直方图

c.含检验的正态图

进行因变量的正态性检验,包括K-S统计检验检验Lilliefors置信水平。
绘制正态概率图与去趋势后的正态概率图

d.含Levene莱文检验的分布-水平图

无:不做方差齐性检验,默认
幂估算:估计数据幂转换后的幂值
转换后:数据转换后做方差齐性检验,包括6种数据转换:Natural log自然对数、1/Square root(平方根倒数变换)、Reciprocal(倒数变换)、Square root(平方根变换)、Square(平方变换)、Cube(立方变换)。
不做数据变换:用原始数据做方差齐性检验。


image.png
  1. 输出结果与说明
    (1) 处理摘要与描述性分析

结果显示参与APACHEIII评分分析案例中,各预后情况分类的评分情况以及各描述性统计量,包括均值、截尾均值、四分位数、标准差等常用统计量。


image.png

image.png

(2) M估计量

表示平均水平的稳健估计量,包括四种估计方法。其中Huber法适用于数据接近正态分布的情况,另外3种适用于数据中有过多异常值时。由下表可见,死亡组别的M估计值与均数和中位数非常接近,比较稳健,接近于数据对称分布。


image.png

(3) 极值列表

给出相应的机制列表,每组的最大值、最小值最多给出5个。


image.png

(4) 正态性检验

经检验,两组的p值均大于0.05,所以不拒绝正态分析的假设,认为死亡组和存活组评分呈正态分布

image.png

(5) 方差齐性检验

经检验,四种方法计算出的P值均大于0.05不拒绝零假设,可认为两组总体方差相同

image.png

(6) 茎叶图

茎叶图由三部分构成:叶子数目—频率、茎的大小—Stem、叶子大小-leaf。其中,stem代表整数部分,leaf代表小数部分,可根据公式[(茎值+叶值×0.1)×茎宽] 可计算茎叶图的近似值。
下方给出了茎的宽度:10。每一片叶子 加上 茎 近似于对应一个原始数据。
如:最后一行茎叶是7.2,则对应原始数据约等于 (7+0.2)*10 = 72,其中10是茎的宽度。

image.png

(7) 正态分布概率图

在下图中,直线是正态分布的标准参考线,散点越接近这条直线,则该变量的分布越接近正态分布。

image.png

趋降标准Q-Q图反应的是正态分布理论值与实际值之差的分布情况。若均匀分布在执行y=0两侧,且没有显示出明显的曲线模式,如S、V型,因此,可认为服从正态分布

你可能感兴趣的:(3.4 描述性统计分析 之 探索性分析)