SPSS——连续变量的描述统计

连续变量的统计描述指标体系

  1. 集中趋势(位置统计量):均数适用于正态分布和对称分布资料;中位数适用于所有分布资料

  2. 离散趋势(尺度统计量):标准差、方差只适用于正态分布资料;四分位数适用于各种分布类型资料

  3. 分布特征:如描述正态分布的偏度系数和峰度系数

  4. 其他趋势:如可同事反应集中趋势和离散趋势的百分位数指标;描述数据的偏态分布、单峰分布和双峰分布;与异常值数据进行描述的M统计量、极端值列表;

集中趋势描述指标

算术均数:各个变量值与均数离差之和等于0,说明均数的性质是把总体各单位的差异全部抽象化,采用取长补短的方法把变量值小于平均数的负离差全部用大于0的正离差抵消补齐;算术平均数是误差最小的总体代表值。

中位数:不受极端值影响的位置平均数,在具有个别极大或极小值的分布中中位数比算术平均数更具有代表性。

截尾均数:将数据排序后按比例去掉两端数据,用其余数据的均数。若两者相差不大,说明数据不存在极端值,或极端值互相抵消。反之,则用截尾均数反映数据集中趋势。

几何均数:适用于原始数据不对称,但经过对数转换后呈对称分布的资料。

众数:特别使用与单峰对称

离散趋势描述指标

极差(全距):受极端值影响巨大

方差和标准差:方差相当于平均了每个数据的离均差的平方值,从而客服了样本含量的影响,实际上适用于正态分布。

百分位数、四分位数及四分位数间距:四分位数既能排除两端极端值影响,又能反映较多数据的离散程度,是当方差和标准差不适用时较好的离散程度表述指标。

变异系数:消除尺度和量纲的影响,它是标准差和平均数的比率

你可能感兴趣的:(Python数据分析)