数据类型分类
1.分类(定性)数据和连续型(定量)数据,以及注意数据之间是有序还是无序(定性)
2.观测数据和实验数据
3.截面数据(相同或近似时间点上搜集的不同空间的数据)和时间序列数据(不同时间搜集的,按照时间顺序排列,用以描述现象随时间变化的情况)
总体和样本,用样本来预测总体。参数是总体的数据,统计量是样本的数据,用统计量去预测参数
频数:某数据出现的次数
累计频数:逐级累加得到的频数
比例:构成比,乘100就是百分比
比率:总体或者是样本中不同类别数据之间的比值。不是部分与整体的比例关系,因此有时会大于1
常用频数分布表(列联表)来进行表示
组距与组中值
集中趋势
众数:数据量大时有意义,出现最多的数据。不受极端数值的影响,存在双峰或者是多峰分布
中位数:不受极端值影响,反应中间数据状况,记得先排好序
类似的有上下四分位数:25%,75%
平均数:易受极端值的影响,分为简单平均数(不对数据进行分组)和加权平均数(首先对数据进行分组,数据中值乘以权重除以组别数量),几何平均数(计算平均比例,计算平均增长率和平均比率)
偏态数据时,使用中位数和众数。
左偏态,峰值在右侧,众数大于中位数大于平均数。右偏态,峰值在左侧,平均数大于中位数大于众数
离散程度
异众比率:非众数的数据占据总体的比例,衡量众数对一组数据的代表性。该比例越大,则众数代表性越差
四分位差:上下四分位数之差,反应50%数据的离散程度。数值越小,证明数据越集中
极差:最大值和最小值之差
平均差:每个数据与平均数的离散程度,平均差越大则数据离散程度越大
方差和标准差:衡量数据离散程度。标准差由于开过方,缩小了误差,比方差更好
自由度:能够自由取值的变量个数
标准分数(Z分数):可以给出数据在各自分布中的相对位置,然后用相对位置来进行比较,相对位置一般都在+-2的标准差范围内
离散系数:也是变异系数,可以测量不同样本的数据离散程度
偏态:绝对值大于1为高偏态分布,1-0.5为中等,越接近0偏斜程度越小。正数为右偏态
峰态:等于0为正态分布。明显不等于0,大于0为尖峰分布,很高耸,数据集中。小于0为平峰分布,很扁平,数据离散
调和平均数时平均数的变形,调和平均数也有简单调和平均数和加权调和平均数两种。调和平均值 (Harmonic Mean). 在组中的样本大小不相等的情况下用来估计平均组大小。调和平均值是样本总数除以样本大小的倒数总和。
调和平均数具有以下几个主要特点:
1、调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。
2、只要有一个标志值为0,就不能计算调和平均数。
3、当组距数列有开口组时,其组中值即使按相邻组距计算,假定性也很大,这时的调和平均数的代表性很不可靠。
4、调和平均数应用的范围较小。在实际中,往往由于缺乏总体单位数的资料而不能直接计算算术平均数,这时需用调和平均法来求得平均数。
峰度标准误差:峰度与其标准误差的比可用作正态性检验(即,如果比值小于 -2 或大于 +2,就可以拒绝正态性)。大的正峰度值表示分布的尾部比正态分布的尾部要长一些;负峰度值表示比较短的尾部(变为像框状的均匀分布尾部)。
平均值的标准误差:取自同一分布的样本与样本之间的平均值之差的测量。用于粗略将观测到的均数与假设值对比(即,如果差异与标准误差的比率小于 -2 或大于 +2,那么可以得出此均数与假设值不同的结论)。
偏度标准误差:偏度与其标准误差的比可用作正态性检验(即,如果比值小于 -2 或大于 +2,就可以拒绝正态性)。大的正偏度值表示长右尾;极负值表示长左尾。
值是组中点。如果您的数据中的值是组中点(例如,所有年龄在 30 多岁的人都被编码为 35),那么选择此选项以估计原始未分组的数据的中位数和百分位数。
百分位值。一个定量变量的值,其将排序过的数据分组,以使某个百分比在上而另外一个百分比在下。四分位数(第 25、50、75 个百分位数)将观测值分为四个大小相等的组。如果您希望相等组的数目不等于 4,请选择 n 个相等组的分割点。您也可指定单个百分位数(例如,第 95 个百分点,有 95% 的观测值大于该值)
排序方式。可根据数据中的实际值或根据这些值的计数(出现的频率)以升序或降序排列频率表。但是,如果您请求直方图或百分位数,那么频率假设变量是定量数据并以升序显示其值。
多个变量。如果您生成多个变量的统计表,您可在单个表中显示所有变量(比较变量),或显示每个变量的独立统计表(按变量组织输出)。
排除具有多个类别的表。此选项防止显示具有超过指定数目的值的表。
M 估计。样本均值和中位数的稳健替代值,用于估计位置。计算出的估计量应用到个案的权重不同。显示 Huber 的 M 估计、Andrews 波估计量、Hampel 的重新下降 M 估计和 Tukey 的双权重估计量。
离群值。显示五个最大值和五个最小值(带个案标签)。
百分位数。显示第 5 个、第 10 个、第 25 个、第 50 个、第 75 个、第 90 个和第 95 个百分位的值。