统计学习01:数据类型与常见统计指标

初学生信,逐渐开始意识到统计学的重要性,例如p值、标准误等概念;回归建模、深度学习等方法都要很好的统计学基础。因此现在利用空闲时间系统得补下相关知识。
目前计划:打基础阶段先看冯国双老师的《白话统计》,之后进行深入学习(李航老师的《统计学习方法》蛮多推荐的,之后了解下)
此外遇到示例绘图等操作,主要基于R(3.61)

要点一:统计资料类型classification

统计离不开数据;根据不同的数据类型,会选择不同的分析方法。

1、定量资料 numeric

最简单,也是最常见的数据类型,即数字指标。

1.1 subclassification
  • 连续型资料continuous:可以是任意类型的数字
    最常见;例如身高体重值,价格....
  • 离散型资料discrete:只能是整数
    例如基因长度,硬币个数等
1.2 其它

由于之后重点学习的统计方法主要基于定量资料,就不多做叙述了。

2、分类资料(频数)categorical

2.1
  • 二分类 subclassification
    例如生死、正反、是否等结局的数据
  • 无序多分类 nominal
    例如职业类型、民族分布等统计
  • 有序多分类 ordinal
    例如成绩等级(A B C D)、身体评价指标(优良中差)等
2.2 统计方法
  • 研究一组数据的分布
    分类资料服从二项分布或多项分布,一般采用二分类或者多项Logistic回归
  • 研究多组数据的比较
    根据有序/无序的差异以及研究目的,有不同的思路,例如:
    两组无序分类资料的比较可用卡方检验;
    两组有序分类资料的比较可用秩和检验;
2.3 定量数据转换为分类资料
  • 举一例子就好理解:将全班成绩按数值分为及格与不及格;把考试绩点分为A+,A,B等不同的等级。
  • 转换后的资料就可以按照分类资料的统计方法进行分析;
  • 如上面的例子,转换的关键就是设定合理的cut-off,比如及格与否的cut-off一般为60。
  • cut-off的设置一般要与自己的研究对象密切相关,即有实际意义,不是随便设置的。
  • 如果实在是没有相关参考经验,也可以按照数据特征,采用特定的方法进行划分。

3、计数资料 count

3.1 特征
  • 类似分类资料,但性质有所不同,count data有单位,一般为次数(1h内咳嗽的次数,1个gene上的reads比对次数);
  • 而分类资料没有单位,即为频数。
3.2 相关统计方法
  • 经常是对一组count数据进行Poisson回归或者负二项回归(Negative binomial regression);
  • 泊松分布一般用于个体之间独立情形;负二项可用于个体间不独立的情形
  • 某些情况下,count数据也可采用定量资料统计方法,即广义线性模型(Generalizd Linear Model, GLM),之后会学习到。

要点二:常见统计指标

主要是基于定量资料的统计指标

1、描述数据集中程度

  • mean均数μ(mu),适用于正态分布;
  • median中位数,将一组数据按大小排序后位于中间的数,适合偏态分布的描述,相比均数更稳健(robust);
  • mode众数:出现次数最多的数值,感觉用到的情况不多;


    three numbers

2、描述数据分布情况

百分位数
  • 在按数值大小排序的一组数据中,某个数据的相对位置(0~100%)
  • 上面的中位数即指第50百分位数
  • Q3:第75百分位数,也叫上四位数;
  • Q1:第25百分位数,也叫下四位数;
  • Q3-Q1称为四分位距,如果数据呈偏态分布,建议用Q1至Q3进行描述。
箱图boxplot
  • 直观地反映数据分布情况的作图方法


    boxplot

    注意有一个小细节,图注不是很清楚。median位置即为阴影矩形的那根竖线。

  • 如上图所示,基本都能理解,关键是outliers的判断
    如图左右两个须长最大为Q1/Q3+1.5(Q3-Q1),就有下面两种情况
    (1)如果最大值与最小值分别小于上述公式,就把须长拉短即可;
    (2)如果超过该最长值就以单独点的标记为离群点,同时展示公式对应的须长。

在正态分布中,Z值也是反映数据位置的方法,具体到时再学吧

3、描述数据变异程度★

3.1 离均差平方和
  • SS,sum of squares of deviations from mean;
  • 即为一组数据中,每个数与均值差的平方的和。
  • 在后续回归建模,方差分析等差异分解中的总变异其实就是这里的离均差平方和


    SS

    SS
3.2 方差
  • variance,σ2(sigma平方),S^2
  • 离均差平方和相对于例数的平均数


    variance
  • 上述公式是计算总体方差的标准公式,但经统计学家证明:实际利用抽样样本估计总体参数时,样本方差的计算公式的分母为n-1,更符合总体方差的估计。


    variance

n-1 其实也就涉及到自由度的概念了,在最后记录下。

3.3 标准差
  • 方差虽然在很多统计方法中会用到,但是作为统计指标的解释意义不大(平方)
  • standard deviation 标准差,σ,S:即对方差求平方根


    sd

    sd

附1:自由度的概念 degree of fredom

  • 定义:计算样本统计量能够自由取值的数值的个数
    直观的例子:如x+y+z=100,自由度就是2。因为一旦确定两个值,第三个值就确定了
  • 规律:每估计一个参数,就要消耗一个自由度
    实际统计方法举例(注意这几个例子里的n是指所有的样本的数据数量)
    (1)如上样本方差计算,因为公式已经用到均值,自由度就是n-1;
    (2)单样本t检验,自由度也是n-1;
    (3)两组t检验,自由度为n-2;
    (4)多组(k)方差分析,自由度为n-k

附2:∑符号

  • ∑读音为sigma,英文意思为Sum,Summation,就是和;
  • 一般为下图写法,其中i表示下界,n表示上界;K代表计算式,表示从i开始取数,一直取到n,全部加起来。


    ∑符号

你可能感兴趣的:(统计学习01:数据类型与常见统计指标)