生物统计——离散/连续型随机变量与常见分布

本文是对 孟浩巍
生物信息学入门课:学习生信你需要了解的统计学课程的学习。即将开始新的PhD life,乘着暑期时间充裕,再重新回顾学习下生物信息的底层知识——生物统计学。

一. 统计学入门路线与基础知识导读

1. 教材与课程资源推荐

  1. 概率论与数理统计(《概率论基础教程——Sheldon Ross》);医学统计学;概率论教程;
  2. 线性代数+多元统计学;应用回归分析(最小二乘法回归)。
  3. 统计学习(统计需要进行实验设计);机器学习

2. 概率论学习的重点

  1. 概率论学习重点
    • 随机变量和概率的独立性,条件概率,贝叶斯概率公式
    • 随机变量的分布函数,常见的离散/连续分布;
    • 随机变量的数字特征(期望,方差)
    • 假设检验的基本思想,p-value;t-test
    • 单因素方差分析
    • 简单线性回归(本质上检验多重检验的问题)
  2. 医学统计学上的学习重点
    • 上述重点的应用
    • 列联表检验(GO/KEGG):Fisher' test; 卡方检验
    • 生存分析,生存曲线,比较两根曲线有差异;
    • Cox回归分析(风险回归分析)
  3. 一些进阶的课程
    • 《多元统计分析及R语言建模》MOOC(icourse163)
    • 《应用回归分析R语言版》书籍
    • 线性代数/多元统计是机器学习,人工智能的基础
  4. 线性代数学习重点
    • 矩阵运算的本质是空间变换
    • 常用矩阵运算法则
    • 特征值,特征向量的几何理解
    • 常用矩阵分解(普分解)
    • 二次型及其性质
  5. 多元统计分析(做应用)
    • PCA主成分分析(样本数多少的时候,PCA成分好)
    • 线性判别分析
    • 聚类分析(不同聚类方法:欧式距离,曼哈顿距离)
    • 因子分析(哪个基因最重要)
  6. 统计学习+机器学习;吴恩达MOOC
    • 支持向量机(SVM)
    • 聚类算法
    • Logistics回归;
    • 决策树模型;
    • EM算法;
    • 隐马尔可夫模型(HMM)
    • 提升算法

二. 随机变量与概率的计算

1. 什么是随机试验?与随机变量?

例如掷色子,抛硬币,任意时间到达车站。量X是随着试验的结果的不同而变化。

  • 离散型随机变量(所有可能取的值为有限个)
  • 连续型随机变量(可能取值无穷多)

2. 什么是概率?概率如何计算?

  • 根据概率的公理化定义来推导出来。而非概率的收敛

3. 什么是随机变量的分布律,概率密度函数?

  • 离散型变量:随机变量的分布律


    生物统计——离散/连续型随机变量与常见分布_第1张图片
    随机变量的概率分布律
  • 连续型变量X:概率密度函数f(x)


    生物统计——离散/连续型随机变量与常见分布_第2张图片
    image

4. 什么是随机变量的概率分布函数?

  • 离散型和连续型随机变量 二者都可以求概率分布函数F(X)。分布函数是一个累加的效应

三. 常见离散随机分布

1. 二项分布

生物统计——离散/连续型随机变量与常见分布_第3张图片
image
生物统计——离散/连续型随机变量与常见分布_第4张图片
二项分布的性质

X轴为出现某个事件的次数,y轴为出现对应次数的概率。

  • 当p为0.5时,分布是最对称的,当p为0~1其它数时,分布是不均匀的。

  • 在生信上的应用:在基因组上进行mutation判断的时候,利用二项分布进行检验。(具体计算genome wide的所有突变率当作参数p,背景mutation,总reads数为n;判断某一特定位点是否为mutation:观察到突变数为k的pvalue)

  • 缺点:计算量巨大。所以通常情况下,在总数n很大,p很小,np不大的时候用泊松分布进行拟合,效果非常好。

2. 泊松分布

生物统计——离散/连续型随机变量与常见分布_第5张图片
泊松分布

仅有一个参数“入”,即是期望均值,又是方差。

  • 可以理解为单位时间内,出现 概率非常小的事 的概率就服从泊松分布。
    • 具体例子如:单位时间内洪水发生的次数;矿井在某段时间发生事故的次数;WGS中比对到某一个区域内的reads count;RNA-seq中1个gene中比对到的reads count数目。
  • 泊松定理:泊松分布是二项分布的极限分布,当n比较大,p比较小(p<0.1,np<10)时候,二项分布可看成是参数为np的泊松分布。
  • 大多是利用泊松分布去近似计算
n=100000
p=10^(-4)

#二项分布binorm
pbinorm(q=0,size=n,prob=p)

#泊松分布ppoison
ppois(q=0,lambda=n*p)

3. 超几何分布

生物统计——离散/连续型随机变量与常见分布_第6张图片
超几何分布
  • 无放回的抽样
  • GO富集与KEGG富集中的Fisher Exact Test就是利用超几何分布

4. 几何分布

生物统计——离散/连续型随机变量与常见分布_第7张图片
几何分布
  • 出现第一次成功所需要的实验次数;

  • 几何分布是具有无记忆性的。假设已经有m次都没有成功,那么为了首次成功再等待的时间是与前面失败次数m是无关的。

5. 负二项分布(帕斯卡分布)

生物统计——离散/连续型随机变量与常见分布_第8张图片
image
  • Reads count就是使用泊松分布的估计和负二项分布的修正。genome很大,reads落到genome的任意一个区域是一个很小概率的事件。可以认为服从泊松分布。reads count就是服从泊松分布。
  • 缺点:不能保证随机抽样的结果符合期望和方差相等。
生物统计——离散/连续型随机变量与常见分布_第9张图片
image

disperson 即为k

6. Lander Waterman曲线

生物统计——离散/连续型随机变量与常见分布_第10张图片
image
  • M=1表面就是个完整的基因组。M>1表面还有很多部分没测到。需要增加很多测序量,M下降的为log的测序。

四. 常见连续随机分布

(概率密度函数)

1. 指数分布

  • 各种寿命的分布的近似。
  • 指数分布具有无记忆性。可以理解为是几何分布的极限推广。

2. Gamma分布

  • 常作为某个事件总共出现N次的等待时间;
  • 可以理解称负二项分布的连续推广。
  • 芯片数据处理时利用Gamma分布。

3. 正态分布(高斯分布,误差分布)(Normal distribution)

生物统计——离散/连续型随机变量与常见分布_第11张图片
image
  • 正态分布的3sigma法则:1sigma 68.3%,2sigma 95%,3sigma 99%的面积。

  • 对应boxplot:中位数,Q1下四分数点,Q3上四分数点,IQR,Q1-1.5IQR,Q3+1.5IQR,超过为离群点。2.698sigma已包含98%以上的数

    生物统计——离散/连续型随机变量与常见分布_第12张图片
    image

  • 若影响某一数量指标的随机因素很多,而每个因素所起的作用都不大,则这个指标就服从正态分布。

  • 正态分布的加和也服从正态分布。

4. 大数定律 和 中心极限定理

大数定律:随机变量的平均值能够收敛到期望值。

中心极限定理:大量随机变量的加和之后的分布再某些条件下是逼近正态分布的。

你可能感兴趣的:(生物统计——离散/连续型随机变量与常见分布)