随机变量
离散型随机变量
它全部可能取到的不相同的值是有限个或可列无限多个,也可以说概率1以一定的规律分布在各个可能值上。这种随机变量称为"离散型随机变量"。
能按一定次序一一列出,其值域为一个或若干个有限或无限区间,这样的随机变量称为离散型随机变量。离散型随机变量与连续型随机变量也是由随机变量取值范围(或说成取值的形式)确定,变量取值只能取离散型的自然数,就是离散型随机变量。
实例
比如,一次掷20个硬币,k个硬币正面朝上,
k是随机变量,
k的取值只能是自然数0,1,2,…,20,而不能取小数3.5、无理数√20……
因而k是离散型随机变量
再比如,掷一个骰子,令X为掷出的结果,则只会有1,2,3,4,5,6这六种结果,而掷出3.3333是不可能的。
因而X也是离散型随机变量
几何分布
定义:重复进行随机事件,直到事件发生为止才停下(探究的是第几次获得成功)。X为首次发生时共做的事件的次数。每次发生的概率均为p,则X~G(p)
伯努利试验:伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。比如将考试成绩判定为合格或不合格 、生男孩或者生女孩、投掷硬币为正面或反面等等。每一次试验的结果只有两种可能,并且每次试验的结果之间相互独立,互不干扰。比如A及格与B能否及格没有关系。
期望:是指实验中每个可能出现的结果乘以其概率的总和,反应随机变量平均取值的大小,即在多次试验的情况下预测能取得的结果。
二项分布
定义:在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)。
假设试验成功的概率为p,除了成功就是失败,没有中间地带,所以失败的概率为1-p,设为q。现在进行这个试验,假设这个试验进行了n次,有r次获得了成功。可以用公式表示如下:
期望与方差
几何分布探究的是第几次获得成功,而二项分布探究的是获得成功的次数
泊松分布
定义:泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。
假设r为给定区间内时间/空间的发生次数。参数λ为每个区间内平均发生次数,或者称为发生率 。可用公式表示如下:
期望和方差:
期望:如果X~po(λ),那么E(x)=λ
方差:如果X~po(λ),那么Var(x)=λ
次数过多的二项分布使用泊松分布求解:
二项分布的期望E(r)=np,方差Var(r)=npq,而泊松分布的期望和方差均为λ。此时我们需要这两种分布的期望和方差相近似,即np与npq近似相等的情况 。
由以上可知,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≥20,p≤0.05时,就可以用泊松公式近似得计算。
连续型随机变量
连续型随机变量是指如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机变量。
如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量。
实例
比如,公共汽车每15分钟一班,某人在站台等车时间x是个随机变量,
x的取值范围是[0,15),它是一个区间,从理论上说在这个区间内可取任一实数3分钟、5分钟7毫秒、7√2分钟,在这十五分钟的时间轴上任取一点,都可能是等车的时间,因而称这随机变量是连续型随机变量
离散型随机变量 与 连续型随机变量 的不同
如上图中离散型概率分布图所示,离散型概率分布是由若干垂直于x轴的柱形组成。柱形与x轴的交点表示可能发生的结果,顶端对应y轴的值表示该结果发生的概率。常见的离散型概率分布包括几何分布、二项分布和泊松分布等。
如上图中连续型概率分布图所示,因为事件的结果可以在x轴上的任意一点取值,所以连续型概率分布是一条连续的曲线。与离散型概率分布不同,表示连续型概率分布的概率为概率密度,只有取x轴的一段区间,才能得到对应事件发生的概率。即对x1-x2的区间,对应的概率为该区间曲线下方面积的积分。常见的连续型概率分布包括正态分布、均匀分布等。
正态分布
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
正态分布中一些值得注意的量:
- 密度函数关于平均值对称
- 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
- 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
- 95.449974%的面积在平均数左右两个标准差的范围内。
- 99.730020%的面积在平均数左右三个标准差的范围内。
- 99.993666%的面积在平均数左右四个标准差的范围内。
- 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置。
差异分析
异分析就是分析两组数据是否有差异。比如,北方人的身高是否显著高于南方人的身高?这就涉及到“显著”的定义了。何为显著?高2公分为显著,还是高5公分才为显著?这当然要用统计学来说话。通常的做法是对两组数据的差异倍数进行统计学检验,得到的P value达到某个阈值,则为显著差异。在转录组的基因差异表达分析中,一般的筛选标准是基因表达差异倍数大于2、并且FDR≤0.05为显著差异的基因。当然这个标准也可以根据实际数据调整,如差异倍数下调为1.5、FDR≤0.01等。
方差齐性
也就是方差相等,在t检验和方差分析中,都需要满足这一前提条件。在两组和多组比较中,方差齐性的意思很容易理解,无非就是比较各组的方差大小,看看各组的方差是不是差不多大小,如果差别太大,就认为是方差不齐,或方差不等。如果差别不大,就认为方差齐性或方差相等。当然,这种所谓的差别大或小,需要统计学的检验,所以就有了方差齐性检验。
正态分布检验
在t检验和方差分析中,要求样本是来自正态分布的样本。以此为前提才可以对样本的均值进行统计检验。检验的目的是判断这两个样本是否来自于同一个总体的随机抽样结果还是来自完全不同的样本。另外需要注意的是,如果样本量大于30,此时样本的均值也近似服从正态分布,这是我们也可以使用t检验
参数检验和非参数检验
参数检验和非参数检验的区别:
1 参数检验是针对参数做的假设,非参数检验是针对总体分布情况做的假设,这个是区分参数检验和非参数检验的一个重要特征。例如两样本比较的t 检验是判断两样本分别代表的总体的均值是否具有差异,属于参数检验。而两样本比较的秩和检验(wilcoxcon 检验及Mann-Whitney 检验)是判断两样本分别代表的总体的位置有无差别(即两总体的变量值有无倾向性的未知偏离),自然属于非参数检验。
2 二者的根本区别在于参数检验要利用到总体的信息(总体分布、总体的一些参数特征如方差),以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息(总体分布、总体的一些参数特征如方差),以样本信息对总体分布作出推断。
3,参数检验只能用于等距数据和比例数据,非参数检验主要用于记数数据。也可用于等距和比例数据,但精确性就会降低。
T检验
(student t检验)是应用t分布的特征,将t作为检验的统计量来进行统计推断方法。它对样本要求较小(例如n<30)。
主要用途:
- 样本均数与总体均数的差异比较
- 两样本均数的差异比较
- 单样本t检验
单样本t检验主要用于判断样本均数与总体均数是否存在显著差异。
适用条件
- 已知一个总体均数
- 已知一个样本均数及该样本标准差
- 样本正态分布或近似正态总体
实际应用中,当数据量足够大时,对样本正态分布要求不再严格。只要数据分布不是严重偏态,一般来说单样本t检验都是适用的。
独立样本t检验
独立样本t检验主要检验两个样本均数及其所代表的总体之间差异是否显著。
适用条件
- 独立性,各观察值之间相关独立
- 正态性,各样本均来自正态分布的总体
- 方差齐性,各样本所在总体的方差相等(方差齐性检验之后,才可进行独立样本t检验。)
配对样本t检验
配对样本t检验同样检验两个样本均数及其所代表的总体之间差异是否显著。
独立样本t检验与配对样本t检验同属于双样本t检验,不同点在于配对样本t检验要求两个样本之间存在某些配对关系。
常见配对关系:
- 同一样本两种不同处理方法的检验结果
- 同一样本前后时间点的检验结果
适用条件:正态性
方差检验
方差分析(analysis of variance ,ANOVA)就是通过检验多组总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
为了分析分类型自变量对数值型因变量的影响,需要分析数据误差的来源。
因素的不同水平下的均值会有差异,但这种差异有可能是由抽样误差带来的,所以需要检验这种差异是否显著。虽然我们感兴趣的是均值,但我们在判断时需要借助于方差(构造检验统计量),这也是方差分析这一名称的来源。
卡方检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
适用条件:
- 所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验.
- 如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验.
- 如果有理论数T<1或n<40,则用Fisher’s检验.
秩和检验
秩和检验是对原假设的非参数检验,在不需要假设两个样本空间都为正态分布的情况下,测试它们的分布是否完全相同。
R做差异分析
目前常用差异分析的R包有edgeR、limma、DESeq2
1.limma包做差异分析要求数据满足正态分布或近似正态分布,如基因芯片、TPM格式的高通量测序数据。
2.通常认为Count数据不符合正态分布而服从泊松分布。对于count数据来说,用limma包做差异分析,误差较大
3.DESeq2、和 EdgeR都是基于count,然后两个都是NB(negative binomial)但是在估计dispersion parameter的方法上面不一样。
4.limma,edgeR,DESeq2三大包基本是做转录组差异分析的金标准,大多数转录组的文章都是用这三个R包进行差异分析。
5.edgeR差异分析速度快,得到的基因数目比较多,假阳性高(实际不差异,结果差异)。DESeq2差异分析速度慢,得到的基因数目比较少,假阴性高(实际差异,结果不差异)。
6.需要注意的是制作分组信息的因子向量是,因子水平的前后顺序,在R的很多模型中,默认将因子向量的第一个水平看作对照组。
参考
概率和概率分布 - 知乎 (zhihu.com)
离散型概率分布——几何分布 - 知乎 (zhihu.com)
离散型概率分布——二项分布 - 知乎 (zhihu.com)
离散型概率分布——泊松分布 - 知乎 (zhihu.com)
泊松分布的期望和方差推导saltriver的博客-CSDN博客泊松分布方差
随机变量:常见的离散型、连续型随机变量有哪些特点?-鸟哥笔记 (niaogebiji.com)
正态分布(高斯分布)Techblog of HaoWANG的博客-CSDN博客正态分布
差异分析的检验方法 - (jianshu.com)
几种常用的差异分析方法简介weixin_43551076的博客-CSDN博客差异分析
生信工具推荐|差异分析的基本原理及工具使用解读 - 知乎 (zhihu.com)