生信课程笔记12-负二项分布与测序

随机变量

随机试验的样本空间为Ω，如果对于每一个样本点ω∈Ω，有一个实数X(ω)与之对应，这样得到一个定义在Ω上的单值函数X=X(ω)，则称X(ω)为随机变量，简记为X。也就是说，随机变量X是一个从Ω到实数域R的函数，它的定义域为Ω，它的值域X(Ω)为R或R的一个子集。通常用X,Y,Z表示随机变量，用x,y,z表示随机变量的取值。引入随机变量是为了将随机试验数量化，便于对其规律性进行研究。

例如，随机将一枚均匀的硬币投掷两次，则样本空间为Ω={++, +-, -+, --}，如果关心得到正面的次数，则可以对结果ω=++, +-, -+, --定义随机变量X(ω)=2,1,1,0。

如果随机变量的值都可以逐个列举出来，则为离散型随机变量。如果随机变量的取值无法逐个列举则为连续型随机变量。只要是能够用我们日常使用的量词度量的取值，比如次数、个数等都是离散型随机变量。如果无法用这些量词度量，取值为某个区间上的值，可以取到小数点2位、3位、甚至无限多位的时候，那么这个变量就是连续型随机变量。

概率函数和概率分布

事件的概率表示了一次试验中某一个结果发生的可能性大小。概率函数，就是用函数的形式来表达概率。概率分布，就是概率的分布，用于表述随机变量取值的概率规律。连续型随机变量的概率函数又叫做概率密度函数；离散型随机变量的概率函数又叫做概率质量函数。

概率分布（probability distribution）描述了随机变量（random variable）在给定范围内可以接受的所有可能的值和似然（all the possible values and likelihoods）。概率分布的形状的影响因素包括平均值（mean or average）、标准差（standard deviation）、偏度（skewness）、峰度（kurtosis）。某些现象数据生成的过程将决定其概率分布，这一过程称为概率密度函数，概率分布描述给定数据生成过程可能值的预期结果。

离散型概率分布包括：伯努利分布、二项分布、几何分布、泊松分布等。

连续型概率分布包括：正态分布、指数分布等。

离散型随机变量：设xi (i=1,2,3,4,5,6)为离散型随机变量X的所有可能取值，事件{X=xi}的概率P{X=xi} = pi (i=1,2,3,4,5,6)。

公式pi = P(X=xi) (i=1,2,3,4,5,6)就是概率函数，自变量（X）是随机变量的取值，因变量（pi）是取值的概率，公式表示了每个取值的概率。从公式上来看，概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6，这代表用概率函数的形式来表示当随机变量取值为1的概率为1/6，一次只能代表一个随机变量的取值。

把所有可能出现的取值和取值的概率全部都列出来，称为离散型随机变量的值分布和值的概率分布列表，即X的分布列（率），常写成表格形式：

概率分布律（law of probability distribution）简称概率律或概率分布。

分布列的性质：非负性：pi≥0；规范性：Σpi=1。

分布函数

分布函数/概率分布函数（probability distribution function），又叫累计概率函数/累积分布函数（cumulative distribution functions，CDFs），是概率函数取值的累加结果。

设X是一个随机变量，对任意实数x，定义F(x)=P (X≤x)为随机变量X的分布函数，且称X服从F(x)，记为X~F(x)。

F(x)是一个普通函数，其定义域为(-∞,+∞)，F(x)的值为事件{X≤x}的概率。

分布函数的性质：单调不减性；规范性（总是从零开始，以100%结束）；右连续性。

连续型随机变量的分布函数F(x)是连续函数。连续型随机变量X 在某一点a的概率P{X=a} = 0，概率为0的事件未必是不可能事件。

对于离散型概率分布，我们关心的是取得一个特定数值的概率；对于连续型概率分布，不可能列举每一个精确数值，更关心一个特定范围的概率。

概率密度函数

连续型随机变量X，分布函数

f(x)称X的概率密度函数或分布密度函数。概率密度函数是分布函数的导函数，概率密度函数的曲线下面积总和为1。

概率密度函数f(x)的性质：非负性：f(x)≥0；规范性。

连续型随机变量的概率分布（continuous）

（1）正态分布（normal distribution）

最常见的概率分布是正态分布，或钟形曲线（bell curve）。

X~N(μ, σ^2)

期望（expected value） E = μ

方差（variance） D = σ^2

标准差（standard deviation）σ

特点：曲线关于x=μ对称；当x=μ时p(x)取得最大值；当x→±∞时，p(x)→0；曲线在x=μ±σ处有拐点；曲线以x轴为渐近线；σ决定曲线的形状，σ越大，曲线越矮平。

（2）标准正态分布（standard normal distribution）

标准正态分布定义为平均值等于0，标准偏差等于1的正态分布。横轴表示(x-μ)/ σ。

（3）指数分布（exponential distribution）

研究的是事件的时间间隔的概率。例如：收到两条微信之间的时间间隔，某视频被播放的时间间隔。

指数分布的特性：无记忆性。比如灯泡的使用寿命服从指数分布，无论它已经使用多长一段时间，只要还没有损坏，它能再使用一段时间t 的概率与一件新产品使用时间t 的概率一样。表示为X~E(λ) 。

（4）均匀分布（uniform probability distribution）

X~U(a, b)

f(x) = 1/(b-a)，a≤x≤b

均值 E = (a+b)/2

方差 D = (b-a)/√12

离散型随机变量的概率分布（discrete）

（1）两点分布

随机变量X只有两个可能的取值a和b，其概率分布为： P{X=a} = p, P{X=b} = 1-p (0

（2）0-1分布/伯努利分布（Bernoulli distribution）

两点分布中a和b取值分别为1和0的特殊情况。伯努利试验是只有两种可能结果（成功p或失败1-p）的单次随机试验。其概率分布为：

P{X=1} = p, P{X=0} = 1-p (0

期望 E = p

方差 D = p(1−p)

（3）二项分布（Binomial distribution）

是n重伯努利试验成功次数的离散概率分布。每一次试验中都有两种互斥的结果，成功的概率为p，失败的概率为（1-p）。每次试验之间独立，互不影响。在n次独立重复试验中，成功出现x次的概率：

称X服从参数为n, p的二项分布，记为X~B(n, p)。

均值 μ = np

方差 σ^2 = np(1-p)

（4）泊松分布（Poisson distribution）

泊松分布适合于描述单位时间（或空间）内随机事件发生的次数（事件发生的次数只能是离散的整数）。如汽车站台的候客人数，机器出现的故障数，自然灾害发生的次数，一块产品上的缺陷数，显微镜下单位分区内的细菌分布数等等。

二项分布中，如果p非常小，并且n非常大，则成为泊松分布。

λ是事件发生的速率，t是时间间隔的长，X是该时间间隔内的事件数。μ表示长度为t的间隔中的平均事件数，那么µ = λt。

X~P(λ)

均值 μ = λ

方差 σ^2 = λ

μ是泊松分布所依赖的唯一参数，μ值越小分布越偏倚，μ=20时分布接近正态分布，μ=50时可以认为呈正态分布。

（5）负二项分布（negative binomial distribution）

每一次试验中都有两种互斥的结果，成功的概率为p，失败的概率为（1-p）。每次试验之间独立，互不影响。重复试验，直到预定的失败数发生r次，那么成功的次数X会服从负二项分布。

X~NB(r, P)

该公式描述的是，在合格率为p的一堆产品中，进行连续有放回的抽样，当抽到r个次品时，停止抽样，此时抽到的正品正好为k个的概率。

RNA-seq数据的分布

进行两组数据间的差异分析，通常可以用方差分析判定两组分布数据间是否存在显著差异，当组间方差大于组内方差，并且统计学显著时，则认为组间处理是可以引起差异的。而在RNA-seq中，问题是实验重复数量很少，counts是非连续的（芯片信号是连续的），这些数据并不符合正态分布。我们面临两个核心问题：基因表达数据适合用什么统计学分布进行差异显著性检验？如何利用少量生物学重复数据估算基因表达的标准差？

从统计学的角度出发，进行差异分析肯定会需要假设检验，通常对于分布已知的数据，运用参数检验结果的假阳性率会更低。转录组数据中，raw count值符合什么样的分布呢？count值本质是reads的数目，是一个非零整数，而且是离散的，其分布肯定也是离散型分布。对于转录组数据，学术界常用的分布包括泊松分布（poisson）和负二项分布（negative binomial）两种。

dispersion指的是离散程度，研究一个数据分布的离散程度，我们常用方差这个指标。对于泊松分布而言，其均值和方差是相等的，但是我们的数据确不符合这样的规律。

横坐标为均值，纵坐标为方差，真实数据的分布是偏离了泊松分布的，方差明显比均值要大。称为over dispersion（过度离散）。因此选择泊松分布分布作为总体的分布是不合理。

在RNA-seq中，技术误差(sampling variability)是满足泊松分布的，因为期望和方差差不多。但是生物学重复之间的误差(biological variability)不能用泊松分布来描述，因为它的方差可能很大，所以要用负二项分布，加了一个额外的误差项。

负二项分布均值是方差的二次函数，方差随着均值的增加而进行二次函数形式的递增。

有三种R包（edgeR，DESeq，baySeq）实现的方法是基于负二项模型的。

测序计数数据的特点包括非正态性、方差对均值的依赖等。将reads计数Kij建模为负二项分布，只是因为目前人们认为reads的分布情况更符合负二项分布。这个负二项分布具有两个参数，均值（mean）μij和离散（dispersion）αi。组内变异由离散参数αi建模，该参数通过Var Kij = μij + αi μij^2描述计数的方差。离散参数αi的准确估计对于差异表达的统计推理至关重要，但是在生物学重复很少时，很难准确计算每个基因表达的离散程度。在DESeq2中，假设平均表达强度相似的基因具有相似的分散性，从而跨基因共享信息，对离散度进行收缩（shrink）。