MaGeck
MaGeck是对CRISPR screen结果进行筛选的软件,差异表达的对象是sgRNA,再对不同sgRNA的结果进行整合,得到差异基因。
1. median-normalized
2. sgRNA mean-variance modeling
参考了edgeR和DeSeq2的方法,使用广义负二项式模型找差异基因。
一般而言,样本间的变异系数(coefficient of variance,CV)是由两部分组成的,一是技术差异(Technical CV),另一个是生物学差异(Biological coefficient of variance,BCV)。前者是会随着测序通量的提升而消失的,而后者则是样本间真实存在的差异。所以,对于一个基因而言,它的BCV在样本间足够大的话,就可以认为基因是一个差异表达基因。但评价离散值时,需要参考均值,因为均值越大一般方差就越大。
在评价时,可以使用以下几种分布:
(1)泊松分布:在泊松分布中,方差和均值相等。如果某个基因的表达值偏离分布模型,那么该基因为差异表达基因。
(2)负二项分布:真实数据的分布偏离泊松分布,方差明显比均值大,edgeR和后期的DeSeq2使用负二项模型NB2:
3. sgRNA ranking by Negative binomial P-value
为condition A拟合负二项分布,再为condition B计算tail probability that the null NB distribution generates a read count that is more extreme than μiB。
利用计算出来的p值,对所有sgRNA进行排序。
4. essential gene identification
在CRISPR screen中,通常一个基因有多于1个的sgRNA,不同sgRNA有不同rank,如何对这些rank进行整合得到一个综合的排序?
基于Robust Rank Aggregation,Mageck做出了改进:
(1) RRA是一种对排名进行整合,获得一个综合性排名列表的算法。
首先将原始排名转换为相对值 -> 计算 p-value ρ_k for the kth smallest value based on the beta distribution (beta distribution: 一组定义在[0,1)
区间的连续概率分布) -> 取其中最小的p值来代表这个基因,称之为rho score: ρ score = min (p_ij) -> 当总的基因数不是很多(~100)的时候,可以使bonferroni校正ρ score,得到的p_adj很接近p值的上界。
(2) 问题:uniformity的假设可能不符合现实
(3) 优化:改进了ρ value的计算
We first select the top ranked α% sgRNAs if their negative binomial P-values are smaller than a threshold (for example, 0.05)
If j of the n sgRNAs targeting a gene are selected, then the modified ρ value is defined as ρ = min(p1,p2, …, pj)
5. enriched pathway identification
- GO/KEGG
参考文献
- MaGeck:MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens
- DeSeq2/edgeR
- Gene expression units explained: RPM, RPKM, FPKM, TPM, DESeq, TMM, SCnorm, GeTMM, and ComBat-Seq
- statquest
- 负二项模型
- 广义典型相关分析广义线性模型(GLM)概述及负二项回归应用举例和R计算weixin_39629467的博客-CSDN博客
- 17. 负二项式模型 — 张振虎的博客 张振虎 文档
- Robust Rank Aggregation
- 「R」Robust Rank Aggregation 算法介绍 - 云+社区 - 腾讯云
- Robust rank aggregation for gene list integration and meta-analysis
- 排名聚合之前的常用算法:[技术博客] 较科学的排名算法介绍与实现 - 提不起劲想赶紧完工 - 博客园
- 博士论文:跨平台芯片数据整合分析挖掘胃癌潜在关键基因构建预后评估模型及其生物学功能研究 2.2.4
- 计算p值方法:数理统计4:均匀分布的参数估计,次序统计量的分布,Beta分布 - 江景景景页 - 博客园