测序数据上游分析--质量控制

感谢小学学!


测序原理:

将基因打断成片段reads;每段reads一端连接不同的UMI做为标识;PCR;测序

uniquely mapped reads:reads的唯一性由UMI和map位置共同确定

PCR duplicates:pcr后,UMI相同且map位置相同的reads会扩增很多条,去duplicates就是,仅保留一条,去除由于PCR效率不同导致的差别

基因表达量=sum(去除duplicates后的uniquely mapped reads)

expression A = read1 + read2 +read3

expression B = reada + readb +readc +readd +reade

影响分析的因素:

文库大小的影响:文库越大,细胞越多,含有的geneA绝对值就越多

基因长度影响:基因越长,打断后的reads就越多,相加值就越大

测序深度影响:相当于PCR效率不同带来的影响

为什么要PCR:对于chipseq、singlecellseq、atacseq细胞量少,测序时信号非常低,无法检测到,送测前PCR是为了扩大信号。

去duplicates是去除PCR的影响,效果相当于收获样本打成片段后直接测序。

去除文库大小影响,就是去除不同批次收样细胞量不同的影响,效果相当于每次都收获相同量的细胞进行测序

常规RNAseq数据标准化步骤:

counts矩阵,行为sample,列为gene

方法1:

exprSet=mean(colSums(exprSet))*exprSet/colSums(exprSet)

exprSet=log2(exprSet+1)

方法2:TMM(edgr+limma包)

注意:(1)方法1结果全为正,方法2会出现负值;(2)方法1中,当不同批次送样,或同批次但不同lane(没有混样)时需要消除批次效应(具体步骤上网找。方法2包含了去批次处理,不需再去批次。

你可能感兴趣的:(测序数据上游分析--质量控制)