Analysis of single cell RNA-seq data 学习笔记(五)

今天来介绍单细胞转录组,或者转录组里面,对我们计数所得的count值的标准化方式

CPM

它是直接对count进行标准化,其单位是counts/每百万条,即每个counts值除以总的reads数(主要单位是每百万条)
R codes:

calc_cpm 

与CPM相类似的还有RPKM,FPKM,TPM我在之前的推送有过介绍

RLE(SF)

这类标准化是通过引入size factor(SF)来完成的
这个SF怎么求:
1.计算每个基因在所有细胞内表达量的几何平均数
2.计算每个基因在所有细胞内表达量的中位数
3.SF即为该中位数除以该几何平均数

最后我们每个count值都除以这个SF即可
R codes:

calc_sf  0)]) 
     } 
  norm_factor <- apply(expr_mat[-spikes, ], 2, SF) 
 
return(t(t(expr_mat)/norm_factor)) }

UQ

这个的全称叫做 upperquartile,具体怎么做呢?
首先对每一列(每个细胞)的基因表达量做一个排序,取75%分位数,然后计算每一列(每个细胞)的中位数
最后标准化因子为每一列(每个细胞)的75%分位数除以每一列(每个细胞)中位数
然后把每一个count除以该标准化因子即可

R codes:

calc_uq  0], 0.75) 
   } 
     uq <- unlist(apply(expr_mat[-spikes, ], 2, UQ)) 
     norm_factor <- uq/median(uq) 
 return(t(t(expr_mat)/norm_factor)) }

TMM

这个在单细胞里面并不常用,因为细胞太多了,而常用于普通RNA-seq,我们首先要选取一个样品作为参照,再选取另一个样品作为实验组:

  1. 计算整两组样品中对应基因的log2 FC值,然后进行排序,除去最高的30%和最低的30%的log2 FC 的值
  2. 剩下的log2 FC值求它们的算术平均值,此值即为M_value
  3. 每一个实验组的样品,每个基因乘这个M_value即可

你可能感兴趣的:(Analysis of single cell RNA-seq data 学习笔记(五))