2021-12-26 测序 TPM

TPM与RPKM和FPKM是相似的,但是其对测序深度和基因长度归一化的顺序不一致,得到的结果也略有差别。

Step 1:对每个基因的长度进行归一化。每个基因的counts数除以其对应基因的长度,得到每kb碱基长度的counts数。

Step 2:对每个样本的测序深度进行归一化。在每个样本中,计算每个样本的reads总数,并将reads总数除以尺度转换因子(考虑到基因总数为4,故除以10而不是100万),得到每百万变换因子。再将基因长度归一化后的基因counts数值除以每百万尺度变换因子,得到测序深度归一化后的counts数据。

例如gene A在样本rep1 中的TPM: 5/1.5=3.33

1.3 RPKM与TPM的比较

RPKM与TPM均较正了测序深度和基因长度对基因counts数的影响,但是得到的每个样本的总reads数不一样。例如在RPKM结果中,rep1、rep2和rep3的reads总数分别为4.29、4.5和4.25;而在TPM结果中,rep1、rep2和rep3的reads总数均为10。

两者的计算方式稍微有些区别

TPM先归一化基因,再用这个数除以(得到基因归一化的counts数除以百万)得到后的值除以百万


所以先是 counts数除以基因长度得到每一个基因的标准化(a,b,c,d)

这个时候在用此值scale, a/一百万,b/一百万,c/一百万。d/一百万

他的和是(四个数相加)相当于[ a/(a+b+c+d)]*100万,自最终得到结果

最后得到的结果值是1百万

每一个counts除以对应的基因长度,得到的值对样本进行归一化 即列和除以100万

然后再用每一个基因标准化的值除以归一化的值

这样就可以看counts/gene_lenth

counts/gene_lenth+....相加得到一个和,因为基因的数目,所以用一百万标准化,得到一个统一的值

然后第一步 counts/gen_lenth除以标准化的值得到,,列和就是一百万

你可能感兴趣的:(2021-12-26 测序 TPM)