StringTie在注释基因组时的注意事项

在利用RNA-seq注释基因组时,有一个问题就是,我将不同组织来源的转录组数据和参考基因组比对之后,那下一步是1)先将这三个比对结果进行合并,然后用StringTie进行预测,还是2)用StringTie分别进行预测,然后用StringTie的merge模式进行合并?

这个问题的提出,是我采取第二种方式时,发现合并后的基因数减少,觉得哪里不太对劲,于是用IGV检查了不同分析策略的结果,

结论如下:

StringTie 的merge模式能够合并不同的来源的结果,但在合并的同时会根据FPKM,TPM和转录本长度过滤,最终结果可以认为是在所有样本里面都是有所表达的基因,因此最终的数目会少一些。同时由于某些基因表达量低,单个样本里由于read数少无法覆盖基因,因此最终的预测结构还完整。

因此,需要先将BAM合并后,然后进行预测,如果为了输出结果的可靠性,还可以根据FPKM和TPM做过滤。

你可能感兴趣的:(StringTie在注释基因组时的注意事项)