RNAseq分析如何选择参考基因组和 gtf

转自：https://mp.weixin.qq.com/s/Yt9HwCrvsz4gAkieTWYjRQ

最近在做人类的转录组分析，发现人类基因组的序列版本和注释版本真的种类繁多，让人眼花缭乱。怎么选？笔者查阅了一些资料，尝试理理清楚，如有纰漏，还望指正。

太长不看版

强调可重复性和稳健-用RefGene；
希望得到更多的信息，进行更具探索性的研究，选用Ensembl版本。对于Ensembl，序列选择primary_assembly，gtf/gff3选择primary_assembly对应的.gtf（用chr_patch_hapl_scaff.gtf也无妨）

正文

下载人类基因组信息有三大去处，ensembl、RefSeq（NCBI）和UCSC。ensembl、RefSeq（NCBI）和UCSC下载的同一版本的DNA序列是一样的，目前比较常用的有hg19、hg38、GRCh37、GRCh38，其中hg系列是UCSC的叫法，GRCh系列是NCBI和ENSEMBL的叫法。这些都属于genome builds，也就是基因序列，同一版本的序列是一样的（其中hg19对应GRCh37，hg38对应GRCh38），比如hg38和GRCh38的序列就是一样的。同一系列，序号大的是序号小的升级版，比如GRCh38是GRCh37的更新版。

ensembl、RefSeq（NCBI）和UCSC下载的同一版本的DNA序列虽然是一样的，但是它们的注释是不同的，更新频率也不一样。NCBI 的注释是“ refseq”数据集(UCSC 的”refGene” track)， UCSC 和 ensemble 注释都将其作为其中一个子集。而UCSC 的注释比较混乱。同样ID的基因会出现在不同链或不同染色体位置上。Ensembl的注释通常比UCSC更多(所以噪音更多一点) ，但是它们的ID处理的比较好，不会像UCSC的那么混乱，因此，它们的 ID 通常更容易转换成别的(例如，基因名称、GO和pathway)。Ensembl还经常更新它的注释，更新一次作为一个版本发布，因此可以方便地告诉别人你使用的版本，增强分析的可重复性。

Ensembl的注释噪音多怎么理解呢？有哪些潜在的影响呢？
以ensembl release-74版本为例，尽管其包含63,677个基因注释条目，但只有22,810个条目(大约三分之一)是蛋白编码基因。有17,057个条目是不同类型的 rna，包括 rRNA (566)、snoRNA (1549) 、snRNA (2067)、miRNA (3361) 、misc_rna (2174)和 lincRNA (7340)。ensemble还包含了15,583个假基因。对于大多数RNA-Seq 测序，一般只有富集和测序mRNAs，一般不会比对到诸如 miRNAs 或 lincRNAs 之类的RNA上。R74基因组包含819个经过逆转录产生的转录本，这些转录本是通过逆转录产生的，随后又重新整合到基因组中，这些转录本通常是表达不活跃的。在这种情况下，mRNA产生的reads，尤其是junction reads，可能比对到甚至唯一比对到这种“处理过的转录本”上。因此，该基因的mRNA的真实表达量可能被低估了。使用更全面的注释数据库的另一个缺点是p值，因为原始p值的需要多重校验。而多重校验后的p值的大小主要取决于模型中基因的数量。如果感兴趣的基因在不同的注释中定义不一致，建议使用不同的基因注释模型分析 RNA-Seq 的数据。

总的来说，可以遵循这么一个原则：当进行强调可重复性和稳健的基因表达估计的研究时（比如使用RNAseq来作为芯片分析的替代的时候），优先选较为简单的基因组注释，如 RefGene。但较为简单的基因组注释可能不利于识别或描述新的转录或调控机制。因此，当进行更具探索性的研究时，更全面的注释更优，比如选择Ensembl。而UCSC，emmmm不太建议使用。

而常用的比对软件STAR的manual是这么建议的：使用注释最全面的。

图片

那假如我选择了Ensembl，那么多种基因组序列又有什么区别？sm、rm有什么区别？alt、dna.toplevel、primary_assembly怎么选，对于gtf/gff3，以gtf为例，abinitio.gtf、chr.gtf、
chr_patch_hapl_scaff.gtf、gtf又该怎么选？

根据我的好友“面面的徐爷”的学习笔记：

首先根据组装的不同分为：

toplevel - Includes haplotype information (not sure how aligners deal with this)
primary_assembly - Single reference base per position

其实根据对序列的处理不同分为：

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
dna_rm - Repeats masked (converts repeats to to N’s)
dna - No masking

结论1：选dna或者dna_ssm都可以，不选dna_rm。

标记重复的基因组会用N代替重复区域，而这就给后续的比对带来很大的问题。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组，但是以小写的形式存在的，故对比对没有影响。

结论2：选primary版本，不选toplevel。toplevel包含了单倍体型（ haplotypes）和patch（补丁？不太理解是什么）的信息，而单倍体型的信息会使得比对软件很难处理好。如果用BWA，那么使用toplevel会有好处，但如果使用STAR/hisat2/bowtie2/BBmap等，包含单倍体型信息会导致比对结果不准确。

来自比对软件STAR的推荐：.dna.primary assembly。

图片

选好了基因组，gtf/gff3的问题也迎刃而解——选择对应的版本就好了。

.gtf: 默认文件，对应primary assembly.fa（This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.）
.chr.gtf: Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).
.chr_patch_hapl_scaff:对应toplevel。（Contains all annotation on all toplevel sequences, including patch and haplotype regions. It should only exist for human and mouse）如果你用的是primary选这个gtf文件也没什么关系，只是多了一些primary没有的注释信息而已。
.abinitio.gtf：基于.gtf增加了使用Genscan等工具得到的一些注释信息（Additionally, we provide a GTF file containing the predicted gene set
as generated by Genscan and other abinitio prediction tools.
This file is identified by the abinitio extension.）

另外，需要注意的是不同的来源的基因组序列名称不一样，例如1号染色体，在 UCSC 中是 chr1，而在 Ensembl是1 ，因此不管你选择哪个版本，在使用的时候，序列和注释要统一（UCSC的基因组序列需要对应使用UCSC的gtf/gff3注释文件，Ensembl则对应使用其同一版本对应的gtf/gff3注释文件）。

参考资料

Po-Yen Wu, John H. Phan, and May D. Wang, “Assessing the Impact of Human Genome Annotation Choice on RNA-Seq Expression Estimates,” BMC Bioinformatics 14 Suppl 11 (2013): S8, https://doi.org/10.1186/1471-2105-14-S11-S8.
Shanrong Zhao and Baohong Zhang, “A Comprehensive Evaluation of Ensembl, RefSeq, and UCSC Annotations in the Context of RNA-Seq Read Mapping and Gene Quantification,” BMC Genomics 16, no. 1 (February 18, 2015), https://doi.org/10.1186/s12864-015-1308-8
hg19 (GRCh37) vs. hg38 (GRCh38) - DTL Data：http://www.doc88.com/p-9512305171300.html
biostars-Question: GRCh37/38(NCBI) vs hg19/hg38(UCSC)：https://www.biostars.org/p/113100/
高通量测序数据处理学习记录（零）：NGS分析如何选择合适的参考基因组和注释文件：https://www.jianshu.com/p/58decf8fb6d6
What Ensembl genome version should I use for alignments? (e.g. toplevel.fa vs. primary_assembly.fa)：https://bioinformatics.stackexchange.com/questions/540/what-ensembl-genome-version-should-i-use-for-alignments-e-g-toplevel-fa-vs-p
ensembl release-84 gff3的README：ftp://ftp.ensembl.org/pub/release-84/gff3/homo_sapiens/README

Gencode最新版就是Ensembl上的默认注释，它们都是EMBL-EBI家的

RNAseq分析如何选择 参考基因组 和 gtf

太长不看版

正文

参考资料

你可能感兴趣的:(RNAseq分析如何选择 参考基因组 和 gtf)

RNAseq分析如何选择参考基因组和 gtf

你可能感兴趣的:(RNAseq分析如何选择参考基因组和 gtf)