RNA-seq选择参考基因组

RNA-seq分析,参考基因组的选择其实也是有学问的,这是个容易被忽略的问题。
例子:
小鼠RNAseq
首先,获取小鼠基因组序列,一般基因组数据库有:
UCSC的genome data
NCBI的Genomes
Ensembl
但是,需要注意的是,不管哪一个数据库,关于小鼠基因组序列,除了很熟悉的组装的染色体序列(例如,UCSC,chrN.fa);还有一些序列,现在只是知道它属于那一条染色体,并不能在染色体上定位(例如,UCSC,chrN_random.fa);这还不算完,全基因组测序从来都不是个简单的事情,总有一些序列(例如,UCSC,chrUn_random.fa)你测不完整以及测完了也并不一定可以正确的找到他属于那一条染色体。
随便想一下就知道,基因组如此之多碱基对,其根本组成无非就那几个;生物进化过程中,各种染色体结构变异使得碱基序列各种变化。
现在进去正题,我们需要想一下,那我们参考基因组怎么选择?
两个方案:
1)组装的染色体序列+线粒体DNA序列,植物还得加上叶绿体DNA序列,整合成基因组参考序列。
有问题来了,RNAseq是整个细胞的RNA,属于无法正确在染色体定位和无法定位到特定染色体的reads就出事故了,要么丢了,要么匹配到染色体其它位置了。咋办?
不用着急。首先大家可以看一下,其实我们丢掉的那部分序列相对于我们组装的染色体来讲是相当小了;后面,mapping结果还可以根据reads的mapping qulity和read count数量滤掉匹配不好的reads。这儿,reads的过滤,根据自己实际情况设定阈值。
2)所有序列组合在一起组成基因组参考序列,放在一起分析,比较省事,后面根据分析想要那部分结果,自己忽略其它的结果就万事大吉。
好啦,说几句官话。分析时还得根据自己实际情况具体分析,比如mapping qulity的设定,不需要特别高,要知道RNAseq是反转录的数据,不可能没错误的;并且选择基因组参考序列时,要知道你要干嘛?哦,只是想对基因或者外显子表达定量,还是想发现新的转录本之类的。说这么多,还是直接上手吧。

你可能感兴趣的:(RNA-seq选择参考基因组)