lncRNA项目的实战-第三步

响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战,你现在看到的是jimmy的笔记,首发于:https://www.jianshu.com/p/498b8ff29e7e

step3:找到参考基因组

文章里面说的很清楚,物种是 Macaca mulatta ,很容易谷歌搜到它的参考基因组及注释文件 http://asia.ensembl.org/Macaca_mulatta/Info/Index 我比较喜欢ensembl数据库。

ensembl数据库下载参考基因组

Common name: Rhesus monkey , : Taxonomy ID: 9544

可以看到基因组版本是:Genome assembly: Mmul_8.0.1 (GCA_000772875.3),其它信息如下:

Download DNA sequence (FASTA)

Display your data in Ensembl

MMUL_1 (Ensembl release 85)

要仔细看这个readme的介绍,了解参考基因组是如何组装起来的,什么是SM,什么是RM,什么是toplevel, 这些细节问题很重要。

mkdir -p  ~/data/public/lncRNA/ref
cd  ~/data/public/lncRNA/ref
nohup wget -c ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna//Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz & 
nohup wget -c  ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta//cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz & 
nohup wget  -c ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta//ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz & 
nohup wget -c ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta//cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz & 
nohup wget -c  ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta//Macaca_mulatta.Mmul_8.0.1.91.gff3.gz & 
nohup wget -c ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta//Macaca_mulatta.Mmul_8.0.1.91.gtf.gz &

很明显,这个找参考基因组过程体现了一个人数据分析经验与否,而且很容易移植到其它物种的数据分析项目。需要自行理解及探索的文件如下:

├── [ 20M]  Macaca_mulatta.Mmul_8.0.1.91.gff3.gz
├── [ 15M]  Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
├── [ 24M]  Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
├── [ 15M]  Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
├── [882M]  Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz
├── [3.1G]  Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa
├── [1.3M]  Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz

当然,在中国大陆的朋友,可以喜欢这个链接;https://asia.ensembl.org/info/data/ftp/index.html

Crab-eating macaque Macaca fascicularis
Macaque Macaca mulatta
Pig-tailed macaque Macaca nemestrina

这些小细节一定要看清楚咯,到底是什么猴子!

然后作者还下载了 9325, 20,785, 141,353, and 117,405 lncRNAs specific for macaque, gorilla, human, and mouse, respectively, from the NONCODE database , 这里我就先不讲解,大家可以自行摸索一下NONCODE数据库。

有点诡异的是作者选用了 2007年发表在science杂志的macaque genome,不过不要紧,我们还是选择ensembl数据库的最新版参考基因组及注释文件。

你可能感兴趣的:(lncRNA项目的实战-第三步)