【RNA-Seq 实战】一、数据处理流程

这里是佳奥,终于来到了转录组分析部分,让我们开始吧!

1 数据资源下载,参考基因组及参考转录组

gtf

genome.fa

1.1 确定项目物种

NCBI UCSC Ensembol :三个数据库的ftp服务器

Google搜索: hg38 ftp ucsc

参考基因组网站:


image.png

我选择基因组最小之一的肠杆菌Ciona intestinalis genome


image.png

其中ci3.fa.gz就是我们的目标文件。
   Name                      Last modified      Size  Description      Parent Directory                               -   
      ci3.2bit                  2015-08-06 10:52   34M  
      ci3.agp.gz                2016-01-08 15:13  145K  
      ci3.chrom.sizes           2015-08-06 09:54   33K  
      ci3.chromAlias.txt        2020-09-29 10:48   58K  
      ci3.fa.gz                 2016-01-08 15:13   36M  
      ci3.fa.masked.gz          2016-01-08 15:13   27M  
      ci3.fa.out.gz             2016-01-08 15:13  3.7M  
      ci3.gc5Base.wib           2019-01-17 14:45   22M  
      ci3.gc5Base.wig.gz        2019-01-17 14:45  452K  
      ci3.gc5Base.wigVarStep.gz 2015-08-06 09:56   56M  
      ci3.trf.bed.gz            2016-01-08 15:13   69K  
      est.fa.gz                 2017-05-05 15:32  250M  
      est.fa.gz.md5             2017-05-05 15:32   44   
      genes/                    2020-10-02 13:37    -   
      md5sum.txt                2019-01-17 15:52  652   
      mrna.fa.gz                2017-05-05 13:59  4.6M  
      mrna.fa.gz.md5            2017-05-05 13:59   45   
      refMrna.fa.gz             2017-05-05 15:34  713K  
      refMrna.fa.gz.md5         2017-05-05 15:34   48   
      upstream1000.fa.gz        2016-01-08 15:14  249K  
      upstream2000.fa.gz        2016-01-08 15:14  474K  
      upstream5000.fa.gz        2016-01-08 15:14  1.1M  
      xenoRefMrna.fa.gz         2017-05-05 15:33  298M  
      xenoRefMrna.fa.gz.md5     2017-05-05 15:33   52   

当然看个人习惯,可以直接

wget https://hgdownload.soe.ucsc.edu/goldenPath/ci3/bigZips/ci3.fa.gz

或者在Windows下载后把压缩包上传至Linux(一般这样更快)。

在这之前在Linux新建reference/ci3目录。

看一下下载好的文件:

$ gzip -d ci3.fa.gz
$ less -S ci3.fa
>chr1
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
aaCCCCTAACTGCTAGCCCCTGCCCCcgtaaccaccaacctctaacactt
tccaccagcccaatctgtaacgtaccaagggattcttcactagtgccacA
GTTTCTAATacagaataaacaaaattcacTTAACTTGACCAAACAATATT
CTGCTTTCAACATTATAGAACAACCTACTcactataaaaaaacacatggc
gcctgaaaaatatgtttataaaaacaatatacttATTTCGTatcaaaaac
attcaaaacatATCAATTCAAAACGCAGGCTTTACTAAACTCATTACAAA
ATGCGGCAAATTCAAAGTGAAGAGGTATAGTACCTCGTCTAATCGTTTTA
ATACCTAAAACTTACATACGAAATGAGTATTACCACTTAGCCACTCAAAG
CAAATTGAAATGCGCGCGGCTCGAACCTCAATGGGGTCACGTGACAGGTC
GCGGTCGGCCGATCACGAACAACAGCTGTCGAGAATCGTTTACTACGAAG
CTAAGGGACGTGTCTACTCTGTAGCATTGGGCAGATGCCGTTAGGAAAGT

2 质控,需要fastqc及multiqc

trimmomatic

cutadapt

trim_galore

3 比对

star

hisat2

tophat2

bowtie2

bwa

subread

4 计数

htseq

bedtools

deeptools

5 normalization 归一化,差异分析等

DEseq2

edgeR

limma()

6 小结

这一篇我们梳理了大致的流程,寻找研究对象的参考基因组并下载。

下一篇我们将进入软件安装的内容。

我们下一篇再见!

你可能感兴趣的:(【RNA-Seq 实战】一、数据处理流程)