转录组数据分析——从前期质量控制到mapping

1,拿到原始数据后,首先用软件 FastQC 看一下数据质量

得到html文件,打开后如图

转录组数据分析——从前期质量控制到mapping_第1张图片

如图红叉部分是我们进行质量控制的关键,如Per base sequence content,现在是这样的

转录组数据分析——从前期质量控制到mapping_第2张图片

此处需要处理,方法是trim掉前15bp。

又如Adapter Content,现在是这样

转录组数据分析——从前期质量控制到mapping_第3张图片

需要去接头

2,clear reads ,处理reads不是一步完成,正对FastQC的结果,我们需要切掉reads左端15bp,使用软件是

NGSQCToolkit_v2.3.3中的   Trimming    /    TrimmingReads.pl   ,命令如下

nohup perl /home/software/NGSQCToolkit_v2.3.3/Trimming/TrimmingReads.pl -i Sample_gen_20160524_GTGAAA_L001_R1.fastq  -l 15 -n 25  &

然后去点接头,软件是trim_galore ,该软件需要调用FastQC和cutadapt ,需要提前装好

命令如下

perl /public/software/trim_galore_zip/trim_galore -q 25 --stringency 5 --dont_gzip --fastqc --retain_unpaired -r1 31 -r2 31 --length 30 -o ./ --paired   
--phred33 -a adaptor1 -a2 AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT *_R1.fastq.gz *_R2.fastq.gz
其中adaptor1 为3'端引物,通常不同组织样有自己对应的引物,公司提供的word里面都附带的有,此处执行命令是需要在该序列前添加A,不然程序会提醒adaptor不完整
a2后面的其实是5'端引物的反向互补序列

3,这两步处理完后可以再次用FastQC看一下质量,没啥问题就继续往下做

如果你还需要做其他质量控制,参见点击打开链接

4,mapping,软件是tophat2,(有基因组)

命令如下 

nohup /home/lixiangyong/software/tophat/tophat2 -p 2 -G /data/plant_genome/Lj3.0/Lj3.0_gene.gtf   -o tophat_output /data/plant_genome/Lj3.0/Lj3.0_genome  root20d_R1.fa root20d_R2.fa &

此处你需要有比对物种的基因组序列  /data/plant_genome/Lj3.0/Lj3.0_gene.gtf

还需要用bowtie2做index.参考命令如下

bowtie2-build genome.fa genome
会生成bt2为后缀的文件

此处参考博文

点击打开链接

最后mapping完后查看 align_summary.txt ,里面有mapping的信息



你可能感兴趣的:(转录组数据分析——从前期质量控制到mapping)