2020-01-21 测序数据的质控和过滤

二代测序数据下机后一般为rawdata,这时候含有一些低质量测序数据和街头污染数据,我们要将低质量数据过滤掉获得cleandata用于后续分析;

本过程涉及到的软件

Fastqc(用于测序数据质控),
MultiQC(用于质控结果整合和解读)
Trimmomatic(用于测序数据修剪和过滤)

软件说明文档地址:

  Fastqc:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/  (依赖java)
   '''安装:conda install -c bioconda fastqc'''

  MultiQC:https://multiqc.info/  (依赖python 2.7或3.6都可以)
 '''安装:conda install -c bioconda -c conda-forge multiqc'''

  Trimmomatic:http://www.usadellab.org/cms/index.php?page=trimmomatic
  '''安装:conda install -c bioconda Trimmomatic'''

利用fastqc对测序数据进行质控

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]seqfile1 .. seqfileN

       -o      用来指定输出文件的所在目录,生成的报告的文件名是根据输入来定的,注意是不能自动新建目录的。
                输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩。

        -f      用来强制指定输入文件格式,默认自动检测。

        --(no)extract 输出结果是.gzip文件,默认是自动解压缩

          -c      污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,
                “#”开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析。

          -q      会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况,即不出现下面的提示:
                             Startedanalysis of target.fq
                            Approx5% complete for target.fq
                            Approx10% complete for target.fq

fastqc运行结果图:


image.png

运行结束后,每个fq.gz文件会产生两个文件,一个是zip压缩文件,一个是html文件,将所有样品的文件转移到新的文件夹中。
如,可以将所有的zip文件和html文件转移到名字为fastqc的文件夹中。

mkdir fastqc          ##新建一个fastqc文件夹
 mv *.zip ./fastqc/      ##将所有zip结尾的文件转移到新建的fastqc文件夹中
 mv *.html ./fastqc/   ##将所有html结尾的文件转移到新建的fastqc文件夹中

利用multiQC整合fastqc数据质控结果

 cd ./fastqc/             ##进入新建的fastqc文件夹(包含了所有的质控结果文件,包括html和zip)
     multiqc ./                  ##运行multiqc整合质控结果会产生两个新的文件,multiqc_report.html文件和multiqc_data文件夹
       #通过html文件就可以查看结果了                            
image.png
image.png

根据multiqc整合结果分析测序数据质量

利用 Trimmomatic对数据进行修剪

从上图可以看出,前15个碱基含量分布异常,
因此我们要将前15个碱基修剪掉,同时过滤掉低质量数据()

trimmomatic  PE  -threads 12  AA_1B_1.fq.gz AA_1B_2.fq.gz  \
 AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz \
 AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz \
HEADCROP:15 MINLEN:50 TOPHRED33

##PE是pair-end
## -threads 12 使用12线程
## AA_1B_1.fq.gz AA_1B_2.fq.gz两个输入文件PE
## AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz      R1输出文件,P为保留的paired内容,U为unpaired内容,P可以看做PE的cleandata了
## AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz      R2输出文件,P为保留的paired内容,U为unpaired内容
## HEADCROP:15 :切掉5‘端15bp
##MINLEN:50 :过滤掉修剪完成后长度小于50的序列
##TOPHRED33:将质量值转换为PHRED33

你可能感兴趣的:(2020-01-21 测序数据的质控和过滤)