二代测序数据下机后一般为rawdata，这时候含有一些低质量测序数据和街头污染数据，我们要将低质量数据过滤掉获得cleandata用于后续分析；

本过程涉及到的软件

Fastqc(用于测序数据质控)，
MultiQC（用于质控结果整合和解读）
Trimmomatic（用于测序数据修剪和过滤）

软件说明文档地址：

  Fastqc：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/  （依赖java）
   '''安装：conda install -c bioconda fastqc'''

  MultiQC：https://multiqc.info/  （依赖python 2.7或3.6都可以）
 '''安装：conda install -c bioconda -c conda-forge multiqc'''

  Trimmomatic：http://www.usadellab.org/cms/index.php?page=trimmomatic
  '''安装：conda install -c bioconda Trimmomatic'''

利用fastqc对测序数据进行质控

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]seqfile1 .. seqfileN

       -o      用来指定输出文件的所在目录，生成的报告的文件名是根据输入来定的，注意是不能自动新建目录的。
                输出的结果是.zip文件，默认自动解压缩，命令里加上--noextract则不解压缩。

        -f      用来强制指定输入文件格式，默认自动检测。

        --(no)extract 输出结果是.gzip文件，默认是自动解压缩

          -c      污染物选项，输入的是一个文件，格式是Name[Tab] Sequence，
                “#”开头的行是注释，里面是可能的污染序列，如果有这个选项，FastQC会在计算时候评估污染的情况，并在统计的时候进行分析。

          -q      会进入沉默模式，指定这个选项的时候，程序不会实时报告运行的状况，即不出现下面的提示：
                             Startedanalysis of target.fq
                            Approx5% complete for target.fq
                            Approx10% complete for target.fq

fastqc运行结果图：

image.png

运行结束后，每个fq.gz文件会产生两个文件，一个是zip压缩文件，一个是html文件，将所有样品的文件转移到新的文件夹中。
如，可以将所有的zip文件和html文件转移到名字为fastqc的文件夹中。

mkdir fastqc          ##新建一个fastqc文件夹
 mv *.zip ./fastqc/      ##将所有zip结尾的文件转移到新建的fastqc文件夹中
 mv *.html ./fastqc/   ##将所有html结尾的文件转移到新建的fastqc文件夹中

利用multiQC整合fastqc数据质控结果

 cd ./fastqc/             ##进入新建的fastqc文件夹（包含了所有的质控结果文件，包括html和zip）
     multiqc ./                  ##运行multiqc整合质控结果会产生两个新的文件，multiqc_report.html文件和multiqc_data文件夹
       #通过html文件就可以查看结果了

image.png

根据multiqc整合结果分析测序数据质量

利用 Trimmomatic对数据进行修剪

从上图可以看出，前15个碱基含量分布异常，
因此我们要将前15个碱基修剪掉，同时过滤掉低质量数据（）

trimmomatic  PE  -threads 12  AA_1B_1.fq.gz AA_1B_2.fq.gz  \
 AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz \
 AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz \
HEADCROP:15 MINLEN:50 TOPHRED33

##PE是pair-end
## -threads 12 使用12线程
## AA_1B_1.fq.gz AA_1B_2.fq.gz两个输入文件PE
## AA_1B_P_R1.fq.gz AA_1B_U_R1.fq.gz      R1输出文件，P为保留的paired内容，U为unpaired内容，P可以看做PE的cleandata了
## AA_1B_P_R2.fq.gz AA_1B_U_R2.fq.gz      R2输出文件，P为保留的paired内容，U为unpaired内容
## HEADCROP:15 ：切掉5‘端15bp
##MINLEN:50 ：过滤掉修剪完成后长度小于50的序列
##TOPHRED33：将质量值转换为PHRED33

2020-01-21 测序数据的质控和过滤

本过程涉及到的软件

软件说明文档地址：

利用fastqc对测序数据进行质控

利用multiQC整合fastqc数据质控结果

利用 Trimmomatic对数据进行修剪

你可能感兴趣的:(2020-01-21 测序数据的质控和过滤)