fastp—数据过滤&质控

一、fastp的安装及使用

1）conda安装：conda install fastp
2）源代码安装：软件下载地址 https://github.com/OpenGene/fastp#get-fastp

#从GitHub下载源代码（也可下载后上传）
git clone https://github.com/OpenGene/fastp.git
ubzip fastp-master.zip
cd fastp-master
#编译
make
sudo make install（需sudo权限）

二、常见用法

过滤

1）质量过滤 : -q/--qualified_quality_pherd 高于此值才算数，默认15；-u/--unquantified_percent_limit允许unqualified的碱基百分比，默认40%
2）长度过滤：长度过滤默认开启，可通过-L取消，-l/--length_required定义需要的最短长度，默认为15；--length_limit定义接受的最长长度，默认为0表示没有限制
3）低复杂度过滤：默认不开启，可通过-y开启，通过-Y定义过滤条件

Adapter

1）SE数据：-a
2）PE数据：--adapter_sequence指定read1的adapter序列 --adapter_sequence_r2指定read2的adapter序列；也可以--detect_adapter_for_pe开启illumina系列adapter自动检测功能

per read cutting by quality score

目前数据illumina测序质量较好，该功能一般用不上，可参考https://github.com/OpenGene/fastp#get-fastp

global trimming

从序列开头或结尾去除一定数量的碱基：
-f/--trim_front1表示从read1的开头去除，-t/--trim_tail1从read1的尾部去除；-F -T则分别表示从read2去除
-b/--max_len1 表示read1经trim之后最长的长度 -B则指read2的相应情况

polyX trimming

-x/--trim_poly_x实现polyX的去除，默认长度为10
--poly_x_min_len指定polyX的长度，默认为10

unique molecular identifier(UMI) processing

常用于duplication的消除和错误纠正，常用于如线粒体DNA等深度测序，普遍用于illumina平台，可分为index和read两部分，使用-U/--umi来开启此功能，--umi_loc指定UMI的位置如index1 index2 read1 read2，若UMI指定在read上，则--umi_len用于指定UMI的长度

UMI示例.png

个人常用代码fastp -f 10 -F 10 --detect_adapter_for_pe -x -i R1.fq.gz -I R2.fq.gz -o R1.out.fq.gz -O R2.out.fq.gz
其优缺点个人总结如下：
优点：
1）集质控和数据过滤于一体，使用方便
2）在序列trim方面处理速度远快于cutadapt等
3）可实现polyx的除去
缺点：
1）大部分参数使用较麻烦，不能直接用单字母实现功能
2）生成的fastp文件不会根据处理的样品自动命名，需手动依次更改

在质控方面，与fastqc相比，其在计算duplication level和overrepresented sequence上的统计略有不同，统计结果的呈现方面也不如fastqc直观（可能由于使用习惯导致）。且fastqc的报告文件可由multiqc进行统计，fastp不知是否也可以？

2019-02-19