转录组质控

质控过滤软件有cutadapte trimmomatic trim_galore fastp 等,在选择对数据处理的软件时,要根据质控结果选择最优的。

刚开始对转录组原始数据进行处理时,用了trim_galore,这个相较于cutadapter trimmomatic代码相对简单,我用到它的代码参数如下:trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o $dir $fq1 $fq2。参数:--phred33(illumina1.9)和64(illumina1.5);-q控制的质量分数阈值;-length是丢弃小于此长度的读段;-stringency和接头序列重叠修剪的序列。

我的clean数据质控后,per sequence quality content及sequence duplication levels不合格,因此我选择fastp 进行处理,查看fastqc质控结果,per sequence quality content显示前12bp碱基有问题,可能被接头污染,因此用fastp去除前12bp碱基;sequence duplication levels不合格显示重复序列过多,用fastp进行去重,因为其它部分质控结果没有问题,有的参数进行关闭,我的代码如下: fastp -A -L -Q -f 12 -F 12 -D -i FRAS210250522-1r_1.clean.fq.gz -I FRAS210250522-1r_2.clean.fq.gz -o FRAS210250522-1_fastp.fq.gz -O FRAS210250522-2_fastp.fq.gz

参数:-A关掉去接头参数;-L关掉过滤短序列;-Q关掉过滤低质量;-f是去除read1序列首的前12bp;-F是去除read2序列首的前12bp;-t及-T是去除read1和read2序列尾序列(我不需要该参数未列);-D开启去重;-i及-I输入read1和read2文件名;-o和-O输出处理后的read1和read2文件名。

per base sequence content 开头片段出现波动,一般出现在基于转座酶或内切酶的建库方法的测序数据,因为酶识别区域存在一定偏好性,这种情况属于正常。若结尾片段出现波动,可能市接头没有去除干净,可用过滤软件进行修剪。

图:用前 


fastqc 处理前

图:fastp去除前12bp及去重后,fastqc数据及格


虽然数据正常可用了,但是因为不确定重复是由于PCR扩增引起,因此暂时不做处理。

去重软件还有以下:samtools rmdup/sambamba markdup -r/picard

你可能感兴趣的:(转录组质控)