宏基因组分析3-数据质量控制(trimmomatic)

trimmomatic安装

trimmomatic是用JAVA编写的程序,将软件下载解压后就可直接使用

cd /home/llt/software
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip
unzip Trimmomatic-0.38.zip

trimmomatic使用

trimmomatic的用法可以参考官方手册http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf
运行trimmomatic需要制定软件目的。我的原始数据是双端测序生成的,具有上下游两个文件。采用双末端模式运行

java -jar /home/llt/software/Trimmomatic-0.38/trimmomatic-0.38.jar PE -threads 4 /home/llt/test/data/raw/SRR1976948_1.fastq.gz /home/llt/test/data/raw/SRR1976948_2.fastq.gz SRR1976948_1p SRR1976948_1u SRR1976948_2p SRR1976948_2u ILLUMINACLIP:/home/llt/software/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:4:20 LEADING:10 TRAILING:10 MINLEN:100

java -jar /home/llt/software/Trimmomatic-0.38/trimmomatic-0.38.jar , 运行java程序
PE ,双末端模式
-threads 4 ,四线程

/home/llt/test/data/raw/SRR1976948_1.fastq.gz /home/llt/test/data/raw/SRR1976948_2.fastq.gz ,双端测序的两个序列文件

SRR1976948_1p SRR1976948_1u SRR1976948_2p SRR1976948_2u ,四个输出文件:两个成对的 clean data, 未成对的正向序列以及未成对的反向序列

ILLUMINACLIP ,这是用来去除接头的步骤。这部分指定 2 种去接头模式的参数:/home/llt/software/Trimmomatic-0.38/adapters/TruSeq2-PE.fa指明需要匹配的接头文件,2 代表 接头序列与测序序列中可以有 2 个错配,30 代表采用回文模式时匹配得分至少为30 (约50个碱基),10 代表采用简单模式时匹配得分至少为10 (约17 个碱基)

SLIDINGWINDOW:4:20,从 5' 端开始以 4 bp 的窗口计算碱基平均质量,如果此平均值低于 20,则从这个位置截断 read

LEADING:10,从序列的开头开始去掉质量值小于 20 的碱基

TRAILING:10,从序列的末尾开始去掉质量值小于 20 的碱基

MINLEN:100, 如果 reads 长度小于 100 bp 则扔掉整条 read

你可能感兴趣的:(宏基因组分析3-数据质量控制(trimmomatic))