【生信】cutadapt①基本使用方法

【生信】cutadapt①基本使用方法

cutadapt能够查找并去除接头(adapter),测序引物(primer),poly-A tail,能多种方法裁剪reads中不想要的序列。

本文全部参考cutadapt的官方教程和原始文章DOI:10.14806/ej.17.1.200。

cutadapt学习进阶:
①基本使用方法
②接头种类汇总
③双端测序数据处理
④多接头处理


cutadapt最基本用法

已知测序数据3'接头,给定测序文件,直接使用如下脚本:

cutadapt -a AACCGGTT -o output.fastq input.fastq  (推荐)  
or  
cutadapt -a AACCGGTT input.fastq >  output.fastq

usage:
cutadapt 【参数】 输入文件


参数:
-a 指定接头序列
-o 指定输出文件。如果未指定,则输出到标准输出。


输入或输出文件格式:

  • fasta文件指定后缀:.fasta.fa.fna
  • fastq文件指定后缀:.fastq.fq
  • 或以上任意后缀 + 压缩格式(.gz.bz2.xz),cutadapt会自动解压或压缩

.

p.s. 处理标准输入文件

cutadapt不仅可以从输入文件中读取序列,还可以处理标准输入的序列。
程序写法如下,使用-表示使用标准输入。

cat input.fastq | cutadapt -a AACCGGTT - > output.fastq

p.s. 查找3'接头

如果使用别人数据时未查到3'接头,可以参考minion自动鉴定3'adaptor。


“贤者以其昭昭使人昭昭,今以其昏昏使人昭昭。” --《孟子·尽心下》

你可能感兴趣的:(【生信】cutadapt①基本使用方法)