Win/Linux平台批量处理FASTA文件的工具

基因组测序技术的发展使得生物序列日益增多，从大量序列数据中挖掘有用的信息成为许多研究领域的重要手段，这就使得我们必须掌握一些序列处理的方法。其中，FASTA文件是基因组最为常见的文件格式之一。然而，庞大的基因组数据让FASTA文件的处理变得非常棘手，如多基因的串联合并、序列的提取或删除、序列ID检索与替换等。因此，开发FASTA文件批量处理软件工具在生物信息研究中显得尤其重要。近些年，经过生信工作者的不懈努力，许多FASTA文件批量处理工具应运而生。熟悉和掌握这些工具的使用，可为广大科研人员提供便捷。

FASTA文件处理工具主要分为两类：Windows系统的界面化版本以及Linux系统的命令行版本。界面化版本的优点就是操作方便，无需任何编程以及Linux系统管理能力，点点鼠标就可以完成分析。而命令行版本的优点则是可以大批量并行计算，缩短分析时间，缺点就是需要编程以及Linux系统管理基础。目前，界面化程序主要有TBtools以及FasParser；命令行版本主要包括seqmagick、seqkit、seqtk、fasta_utilities、FASTAX-toolkit、fastascripts以及Reseqtools等。下面就简单地介绍几款软件，详细使用方法可自行Google。

FasParser

提取及重命名fasta ID
统计fasta序列长度信息
DNA翻译为AA
鉴定指定支系特异氨基酸或核苷酸位点
提取4倍简并位点、第1、2、3位密码子
根据ID串联序列
根据ID或者关键词提取序列
过滤序列

TBtools

根据GFF/GTF以及基因组文件获取CDS、protein序列
fasta序列与区段提取
fasta序列过滤
fasta序列信息统计
序列反向互补
ID简化
ID重命名
ID增加前缀
fasta文件合并与分割
获取基因组最长CDS
序列模式定位

命令行工具

Seqkit

01. Sequence and subsequence

seq 转换序列（反向、互补、提取ID）
subseq 按区域/GTF/BED获取子序列，包括侧翼序列
sliding 序列滑窗
stats 序列统计
fadix 建立索引，提取序列

02. Format conversion

fx2tab 将fasta转换为表格形式，统计长度以及GC含量
translate 将DNA翻译为蛋白

03. Searching

grep 通过id/name/sequence/sequence motifs搜索序列，允许不匹配
locate 定位子序列/基序，允许不匹配
fish 使用局部对齐在较大序列中寻找短序列

04. Set operations

rmdup 通过id/name/sequence删除重复序列
common 通过id/name/sequence查找多个文件的公共序列
split 按id/seq区域/大小/部分将序列拆分

05. Edit

replace 通过正则匹配替换序列名
rename 重命名重复的id
concat 串联序列
mutate 编辑序列（点突变、插入、删除）

06. Ordering

sort 排序