Win/Linux平台批量处理FASTA文件的工具

基因组测序技术的发展使得生物序列日益增多,从大量序列数据中挖掘有用的信息成为许多研究领域的重要手段,这就使得我们必须掌握一些序列处理的方法。其中,FASTA文件是基因组最为常见的文件格式之一。然而,庞大的基因组数据让FASTA文件的处理变得非常棘手,如多基因的串联合并、序列的提取或删除、序列ID检索与替换等。因此,开发FASTA文件批量处理软件工具在生物信息研究中显得尤其重要。近些年,经过生信工作者的不懈努力,许多FASTA文件批量处理工具应运而生。熟悉和掌握这些工具的使用,可为广大科研人员提供便捷。

FASTA文件处理工具主要分为两类:Windows系统的界面化版本以及Linux系统的命令行版本。界面化版本的优点就是操作方便,无需任何编程以及Linux系统管理能力,点点鼠标就可以完成分析。而命令行版本的优点则是可以大批量并行计算,缩短分析时间,缺点就是需要编程以及Linux系统管理基础。目前,界面化程序主要有TBtools以及FasParser;命令行版本主要包括seqmagick、seqkit、seqtk、fasta_utilities、FASTAX-toolkit、fastascripts以及Reseqtools等。下面就简单地介绍几款软件,详细使用方法可自行Google。

FasParser

  • 提取及重命名fasta ID
  • 统计fasta序列长度信息
  • DNA翻译为AA
  • 鉴定指定支系特异氨基酸或核苷酸位点
  • 提取4倍简并位点、第1、2、3位密码子
  • 根据ID串联序列
  • 根据ID或者关键词提取序列
  • 过滤序列

TBtools

  • 根据GFF/GTF以及基因组文件获取CDS、protein序列
  • fasta序列与区段提取
  • fasta序列过滤
  • fasta序列信息统计
  • 序列反向互补
  • ID简化
  • ID重命名
  • ID增加前缀
  • fasta文件合并与分割
  • 获取基因组最长CDS
  • 序列模式定位

命令行工具

Seqkit

01. Sequence and subsequence
  • seq 转换序列(反向、互补、提取ID)
  • subseq 按区域/GTF/BED获取子序列,包括侧翼序列
  • sliding 序列滑窗
  • stats 序列统计
  • fadix 建立索引,提取序列
02. Format conversion
  • fx2tab 将fasta转换为表格形式,统计长度以及GC含量
  • translate 将DNA翻译为蛋白
03. Searching
  • grep 通过id/name/sequence/sequence motifs搜索序列,允许不匹配
  • locate 定位子序列/基序,允许不匹配
  • fish 使用局部对齐在较大序列中寻找短序列
04. Set operations
  • rmdup 通过id/name/sequence删除重复序列
  • common 通过id/name/sequence查找多个文件的公共序列
  • split 按id/seq区域/大小/部分将序列拆分
05. Edit
  • replace 通过正则匹配替换序列名
  • rename 重命名重复的id
  • concat 串联序列
  • mutate 编辑序列(点突变、插入、删除)
06. Ordering
  • sort 排序

你可能感兴趣的:(Win/Linux平台批量处理FASTA文件的工具)