利用aTRAM定向组装目标序列

在系统发育中,我们往往只需要目标基因来进行系统发育重建,一些数据量大的基因组组装起来非常耗时耗资源,可以使用定向组装的方法来组装我们需要基因。
一种更快、可能更准确的选择(Kucuk et al. 2017)是只对感兴趣的基因组区域进行局部组装。针对这种方法,已经开发了一些工具,包括 aTRAM (Allen et al. 2018)和Kollector(Kucuk et al. 2017),它们都使用一组查询序列来初始识别对应于目标区域的reads。重要的是,查询序列集可以来自另一个物种的基因组,特别是在aTRAM的情况下,它允许氨基酸序列作为输入,这个其他物种甚至不需要与目标物种密切相关。
aTRAM比Kolllector需要跟多的资源,但是依赖的软件包更容易安装。
aTRAM("automated target restricted assembly method"),它使用各种可用的方法执行参考引导的局部从头装配。适用于需要查询下一代序列(NGS)数据进行基因序列查询的各种任务,如系统基因组学。设计理念是模块化和可扩展的,支持四个从头组装的软件:Velvet、Abyss、Trinity和Spades。aTRAM 2是从(NGS)数据中组装位点的aTRAM方法的重大革新。新的代码已经在Python中重新实现,短读库的构造方法也得到了彻底的改进,从而极大地提高了性能和汇编性能。

软件安装

下载地址 [aTRAM]
aTRAM本身很容易安装,因为它是用Python3编写的。在aTRAM github存储库中描述了安装过程,但是您可以跳过关于虚拟环境的说明中的部分,只需使用下面的两个命令下载最新版本的aTRAM并安装所需的Python库

  git clone https://github.com/juliema/aTRAM.git
  python3 -m pip install --user -r aTRAM/requirements.txt

也可以使用conda安装

conda env create -f environment.yml
conda activate aTRAM

1.2安装配套软件

使用aTRAM必须安装的一些配套软件,

1.2.1 BLAST version 2.7.1
1.2.2 Velvet、Trinity、Abyss、SPAdes四个组装软件选一,用来组装目标序列,下载地址如下。
  • Velvet
  • Trinity, version 2.5.1
  • Abyss, version 2.0.2
  • SPAdes, version 3.11.1

2 使用

2.1文库构建

使用aTRAM要先使用atram_preprocessor.py构建目标原始序列的文库。如果是压缩文件一定要先解压再使用,不然就会报错。

使用——blast-db选项定义新的库名。它由路径和库前缀本身组成。这个程序将添加后缀来区分不同的数据库文件。然后给它你的fastq文件。您可以列出正向和反向读取文件,或者将它们放在一个文件中,并使用——mixed-ends选项。

atram_preprocessor.py
--blast-db=path_to_atram_library/LIBRARY_PREFIX
--end-1=path_to_reads/read_1.fastq
--end-2=path_to_reads/read_2.fastq
下面是我用的数据

python3 /aTRAM/atram_preprocessor.py -b SRS7102751 --end-1 SRS7102751_1.clean.fastq --end-2 SRS7102751_2.clean.fastq
#-b 后为输出文件的名字 --end-1 和 --end-2后为输入的正反向的原始序列文件

2.2 组装目标loci

需要参数
*1、 从预处理器中给它相同的——blast-db选项。

  • 2、需要组装的参考序列
  • 3、从velvet, trinity, abyss, or spades 四个软件中选择一个作为组装软件。
  • 4、输出文件名--output-prefix与目录部分和库前缀本身的--blast-db-prefix作用类似。
    输入示例
atram.py \
  --blast-db=path_to_atram_library/LIBRARY_PREFIX \
  --query=path_to_reference_loci/Locus.fasta \
  --assembler=ASSEMBLER_CHOICE \
  --output-prefix=path_to_output/OUTPUT_PREFIX

你可能感兴趣的:(利用aTRAM定向组装目标序列)