DISCOVAR的使用说明

1. DISCOVAR简介
DISCOVAR 是有 ALLPATHS-LG 软件开发团队做出来的软件。主要用于利用 PE 250bp 数据与参考基因组的比对结果,对基因组进行 Variants calling 的同时,进行基因组的组装。特别是近期公布的 DISCOVAR de novo (experimental) 还能进行基因组的 De novo 组装。


2. DISCOVAR的下载和安装

2.1 DISCOVAR的下载和安装
此软件的安装需要GCC 4.7或以上版本。
  1. $ wget ftp://ftp.broadinstitute.org/pub/crd/Discovar/latest_source_code/LATEST_VERSION.tar.gz
  2. $ tar zxf LATEST_VERSION.tar.gz
  3. $ cd discov*
  4. $ ./configure --prefix=/opt/biosoft/discovar && make -j 4 && make install
  5. $ cd ..
  6. $ rm -rf discov* LATEST_VERSION.tar.gz
复制代码

2.2 DISCOVAR Denovo的下载和安装
此软件的安装需要GCC 4.7或以上版本,jemalloc 3.6.0或以上版本和samtools(如果使用bam文件,则需要)。
  1. $ wget ftp://ftp.broadinstitute.org/pub/crd/DiscovarExp/LATEST_VERSION.tar.gz
  2. $ tar zxf LATEST_VERSION.tar.gz
  3. $ cd discov*
  4. $ sudo yum install *malloc*
  5. 如果没有上一步,则在make过程中会提示错误“/usr/bin/ld: cannot find -ljemalloc”
  6. $ ./configure --prefix=/opt/biosoft/discovarDenovo && make -j 4 && make install
  7. $ echo 'export MALLOC_PER_THREAD=1' >> ~/.bashrc
  8. 上一步设置用于allowing per-threads memory management,能提高计算性能。
  9. $ cd ..
  10. $ rm -rf discov* LATEST_VERSION.tar.gz
复制代码

2.3. 软件使用的注意事项
1. 强烈推荐使用 PCR-free protocol library 数据;数据量推荐为 ~60x,略大于或小于该值也是 OK 的。
2. 必须使用 Illumina MiSeq 或 HiSeq 2500 测序仪产生的 >=250 bp 长度的 Paired End 数据,并且首尾 reads 要有重叠。如果 PE 250bp 数据,则 Insert Size 长度要为 400-500 bp( 需要注意的是软件的 manual 中可能写成 700bp,这是不对的)。
3. 只能使用一个文库的数据。,不支持输入 mate paired 数据。
4. DISCOVAR  de novo (experimental) 能进行基因组的 de novo 组装,支持基因组大小可达 ~3 GB。

3. 软件的使用
3.1 DISCOVAR 的使用
软件的输入文件是 sort 过后的 Bam 文件,一个常用例子:
  1. $ Discovar READS=sample-reads.bam REFERENCE=sample-genome.fasta              \
  2.          REGIONS='10:30892106-30933760' OUT_HEAD=./discovar-variants/assembly\
  3.          TMP=./discovar-variants/tmp
复制代码
软件常用参数:
  1. READS (String)
  2. 由逗号分割的一些 bam 文件,或内容为每行一个bam文件路径的 list 文件。
  3. REGIONS (String)
  4. 对指定区域进行分析。多个区域则用逗号分割。区域的写法为 chr:start-sotp。如果 REGIONS=all,则对所有区域进行分析。
  5. TMP (String)
  6. 指定临时文件路径
  7. OUT_HEAD (String)
  8. 输出文件的前缀路径
  9. NUM_THREADS (unsigned int) default: 0
  10. 使用的线程数。
  11. REFERENCE (String)
  12. 参考序列 fasta 文件。若提供此文件,则能进行 variant calling,并给出 VCF 文件。
复制代码

3.2 DISCOVAR de novo (experimental) 的使用软件的输入文件是 sort 过后的 Bam 文件。程序在运行的时候会使用最大的线程数进行运算。

  1. $ DiscovarExp --help special
  2. 上述命令用来查看软件的详细参数。
  3. $ DiscovarExp READS=sample-reads.bam OUT_DIR=discovarexpOut
  4. 上述是软件的常用命令。同时,软件的参数非常少。
  5. $ ls discovarexpOut/a.final/a.lines.fasta
  6. 查看主要结果。
复制代码

4. DISCOVAR结果4.1 结果表现形式
图中,每个单独的箭头称为 edge,这些 edges 代表着序列;从起点到终点,有很多种不同的路径,称之为 lines;上图中有 4 个 cells,其中 3 个 cells 有 2 个 paths,有 1 个 cell 有 3 个 paths。
这种 multiple paths 可能表示:杂合位点;染色体变异;难以测序的位点等。
4.2 DISCOVAR 结果文件 生成的结果文件位于 discovar-variants/ 文件夹下,主要的结果文件是:
  1. assembly.final.fasta 所有的 edges 序列 (edges overlap by K-1 bases)
  2. assembly.final.fasta0 所有的 edges 序列 (without overlaps)
  3. assembly.final.dot dot格式的组装图
  4. assembly.final.variant VCF结果文件
复制代码

4.3 DISCOVAR de novo 结果文件生成的结果文件位于 discovarexpOut/a.final/ 文件夹下,主要结果文件有:
  1. a.lines.fasta 多个 paths 中仅选择第一个 path,得到的 lines 序列的 fasta 文件。
  2. a.lines.efasta 标准的 efasta 文件,有所有的 paths 结果。
  3. a.fasta 所有的 edges 序列
  4. a.lines 二进制文件
  5. a.lines.src 上一个文件的文本形式结果

文章来源:测序帮

复制代码

5. 总结
Discovar 能根据 Illumina 测序数据比对到基因组上的结果来进行基因组 de novo 组装,得到 edges 序列;若在提供了基因组序列的情况下,还能进行 Vaiants calling。

Discovar de novo (experimental) 能根据 Illumina 测序数据比对到基因组上的结果来进行基因组 de novo 组装,得到 edges 序列。相比与前者,还能得到 lines 序列,这是比较完整的序列文件。


文章来源:测序帮

你可能感兴趣的:(Bioinformatics,Soft)