「基因组survey」使用GenomeScope进行基因组分析

在我写的基因组survey介绍了如何通过jellyfish统计k-mer然后绘制k-mer分布图研究基因组的方法。由于最近又在搞基因组survey,又检索了一波资源,发现了一个分析工具,所以有了这篇教程。

GenomeScope 是2017年发表在 bioinformatic 的一个工具,最近一次更新在2018年2月16日。这个工具的目的就是处理一些高复杂度的基因组,比如说高杂合度(菠萝, >1%),或者是多倍体(8倍体的甘蔗),或者基因组非常的大(小麦是16G)。

它的作用就是通过分析k-mer count分布,给出基因组的一些基本信息:

  • 基因组大小
  • 基因组杂合度
  • 基因组重复序列比例

: 它无法预测倍性

软件安装

GenomeScope无需安装,它们提供了网页工具 http://genomescope.org/,我们只需要安装jellyfish即可。

conda install -c bioconda jellyfish

软件使用

首先,得获取k-mercount的分布。虽然jellyfish的用法可能比较复杂,但是这里只要用到两行命令即可,

jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o reads.jf
jellyfish histo -t 10 reads.jf > reads.histo

几个建议:

  • K-mer设置为21(-m 21)
  • 测序深度不得低于25X
  • 建议illumina测序
  • 如果服务器资源很多,可以增加线程数(-t)

之后将得到的reads.histo 上传到 http://qb.cshl.edu/genomescope/

上传

选择continue之后,就会有如下信息,选择continue即可。

继续即可

等待运行几分钟后,网页就会结果

最终结果

kcov指的是杂合峰的覆盖度。

软件使用时的一个问题:

基因组预测大小和第一个页面中 Max kmer coverage 密切相关。我设置了1000和10000,基因组相差30M。 作者给出的解释是,GenomeScope默认会过滤掉出现1000次以上的kmers,避免细胞器基因组的影响,如果你觉得基因组小了,那么就把数值调整的大一点。

推荐阅读

  • https://github.com/schatzlab/genomescope
  • https://isugenomics.github.io/bioinformatics-workbook/dataAnalysis/GenomeAssembly/genomescope.html

你可能感兴趣的:(「基因组survey」使用GenomeScope进行基因组分析)