生信步骤|kmc+genomescope进行基因组调查

在组装未知基因组时,往往需要利用重测序数据提前进行基因组调查,以获取其基因组规模,杂合率,重复序列比例,GC含量等信息。从而更好地拟定后继测序策略。基因组调查可以采用kmers方法。kmers基因组调查分为kmers频数统计和基因组评估两步。原理已经有大佬讲得很清楚啦:https://www.jianshu.com/p/94da86093843

这里以猕猴桃基因组hongyang为例,具体使用kmc+genomescope软件进行基因组调查。kmc会对重测序reads数据进行kmers库的构建,genomescope则根据kmers库进行基因组特征评估。我们来尝试复刻文章中的基因组调查结论。


1.下载基因组重测序数据

我们以猕猴桃hongyang为例,首先获取猕猴桃基因组重测序数据。进入NCBI网址即可查看具体信息:https://trace.ncbi.nlm.nih.gov/Traces/index.html?run=SRR9329821

找到对应的重测序数据编号SRR9329821。
服务器安装sra-tools后可以直接使用prefetch下载。

$ prefetch SRR9329821

2.sra文件转化为fastq文件

下载得到的数据约为11.3G,我们接下来使用fastq-dump将sra文件处理为fastq文件。

$ fastq-dump --gzip --split-3 SRR9329821/

这里对于不知道是单端测序还是上端测序的sra文件,可一律采用--split-3,程序会自动识别。这一步较为耗时,建议nohup挂载到后台运行。 运行结束后产生SRR9329821_1.fastq.gzSRR9329821_2.fastq.gz两个双端文件。

3.fq文件质控

采用fastp软件进行文件质控。
此处-l代表过滤长度在36bp以下的reads,-w设定滑窗规模为6,以此标准计算平均reads质量,-q代表过滤平均质量Q20以下的reads,--compression表示压缩程度(1-9),越大代表压缩过程速度最慢,越小代表速度快。

$ fastp -i SRR9329821_1.fastq.gz -I SRR9329821_2.fastq.gz -o SRR9329821_1.fastq.cleandata.gz -O SRR9329821_2.fastq.cleandata.gz -l 36 -q 20 -n 6 -w 6 --compression=6

至此,重测序数据准备工作已经完毕,下面开始制备kmer数据库以及基因组调查。
需要用到软件KMC,smudgeplot和genomescope,请提前下载并安装。
三者都可以用conda下载:

$ conda install -c bioconda smudgeplot
$ conda install -c bioconda genomescope2
$ conda install -c bioconda kmc 

安装完毕后可执行后继步骤。


4.构建重测序kmers库

在刚刚质控后的存有双端测序*fq.gz文件的文件夹下,利用双端测序数据构建kmer库。

$ mkdir tmp  #建立临时文件夹
$ ls SRR9329821_1.fastq.cleandata.gz SRR9329821_2.fastq.cleandata.gz > KiWi
$ kmc -k21 -t32 -m64 -ci1 -cs10000 @KiWi test_kiwi tmp  #运行kmc以构建kmer库,设定kmer构建长度为21,线程占用数为32,内存为64G。
$ kmc_dump -ci50 -cx3000 test_kiwi kmer21.dump  #提取所有覆盖度在50X-3000X的kmers

kmc执行reads建库命令,运行完kmers建库后会生成kmers数据库,其数据分别保存于.kmc_pre.kmc_suf两个文件。kmc_dump命令会产生.dump文件,里面存放有kmers的list。

5.匹配杂合kmers对

为了后继估计基因组杂合程度,需要提前统计杂合的kmers对。将上述结果.dump文件做为输入,运行后的结果保存于kmer_hongyang_coverages.tsv和kmer_hongyang_sequences.tsv两文件中。-o相当于指定两个tsv结果文件的标题。

$ smudgeplot.py hetkmers -o kmer_hongyang < kmer21.dump

至此为止所有数据准备工作已经结束啦,下面正式开始进行基因组特征调查。


6.smudgeplot评估基因组倍型

smudgeplot软件可以以kmer_hongyang_coverages.tsv为输入可视化倍型,这里直接上代码。

$ smudgeplot.py plot -t "hongyang" -q 0.99 kmer_hongyang_coverages.tsv
smudgeplot倍型可视化评估结果

7.genomescope评估基因组特征

Genomescope是2017年发表于bioinformatic的一个工具,以处理一些高复杂度的基因组调查。第一个版本仅能预测二倍体基因组,第二个版本可以预测多倍体基因组特征。Genomescope利用kmer频数统计结果,即KMC结果.hist文件进行基因组评估,过程如下:

$ kmc_tools transform test_kiwi histogram kmer21_hongyang.hist -cx10000

$ genomescope2 -i kmer21_hongyang.hist -k 21 -p 2 -o . -n hongyang_genomescope

得到的峰图可以查看kmers频数分布图,也可以得到summary.txt以查看基因组大小,杂合度,重复片段比例等详细信息。


本文基因组调查最终结果

原文基因组调查结果

结果可见基因组预估大小为617M,杂合度为1.12%,重复率0.69。跟原文的结论还是非常接近的,只不过原文用的是19-mer进行的基因组调查,本文用的21-mer,可能造成一些结果出入。另外,genomescope作图的美观性还是不错的,推荐大家试一试。

你可能感兴趣的:(生信步骤|kmc+genomescope进行基因组调查)