跟着Genomics, Proteomics & Bioinformatics学数据分析:使用NextDenovo软件组装拟南芥基因组的初次尝试

论文

High-quality Arabidopsis thaliana Genome Assembly with Nanopore and Hi‐ Fi Long Reads

本地文件名 拟南芥.pdf

image.png

参考资料

  • 公众号小白鱼的生统笔记推文 三代测序基因组组装工具NextDenovo
  • 公众号 生信媛 推文 使用NextDenovo组装Nanopore数据
  • NextDenovo 软件的帮助文档 https://nextdenovo.readthedocs.io/en/latest/index.html
  • NextDenovo 软件的github主页 https://github.com/Nextomics/NextDenovo

下载原始测序数据

wget ftp://download.big.ac.cn/gsa/CRA004538/CRR302667/CRR302667.fastq.gz

查看数据的基本情况

~/Biotools/SeqKit/seqkit stats -a CRR302667.fastq.gz -T

seqkit软件的下载链接

https://bioinf.shenwei.me/seqkit/download/

image.png

论文中对这部分的描述

A total of 56.54 Gb of ONT long reads with ~388 × coverage were generated including ~177 × coverage of ultra-long (> 50 kb) reads. The N50 of ONT long reads is 46,452 bp, and the longest reads were 495,032 bp.

关于配置文件的设置

image.png

这里关于各个参数都是什么意思还需要仔细看

https://nextdenovo.readthedocs.io/en/latest/OPTION.html

论文中关于参数的设置描述

The long-read assembler NextDenovo v. 2.0
(https://github.com/Nextomics/NextDenovo) was used to assemble the ONT long reads with parameters: ‘read_cutoff = 5k’ and ‘seed_cutoff = 108,967’.

我这边是直接使用的test_data下的配置文件

组装差不多用了12个小时,最终组装结果

image.png

18个contig,论文中好像是得到了14条contig,N50直接达到15M

今天的推文内容先到这里了,关于论文的内容还需要好好看

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

你可能感兴趣的:(跟着Genomics, Proteomics & Bioinformatics学数据分析:使用NextDenovo软件组装拟南芥基因组的初次尝试)