基因组组装项目的十二步建议

1. 建立项目团体

多机构合作,数据和利益共享。

2. 收集目标基因组信息

考虑的因素:
基因组大小、倍性、杂合性、GC含量和重复。

数据库查询:
fungi (http://www.zbi.ee/fungalgenomesize)
animals (http://www.genomesize.com)
plants (http://data.kew.org/cvalues)

估计:
流式细胞仪和kmer频率分布(建议两种都用)。

3. 设计最佳实验流程

高质量染色体水平的参考基因组是关键。
质控:reads长度、错误率、深度、覆盖度、文库等。

有钱:PacBio/ONT + Hi-C
没钱:Illumina/10X GC(genomics chrominum) + Hi-C

从头组装:一般是完全denovo。
参考基因组辅助:利用近缘物种作为参考和指导进行组装,该方法对数据和计算量较小,但是现有参考基因组可能有错误和重排。

目的:构建一致的单倍型或定相单倍型的染色体水平组装。一般的组装是将2条序列整合为1个单倍型,因此不能得到二倍体信息。

选择合适的工具和流程:考虑组装的质量和连续性,包括速度和敏感性。

三代组装工具网站:
LRS-DB https://long-read-tools.org/

常用的组装工具软件:


image.png

4. 选择最佳测序平台和准备文库

文库制备的两个考虑:目标基因组大小、测序样本数。

reads: 短(Illumina, 454, SOLiD, MGI, Ion Torrent),长(ONT and PacBio)或混合(hybrid) read

5. 选择最佳DNA来源和提取方法

不含杂质。
最低量要求:
Illumina 和 10xGC > 3 ng, PacBio > 20 μg, ONT > 1 μg, BioNano > 200 ng, Dovetail > 5 μg 。
三代平均DNA长度>25 kb。
使用核与细胞器DNA比率更高的组织。
纯化DNA的测量/定量可使用分光光度法和基于荧光的方法。

6. 检查计算资源与要求

数据量、基因组大小、杂合率和倍性等对内存
需求、CPU数量和计算成本成几何增加。
可选择云计算合理分配。

7. 选择最佳计算设计和流程

三种选择:
(1)最大化内部员工或协作
(2)从服务外包提供者
(3)模拟具有不同设置的数据

8. 基因组组装

推荐的基因组组装和注释流程图:


image.png

强烈建议使用BioNano和Hi-C数据来达到染色体级组装,因为这两种方法可通过验证初始组装的完整性,纠正方向错误,排序scaffolds来完善结果。

9. 在注释前检查组装质量

在鸟枪法时代,denovo依赖于于算法和试验设计。reads长度、文库大小、reads准确性和基因组复杂性等决定了组装的准确性和连续性。

质量评估:

  • 组装大小
  • 组装连续性(N50,NG50,NA50,NGA50)
  • 重叠群contig数目和(平均)长度
  • 组装可能性得分(通过reads比对每一个候选组装来计算)
  • 组装完整度(BUSCO得分或RNAseq mapping)
  • 其他:QTL、ESTs、荧光原位杂交、BAC克隆、染色体水平遗传图谱。

三个最重要的指标:连续性、准确性、完整性

方法:三代/10XGC,BioNano,Hi-C数据;软件LR_Gapcloser。

10. 基因组注释

注释内容:

  • 识别非编码区:重复序列、转座子。
  • 识别编码区(称为基因预测):内含子、外显子、CDS、5/3 UTR。
  • 附加这些元素的生物学信息。

注释的方法:

  • 手动注释:耗时昂贵,需要获得准确的基因模型和基因集。
  • 自动注释:置信度和可靠性低(通常基于直系同源物种,不同数据库数据不同)。
  • 半自动注释:集成不同的结果获得一致的注释,平衡了手动和自动方法。

结合比对EST、RNAseq、蛋白序列作为外部基因组组装证据。

结合方法和结果(尤其是MAKER,BRAKER和String-Tie)可以有效地提高注释预测的数量和准确性(尤其是对孤儿基因和其他年轻基因)。

功能注释GO等。

在线基因组注释工具:

image.png

命令行注释工具:

image.png

image.png

非编码RNA注释:

image.png

重复序列注释:

image.png

11. 建立一种可查询和可共享的输出格式

公共数据库 or 自建数据库?

12. 分发社区来优化组装和注释

不同版本软件结果不同,为确保稳定,数据可重复,需持续维护和更新。

植物社区示例:
https://nbenth.com/annotator/index,
https://solgenomics.net
https://www.helmholtz-muenchen.de/pgsb

动物社区示例:
http://www.slimsuite.unsw.edu.au/servers/apollo.php
https://bovinegenome.elsiklab.missouri.edu
http://www.gmgi.org/genomics-fish-shellfish
https://www.sanger.ac.uk/science/data/vertebrate-genomes-sequencing

对于初学者的基因组组装和注释流程的建议

不建议纯二代组装。
纯三代或混合组装方法:


image.png

此文太多废话,慎读~~~

文献来源: Hyungtaek JungID et al. Twelve quick steps for genome assembly and annotation in the classroom. PLoS Comput Biol. 2020 Nov 12;16(11):e1008325.

你可能感兴趣的:(基因组组装项目的十二步建议)