02-Hi-C辅助基因组安装

基因组组装

基因组是怎么组装的,目前的方法有什么局限性?
为什么要进行基因组组装?是因为目前的测序方法,无论是一代、二代、三代都是借助于全基因组鸟枪法(Whole genome shotgun)将基因组打断成小片段进行测序,因此需要将这些小片段重新拼接起来还原基因组信息。基因组组装的过程是将DNA小片段(reads)拼接成小重叠群(contigs),再将contigs组装成长的scaffolds,最后将scaffolds定位到染色体。常用的算法通常是基于序列的overlap构建可能的组合路径,然后找出最优路径,构建contigs和scaffolds。
局限性

目前基因组组装大多仅停留在长序列片段水平(BAC或scaffolds),而确定scaffolds在染色体上的具体位置仍面对挑战。传统的scaffolds 锚位方法一类是基于物理图谱的方法,另一类是基于遗传图谱的方法。但是实际操作过程中这两种方法有几个难点:大片段文库构建难度大;成本较高;误差偏高。

Hi-C技术可以辅scaffolds快速定位在染色体。

Hi-C辅助基因组组装的原理

Hi-C技术怎么辅助基因组组装?
Hi-C技术依据染色质间的相互作用随着距离越远递减的规律,对scaffolds 的进行聚类分群,计算其相邻关系,然后基于染色体的交互信息对scaffolds进行排序和定向。

Hi-C辅助基因组组装的优缺点

优点
相比于遗传图谱和物理图谱,基于Hi-C的基因组组装具有更高的覆盖率和特异性,避免了繁琐的群体构建工作,实验周期短,成本减少。
缺点

  • 对重复序列如着丝粒和端粒组装有困难;
  • Hi-C技术的分辨率限制
  • Hi-C技术辅助基因组组装的理论依据是“近程交互作用高于远程交互”,但是这个规律在某些特定区域(如TAD)等并不总是成立。

在scaffolds 片段较小(< 5 kb)、高度重复序列区域等因素都可能直接导致scaffolds 锚位准确
性和覆盖率降低。

Hi-C组装常用软件及对比

  • Lachesis
  • GRAAL
  • danTri
  • HiRISE
  • HiCpro
  • SALSA2


SALSA2是2018年新开发的基于Hi-C数据辅助组装的分析软件,该分析软件不需要预先设定染色体的数目,提高了精确度。此外在数据输入上还兼容GAF的数据拼接格式,同时还利用Hi-C数据对错误的组装结果进行矫正。github地址:SALSA: A tool to scaffold long read assemblies with Hi-C(https://github.com/machinegun/SALSA)。
HiC-Pro

HiC-Pro is an optimized and flexible pipeline for processing Hi-C data from raw reads to normalized contact maps. HiC-Pro maps reads, detects valid ligation products, performs quality controls and generates intra- and inter-chromosomal contact maps. It includes a fast implementation of the iterative correction method and is based on a memory-efficient data format for Hi-C contact maps. In addition, HiC-Pro can use phased genotype data to build allele-specific contact maps. We applied HiC-Pro to different Hi-C datasets, demonstrating its ability to easily process large data in a reasonable time. Source code and documentation are available at http://github.com/nservant/HiC-Pro.

Hi-C辅助基因组组装的流程

  • Lachesis
    https://github.com/shendurelab/LACHESIS
  • GRAAL
    https://github.com/koszullab/HiC-Box
    -dnaTri
    https://github.com/theaidenlab/3d-dna
  • HIRISE
    https://github.com/DovetailGenomics/HiRise_July2015_GR
  • HiC-Pro
    https://github.com/nservant/HiC-Pro
    documents :http://nservant.github.io/HiC-Pro/
  • SALSA2
    https://www.biorxiv.org/content/early/2018/02/07/261149

参考资料

  • Burton J N, Adey A, Patwardhan R P, et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions[J]. Nature biotechnology, 2013, 31(12): 1119.
  • 基于染色质交互数据的基因组组装方法
    陶婧芬 谢婷 郑觉非 杨庆勇
  • Hi-C辅助基因组组装简述及好文推
  • Ghurye J, Rhie A, Walenz B P, et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly[J]. bioRxiv, 2018: 261149
  • 基因组组装的算法

你可能感兴趣的:(02-Hi-C辅助基因组安装)