【报告笔记】基因组组装的最后挑战-T2T

长读长组装发展

  • 2012:三代组装、二代校正;耗资源,适合小基因组,如细菌,4-15%错误率
  • 2013:三代组装、三代校正;仍然只适用小的
  • 2014:华夏一号(中国人三代参考基因组)
  • 2016:Falcon/Falcon-Unzip,三代Pacbio二倍体真核生物
  • 2017:ONT UItralong
  • 2018:希望组启动T2T完成图,Nextcorrect(Nextdenovo第一期),超大基因组组装问题
  • 2019:PacBio HiFi reads,>20kb且>99.9%准确度,同时可做组装与SNP、Indel
  • 2020:基于HiFi的二倍体组装hifiasm;中国人SV与单体型标准
  • 2021:非洲肺鱼40Gb和澳洲肺鱼37Gb两个超大基因组组装;拟南芥T2T完成图
  • 2022:苏铁基因组10.5Gb

人类基因组T2T联盟

  • 2019:T2T联盟成立
  • 2020:X染色体
  • 2021:8号染色体
  • 2022:全基因组,表观、端粒、着丝粒等以及很多方法学研究
  • 人类泛基因组联盟HPRC新目标:基于350个体T2T基因组

CHM13-T2T

  • 组装情况:3.05Gb,63494 gene(19969编码基因),53.94% 重复

  • 组装策略:

    • 30x PacBio HiFi搭骨架:Hicanu+Minisam
    • ONT补gap
    • HiFi based graph resolution,手动解图
    • ONT-based tangle resolution,手动解图
    • 结合其他技术ddPCR, Strand-seq, Hi-C, HSat3 array
  • 技术突破:着丝粒拼接、rDNA阵列(45S)、染色体短臂、节段重复、串联重复、完整单体型

  • 局限性:

    • 葡萄胎细胞样本,单倍体基因组,不是绝对的单倍体
    • 无Y染色体
    • 真实的二倍体、异源多倍体、同源多倍体需要不同的算法
  • 建议:不要轻易号称T2T,审稿意见多。建议谦虚点near-complete

基因组组装的最后挑战

  • 测序发展维度:一代——三代

  • BAC-long纳米孔测序(>150kb)

  • HiFi和ONT测序错误率的意义不同

  • 最新基因组组装的4个不同标准,不同的策略

    • 白金基因组:50-60x HiFi + Hi-C (Hifiasm,HiCanu)
    • 近完成图:60x HiFi + 60x UL(100kb) + Hi-C +Bionano (Hifiasm,HiCanu, NextDenovo)
    • Pre-T2T:60x HiFi + 100x BAClong(150kb) + Hi-C +Bionano (NextDenovo2/NextPolish2)
    • T2T:100x HiFi + 200x BAClong(150kb) + Hi-C +Bionano (NextDenovo2/NextPolish2)
  • T2T不等于gapless:一个contig一条染色体;no misassembly;Q50碱基质量不够;单体型未分开

  • T2T四个阶段:现已完成接近10Gb的基因组

    • 单倍体已完成

    • 二倍体进行中

    • 异源多倍体困难

    • 同源多倍体更困难

CGM第二百三十五期 汪德鹏 基因组组装的最后挑战——基因组完成图(T2T):

https://www.bilibili.com/video/BV1DY411j7pG?spm_id_from=333.880.my_history.page.click

你可能感兴趣的:(【报告笔记】基因组组装的最后挑战-T2T)