T2T基因组的研究进展

基因组研究发展进程

1）1.0时代：使用二代测序，组装得到的是draft genome，特点是组装完整性比较差的非染色体水平的基因组

2）2.0时代：使用的测序策略是PB（CLR）/ONT（N50>20k）+ Hic，组装得到的是high-quality genome，特点是组装得到的基因组是染色体水平，ContigN50>1M，但是测序得到的基因组的准确度不足

3）3.0时代：使用的测序策略是PB（HIFI）/ONT（N50>50K）+ Hic，组装得到的基因组是high-quality genome，特点是组装得到的基因组是染色体水平，对于复杂基因组来说ContignN50 > 10M，测序得到的基因组的准确度较高

4）4.0时代：使用的测序策略是PB（HIFI）/ONT（N50>100K）+ Hic，特点是组装得到的基因组是T2T染色体水平，1 Contig = 1 Chr，测序得到的基因组的准确度较高

T2T基因组概念及意义

概念：T是指端粒，是染色体末端的一段特殊结构，由DNA重复序列和特异结合蛋白所组成的复合体，对于染色体的构想和稳定具有非常重要的作用。T2T基因组通过多种测序平台，高深度测序，组装得到的gap-free或者是接近gap-free的高质量基因组【三代测序技术的发展，特别是高连续性的ONT ultra-long和高准确度的Pacbio HiFi测序的强强联合，克服了着丝粒或高重复区域的组装困难问题。（有研究表明，在新细胞中，细胞每分裂一次，位于染色体顶端的端粒就会缩短一次，当他不能再缩短的时候，细胞就不能再分裂，因此，端粒被研究者们称为“生命时钟”）。植物的着丝粒位于染色体的异染色质区域，该区域由多种DNA重复原件构成，包括卫星DNA序列、单一拷贝DNA序列、反转录调控原件、转座子以及端粒重复序列等。而这些重复区域，是三代测序组装中非常大的难点。目前动植物的研究中，很难真正的做到完全的gap-free，已经发表的文章中，只要有一条染色体能达到0 gap，就会称为T2T。目前研究的物种大多集中在水稻、拟南芥、人等基因组较为成熟的物种中】

意义：T2T克服了着丝粒或高重复区域的组装困难的问题，染色体的连续性和完整性大大提高，有助于对基因组中高重复序列区域或高重复结构进行深入研究。T2T解析提供了了解新基因、着丝粒区域的结构，全基因组甲基化水平、重复序列变异、转座子运动、着丝粒进化等问题。

T2T基因组的组装

T2T基因组组装的难点

2个主要的gap区域：包括异染色质基因组（在哺乳动物中，大部分的异染色质会形成卫星重复序列，这些重复序列位于染色体着丝粒区域）和高度重复序列区域（高度重复序列会出现在染色体的末端和散布在整个基因组中的转座子区域，这个区域是一些短reads和较短reads无法跨越的，如果使用短reads组装的会引入更多的错误）

从T2T组装的难点上就可以发现要得到一个T2T基因组的话，我们就需要得到长reads或者是超长reads，来克服高重复的这个区域。目前常用的三代测序平台主要有两个，分别是ONT测序（这种测序策略可以获得超长序列，目前的ultra-long reads N50 > 100K，甚至是大于150K）和HIFi测序（它的reads N50的长度虽然不够出色，但是它的准确性是非常高的，单reads QV20的准确性可以达到99%）

常见的组装策略

实例

1、人类基因组完成图、人类X染色体：使用的组装策略都是都是HiFi组装，然后用ONT Ultra-long 补gap

2、人类8号染色体、拟南芥-1、拟南芥-2：使用的组装策略是ONT Ultra-long组装，然后使用HiFi纠错

3、水稻：纯HiFi测序

4、香蕉：纯ONT Ultra-long 测序

策略总结

1）不同测序平台数据进行组装，不同组装结果进行整合

2）多软件组转Nextdenovo\Canu\Necat\Hifisam，不同组装结果比对整合

3）原始数据纠错后数据进行比对，不同比对信息整合

4）着丝粒、非着丝粒区域单独进行polish

T2T基因组的评估标准

1）组装的连续性：contigN50与染色体长度一致、gap-free（单条contig即为一条染色体）

2）单碱基的准确性：SNP位点情况、BAC（大片段基因组）文库的鉴定

3）组装的完整性：BUSCO、二代reads比对率、二代reads覆盖度

4）着丝粒与端粒的鉴定：序列检测、Motif检测

T2T基因组的深入研究

新功能基因的鉴定和物种遗传变异分析（T2T基因组能够鉴定到更多的新基因和遗传变异信息）、近着丝粒基因研究（T2T基因组能够实现着丝粒区域转录活性基因的探究）、表观遗传图谱研究（ONT测序的优势，直接能够获取碱基修饰信息，对着丝粒区域甲基化情况进行深入研究）、着丝粒多样性研究（利用ONT ultra-long测序优势，点亮基因组黑洞，深入解析物种着丝粒的信息）及片段重复及变异研究等

构建T2T基因组的前期需要

物种尽可能低杂合度、低重复，其中单倍体材料最佳；选择具有生物学意义的物种；物种的背景比较清晰（端粒的序列、位置等。当然部分的染色体没有端粒信号，染色体上有内部端粒序列，每条染色体上端粒序列的长度不同）

小问题问答

Hi-C数据也是二代数据，为什么不能用来进行基因组组装的纠错？

首先Hi-C样品在开始测序前，会进行一系列的处理，例如会进行胶连，而胶连主要是针对酶切位点附近。举个例子来说，加入Hi-C的测序深度为100x，那在酶切位点附近的测序深度可能能达到100x，但是在一些其他区域（酶切位点稀有的区域）可能就达不到100x，这样的话可能就导致这个Hi-C实际的数据相对于基因组来说覆盖度是不够的，同时胶连这个实验对DNA也是有一定的影响，所以Hi-C数据在准确性和覆盖度方面不足以用来进行纠错。Hi-C数据只能为我们提供一个挂载方向性的指导。

用HiFi数据组装得到的基因组为什么会偏大？

HiFi数据组装偏大的原因是因为一般情况下他会组装到很多杂合序列，所以一般HiFi组装完成后，要根据预估基因组进行去冗余。HiFi的数据相对来说还是有些短，有的可能组装不到着丝粒区域，这种情况就需要用到ONT超长来进行完整性的补充。张老师的那篇NG（https://www.nature.com/articles/s41588-021-00895-y）的文章里有补gap的新方法