最近看了一篇人基因组组装的文章,和大家分享一下。
国际人类基因组测序协会在2001年发表了人类基因组草图,今天这篇文献2021年5月27由Telomere-to-Telomere (T2T)发表于bioRxiv,刚好在草图发布20周年之后。。主要研究内容是通过整合各种测序手段,对人类基因组进行组装、完善,发布版本CHM13v1.1,是目前最完整的人类基因组序列。
创新及突破点
对22条常染色体、X染色体进行组装,获得无gap的染色体序列
纠正之前版本中存在的组装错误、重复区错位等问题
对5条常染色体短臂及着丝粒区域进行组装,获取完整序列
数据基础
测序样本选择单倍型CHM13细胞系,可以有效避免两个单倍型因杂合导致的组装问题。
测序基本上使用了目前所有的测序手段,包括以下几种。
测序平台 | 测序/建库方法 | 测序深度(x) |
---|---|---|
PacBio | CCS (HiFi) | 30 |
Oxford Nanopore | Ultra-long | 120 |
Illumina | PCR free sequencing | 100 |
Illumina/Arima | Hi-C | 70 |
BioNano | 光学图谱 | - |
- | Strand seq | - |
本篇文章主要使用的数据来源于PacBio和Nonopore平台,其他平台测序数据在验证基因组完整度和准确度时使用;bionano光谱数据用来组装X染色体(其他染色体是否使用不清楚),见文献2。
组装graph
使用PacBio平台HiFi数据构件组装graph草图
草图中A为单独染色体的grapth图形,其中13,14,15,21,22五条染色体上因为存在大量的rDNA拷贝,出现重叠区域;B、C为2和9号染色体中存在的loop区域;D为无条染色体rDNA重复区连接情况。这些区域也是后续组装中需要处理的位置。
组装结果
着重解决目前基因组中着丝粒区、端粒区、重复区组装效果不佳的问题,并且很大程度上填补了全基因组范围内的gap,各染色体信息如下(来源于NCBI数据库)。
Chrosome | GenBank-Accn | Length (bp) |
---|---|---|
1 | CP068277.2 | 248387328 |
2 | CP068276.2 | 242696752 |
3 | CP068275.2 | 201105948 |
4 | CP068274.2 | 193574945 |
5 | CP068273.2 | 182045439 |
6 | CP068272.2 | 172126628 |
7 | CP068271.2 | 160567428 |
8 | CP068270.2 | 146259331 |
9 | CP068269.2 | 150617247 |
10 | CP068268.2 | 134758134 |
11 | CP068267.2 | 135127769 |
12 | CP068266.2 | 133324548 |
13 | CP068265.2 | 113566686 |
14 | CP068264.2 | 101161492 |
15 | CP068263.2 | 99753195 |
16 | CP068262.2 | 96330374 |
17 | CP068261.2 | 84276897 |
18 | CP068260.2 | 80542538 |
19 | CP068259.2 | 61707364 |
20 | CP068258.2 | 66210255 |
21 | CP068257.2 | 45090682 |
22 | CP068256.2 | 51324926 |
X | CP068255.2 | 154259566 |
MT | CP068254.1 | 16569 |
该组装版本并没有Y染色体,除MT之外,所有染色体总长3,054,815,472 bp。NCBI及UCSC均收录该版本基因组,对应登录号GCA_009914755.3和t2t-chm13-v1.1。
在2022年01月24日,该组织又更新了一版基因组,编号CHM13 T2T v2.0(GCA_009914755.4),在v1.1版本基础上增加了Y染色体序列(62,460,029 bp),包括MT在内基因组总长3,117,292,070 bp。
基因组序列对比
相比于GRCh38而言,该版本基因组对gap区域进行了填充,新增182 Mbp序列,预测获得2226个新基因,其中115个基因可能具有编码蛋白的功能。
A图为与GRCh38序列比对图(部分染色体),刻度上方第一层为序列,绿色代表GRCh38中基因分布,红色为新发现的基因分布,黑色为GRCh38中gap区域;B图为新增序列在各染色体的分布;C图为各版本基因组长度
基因及重复序列等对比
文献中与GRCh38进行对比,相比而言,增加/矫正了238 Mbp的区域,包括180 Mbp的着丝粒区域、68 Mbp的片段重复以及9.9 Mbp的rDNA区域(在全基因组范围内共包含219个rDNA序列拷贝)。
文章中用到的所有数据、软件、参数以及运行命令在文献中都给了,有兴趣的可以测试一下。
参考文献
[1] bioRxiv 2021.05.26.445798; doi: https://doi.org/10.1101/2021.05.26.445798
[2] Miga KH, Koren S, Rhie A, et al. Telomere-to-telomere assembly of a complete human X chromosome. Nature. 2020;585(7823):79-84. doi:10.1038/s41586-020-2547-7