Gapless indica rice genome reveals synergistic contributions of active transposable elements and segmental duplications to rice genome evolution
https://doi.org/10.1016/j.molp.2021.06.017
研究背景
基因组组装的最终目标是高准确且无gap的基因组。而在植物基因组中,转座子(TEs)、着丝粒和片段复制(SDs)等重复序列十分普遍,且在基因组进化中有非常重要的作用。这些重复序列是是基因组组装的难点。
长读段测序技术的发展使得基因组组装的连续性大大提高;Bionano、Hi-C、10X Genomics技术的出现,提高了组装的连续性。技术的发展使获得高准确且无间断的基因组成为可能。因此,作者提出了一种新的无gap的组装方法。
组装方法
A.使用Hifiasm(version0.12)对来自NCBI网站SRA数据库中明辉63的40.7 Gb HiFi reads进行初步组装。
B.依据indica rice参考基因组R498 ,使用NUCmer或MCScan将contigs锚定到染色体上。基因图谱、Hi-C等方法也可以用于锚定contigs。
C.通过每个contig位置的回帖,每个染色体由一系列的contig和gap表示。针对剩余的gap,利用Hifiasm生成的读段重叠信息进一步重构了关系图(Fig1C),识别出每个gap之间所有可能的路径,然后为每个gap选择重叠最多的路径,得到了每条染色体从起点到终点的路径。
通过三步操作,最终可以获得无gap的indica rice基因组。
评价方法
评价填补的gap部分
首先,作者核对了Illumina双端测序和PacBio HiFi 测序的覆盖率,结果是两种方法都可以均匀映射到gap区域。之后,作者使用Pilon 和Racon分别使用Illumina和PacBio进行两轮校正。最终基因组MH63KL1组装成12个contigs,总长397.71 Mb, contig N50大小31.93 Mb。
与其他高质量基因组比较
作者使用BWA、samtools、GATK等方法,将MH63KL1与其他15个高质量的水稻基因组进行比较,结论是MH63KL1的作图效率更高,覆盖度更低;MH63KL1包含更少的SNPs,代表重复序列更高的完整度与更少的组装错误。之后,作者使用Benchmarking Universal SingleCopy Orthologs (BUSCO)评估基因区域的完整性,而MH63KL1是16个基因组中完整度最高的。
评价共线性
作者使用NUCmer分析MH63KL1与MH63RS3、R498、ZS97RS3和IRGSP-1.0的共线性,有高度同线性。之后,作者将MH63KL1与GenBank中BACs进行比对,结果是所有BAC序列都成功比对,覆盖率超过90%。
SDs与进化关系
不平衡分布
作者利用SEDEF识别了MH63KL1中长达92.21Mb的SDs区域(Fig2A),发现chr4、chr10、 chr11、chr12的SDs区域更多,chr1、chr2、chr3的SDs区域更少。
SDs区域与功能进化的关系
作者认为,在一个待测组织中显著高水平表达的基因对,与 sub- or neo-functionalized潜在相关,这些基因对称为AEDs(asymmetrically expressed duplicates)。
作者使用BLASTP识别SDs区域中的旁系同源基因,共识别6869对,其中2646对互为best hits。研究这2646对基因对发现991对AEDs,且随着Ks值增加,AEDs数量在增加,可认为SDs与功能进化有关联(Fig2C&D)。
作者使用KEGG路径分析,也印证了上述观点(Fig2B)。
活跃的TEs与进化的关系
作者在MH63KL1中识别了158.30Mb的TEs,其中近70%是LTR因子。作者根据每个LTR-RT末端LTRs差异,计算LTR-RT的插入时间。结果是在大约150万年前indica和japonica品种LTR-RTs都有剧烈扩展。然而,50万年内indica基因组开始显著扩展,而LTR-RTs的扩展可能仍在进行中。这表明indica中的TEs更加活跃。在低表达的重复基因之间,各类型TEs的丰度较高,证明活跃的TEs可能在indica的驯化中发挥了重要作用。
学习心得
这篇文章开辟了一种基于三代测序技术的无gap组装方式,提高了基因组组装的完整度。读完文章之后,我了解了许多关于基因组的评价角度与评价方法,也看到作者针对SDs区域与TEs区域进行的研究,通过计算Ks值、KEGG路径分析、计算插入时间等方法,推测对应区域在功能进化中的作用。
文章的后半部分针对SDs区域中NBS-LRR、cZOGTs等基因进行了详细解析,通过绘制系统发生树、热图等方式,展示了SDs区域内基因与强化抗病性状的关联。
提高基因组组装准确度是当前生物学研究的重要课题,技术的不断推进,使得研究不断向准确组装基因组靠近。从多个角度评价新组装的基因组,才能向他人证明基因组的可信程度。准确组装基因组,是为了更好地解决生物学问题,为研究生物的起源、驯化、基因功能等提供数据基础。