导读
马铃薯(Solanum tuberosum)是消费最多的非谷类粮食作物。大多数商业化的马铃薯栽培品种为同源四倍体,具有高度杂合的基因组,严重阻碍了遗传分析和改良。利用最先进的测序技术和多倍型图形binning,此研究完成了一种马铃薯栽培品种Cooperative-88(C88)的染色体规模的单倍型分型基因组组装。单倍型内比较分析显示,该四倍体基因组具有广泛的序列和表达差异。此研究在染色体上发现了单倍型特异性的-近端着丝粒,这表明马铃薯同源着丝粒的进化轨迹是不同的。此外,在1034个自交子代中的1021个个体中发现了在单倍型上不均匀分布的双减数分裂事件,这是同源多倍体遗传的一个特征。通过区分C88的父本和母本单倍型,此研究模拟了栽培四倍体中-杂种优势的起源,鉴定了3110个具有有害突变的四等位基因位点,这些座位被双亲在杂合状态下掩盖了。此研究为深入研究同源多倍体的基因组结构提供了新的思路,对同源多倍体的育种具有一定的指导意义。
原名:Genome architecture and tetrasomic inheritance of autotetraploid potato
译名:同源四倍体马铃薯的基因组结构和四倍体遗传
期刊:Molecular Plant
IF:21.949
发表时间:2022年6月
通讯作者:周倩和黄三文
通讯作者单位:中国农业科学院深圳农业基因组研究所
DOI号:10.1016/j.molp.2022.06.009
实验设计
结果
1. 同源四倍体的单倍型分型基因组组装
此研究选择了一种同源四倍体马铃薯品种Collication-88(C88)进行测序和基因组组装。C88是一种抗晚疫病的高产商品化马铃薯品种。C88的块茎呈块状,皮色偏红,肉质呈浅黄色,有浅眼。它是以印度马铃薯I1085作为母本,与来自S. tuberosum群体Andigena品种的不明抗枯萎病种质作为父本杂交而得。继20世纪90年代由国际马铃薯中心(CIP)和中国云南师范大学培育后,C88已成为中国西南部的首选品种,并迅速被邻近省份和其他东南亚国家采用。
2. C88基因组的初步组装和分型
根据 k-mer 分析和流式细胞术(补充图1),C88基因组大小估计约为 3Gb。总共获得了96.2Gb的PacBio HiFi reads,具有32 倍的基因组覆盖度(补充表1)。HiFi reads是使用hifiasm组装的,产生了3.08Gb大小的基因组,unitig N50长度为1.45Mb(组装版本0.1,以下简称C88.v0.1)(图1A)。接下来,此研究利用Hi-C数据和单倍体参考基因组,试图将unitigs分配到不同的单倍型组,该方法已经成功地在栽培苜蓿(Medicago sativa L.)和甘蔗(Saccharum spontaneum L.)的同源四倍体基因组进行了研究。然而,由此产生的组被认为不能很好地代表C88基因组的单倍型。将HiFi reads映射到这些unitigs上,在C88.v0.1中发现2.61Gb的haplotigs,其中325.68Mb 未被组装到染色体上的diplotigs (2×)和triplotigs (3×)呈现出显著的2倍和3倍reads覆盖度(补充图2A)。此课题组之前基于单倍型感知基因图谱,开发了1种从二倍体马铃薯基因组中进行haplotig分型的方法。这里,为了使用四倍体遗传图谱对C88 haplotigs进行分型,此研究利用四倍体遗传图谱将1034个S1子代的重测序reads映射到C88.v0.1的基因组组装上,并计算了子代中每个unitig的遗传剂量(0、1、2、3、4)(补充图2B)。通过剂量评分的遗传分组,约2.08Gb的haplotigs构建了48个组,代表了12条染色体的4种单倍型。根据剂量评分,将组装失败的2×、3×区域分解为2个或3个相同的拷贝,共有737.09 Mb的haplotig序列,并根据其与分组的haplotig的连锁关系划分到48个组(补充表2;补充图3和4)。
图1|同源四倍体马铃薯基因组的单倍型分型基因组组装。
A 分型基因组组装过程的示意图。
B同源四倍体基因组组装C88v1的图谱。左上角的线形图显示了同源四倍体基因组组装,并在graph binning中提供了连锁分组信息。彩色节点表示来自4种单倍型的组装序列,长度按序列的实际长度缩放。对角线上的点图显示了C88.v1组装与单倍体马铃薯参考基因组DM v6.1之间的比对。
C C88基因组的序列组成。Haplotig、diplotig、triplotig和tetraplotig是通过以下规则定义的:组成它们的HiFi reads被分别使用1次、2次、3次和4次。右边的数字表示1-12号染色体。x轴上的数字表示以Mb为单位的染色体长度。该分析是基于C88.v1的组装中产生的图形片段组装文件。
3. C88基因组分型辅助多倍体图形binning
根据分组的unitigs(图1B),89.7%的不连续HiFi reads(未被其他长reads覆盖的reads)被分配到48个单倍型,分型信息被输入到hifiasm的polyploid graph binning中。在之前的hifiasmgraph binning实验中,三倍体信息用于改善二倍体基因组内杂合区域的组装。在目前的研究中,此研究首次将这一应用扩展到同源四倍体基因组,方法是将pre-phased的HiFi reads输入到hifiasm。在hifiasm运行后,得到了四组总大小分别为954.57Mb、918.61Mb、900.16Mb和894.06Mb的contigs(以下简称H1、H2、H3和H4)。对于每组,通过使用Hi-C数据对contigs进行聚类和排序来生成12条染色体。在去除质粒和冗余序列(补充图5)后,获得了单倍型分型的C88组装体(C88.v1),总尺寸为3.15Gb,contig N50长度为18.78Mb,3.03Gb序列被锚定到48条染色体上(表1),其中检测到44个端粒(图1B和补充图6和补充表3)。
4. 单倍型分型基因组组装的评估
使用6种独立分析评估C88.v1的单倍型完整性和准确性:
(1) k-mer分布显示,组装失败的序列在C88.v1中被分型(补充图7)。HiFi reads的均匀分布映射覆盖度也支持单倍型分型特性(补充图7)。
(2) 为了评估分型精度,此研究基于ONT UL(Oxford Nanopore Technologies Ultra Long) reads,使用Whatshap polyphase构建了分型区块。在66370个分型区块中,含有3400173个单核苷酸多态性(SNPs),分型区块和4种组装的单倍型之间的一致性分别为97.86%(H1)、98.58%(H2)、97.96%(H3)和98.58%(H4),表明分型组装和由UL reads产生的局部分型之间的高度一致性。
(3) 为了验证结构的正确性,此研究检测了C88.v1和单倍体马铃薯参考基因组DMv6.1之间的结构变异(SVs),长度范围为50kb至200kb,并手动检查了SV区域UL reads的映射。只有映射长度为>100kb的UL reads被用于分析。在有3个以上UL reads覆盖的179个SVs中,97.7%的SVs被断点处的UL reads所跨越。
(4) 使用Illumina数据,此研究确定的最终组装具有非常高的碱基精度(质量值,QV 46.6)和完整性(99.05%)。
(5) 利用单拷贝同源基因基准(Benchmarking Universal Single-Copy Orthologs,BUSCO)对组装的分析确定了每种单倍型中存在超过97%的完整基因,其中只有不到3%的重复基因,表明单倍型完整性(表1)。
(6) scaffolds的遗传连锁强度和Hi-C连接矩阵也支持了分型组装的质量(补充图6和8)。
总的来说,C88的单倍型分型基因组组装相对完整,具有解压缩的纯合子区域,包含4组单倍体基因组基因,在SNP分型和大规模结构上具有较高的准确性。根据来自20个组织的239331个PacBio全长转录本和162Gb Illumina RNA测序(RNA-seq)数据,预测了C88基因组中的150853个蛋白质编码基因和217651个亚型(补充表4)。另外,在C88基因组中鉴定了2262个潜在的核苷酸结合位点富含亮氨酸的重复序列(NBS-LRR或NLR)基因,构成165个聚类,其中染色体4、5和11占所有聚类NLR基因的51.11%(补充图9)。BUSCO对基因注释的评估表明,每个单倍型中有93.8%∼95.3%的完整基因,合并的基因组中有99.2%的完整基因(表1)。此外,来自20个组织的RNA-seq数据的平均映射率为93.11%。
5. 同源四倍体马铃薯基因组中的单倍型之间的多样性
5.1 序列差异: SNPs、InDels和SVs
为了对基因组内多样性进行全基因组评价,此研究选择每条染色体上最长的单倍型来组成C88的伪单倍体基因组。基于分型HiFi reads比对,在4种单倍型中共检测到11964627个SNPs和1056892个小的插入/缺失(InDels),它们不均匀地分布在12条染色体上,大约相当于伪单倍体基因组的1.86%(图2A)。
主成分分析表明,第2、4、9和11号染色体的单倍型之间的距离较均匀,而第1、3、5、6、7、8、10和12号染色体的单倍型聚为2或3类。单倍型之间的局部差异水平也各不相同,在某些区域的差异显著降低。以11号染色体为例,PCA分析显示4种单倍型虽然分离,但chr11_1与chr11_4在17-38Mb处非常相似,而chr11_2和chr11_3在19-33Mb处序列一致性较高。此外,chr10_2、chr10_3和chr10_4共有37.2Mb的单倍型序列,在组装过程中出现三倍体组装失败区域,但在10号染色体近端2个区域的多样性水平为7.58 SNPs/kb。
单倍型之间存在/缺失变异(PAV)的基因有11097个,SVs有50360个,其中大的SVs有431个(>100kb),影响了902.76Mb的序列。此研究还在7号染色体上获得了一个900kb共线区域的放大图,以说明4种单倍型之间的广泛分离(图2B)。
图2|C88基因组内单倍体之间的多样性。
A 散点图显示4个同源单倍型的PCA,以及它们之间的相对距离。热图在1 Mb窗口中显示任意2个单倍型之间的SNP/InDels密度。热图左侧的数字1–6表示2个比较的单倍型。黑色短线标记低可映射区域。
B 单倍体之间的多样性示意图,显示了7号染色体上∼900kb区域的同源区域(灰色),同源基因(大写字母),SVs(深橙色),PAV基因(天蓝色)和差异表达基因(显性、平衡和抑制)。与chr7_3和chr7_4相比,在chr7_2上插入∼400kb序列,在该单倍型中增加了16个额外的基因。灰度图表示共线区域中的变量一致性。
C 上图:使用1kb窗口,将1号染色体上共线性低的区域重新进行比对。所涉及的区域为chr1_1:18.48–55.57Mb、chr1_2:18.86–48.81Mb、chr1_3:17.44–42.59Mb和chr1_4:16.49–49.40Mb。下图:1号染色体重复序列的突出显示(chr1_1:34.48–40.48Mb,chr1_2:29.88–32.38Mb,chr1_3:26.99–28.44Mb,chr1_4:26.99–40.99Mb)。
5.2 近端着丝粒和着丝粒区域的可变重复序列
将HiFi reads映射到伪单倍体基因组并对4种单倍型进行共线性分析时,一些区域几乎没有被同源单倍型覆盖。这些区域的长度从0.8Mb到37.1Mb不等。根据它们在染色体上的位置,此研究认为它们可能含有着丝粒,并将6个从单倍体马铃薯基因组中鉴定出来的着丝粒重复序列(St18、St24、St49、St57、St3-58和St3-238)与这些区域进行比对。24个目标单倍型中的有14个观察到重复阵列的显著富集,其长度从19kb到4.5Mb不等(补充表5),这表明着丝粒的位置。在1号染色体上,St24分别在chr1_2、chr1_3和chr1_4上形成99kb、4.6kb和4.5Mb重复序列,而在chr1_1上没有观察到重复序列。在5号和6号染色体上,仅在4种单倍型中的1种上检测到重复富集。
为了充分了解48个单倍型上的近端着丝粒和着丝粒区域,此研究使用1kb窗口,利用StainedGlass对缺乏共线性的区域进行了重新比对,并确定了单倍型特异性的、百万碱基大小的重复序列。根据高度重复的富集程度,48个单倍型可分为3种类型,即与同源基因共享重复序列的单倍型、携带唯一重复序列的单倍型、以及没有明显重复序列的单倍型。chr1_1有2个特异的重复序列,占3.69Mb区域,而chr1_4、chr1_2和chr1_3共享2个重复序列,长度分别为1.43Mb、1.61Mb和1.28Mb(图2C和补充图10)。除3号染色体外,在所有染色体上都检测到单倍型特异性重复序列,其中4个单倍型共享2个重复序列。与拟南芥和水稻的基因组不同,它们含有高度相似的着丝粒卫星重复序列,同源四倍体马铃薯基因组在同源单倍型上表现出明显的近端着丝粒和着丝粒特征,表明了着丝粒序列的快速进化。
5.3 野生马铃薯基因在栽培C88基因组中渐渗
野生物种的入侵被认为增加了栽培作物品系的杂合性。通过将HiFi reads(源自最近发布的马铃薯泛基因组计划中的20个二倍体野生马铃薯)映射到C88基因组,此研究确定了C88单倍型与这些野生型基因组之间不同程度的相似性。野生马铃薯的reads覆盖了C88基因组的25.52%,覆盖率超过20×,这意味着野生种质可能存在严重的渐渗现象(补充图11)。在单倍型chr1_1、chr2_1、chr4_1、chr4_3、chr4_4、chr5_2、chr7_2和chr9_3中,推定的渐渗区域占据了这些单倍型的50%以上(补充表6和7)。在检测到的35个着丝粒样重复序列区域中,有30个区域与推定的渐渗区域重叠,这表明野生马铃薯序列可能与C88单倍型的独特的着丝粒有关。
5.4 等位基因差异表达
为了揭示4种单倍型上同源基因的表达谱图,此研究在单倍型间的共线区块中鉴定了23086个四等位基因位点,每个单倍型有一个等位基因,并分析了它们在20个组织中的表达。对于每个组织,此研究根据4个等位基因的相对表达水平将等位基因的表达分为平衡、显性和抑制表达(补充图12A)。平均而言,在1个组织中,49.1%的四等位基因位点在4个等位基因中表现出差异表达,其中3.4%的位点具有单个显性表达等位基因(补充图12B)。就表达而言,对特定单倍型没有显著的偏好。在C88基因组中,此研究观察到1个位点的等位基因在20个组织中表现出不同的表达模式。在92344个等位基因中,23086个位点中的61.7%(56942个)在20个组织中显示出至少2种表达类型,表明同源四倍体马铃薯基因组基因表达具有动态特性。
6. 同源四倍体马铃薯基因组中的四倍体遗传
在同源多倍体减数分裂中,二倍体和异源多倍体的遗传有许多明显的特征,例如染色体的多价配对和优先配对,以及双减数分裂(double reduction,DR),这些特征长期以来一直是四倍体马铃薯和其他多倍体作物的研究热点。在这项研究中,此研究在C88的自交群体中见证了这些有价值的事件。利用9834个鉴定过基因型的SNPs对1034个S1马铃薯四倍体群体进行了二价配对和多价配对频率的检测(补充图13和14)。二价配对与随机配对无偏差,四价配对在C88自交群体中频率范围为50%~70%,显著高于杂交群体19%的平均频率。这种差异可能是由于亲本系中基因组组分的差异造成的。在多价构型的基础上,DR的发生取决于减数分裂I期同源染色体的DNA交换,而携带相同单倍型的姐妹染色单体在减数分裂II期被吸引到同一极。根据DR在端粒和着丝粒之间的染色体位置,计算出DR的理论发生率为0≤α≤1/6。为了研究同源四倍体马铃薯中DR的特性,此研究使用低覆盖率测序数据对C88的自交系进行了基因分型。尽管在自交系中检测DRs存在一定的局限性,但此研究仍然观察到,在1034个测序子代中有1021个个体,其12条染色体上DRs频率为1%-4%(图3)。DRs的分布在同源单倍型上有所不同。对于48个单倍型中的32个,DR频率向染色体的两个端粒增加,在靠近着丝粒区域检测到的DR频率降低,这与先前基于SNP遗传图谱的研究一致。然而,在其余16个单倍型上,端粒区域只有1个或没有DR频率峰。以7号染色体为例,chr7_1、chr7_3和chr7_4在1个近端端粒区域出现了DR频率峰,最高频率分别为2%、1%和1%,而chr7_2在另一个近端端粒区域出现了2.5%的频率峰。为了研究4种单倍型的分离,此研究在1034个S1个体中手动选择了9834个高质量SNPs来推断群体中遗传的单倍型(补充图14)。由于使用低覆盖度的基因组测序数据很难推断单个单倍型,此研究中,每个单倍型的覆盖度为∼1×,由PolyOrigin推断的4种单倍型的比例具有明显的参考偏差;也就是说,在reads映射过程中用作参考的单倍型在子代中以较高的比例计算。尽管如此,仍然观察到明显的分离偏差,如一些单倍型的比例远远低于理论上的1/4(χ2检验,P<10-10),如chr3_3、chr4_3、chr6_3、chr8_3和chr12_2上的区域。这些单倍型比例的降低可能是存在影响较大的有害突变的结果。
7. 栽培四倍体杂种优势起源的评估
多倍体被认为与驯化密切相关,并通过提供更有利的基因和遗传多样性来促进作物的早期驯化,这有利于增加适应性。四倍体马铃薯起源于地方品种二倍体中2n配子的杂交。为了研究多倍体对现代马铃薯品种发育的影响,此研究利用亲本单倍型组合,在C88基因组中模拟了2个2n配子的杂交。对C88母本I-1085的基因组进行测序,并使用母本特异性纯合SNPs将C88基因组的48条染色体分成2组亲本单倍型(补充图15)。像许多其他无性繁殖作物一样,马铃薯携带着沉重的突变负担。在C88基因组中,此研究预测了4种单倍型上的57641个功能性有害突变,影响了15942个注释基因,称之为预测有害等位基因(PDA)。在总共23086个四等位基因位点中,33.05%含有1~3个PDAs,使PDAs保持在杂合状态(图4A)。与23.0%的双等位基因位点具有杂合PDAs的二倍体马铃薯单倍型相比,四倍体马铃薯单倍型通过提供更多的基因拷贝作为缺陷等位基因的备份,表现出更高水平的功能互补。就亲本单倍型而言,在744个四等位基因位点中,2个母本等位基因都是PDAs,而父本单倍型提供了未受影响的等位基因(图4B)。相反,有2366个四等位基因位点具有2个父系PDAs和至少1个未受影响的母体等位基因。因此,在杂交中,配子中的2个功能失调的等位基因会在四倍体合子的杂合状态下被另一亲本掩盖。在同源多倍体过程中,2n配子上的纯合有害突变将以这种方式被掩盖,从而减少了有害突变积累的有害影响。这可能是利于四倍体品种存在的基础。在C88基因组中,此研究检测到1079个父系特异性基因和1253个母系特异性基因。亲本杂交赋予四倍体更为丰富的遗传多样性,为筛选育种中累积的优良性状提供了可能。由P. infestans引起的晚疫病是两个多世纪以来马铃薯产量下降最严重的疾病。C88对叶子和块茎中的P. infestans均具有高度的持久抵抗力。Avr蛋白的浸润实验表明,Avr1和Avr2在C88马铃薯叶子上产生了显著的超敏反应(HR)表型(补充图16)。此研究通过构建野生马铃薯Solanum demissum的细菌人工染色体(BAC)克隆PGEC472P22,将R1基因定位在chr5_3(图4C),并使用具有HR表型的全长转录本将R2基因定位在chr4_3(补充图16)。R1和R2均来自父系单倍型,表明C88品种的持久抗性在很大程度上归因于其父本S. andigena。C88主要作为夏季作物种植在云南省,位于北纬20℃-30℃,夏季日照时间较长。在这种条件下,C88母本品种I-1085具有更好的适应性,而Andigena的适应性较差。C88夏季成熟较晚,生长期为120-150天。对马铃薯晚熟基因StCDF1.1的筛选显示,4个等位基因中有3个是相同的,1个等位基因在编码序列(CDS)中有3-bp的缺失,导致1个氨基酸缺失,在3个预测结构域之外,这似乎不太可能影响基因功能(图4C)。因此,来自2个亲本的StCDF1.1的4个等位基因可能赋予了C88在较长的日照条件下的晚熟表型,确保其在亚热带地区的适应性。亲本单倍型功能基因的积累使C88成为适应性强、成熟期晚、抗性持久的优良品种。
A 具有0、1、2、3、4个PDAs的四等位基因座的比例(左饼图)和具有功能互补等位基因的位点数量(右饼图)。
B 母本(青色)和父本(橙色)单倍型上未受影响的等位基因的数量。这些数字是在1Mb窗口中计算的。
C 因为在5号染色体的4种单倍型(母体[青色]和父系[橙色])中均存在1个SV,因此,来自S. demissum BAC的R1位点仅定位于chr5_3;C88基因组中有4个StCDF1.1等位基因(右)。
讨论
长期以来,同源四倍体马铃薯基因组的可获得性因其高度杂合而受到阻碍,从而妨碍了杂种优势的遗传基础的表征、潜在的理想性状以及对同源四倍体物种的基因组结构的研究。最近,得益于测序技术的进步,发表了几个四倍体马铃薯的基因组,包括四倍体品种Otava和栽培品种Altus、Atlantic、Avenger、Castle Russet、Colomba和Spunta的染色体规模单倍型分型基因组。
在这项研究中,此研究获得了一个商业化的同源四倍体马铃薯栽培品种C88的基因组组装体。这些可用的基因组为了解栽培马铃薯和其他同源多倍体物种的生物学特征提供了重要资源。Otava和C88的基因组都是通过利用最新的HiFi测序技术完成的,并使用遗传群体来指导长reads的分型。这两项独立的工作之间的区别在于在第二轮组装中利用了分型reads,这是为了提高初始contigs的连续性。在Otava组装中,分型reads被分成几组,然后分别重新组装到每个组。该策略已成功应用于许多基因辅助组装。与此不同的是,在C88组装中,此研究将reads的分型信息输入到组装软件hifiasm中,并应用polyploid graph binning来指导全基因组图谱的解析并生成新的contigs。Polyploid graph binning是一种更直接的策略,充分利用reads信息,并且不会引入深度偏差。C88基因组的高质量在连续性(18.78Mb vs. 7.1Mb的contig N50)和完整性(98.4% vs. 97.3%的BUSCO评分)方面都优于Otava组装,证明了polyploid graph binning的有效性。reads的分型信息可以通过多种方式生成,例如连锁分组或Hi-C分型。然而,C88和Otava基因组为多倍体基因组的单倍型分型组装提供了令人信服的例子。
在解释同源四倍体基因组的基因组结构时,单倍型之间不均匀分布的多态性导致了镶嵌分布的高度分化区域和几乎相同的区域的出现,这使得分析复杂化。依赖于双端比对或基于参考基因组比对的常规方法不足以证明其复杂性。为了充分说明复杂的SVs并避免参考偏差,迫切需要基于图形的泛基因组模型和能够简洁地表示同源单倍型的工具。
对单倍型间缺乏共线性的区域进行全局放大比对,结果发现了单倍型特异性重复序列的存在和缺失。这些区域含有未知的着丝粒,表明马铃薯基因组中着丝粒的快速动态进化。与A. thaliana和稻属物种相比,这是一个非常明显的特征。以往的研究报道了在S. tuberosum和野生马铃薯的着丝粒和着丝粒DNA中存在多种重复类型,这对茄属植物着丝粒的起源和进化提出了尚未解决的问题。最近发表的C88和其他同源四倍体马铃薯基因组,加上最新的茄科物种泛基因组,为在更详细、更广泛的尺度上研究茄科物种着丝粒的动态变化提供了丰富的资源。
通过对20个野生型二倍体马铃薯的基因组reads进行筛选,此研究在C88基因组中发现了805.37Mb的潜在渐渗区域。在40个单倍型上检测到的165个NLR基因簇中,有98个簇与渐渗区域重叠,这可能解释了功能性抗性基因的起源。单倍型上NLR基因簇的检测也有利于目标类型的抗性基因的组合,在育种方案中选择特定的单倍型,并尽可能将有利渐渗整合到四倍体或二倍体马铃薯中。
虽然有害突变在同源单倍型中均匀分布,但在C88基因组中,此研究发现父系单倍型比母系单倍型具有更多的纯合子功能失调位点,即两个等位基因是PDAs,这表明来自不同背景的单倍型可能携带不同数量的有害等位基因。对马铃薯多相位基因组的进一步分析,为选择合适的骨干单倍型提供了全面的信息,对基因组设计育种具有重要的意义。
https://mp.weixin.qq.com/s/zFj5wHP0BnYlmuNkZvHw0w