每周文献|大豆多倍体进化和生活史变迁

豆科植物拥有两个亚属,一个是单年生的Soja亚属 (2n=40),里面包含我们很熟悉的朋友——大豆Glycine max。另一个是多年生的Glycine 亚属(2n=38, 40, 78, 80)。两个亚属在一千万年前就离婚分家了。原本以为分家之后各自安好,不料分家之后连生活史(单年生/多年生)和染色体倍型都发生了改变。原本一家的大豆为什么会发生如此翻天覆地的变化?今天我们分享一篇来自Nature Plants的文献,纵观大豆基因组的倍型进化以及生活史转变。


首先隆重介绍本次男嘉宾,也就是我们所熟知的大豆:Glycine max

Glycine max.jpg

以及男嘉宾爷爷的爷爷的爷爷的爷爷的爷爷的爷爷的爷爷的爷爷的爷爷的爷爷的爷爷:Glycine soja
不能说十分相像,简直是一模一样。
这俩一看就是亲生的。

Glycine soja

文章信息

  • 题目:Phylogenomics of the genus Glycine sheds light on polyploid evolution and life-strategy transition
  • 期刊和时间:Nature Plants,2022.3.14
  • 作者和单位:通讯作者来自山东农大的Dajian Zhang老师以及普渡大学的Jianxin Ma老师。

研究背景

  • 有花植物例如豆科的多倍化和生活史转变十分频繁,然而却缺乏遗传学证据解释其原因。

研究结果

1.染色体级别的基因组装和基因组注释

作者使用三代测序PacBio,辅助Hi-C技术和BESs(paired bacterial artificial chromosome (BAC) end sequences)技术,对五个多年生二倍体大豆G. falcata (FF), G. stenophita (BB), G. cyrtoloba (CC), G. syndetika(AA) ,G. tomentella D3 (DD),以及一个异源多倍体大豆G. dolichocarpa (AtAtDtDt)进行测序。

随后对组装后的基因组进行评估,使用了N50,k-mer估计等指标;基因组完整性采用 BUSCO和CEGMA软件进行评估。大豆基因组系统发育情况,基因组共线性情况(Fig1)及评估结果如下(table1):

table1| 基因组组装情况.jpg

Figure1| 大豆样本的采样地,系统发育树,基因组共线性分析

注解:Fig1中A图是本次测序数据的样品采集地及系统发育情况。系统发育树根据830个直系同源基因构建,Medicago truncatula和Phaseolus vulgaris作为外群。其生活史和倍型也在其中以不同颜色区分。其中分化时间通过Beast软件添加。B图是基因组共线性情况,最外围是本次共线性分析的参考基因组Glycine max。C图是八号染色体在D/Dt,A/At基因组之间的重排情况和转座子密度分布。作者以此为例说明对多个物种/基因组进行比较,可以验证许多基因组重排,并确定这些事件的相对时间和性质。D图将各个大豆种基因组的重组率进行对比(以 P. vulgaris的重组率作为参考),表明多年生植物的基因组重排次数少于单年生植物。

在此基础之上作者对基因组进行了蛋白编码注释,收集每个大豆测序种的根,叶和花,混合上述植物组织并利用RNA-seq进行测序。得到的reads分别进行de novo组装和有参考基因组的组装。取二者组装后转录本的并集使用MAKER-P基因预测工具进行基因组注释。

2.转座子和着丝粒重复序列的基因分化

在得到高质量大豆基因组之后,作者对于其中的转座子区域进行了分析。Fig2A和B列出了各个类型基因组中转座子种类分布和数量。在这其中,98.2%的长末端转座子(LTR-RT)被估算产生于5百万年前,这也暗示了这些长末端转座子很可能是导致基因组分化的原因。此外,在多年生大豆种中发现了905个完整的LTR-RTs,而这些之中没有一个能够完完整整地出现在单年生大豆中,这些LTR-RTs仅有不到四分之一在单年生大豆中有微弱的片段同源基因发现。这也能一定程度上说明在大豆属分化之后体内的LTR-RT产生了独立遗传。

Figure2| 单年生大豆和多年生Glycine亚属各品种的重复序列分析

此外,大多数植物的着丝粒由长序列的着丝粒卫星重复序列(CSRs)组成,这些重复序列经常被富含着丝粒的逆转录转座子(CRs)打断。在单年生大豆中曾经鉴定出两个CSR家族Gm-Cent1 and Gm-Cent2,在大豆20条染色体中各自代表其中一个染色体组的着丝粒卫星重复序列。然而这些CSR在多年生大豆中数量大大减少(Fig2C)。由上述CSR直系同源分析进而推进到串联重复基因分析时,作者发现在基因组A,B,C,D中没有找到CRS-like重复蛋白。仅在F基因组中找到了CRS-like,因此与栽培大豆Gm-Cent1 和Gm-Cent2构建了系统发育树(Fig2D)。基于Gm-Cent1 和Gm-Cent2邻位物理图谱分析和二代测序数据,作者找到了Gmr17和Gmr01(Fig2EFG),二者可能是单年生大豆种中的富含着丝粒的逆转录转座子(CRs)(至于邻近分析(relative frequencies of physical adjacency)小编还在学习中)。总之在单年生大豆中找到了Gmr17和Gmr01,但是多年生大豆没有。这可能也是造成其生活史转变的原因之一

3.超级泛基因组解析大豆进化

当下大豆的泛基因组规模较小,仅容纳了栽培种。为了扩充泛基因组的遗传多样性,作者使用测序得到的二倍体Glycine联合构建了超大泛基因组。在基因组中注释非冗余基因显示31936个多年生二倍体大豆共有基因。这些基因是多年生大豆的核心基因(Fig3A)。在下载的26个单年生大豆基因组中,作者也进行了相同的注释,找到了 129,006个共有的非冗余基因,这些基因是单年生大豆的核心基因。将单年生和多年生大豆的核心基因和非核心基因重新归类,形成了Fig3B。可见单年生大豆中非核心基因形成比例较高(但这种高比例可能是因为单年生大豆基因表达资源多,毕竟多年生大豆只测序了5个种)。

Figure3| 多年生大豆核心基因和单年生大豆核心基因聚类分析

接下来作者把目光聚焦到了17,922多年生大豆和单年生大豆共有的核心基因中。首先通过Ka/Ks检测其受选择程度,与6,745个多年生大豆和单年生大豆共有的非核心基因相比,核心基因的Ka,Ks和Ka/Ks都更小(Fig4C-E)。但是在单年生和多年生植物之间(Fig4C-E红蓝之间)没有显著性差异。对上述共有基因的duplicates和singletons进行Ka/Ks检测也显示了相同的结果。但是在随后的分析中作者发现,多年生二倍体大豆中核心基因的duplicates to singletons比例高于非核心基因,而单年生大豆基因组中整体的duplicates to singletons比例要高于多年生。两种生活史不同的大豆在基因进化上可能也存在分歧。

Figure4| 单年生大豆和多年生大豆在共有核心/非核心基因的纯化选择分析。

4.适应性进化导致生活史转变

聊完单年生和多年生大豆基因组整体的基因进化,现在我们深入微观找寻导致其生活史转变的基因。作者在多年生二倍体大豆和他们的7个野生型单年生大豆中寻找同源基因,对找到的同源基因进行Ka/Ks检测发现了52个经历过较强纯化选择的位点,这里面有6个经过GO分析发现是控制花朵发育的基因,其中2个基因在多年生和单年生大豆中具有极高水平的纯化选择,很可能跟生活史转变相关(Fig5A,B)。进一步同源分析发现,这两个基因一个和Arabidopsis PLANT HOMOLOGOUS TO PARAFIBROMIN (PHP)同源,控制花朵形成(Fig5F是其通路)。另一个与Arabidopsis DWARF14 (D14)同源,编码独脚金内酯受体(Fig5G是其通路)。Fig5C,D分别对比了二者与PHP和D14的序列差异。Fig5E是二者的纯化选择强度,在单年/多年生大豆中的情况。这两个基因的适应性进化,超高的纯化选择强度,以及基因本身的功能都在一定程度解释了生活史的转变。

Figure5|

5.亚基因组中的基因偏好性分离

这里的“基因分离”英文写作subgenomic fractionation,指的是冗余基因丢失的过程。而有偏好性的基因分离指的是基因分离发生在其中一个亚基因组上。转座子作为驱动偏好性基因分离的因素,在亚基因组之间产生表观遗传差异。进而引发表达量的下降,受影响的基因低表达直至丧失功能。

大豆基因组中A和D产生的重排率是最高的,大约每百万年11个重排事件。然鹅在A和At以及D和Dt基因组内部却十分保守。A和At只有10个位置转换(transpositions),D和Dt只有6个位置转换(Fig6A)。而且在多倍化发生之后At基因组和Dt基因组间仍然发生了23个小的亚基因组间转座,包含了45个基因(Fig6B)。

Figure6| 转座子在A,D基因组上的分布情况

此外从基因组A和D到基因组At和Dt的多倍化伴随着基因丢失,而且这些A和D基因组中丢失的基因有更高的Ka/Ks(Fig7F),表明其受到了纯化选择。更进一步,受到纯化选择的基因在表达水平上明显变弱。At和Dt基因组中的基因缺失更倾向于成簇缺失(Fig7H)。异源多倍化后的At和Dt相邻基因相较于A和D更倾向于共表达(Fig7I,J)。

Figure7| 异源多倍体中亚基因组的分化与偏好性分离

注解Fig7c中显示的是At和Dt相较于A和D基因组中的基因丢失情况。Dt相较于At丢失了更多的singletons。丢失基因的种类展示在Fig7eFig7g显示,A和D同源物的表达水平与At和Dt中对应基因的丢失率分别呈负相关。Fig7 i,j分别是At和Dt的临位共表达情况和A和D基因组的临位共表达情况,前者正相关,后者没显著性关联,以此说明其从A&D演化为At&Dt之后基因趋向于共表达。Fig7 k作者对丢失的基因进行种类划分,并且给出了其比例。Fig7 I展示了一个deletion模型,用以表明提前终止导致的删除突变促使了亚基因组分离。

总结

本研究组装了5个多年生二倍体大豆高质量基因组和1个多年生异源多倍体大豆高质量基因组。本文中通过对于全基因组的转座子分析,纯化选择分析和丢失基因分析,将大豆倍型进化的原因归纳到重组导致基因丢失,最终引发染色体分离。明确了有花植物多倍化进化的方向。整篇文章是一篇纯生信分析,只用六个高质量基因组就能发到NP,其课题本身的立意功不可没。如果在此基础上能够对大豆PHP和D14的同源基因进行正向遗传学验证,且发现了大豆生活史的巨大转变,想必能够达到CNS的水平(某种程度上的作物从头驯化)。


参考信息:

1. Glycine Soja;https://www.sciencedirect.com/topics/agricultural-and-biological-sciences/glycine-soja
2. Zhuang, Y., Wang, X., Li, X. et al. Phylogenomics of the genus Glycine sheds light on polyploid evolution and life-strategy transition. Nat. Plants (2022). https://doi.org/10.1038/s41477-022-01102-4

你可能感兴趣的:(每周文献|大豆多倍体进化和生活史变迁)