今天给大家介绍一篇睡莲基因组的文章,这篇文章去年十月底在nature在线发表。感兴趣的小伙伴可以在原文的补充材料中继续查看。
睡莲基因组和早期有花植物的进化
睡莲属于早期的被子植物Nymphaeales(睡莲目)。无油樟目,睡莲目和木兰藤目Amborellales, Nymphaeales and Austrobaileyales共同被称作被子植物ANA-基部支群,这是最早的谱系代表,即从现存的核心被子植物(mesangiosperms,也称core angiosperms)谱系中最早分化出来的谱系。本文报导了409Mb蓝星睡莲(Nymphaea colorata)的基因组。系统发育分析支持无油樟目和睡莲目是其他现存被子植物的一个连续successive姊妹群。蓝星睡莲和其他19个转录组揭示了睡莲目的全基因组复制事件,这一复制事件可能在睡莲科和莼菜科(Nymphaeaceae and Cabombaceae)都共享。这些在全基因组复制事件中保留下来的同源的(homologues)基因在调节花期和花发育上具有重要作用。在蓝星睡莲中扩展的ABCE直系同源基因可能支持了ABCE模型在早期的被子植物花器官中已经确定。睡莲已经进化出了诱人的花香和花色(即传粉综合症),这些特征与核心被子植物共享,并且注释了蓝星睡莲中这些生物合成的基因。化学化合物和植物气味背后的生物共线性基因暗示在核心被子植物中具有平行进化模式。由于蓝星睡莲独特的系统发育位置,蓝星睡莲的基因组能够揭示早期被子植物的进化。
主要结果
许多睡莲物种尤其是睡莲属(睡莲科)都有大的艳丽的花,和其他被子植物(也称有花植物)一样。它们的美丽吸引着如莫奈等一大批艺术家。睡莲的花被片(即外部的花器官)的分化能力有限,但是它们拥有雌雄器官,并且具有不同的气味和颜色。类似于很多核心被子植物(核心被子植物,包括双子叶植物,单子叶植物和木兰类植物core angiosperms, including eudicots, monocots, and magnoliids)补充记录1.另外,一些水生睡莲生活史很短,具有很多种子,且ANA作为被子植物基部支群,睡莲是研究被子植物进化事件的理想的材料。特别是蓝星睡莲基因组较小(2n=28,大小约400Mb),并且蓝色的花瓣使它在育种上也变得特别。补充记录1
报告了N. colorata的测序基因组,利用了PacBio RSII single-molecule real-time (SMRT)测序方法。组装了1429个contigs(Contig N50 2.1Mb),总长409Mb,共有804个scaffolds,其中770个锚定在14个染色体上。(扩展数据1),基因组完整性估计为94.4%(补充记录2),注释了31,580个蛋白质编码基因并预测了重复元素reptitive element,其总长度为160.4 Mb,占基因组的39.2%(补充说明3)。
蓝星睡莲的基因组提供了一个很好证据,来解释ANA被子植物基部支群和其他现存的被子植物之间的关系(图1a)。方法上,我们使用6个双子叶植物、6个单子叶植物、蓝星睡莲和无油樟,以及分别用三种裸子植物(银杏、小立碗藓、卷柏)来作为外类群,利用鉴定的2169、1535和1515个直系同源低拷贝核基因(LCN)构建进化树(图1b).以银杏作为外类群的情况下,进化树支持率超过80%支持type2的拓扑结构,也就是说无油樟相比睡莲是更基部的类群。(图1c)。利用小立碗藓和卷柏作为外类群,与银杏结果类似,分别为57%和54%的支持率支持type2拓扑结构。直系同源低拷贝的核基因树表明利用氨基酸序列建树得到了与其系统发育相似的结果(补充材料4.1).
图1
为了尽可能减少因为所选择的类群过少而导致系统发育位置不同,又用了44个基因组和71个转录组数据,包括具有代表性的ANA基部类群、双子叶植物、木兰类、单子叶植物和一个裸子植物组成的外类群(买麻藤Gnetum montanum, G. biloba, P. abies and P. taeda)见方法。为进一步推断这115个物种的系统发育关系,我们选用了直系同源低拷贝的基因集LCN,包括了1167、834、683、602、445个基因。这5个数据集产生了相似的树形拓扑结构,其中无油樟和睡莲作为其他现存的被子植物的姊妹群。(图1d、e,补充材料4.2)。
又使用了一组101个严格的LCN基因,再加入21个化石证据数据进行校正,发现被子植物大约起源于234-263百万年前。(图1d)单子叶植物和双子叶植物之间的分化时间估计在171-203Ma,而睡莲科和莼菜科Cabombaceae之间的分化时间估计在147-185Ma。
在蓝星睡莲上发生了全基因组复制事件(Extended Data Figs. 1f, 2a and Supplementary Note 5.1),蓝星睡莲每个同义位点(KS)synonymous substitutions per synonymous site (KS)分布的同义取代数进一步显示出在KS处的特征峰约为0.9(图2a),在其他睡莲科物种中发现了类似KS值的峰值(补充注释5.2),这表明一个古老的单一WGD事件可能在睡莲科成员之间共享。比较蓝星睡莲旁系同源物KS分布与直系同源物KS分布(代表物种形成事件)包括between N. colorataand other Nymphaeales lineages,红茴香五味子科木兰藤目 Illicium henryi, and Amborella表明全基因组复制事件发生在睡莲科和莼菜科分化之后(图2a)。在基因家族的系统发育分析中,至少一组旁系同源的共线性区域来自睡莲,也就是说,这组旁系同源的基因家族在睡莲科和莼菜科全基因组复制事件后共享图2B,5.4。如果这样的话说明莼菜仍然保留一些复制,这就说明了在旁系同源的Ks中为什么确实了一个明显的峰(5.2),蓝星睡莲旁系同源基因表明全基因组复制事件可能发生在睡莲科和莼菜科分化之前或附近(扩展图2d,5.3),considering the variable substitution rates among Nymphaealean lineages (Fig. 2a, b, Extended Data Fig. 2c).上述结果的另一种可能解释是,全基因组复制事件来自一个多倍体事件,也就是这个全基因组复制事件发生在睡莲科和莼菜科还没有分化之前的共同祖先身上,并产生了睡莲科(但不是Cabombaceae)的谱系(图2d,补充说明5.4)。
图2
睡莲谱系是早期从被子植物中分化而来的一支,在核心被子植物之前。因此睡莲谱系是探索早期被子植物进化的独特窗口,尤其是有花植物。本文注释了70个MADS-box基因,包括代表花卉器官身份的ABCE模型的同源基因。AP1(也叫FUL)和AGL6(A功能-萼片和花瓣),AP3和PI(B功能-花瓣和雄蕊),AG(C功能-雄蕊和心皮)和SEP1(与ABC功能蛋白相互作用的E功能)。对MADS-box基因的系统发育和共线性分析,发现这些基因组附近有串联重复在种子植物的多样性催生了A功能(FUL)和E功能基因(SEP)的祖先之前(扩展数据图3,补充说明6.1)。同样,由于Nymphaealean WGD,蓝星睡莲有两个旁系同源物,即C功能基因AG的AGa和AGb(扩展数据图4)。同样的,睡莲目的全基因复制事件后派生的复制基因是与其他同源基因协同控制心皮和雄蕊发育的,也共同调控这开花时间的基因(通过生长素来控制睡莲的昼夜节律)扩展数据图4-6,补充说明6.2-6.4)。
蓝星睡莲ABCE同源基因的表达图谱,在很大程度上与它们在花器官里的功能有关。(图3a)。蓝星睡莲的同源基因AGL6主要在萼片sepals和花瓣petals中表达,而FUL同源基因主要在心皮carpels中表达,表明AGL6在A功能基因中起A功能基因的作用。这两个C功能同源基因AGa和AGb分别在雄蕊stamens和心皮carpels中高表达,AGb在萼片sepals和花瓣petals中也高表达,这表明它们可能在Nymphaealean WGD之后经历了亚功能化,并且可能经过了新功能化,从而促进了花的发育。除此之外,在蓝星睡莲中,ABCE同源物在花器官中的表达范围通常比在双子叶植物模型系统中的对应范围大(图3b)。这种更广泛的表达模式,与至少一些ABCE基因在代表早期分化谱系的一些双子叶植物,一些单子叶植物和木兰类中的广泛重叠,表明古老的ABCE花发育模型,随后基因表达的渠限化,尤其是核心双子叶植物的进化过程中,基因表达和功能受到了更多专门化的ABCE基因的调控。这也可能解释了睡莲物种的萼片和花瓣之间有限的分化,并且与祖先被子植物花中提出的单一类型的花被器官相一致。
图3
花气味对传粉者来说是一种嗅觉提示。在无油樟的花中不含有花香,而在蓝星睡莲中我们测到11种不同的化合物,包括萜烯类(倍半萜)、脂肪酸衍生物(葵酸甲酯)以及苯类化合物。(including terpenoids (sesquiterpenes), fatty-acid derivatives (methyl decanoate) and benzenoids (Fig. 4a)。在蓝星睡莲的基因组中包含了92个与萜烯合成酶TPS相关的基因,这些基因在前人的文献中早就已经有报导subfamilies in angiosperms: TPS-b, TPS-c, TPS-e/f and TPS-g (Fig. 4b),。但是没有发现TPS-a,它负责核心被子植物的倍半萜生物合成。值得注意的是,TPS-b在蓝星睡莲中含有80多个基因;NC11G0123420在花中高表达(扩展数据图7);这个结果表明它在睡莲中可能是倍半萜生物合成酶的候选基因。除此之外,在单子叶植物和双子叶植物中尚未检测到癸酸甲酯为挥发性化合物,而在睡莲中被认为是被SABATH甲基转移酶的基因家族合成的。睡莲基因组中共包含了13个同源SABATH,其中12个是睡莲组特有。补充图41. 在这12个成员中,NC11G0120830在花瓣中表现出最高的表达(图4c)。其相应的重组蛋白被证明是脂肪酸甲基转移酶,这个转移酶以癸酸为底物具有最高的活性(图4d,补充说明7.1)。这些结果表明,蓝星睡莲的花香生物合成是通过酶促功能完成的,该功能独立于核心被子植物的功能而发展(图4e)。
图4
蓝星睡莲的价值在于花瓣的颜色为蓝色,这是有花植物中罕见的特征。为了了解睡莲开蓝花的分子基础,我们确定了delphinidin 3′-O-(2″-O-galloyl-6″-O-acetyl-β-galactopyranoside)这种物质,作为主要产生蓝色花青素颜料(扩展数据图8a–c)。通过比较两个带有白色和蓝色花瓣的N. colorata品种在重组花色苷生物合成途径中的基因表达谱,我们发现了花青素合酶和飞燕草素修饰酶的基因,它们在蓝色花瓣中的表达明显高于白色花瓣中的表达(扩展数据图8d,e)。这两种酶催化花青素生物合成的最后两个步骤,因此是专门用于蓝色色素生物合成的关键酶20,21(补充说明7.2)。
睡莲的分布范围包括寒冷地区(中国北部和加拿大北部),这与其他ANA支部被子植物Amborella(太平洋岛屿)和Austrobaileyales(温带和热带地区)不同。我们检测到了N. colorata中与免疫力和应激反应相关的基因的显着扩增,包括编码核苷酸结合的富含亮氨酸的重复序列(NLR)蛋白,蛋白激酶和WRKY转录因子的基因,与无油樟和核心被子植物相比,这些基因数量的增加使睡莲能够适应全球各种生态环境