【豆科基因组】利马豆/洋扁豆Lima bean(Phaseolus lunatus L.)基因组2021NC

一、来源

Comprehensive genomic resources related to domestication and crop improvement traits in Lima bean.
Nature Communications volume 12, Article number: 702 (2021)

单位:Departamento de Agronomía,Facultad de Ciencias Agrarias,哥伦比亚国立大学

菜豆属 Phaseolus genus中包含70个物种,其中5种被驯化,包括P. acutifolius A. Gray (tepary bean), P. coccineus L. (ayocote or runner bean), P. dumosus Macfady (num, piloy, or year bean), P. lunatus L. (Lima bean), and P. vulgaris L. (common bean),洋扁豆/利马豆 ( Phaseolus lunatus L. )和菜豆/普通豆P. vulgaris L. (common bean)是其中最重要的两种,都是2n = 2x = 22。扁豆营养丰富,含20%的蛋白质,50%以上的碳水化合物,与普通豆相比,它表现出对更广泛的生态条件适应性和干旱压力。虽然两个物种之间的已经被证明有高度共线性,扁豆依赖菜豆基因组参考序列可能会对下游多样性分析产生影响,导致信息丢失,甚至可能误导与性状相关的基因组位点的预测。

野生扁豆主要有三个基因库:两个中美洲(MI 和 MII)和一个安第斯 (AI) 基因库。起源中心尚未确定。扁豆至少有两个驯化过程,一个在中美洲,一个在安第斯山脉。安第斯驯化发生在基因库 AI 并产生了以大而扁平种子为特征的安第斯品种,第二个事件发生在墨西哥中西部的基因库 MI,并产生了具有圆形或椭圆形种子的中美洲品种。利马豆是趋同进化的一个很好的例子,因为中美洲和安第斯地方品种在驯化下进化出相似的特征,主要是更大的豆荚和种子,豆荚开裂减少或丧失,种子休眠丧失,确定的生长习性和抗营养种子化合物含量减少。

主要结果:

  • 三代+二代+遗传图谱进行染色体水平基因组组装。
  • 28,326 个基因模型的注释显示 1917 个基因具有与抗病性相关的保守域的高度多样性。
  • 对 22,180 个与普通豆的直系同源物进行结构比较,揭示了高度共线性和五个大的染色体内重排。
  • 种群多样性分析将扁豆聚成六个独立的亚群,中美洲地方品种可以进一步细分为三个子群。
  • RNA-seq 数据分析发掘 4275 个差异表达的基因,与豆荚开裂和种子发育有关。

二、结果

扁豆的染色体水平高质量组装

材料G27455,来自哥伦比亚北部收集的中美洲基因库 MI 的驯化品系。
数据:WGS,GBS,10X,RNAseq
PacBio WGS初步组装,Illumina抛光,遗传图谱挂载。

image.png

a RIL 群体的利马豆参考基因组上按物理位置 (Mbp) 划分的遗传距离 (cM) 和重组率 (cM/Mbp)。染色体被标记为Pl01-Pl11。b 染色体长度和着丝粒周围区域。c 重复元素的密度。d 基因模型的密度。e SNP 的密度。f-i RIL 群体中筛选出的四个不同性状的 QTL 的 LOD 分数。彩色区域LOD大于 3,determinacy (绿色)、开花时间(蓝色)、百粒重(红色)和挥发性氰化物(黄色) 。j RIL 群体中性状的表型分布,垂直线表示亲本表型。

BUSCO评估98.8%。
重复序列注释基于 796个TE的菜豆库。共656,928 events were identified covering 225 Mbp (41% of the assembly)。这些区域的一半以上 (174 Mbp) 被长末端重复序列 (LTR) 覆盖。

三个组织两个发育阶段的RNAseq结合菜豆公开的阿RNAseq数据,共预测了28,326个基因和 35,881 个转录本,基因和蛋白质长度的分布与菜豆的基因注释一致。

GO注释率76%,功能类别包括对压力的反应、不同的代谢过程、运输、解剖结构发展、信号转导、细胞成分组装和体内平衡;KEGG注释率80%。93%的基因至少在一个RNAseq数据集中表达,78%的基因与菜豆直系同源基因具有共线性,即95%的基因模型有直接证据。

扁豆相关农艺性状的QTL定位

Determinacy(不知怎么翻译~)和三个数量性状(开花时间,FT;百粒重,HSW;和氰化物含量),四个性状在双亲群体中鉴定出九个QTL(见circos图),分别说明。

直系/旁系同源的演化和物种形成事件

预测蛋白相互比对来构建3499个旁系同源簇,代表着从不同基因组进化过程产生的基因家族。旁系同源关系的分类和染色体间同线性分析揭示了 1647 个具有旁系同源的基因,这些基因是由豆科历史上记载的古代全基因组复制事件产生的。从这些旁系同源物中推断出的染色体配对与菜豆基因组是一致的(cricos图中中间连线)。

总共有 7285 个基因的染色体内复制事件。即使去除了高度重复的基因(具有十多个旁系同源物),仍有 5849 个基因参与了染色体内复制事件。它们的Ks 值明显小于全基因组重复 (WGD) 旁系同源物的 Ks 值,说明染色体内复制比WGD 旁系同源物更新。通过计算旁系同源物对之间的 Ka/Ks 比率来评估两种类型的旁系同源物之间的蛋白质进化,以确定选择模式。与 Ks 值相反,染色体内复制的 Ka/Ks 值显着大于 WGD 旁系同源物,这意味着这些重复比 WGD 旁系同源物发散得更快。此外,12% 的局部重复似乎经历了快速序列发散,显示 Ka/Ks 比值高于 1。

根据扁豆和菜豆两个物种和同线性块之间的直系同源物的鉴定,对它们的基因组进行了比较。可以鉴定出 25,564 (94%) 个菜豆P. vulgaris基因和 26,009 (92%) 个扁豆P. lunatus基因的直系同源物。二者具有高度共线性。最重要的结构事件是:染色体 P110 短臂的倒位和 Pv02 着丝粒周围区域在染色体 P102 短臂内的大量易位。其中一些重排可能与生殖隔离有关。


image.png

a Ks 和b Ka/Ks 统计数据用于P. lunatus和G. max旁系同源物,以及P. lunatus和P. vulgaris之间的直向同源物以及P. lunatus和V. unguiculata之间的直向同源物。WGD:全基因组复制。样本大小 (N) 对应于基因对。c P. lunatus和P. vulgaris之间染色体共线性重排。P. lunatus染色体被标记为 Pl01-Pl11,而P. vulgaris染色体被标记为 Pv01-Pv11。d 染色体中抗性基因同源物的数量。e NJ 树图显示 LRR 型抗性基因之间的遗传变异性。浅蓝色是具有 NB-ARC 和 LRR 域的蛋白质,紫色是具有 TIR、NB-ARC 和 LRR 域的蛋白质,橙色是具有 TIR 和 LRR 域的蛋白质。

与农艺性状相关基因的直系同源物

通过与其他作物中农艺性状相关基因的直系同源关系预测农艺兴趣基因,确定了 30 个基因的扁豆直系同源物,其中 27 个在普通豆中报告。
分布在 11 条染色体上的 1917 个基因与基于生物信息学分析预测的生物胁迫抗性以及 LRR(富含亮氨酸的重复序列)和其他重要的抗病域(如 Toll/白细胞介素)存在相关。此外,631 个基因包含 LRR 结构域,151 个基因包含 NB-ARC 结构域,以及 91 个两个结构域。大量预测的抗病基因定位于染色体Pl02、Pl04、Pl08、Pl10和Pl11。
具有 LRR 结构域的基因子集倾向于聚集在基因组的离散区域中。对于大多数与生物胁迫抗性相关的预测基因,鉴定了常见的豆类直系同源物,它们位于相同的染色体上并具共线性。

群体结构分析揭示扁豆遗传簇

结合先前分析的来自 270 个利马豆种质的GBS数据,使用 212 个额外样本的 GBS 数据来增加数据量。从原始的 116,030 个双等位基因 SNV 中,选择了 12,398 个进行多样性分析。

应用了不同的统计和启发式聚类分析,包括 NJ、主成分判别分析 (DAPC) 和贝叶斯聚类 (STRUCTURE)。根据 BIC 的减少,最佳簇数在K  = 5 和K  = 6 之间,而 STRUCTURE 结果表明最佳K为 6。

在野生种质中,MI 种质根据其地理来源分为两个亚组:一个亚组(紫色簇)包括 55 个种质;另一个亚组亚组(粉红色簇)包括 34 个种质。MII 种质也被分为两个亚群:其中一个(浅绿色集群),另一个(深绿色)。

Fst 值显示基因库之间的高度遗传分化,与此一致,单倍型基因渗入分析将大部分种质聚集在其各自的基因库中。图 3d显示了 58 个大于 5 Mbp 的染色体片段,并在 15 个种质中观察到。这些片段中的大多数代表中美洲基因库(MI 和 MII)之间或安第斯基因库(AI 和 AII)之间的遗传贡献,而在中美洲和安第斯基因库之间的遗传贡献较少。可能是野生和驯化品系之间或不同来源的驯化品系之间最近接触的结果。

image.png

对美洲收集的 482 个野生和驯化扁豆种质之间的遗传变异性进行结构分析。
a 野生种质(从左到右)成南北地理模式。DOM 驯化,MEX 墨西哥,GUA 危地马拉,CR 哥斯达黎加,COL 哥伦比亚。显示了加入基因库 MI、MII、AI 或 AI 的分类。
b 野生和驯化品系不同亚群内的连锁不平衡衰减。DOM 驯化,DOM-AND 安第斯地方品种。
c 根据fineSTRUCTURE 进行的分析,482 个种质的径向聚类。主要基因库以不同颜色显示(紫色簇:来自墨西哥西北部(北墨西哥)的野生 MI;粉色簇:来自墨西哥西南部(南墨西哥)的野生 MI;中蓝色簇:来自南美洲的驯化 MI;深色蓝色簇:来自墨西哥和中美洲 (MEXICO/CA) 的驯化 MI;浅蓝色簇:来自尤卡坦半岛的驯化 MI;黄色簇:AII 基因库;红色簇:AI 基因库;绿色簇:来自中部尤卡坦半岛的 MII 基因库美国和哥伦比亚 (YUCATAN COL-CR);浅绿色簇:来自墨西哥南部和中部的 MII 基因库。
d 一组 15 个野生和驯化品系中不同基因库贡献的染色体片段分布。野生种质以粗体标记。利马豆染色体被标记为Pl01-Pl11。

豆荚发育过程中的基因表达

豆荚开裂的减少或丧失是利马豆的关键驯化性状之一。 RNA-seq 分析了一个野生和一个驯化品种在豆荚伸长开始 (T1) 和种子灌浆前 (T2) 的表达水平。差异表达 (DE) 分析揭示了总共 4275 个基因在整个发育阶段或野生和驯化种质之间具有差异表达模式。基于这些值的分层聚类区分了遵循不同表达模式的五个和七个基因簇。

先前鉴定为与豆荚开裂相关的基因,PDH1基因显著增加了 T1 和 T2 之间的表达。

驯化种质比野生种质(特别是在 T1 时)具有更多基因的表达值增加,并且表达增加的基因数量大于数量在 T1 和 T2 之间表达降低的基因,特别是在野生种质中。

image.png

a 具有差异表达的基因内标准化表达值的热图。左树状图对应于基于标准化表达值的基因的无监督层次聚类。
b 驯化种质(蓝色)和野生种质(红色)中PlPDH1基因在两个发育时期的表达轨迹。
c 一种野生和驯化品系之间以及两个发育时期之间具有差异表达 (DEG) 的基因数量。
d 功能类别的概念图,丰富了仅在野生种质中在第二次发育时间表达更多的基因。

你可能感兴趣的:(【豆科基因组】利马豆/洋扁豆Lima bean(Phaseolus lunatus L.)基因组2021NC)