大豆又名菽，在我国已有5000多年的大豆种植历史。大豆起源于中国，由分布于黄淮流域（北纬32-40度）的野生大豆驯化而来。随后广泛传播到世界各地，为人类提供了主要的植物油料和蛋白资源。

大豆的形态 1.野生大豆自然群落 2.野生大豆（左）与栽培大豆植株（右） 3.田间成熟期栽培大豆 4.大豆种皮颜色

据统计, 全世界现有60 000份不同类型的大豆种质资源。毫无疑问，大豆的研究价值是所有豆科作物中最高的。这里对大豆的十年经典研究做一个回顾。

2010年1月：大豆基因组首次发表（Nature）

Genome sequence of the palaeopolyploid soybean

研究者利用全基因组鸟枪法对大豆进行全基因组测序，利用大豆栽培品种Williams 82品种大豆家系的444个重组自交系构建遗传图谱用来辅助组装，最终组装后的基因组大小为994Mb，ContigN50为189.4 Kb，ScaffoldN50达47.8 Mb，其中有397条Scaffold组装并锚定到20条染色体水平，组装基因组中确定了4991个SNP和874个SSR，并预测出46430个蛋白编码基因，重复序列占到整个基因组的59%。

大豆20条染色体组装示意图

此外，该研究后续除了对基因组成、重复DNA鉴定、全基因组复制事件等进化问题进行研究外，还对大豆固氮瘤和油脂的生物合成基因及基因转录因子多样性进行了鉴定，该大豆基因组准确序列的获得加快改良大豆品种的培育。

不同转录因子家族中转录因子基因在大豆和拟南芥中的分布

2010年12月：31个大豆基因组重测序（Nature Genetics）

Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection

研究人员对17株野生大豆和14株栽培大豆进行了全基因组重测序，与参考基因组比对后，共发现了630多万个SNP，建立了高密度的分子标记图谱。此外通过对野生大豆和栽培大豆进行初步组装，从而在两种大豆中鉴定出18余万个PAV，得到了在栽培大豆中获得以及丢失的基因。此研究还发现大豆基因组存在较高程度的基因连锁不平衡和较高比例的单核苷酸非同义替换/同义替换比例，这表明大豆分子标记育种比基因图位克隆可能会拥有更多的优势。

与栽培大豆相比，野生大豆有着更高水平的遗传多样性，这表明人工选择导致了栽培大豆狭窄的生物多样性，这可能对可持续种植带来负面影响。而对野生大豆的分析表明，随着野生大豆生存环境的减少，野生大豆的有效群体大小在减少，野生种质资源的保存迫在眉睫。

该项研究第一次为大豆基因组学研究提供了全面的重测序数据，对未来的大豆群体遗传学研究，分子标记育种，新基因的发现奠定了坚实的基础。

野生和栽培大豆群体遗传多样性分析

2014年10月：野生大豆泛基因组（Nature Biotechnology）

De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits

中国农科院作科所邱丽娟团队牵头选择了7份有代表性的野生大豆进行De novo测序和独立组装，构建野生大豆泛基因组，Contig N50为7.7-26.6 Kb，Scaffold N50约16.3-62.7 Kb。通过基因集比较分析发现，48.6%的基因为7个野生大豆所共有，超过51.4%则仅存在于个别样本中（特有基因），并且特有基因主要富集在生物和非生物逆境相关途径中，这也反映了野生大豆具有广泛的适应性。此外，还鉴定到3.6-4.7Mb的SNP和0.50-0.77Mb的InDel。

不同野生大豆间特有和共有基因统计

进化分析表明，野生大豆与栽培大豆的祖先约在80万年前即发生了分化；正选择分析发现栽培大豆受选择的基因多与抗旱有关，而野生大豆中受选择基因非常多样化。同时，鉴定出大量与抗逆、抗病、花期、产油量和高度等重要农艺性状相关基因和变异，如野生大豆和栽培大豆开花时间的差异与开花时间调控基因SNP和InDel变异有关。

该成果是首例重要作物泛基因组研究成果，为研究大豆的遗传多样性及进化历程提供了新的启示，奠定了解析重要驯化性状建成、发掘优异基因/标记的基础。

大豆开花相关基因鉴定

2015年2月：大豆在驯化和改良过程中遗传多态性明显降低（Nature Biotechnology）

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean

中科院遗传发育研究所田志喜团队，对302份代表性大豆种质进行了重测序(>10x)，分析表明大豆在驯化和改良过程中遗传多态性明显降低，在驯化阶段鉴定出121个强选择信号，在品种改良阶段鉴定出109个强选择信号。

除了SNP变异的分析，同时对能够解释更多生物学问题的CNV变异信息也进行了深入的选择分析和全基因关联分析。选择分析发现，CNV也在驯化过程中受到人工选择，共发现农家品种和驯化品种中162个受选择区域；通过关联分析发现，18号染色体与抗胞囊线虫相关的CNV与前人报道的区间Rhg1有交集，有趣的是，这个区间同样在驯化种中受到选择。另外，8号染色体上一个与豆脐颜色表现强关联的CNV位于一个查尔酮合成相关的区间内，同样为驯化种中受选择的位点。本文通过CNV的研究实现了鉴定到更多与大豆优良性状相关基因的研究目的。

对种子大小、种皮颜色、生长习性、油含量等性状进行全基因组关联(GWAS)分析，找出了一系列显著关联位点。研究表明大豆产油性状受人工选择较多，形成复杂的网络系统共同调控油的代谢。

302份大豆取样地理位置分布及大豆群体结构分析

全基因组范围筛选和注释大豆在驯化和改良过程中的受选择位点

2017年8月：GWAS解析大豆重要性状网络（Genome Biology）

Genome-wide association studies dissect the genetic networks underlying agronomical traits in soybean

继302个大豆重测序研究之后，中科院遗传发育研究所的田志喜团队又对809份大豆进行了重测序（8.3×）分析，深入解析了大豆84个农艺性状间的遗传调控网络，共鉴定出245个显著关联位点，发现其中95个关联位点和其它位点存在上位性效应。

809份大豆取样地理位置分布及大豆群体结构分析

例如，对于油含量相关性状，共鉴定到24个脂肪酸代谢相关和21个脂代谢相关的基因。深入分析发现，这些基因是通过加性效应共同调控多个大豆油脂性状的形成。

大豆植株高度性状的GWAS分析

这些关联位点揭示了不同性状间相互耦合的遗传基础。根据连锁不平衡分析，发现115个关联位点可相互连锁，并与所观测的51个性状联系起来，形成复杂的多性状多位点调控网络，该遗传调控网络很好地解释了不同性状间的耦合关系。研究还发现其中23个关联位点，包括16个新鉴定的位点，对不同性状的形成起到关键调控作用。

大豆的不同性状之间的关联网络分析

2018年8月：中国国审大豆品种中黄13的基因组完成（Science China Life Science）

De novo assembly of a Chinese soybean genome

中国科学院遗传与发育生物学研究所田志喜团队联合其他单位，综合运用单分子实时测序（SMRT）、单分子光学图谱（optical mapping）和高通量染色体构象捕获技术（Hi-C），对中国国审大豆品种“中黄13”的基因组 (Gmax_ZH13) 进行从头组装，最终得到1.025 Gb的基因组序列，包含20条染色体和1条叶绿体。该基因组Contig N50为3.46 Mb，Scaffold N50为51.87 Mb，是目前连续性最好的植物基因组之一。

进一步分析表明，Gmax_ZH13和Williams 82基因组之间存在着大量的遗传变异，包括1404个易位事件、161个倒位事件、1233个倒位易位事件，以及在Gmax_ZH13中出现的505506个小插入/缺失（1-99 bp）和17409个大插入/缺失（≥100 bp）。

该研究整合大量转录组数据为Gmax_ZH13基因注释基因构建了一个完整的基因共表达网络。通过已报道控制大豆开花时间的基因与新定位的QTL或GWAS区间内候选基因的共表达关系，对新定位区间内控制该性状的基因进行更精确地筛选，得到26个可能控制大豆开花时间的基因，并利用自然群体遗传变异和表型差异的关联对其中部分基因进行验证，为重要农艺性状基因的挖掘提供了新思路。Gmax_ZH13基因组的发表为大豆基础研究提供了重要资源，为国产优异大豆品种的培育奠定了基础。

Gmax_ZH13和Williams 82基因组比较分析

2019年3月：最优质野生大豆基因组完成（Nat Commun）

A reference-grade wild soybean genome

野生大豆含有丰富的基因资源，可用于提升栽培大豆抗逆性、种子蛋白质和次级代谢产物含量等农艺性状，是大豆品种改良的天然宝库。2019年3月，香港中文大学与华大基因的联合科研团队针对野生大豆W05，应用三代PacBio测序技术、Bionano Genomics双酶切光学图谱(OM)和高通量染色体构象捕获技术(Hi-C)产出的数据，组装得到染色体级别的参考基因组。最终组装获得的基因组大小为1013.2Mb，contig N50 3.3Mb，scaffold N50 50.7Mb。注释获得55,539个蛋白编码基因，对应89,477个蛋白质编码转录本。此外，在W05基因组中，还发现了288个miRNA，1,988个snRNA及147 个rRNA。

野生大豆W05基因组概貌

2020年6月：大豆图形结构泛基因组图谱（Cell）

Pan-Genome of Wild and Cultivated Soybeans

中科院遗传发育所田志喜/梁承志课题组合作发表了大豆图形结构泛基因组图谱。这项研究在植物中首次实现了基于图形结构的基因组构建，突破了传统线性基因组的存储形式，将引领下一代基因组学研究思路和方法，被审稿人称为“基因组学的里程碑工作”。

该研究首先对来自世界大豆主产国的2898个大豆自然种质资源进行了深度重测序和群体结构分析，进而精心挑选出26个最具代表性的大豆种质材料。该26个种质包括3个野生大豆，9个农家种和14个现代栽培品种，其中一些材料作为骨干核心亲本已经培育了上百个优良新品种，一些材料是各个大豆主产区推广面积最大的主栽品种。进一步利用最新组装策略，对该26个大豆种质进行了基因组的从头组装和精确注释。在此基础上，结合已经发表的中黄13、Williams 82 和 W05 基因组，构建了高质量的基于图形结构的基因组，经过泛基因组分析，挖掘到大量的大片段结构变异。

深入分析发现，有些结构变异导致了不同基因间的融合，这为新基因的产生研究提供了重要线索；一些结构变异在重要农艺性状调控中发挥重要作用，如种皮亮度、种皮颜色的驯化、缺铁失绿等。

大豆图形结构泛基因组分析

综上，经过10年的努力，起源于中国的大豆再次迎来了自己的高光时刻！这些遗传变异的发布为大豆研究提供了极为重要的资源和平台，无疑将大力推进大豆分子设计育种，助力实现大豆“绿色革命”。

参考：https://mp.weixin.qq.com/s/bakt49LAL34KJBLlBswQHg
http://www.bioon.com.cn/news/showarticle.asp?newsid=72291

【豆科基因组】大豆(Soybean, Glycine max)经典文章梳理2010-2020