结构变异,动植物基因组学研究的下一个风口

长期以来单核苷酸多态性(SNP)被认为是遗传变异的重要部分,随着二代测序技术的蓬勃发展,更是展开其研究的霸屏模式,随着测序技术的发展,特别是第三代长读长测序的崛起,越来越多的研究开始关注结构变异,包括模式物种及非模式生物的种内和种间的结构变异,越来越多的研究表明结构变异是个体间基因变异的及群体分化的重要表现。随着大片段结构变异的神秘面纱被逐步揭开,其身影也是频繁登陆各大顶级期刊,作为变异界研究的新宠,小贝今天带你围观一下结构变异是如何在动植物群体研究中大显身手的吧。

绘制基因组结构变异图谱

基因组学研究加速了农作物和经济动物的品种改良和加速繁育,特别是通过识别遗传标记和表征表型性状背后的分子机制,这些性状有助于通过标记辅助育种和基因组编辑来培育新品种。在诸如耕地减少、水资源减少和气候变化造成的严重环境压力等限制下,变异资源的积累和应用显得尤为重要。而单核苷酸多态性(SNPs)并不能捕获导致表型差异的全部变异谱,结构变异(SVs)也起着重要作用。

举个例子

2019年5月Genome Research发表的水稻基因组的结构变异的相关研究中,研究者利用3K的水稻全基因组测序数据,识别出6,300万个SVs,分为150万个等位基因变异。研究表明,启动子中长SVs富集,5’UTR中有过量的短结构变异,SNPs和SVs在基因组中的分布高度相似,SNP的总数远大于SV,但SV影响的碱基位置更多。对SV计数为平均值的两倍或两倍以上的区域使用GO富集分析,发现结构变异与蛋白修饰,胁迫反应基因高度共定位,表明SVs可能是逆境反应基因中经常观察到的基因表达多效性的重要因子。

SNP和SV在基因组中的分布以及SV富集区域功能注释(图片引自原文[1])


探究结构变异对基因表达和作物改良影响

作物的表型变异是由其野生祖先的遗传变异以及影响农业适应性和人类偏好的突变集合的选择和维持而形成的。SVs可能通过改变基因序列或拷贝数,或通过改变顺式调控序列的组成或位置来影响基因的表达,进而影响生物的表型和进化轨迹。

举个例子

2020年7月Cell发表的番茄基因组结构变异的相关研究中,研究者利用长读长测序技术,获取了100个不同番茄品系中的238,490个SV,构建了高质量PanSV基因组,揭示了不同基因型的大规模混杂以及数千个SVs交叉的基因和顺式调控。研究表明,近50%的SVs与基因区和/或其侧翼调控序列重叠,在34,075个注释基因中,约95%的基因在其编码序列的5kb 内至少有一个SV,大多数位于顺调控区。研究评估了SV对基因表达的影响,发现数百个显著的基因表达改变,影响编码序列近一半SVs的与表达差异显著相关,许多SV显著降低或消除了表达,在调控区域,SVs对表达的影响与编码区域中的相比更为细微。研究表明,结构变异可能广泛地影响数量性状的变异。通过将定量遗传学与基因组编辑技术相结合,该研究还揭示结构变异通过改变基因剂量效应和表达水平,从而影响果实的风味,大小和产量。

与基因相关的SVs影响基因的表达(图片引自原文[2])



结构变异揭示物种进化的群体遗传学

基因组的结构变异为物种进化提供了原始的材料,以往人们认为结构变异是很罕见的基因组事件,实际上,结构变异在很多群体中都有相当高的频率,并且其在基因组中是并非随机分布的,结构变异的检测和表征改变了人们对不同物种基因组变异格局的理解,研究表明结构变异可能是物种进化过程的重要驱动力。

举个例子

2020年7月Molecular Biology and Evolution发表的水稻驯化过程中基因组的结构变异研究中,研究者利用了基因组组装数据、PacBio长读长测序数据及二代短读长数据对亚洲栽培稻在驯化过程中基因组的结构变异进行研究,利用 SNPs 及SVs 分别进行群体结构分析,发现两者的 Pearson 相关系数 r2=0.853。以同义SNP作为中性选择的标志,对比栽培种和野生种之间的SVs频率,所有的SVs类型及转座元件插入(MEIs)事件都表现出位点频谱分析(SFS)相对于同义SNP的左移,且倒位(INV)事件具有最极端的SFS,结果表明,非同义SNP和SVs都经历了强烈的纯化选择,SVs受选择的强度高于非同义SNP,易位(TRAs)事件尤其有害。对驯化区段基因进行分析,发现了数百个农艺性状相关的基因,它们中的许多与非生物胁迫(如耐盐性)和食用品质(如淀粉储存和生物合成)有关。

水稻基因组群体遗传分析(图片引自原文[3])


结构变异定位表型关联基因

研究表明,与SNPs相比,SVs可以解释更多的表型变异,约1/3已报道的作物表型是由于结构变异引起的。对于结构变异的深入研究有助于我们进一步理解结构变异对于表型的影响以及通过全基因组关联分析鉴定其作为目的表型关键遗传因子的可能性。

举个例子

2020年7月Cell发表的大豆泛基因组研究中,研究者基于图形结构的基因组分型的SVs对种子光泽进行的全基因组关联研究(GWAS),在15号染色体上发现了一个显著的信号,其中10kb的存在/缺失变异(PAVs)导致了HPS编码基因的存在和缺失,研究表明,该PAV可能是控制大豆种子光泽变异的主要遗传变异之一。

联合SNPs及SVs的多样性变异资源进行表型关联研究,还有助有全面挖掘表型形成机制,对遗传育种及其基因组学和功能基因组学研究具有重要意义。在2020年1月Nature Plants发表的油菜泛基因组研究中,研究者同时基于SNP和SV数据进行全基因组关联分析,PAV-GWAS找到了之前基于SNP群体分析未找到的荚果长度、种子重量和开花时间相关的结构变异,研究表明,PAV-GWAS可以与SNP-GWAS互补来鉴定特定性状相关的位点。

大豆遗传变异及与表型关联分析(图片引自原文[4])

研究表明,结构变异在基因表达调控、种群多样性和大规模染色体进化中的重要性不言而喻,对于植物群体研究,大多数研究者还在call SNP,做GWAS的老套路,想在套路满满的群体同质化研究中脱颖而出,结构变异是一个不二的选择。

三代测序助力结构变异检测 

以往对结构变异的作用研究较少,理解的也不够透彻,随着三代测序技术的崛起,越来越多的研究开始关注结构变异。三代测序具有超长读长、无 PCR 扩增、无 GC 偏好性,可轻松跨越高重复和低复杂区域的优势,在大片段结构变异(≥50bp)的检测中有天然优势。对于结构变异检测,贝瑞基因利用60kb大片段文库构建技术和PacBio测序,实现动植物基因组结构变异的全面、准确检测。

技术优势

 有效检测出大片段SV

PacBio测序读长可达几十甚至上百kb,凭借其长读长的优势轻松跨越高重复和低复杂度区域,增加大片段结构变异检出率。

 揭示基因组全面SV

PacBio测序无GC偏好性,可以跨越有GC偏好的区域,检测范围几乎覆盖整个基因组,可以检测更加全面的基因组SV事件。

 检出SV准确率高

PacBio测序平台运行平稳,准确率高,同时配套官方专业SV检测流程,技术成熟,大大提高SV检出的准确率。


参考文献:

1. Fuentes R R, Chebotarov D, Duitama J, et al. Structural Variants in 3000 Rice Genomes[J]. Genome Research, 2019, 29(5): 870-880.

2. Alonge M , Wang X , Benoit M , et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020, 182(1).  

3. Yixuan K , Yi L , Tuomas T , et al. Evolutionary Genomics of Structural Variation in Asian rice (Oryza sativa) Domestication[J]. Molecular Biology and Evolution, 2020.

4.  Liu Y , Du H , Li P , et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020, 182(1).   

5. Song J, Guan Z, Hu J, et al. Eight High-quality Genomes Reveal Pan-genome Architecture and Ecotype Differentiation of Brassica napus[J]. Nature Plants, 2020, 6(1): 34-45.  

你可能感兴趣的:(结构变异,动植物基因组学研究的下一个风口)