一、前言
1、林木目标改良性状多为数量性状,受全基因组水平多基因位点联合控制,其遗传变异效应可分为基因的加性和显性效应、基因-基因的上位性效应以及基因-环境的互作效应等。先前基于家系群体的数量性状位点定位分析方法的应用,在林木复杂性状遗传解析方面取得了显著进展。
2、但由于林木家系作图大多基于F1, F2或BC1等低世代杂交群体, 遗传变异丰富度较低和染色体重组事件有限, 导致QTL作图分辨率低且其遗传效应往往被高估。
3、基于自然群体或种质资源群体的关联遗传学(association genetics)策略的提出, 为解析数量性状的遗传基础提供了新的途径。
4、关联分析又称连锁不平衡(linkage disequilibrium,LD)作图,可以直接利用自然群体中丰富的表型和基因组变异来确定控制数量性状的目标基因。特别是多年生林木群体在适应复杂多变的自然环境过程中产生了丰富的表型变异和DNA序列变异,是开展关联作图研究的理想材料。
5、根据遗传变异来源, 关联作图可分为基于候选基因(candidate gene-based association study)和基于全基因组(genome-wide association study, GWAS)的两种分析方法。
6、随着NGS的发展,基于全基因组重测序(whole genome resequencing)和简化基因组测序(reduced-representation genome sequencing, RRGS)技术确定了海量的覆盖全基因组水平的SNP变异位点, 显著推动了林木GWAS策略的广泛应用。此外, 第二代测序技术也促进了全基因组范围内插入缺失(insertion/deletion, InDel)、拷贝数变异(copy number variation, CNV)等标记位点的开发与应用, 弥补了仅考虑SNP导致的数量性状“丢失遗传力”。
二、GWAS概述
1、全基因组关联分析(GWAS)是一种复杂性状功能定位的正向遗传学分析策略, 可直接利用群体内所有个体全基因组水平上的等位遗传变异和表型变异的相关性分析, 鉴定与目标性状显著连锁的等位变异位点,进而分析等位基因型对表型的遗传效应, 在植物数量性状遗传结构解析中取得了丰硕成果。
2、LD水平决定了GWAS的解析精度, 是开展GWAS研究的理论基础, 它代表了基因组中两个等位基因非随机组合的程度, 主要产生于群体进化过程中的突变和重组事件, 也会受到群体大小、异交率、选择强度与遗传漂变等其他因素的影响。一般来说, 林木群体内LD在500~2000 bp内已衰退至不明显。遗传漂变可导致毛果杨(Populus tricho�carpa)自然群体的基因组区域LD衰退范围达到3~6 kb,而且在着丝粒区及基因密度较低的染色体区段, LD衰退距离更远。林木进化过程主要受到自然选择的作用, 与受到强烈人工驯化的一年生作物相比,多年生林木的LD水平相对较低, 因此, 当一个与性状显著关联的遗传标记一旦被发现和验证, 则该标记与功能位点物理距离很近甚至是功能变异基因本身, 上述研究对于未来林木分子辅助育种提供了重要的理论指导。
三、GWAS在林木中的研究进展
林木关联分析的研究主要针对木材品质和产量等重要的经济性状,以及物候相关的适应性性状。
1、林木GWAS研究方法与模型
由于GWAS在复杂性状遗传基础研究中的优势,其在动植物遗传学研究中的应用越来越广泛, 新的软件和方法也不断被开发, 功能和算法也各不相同, 但多数是以一般线性模型(general linear model, GLM)和混合线性模型(mixed linear model, MLM)为基础。
一般线性模型以群体结构矩阵(population structure, Q)或主成分分析(principal component analysis, PCA)矩阵为协变量, 提高计算精度。
混合线性模型联合利用Q矩阵和亲缘关系(kin-ship, K)矩阵或者联合利用PCA矩阵和K矩阵为协变量开展关联作图分析。
GWAS研究主要的软件及其功能特点如下表:
TASSEL、PLINK、EMMAX软件是林木中应用比较广泛的单标记GWAS分析软件。
a、TASSEL软件功能较为全面, 但计算效率较低。
b、PLIKN软件在数据管理和群体结构评价方面较为简单、高效, 但是其关联结果质量相对较差。
c、EMMAX软件用到了运算速度较快的有效混合模型关联分析算法, 在对大样本数据处理上具有更高的效率。
上述三款软件主要应用于单标记位点的GWAS研究工作,确定的都是宜穿效应较为显著的单标记位点,在林木数量性状受到的多基因多位点联合控制。因此, 开发使用多位点GWAS关联模型进行遗传效应分析, 可以检测更多的联合遗传位点, 进而更清晰地剖析出目标性状的基因组遗传结构。
例如,mrMLM软件可以将SNP效应视为随机效应并利用多位点随机效应的MLM模型进行GWAS分析, 该模型有效提升了目标性状基因组遗传结构的解析精度。随着测序技术和组学技术的发展,大量的SNPs, InDels与CNVs标记等被广泛应用于林木复杂性状的遗传效应解析。因此, 开发适用于不同群体类型、不同标记类型、不同表型层次的GWAS软件,将会极大地推动林木复杂性状研究进展。
2、林木木材品质和生长性状的GWAS研究进展
3、GWAS在林木环境适应性方面的研究进展
GWAS策略与多组学技术的结合已广泛应用于数量性状遗传解析。 GWAS联合多组学解析策略不仅可以提高筛选候选基因的准确性, 还可揭示复杂性状形成的分子遗传调控机制。
四、GWAS策略在林木复杂性状研究中的应用热点
近年来, 研究人员利用GWAS策略在动植物数量性状研究中鉴定了大量关键位点, 但是这些显著关联位点, 仅能解释部分表型变异, “丢失遗传力”问题依然是当前数量遗传学研究的难点。因此,如图所示,本文从高通量表型组学、不同变异类型的遗传效应、加性与非加性联合解析策略等方面探讨, 为系统解析林木复杂性状, 解决“丢失遗传力”问题提供重要的策略指导。
1、高通量表型检测技术的开发和建立
基因型(genotype)、表型(phenotype)、环境(envir�onment)三者构成了GWAS研究的支撑要素。
2、稀有等位变异(rare allele)和结构变异(struc�ture variation, SV)的联合利用
林木群体内基因组内存在大量稀有等位变异位点, 这些位点独立起作用时对群体性状变异贡献率较低, 其遗传效应在种质资源或天然群体大的群体背景下难以被发现,而且通过建立林木多世代回交群体来改变稀有等位位点的频率是难以实现的。
..............................未完待续................................