Flesch2018 基因组数据 评估样本大小

Flesch EP, Rotella JJ, Thomson JM, et al (2018) Evaluating sample size to estimate genetic management metrics in the genomics era. Mol Ecol Resour 18:1077–1091. doi: 10.1111/1755-0998.12898

评估样本量以估计基因组学时代的遗传管理指标

摘要

种群间和种群内的近亲繁殖和关系度量是野生种群遗传管理的有效措施,但分析的个体基因型数量会影响估计的准确性和准确性。生物学家在使用基因组工具进行可靠估计所需的样本量方面面临着各种各样的建议。我们开发了一个模拟框架来确定三个广泛使用的指标的最佳样本量,以量化预期方差和估计的相对偏差,并比较人群之间的结果。我们采用这种方法,通过绵羊阵列的跨物种应用和对美国蒙大拿州和怀俄明州四个不同自由放养的落基山大角羊(Ovis Canadensis Canadensis)种群中的30个个体的实验基因组数据进行分析,并对大约14000个单核苷酸多态性(SNP)进行分析。ER滤波。我们使用亲属关系和身份(通过国家度量)以及人口之间的FST来检验种群内和种群间的关系。通过评估我们的模拟结果,我们得出结论,样本量为25足以评估使用绵羊阵列对落基山大角羊群进行基因分型的这些指标。然而,我们得出的结论是,一个通用的样本量规则可能无法充分解决影响基因组亲缘关系和近交估计的复杂性。因此,我们建议使用我们开发的R代码进行试点研究和样本量模拟,包括来自感兴趣人群子集的经验基因型,这将是一种有效的方法,以确保在估计基因组亲缘关系和人群分化方面的严格性。
关键词:亲属关系;加拿大绵羊;抽样;单核苷酸多态性

1引言

个体基因组的组成对野生动物种群的适应性和长期生存具有重要影响。基因组可能对个体健康产生深远影响(Kristensen、Pedersen、Vermeulen和Loeschcke,2010年;Romanov等人,2009年)、人口统计学(Hogg、Forbes、Steele和Luikart,2006年)、对环境变化的适应性(Manel等人,2010年)和对新病原体或寄生虫的反应(Acevedo Whitehouse等人,2005年;Coltman、Pilking)Ton、Kruk、Wilson和Pemberton,2001年;Siddle等人,2007年)。因此,对种群进行基因组评估是野生动物研究和保护工作的重要组成部分。两个重要的遗传属性是测量个体的近亲繁殖和个体间的亲属关系(Bloin,2003年)。在群体层面,这些属性用于评估群体间的基因流(Morin等人,1994;Streiff等人,1999),检测群体分化(Funk、McKay、Hohenlohe和Allendorf,2012),并评估人口历史(Li&Durbin,2011;Sheehan、Harris和Song,2013)。在个体层面上,近交和相关度指标可以表明近交抑郁效应(Grueber,Laws,Nakagawa,&Jamieson,2010;Nielsen et al,2012)、观察表型的遗传性(Daetwyler et al,2014;Kruk,2004)和生活史特征,例如分散倾向(Gueijman,Ayali,Ram,&Hadany,2013;SHafer、Poissant、Co^te和Coltman,2011年)。
研究人员和野生动物管理者往往资源有限,并寻求最大限度地利用投资于野生动物捕获和基因组分析的资源所获得的生物洞察力。为了对研究设计做出明智的决定,生物学家需要一种方法来评估近亲繁殖和亲属关系结果的预期不确定性水平,并决定可接受的抽样强度。从近亲繁殖和亲属关系的估计中得出的生物学洞察力和不确定性水平可能受到研究设计的许多方面的影响,包括所采用的指标、标记类型、标记数、每个群体抽样的个体数以及所考虑的群体和个体的组成(csillery等人,2006年)。;Frankham等人,2017年)。尽管这些研究设计决策可能会影响生物推断,但很少有研究在取样前评估相关估计和近亲交配估计的可靠性和精度,从而导致不精确估计的可能性,结果被解释为上下文无关(Taylor,2015年)。因此,需要指导方针来促进关于每个数据集的关联性和近交度量性能的有力结论(Taylor,2015年)。因此,在本研究中,我们试图进行严格的模拟研究,以评估多个近亲繁殖和亲属关系指标,同时考虑不同的影响估计精度。
使用分子标记估计近亲繁殖和亲缘关系有许多不同的指标和替代方法,当应用于种群的遗传管理时,它们各自的推论之间存在关键差异(Frankham等人,2017年)。三种主要的度量类型包括按状态的同一性、亲属关系系数和F-统计。就单核苷酸多态性(SNP)而言,国家同一性(IBS)意味着相同的核苷酸位于母系和父系染色体的相同基因组位置(Toro、Villanueva和Fernandez,2014年)。通过状态共享计算出两个个体之间的零同一性概率(Dyads),并估计两个个体共享状态相同的零等位基因的概率(Manichaikul等人,2010年)。计算两个个体之间的亲属关系系数(/),也被称为“亲情”,并估计随机选择的两个等位基因(每个个体一个)在任何基因座上的后代相同的概率(Manichaikul等人,2010年)。一个特别常见的F统计量是fst,它测量亚群之间的分化。
作为亲属关系和近亲繁殖计算输入的分子标记的类型、数量和多态性会影响结果估计的准确性(Blouin,2003年)。微卫星标记是DNA基序的短串联重复,已在许多野生动物遗传研究中得到应用,但通常包括有限数量的标记,从而导致亲属关系和近亲繁殖估计,这可能与来自系谱的亲缘关系较差(Slate等人,2004;Taylor、Kardos、Ramstad和Allendorf,2015;Toro等人,2004;Taylor、Kardos、Ramstad和Allendorf,2015;Toro等人,2002)。因此,使用少量微卫星标记可能对管理决策提供有限的实用性,以维持保护计划中的遗传多样性(Fernandez等人,2012年)。因此,多项研究建议在微卫星上使用基因组数据来实现这一目的(Frankham等人,2017年;Saura等人,2013年;Toro等人,2014年)。基因组数据由更多的基因组标记组成,可以由RADSEQ(Thrasher、Butcher、Campagna、Webster和Lovette,2018)、全基因组测序(Pool、Hellmann、Jensen和Nielsen,2010)和SNP芯片的跨物种应用(Haynes和Latch,2012;Miller、Kijas、Heaton、McEwan和Coltman,2012;Miller、Poissan生成。T、Kijas和Coltman,2011年)。当使用SNP数据代替微卫星时,近亲繁殖和亲属关系估计与系谱数据更为密切相关,并且将微卫星数据添加到SNP数据中并不能提高准确性(Santure等人,2010年)。绘制的基因组数据还可以评估和管理特定基因组区域的近亲繁殖和亲属关系(Roughsedge、Pong Wong、Woolliams和Villanueva,2008年)。总的来说,基因组数据有可能比有限数量的微卫星提供更强有力的亲属关系和近亲繁殖模式推断,并且可能要求每个群体减少52%的样本(Jeffries等人,2016年)。
样本量是影响研究成本和推理强度的重要研究设计因素。在近亲繁殖和亲属关系研究中,通常有两种抽样方式。首先,由于遗传漂变和局部适应等自然过程引起的等位基因频率的变化,存在过程变异,有时也被称为遗传文献中的遗传抽样(Holsinger&Weir,2009年)。因此,考虑人口的现有构成和人口历史可能影响结果的准确性,例如,亲属关系的低方差可能导致解决研究问题的能力较低(csillery等人,2006;Robinson、Simmons和Kennington,2013;Taylor,2015;van de Castele、Galbusera和Matthysen,2001)。第二,当从人群中抽取个体的一个子集(样本)时,存在由等位基因频率变化引起的抽样方差(Holsinger&Weir,2009年)。这种变异源可以通过增加从每个种群中取样的动物数量来解决(Holsinger&Weir,2009年)。尽管抽样方差的影响,实际和推荐的样本量评估一个群体已广泛的研究差异。对模拟微卫星数据集的评估建议范围为20?每人口00人评估FST(Kalinowski,2004年),每人口50人识别移民(Paetkau、Slade、Burden和Estoup,2004年),而另一项使用经验微卫星数据集的研究估计25?0个个体需要准确估计等位基因频率(Hale、Burg和Steeves,2012年)。
基因组数据样本量的评估方法和建议也各不相同。一般来说,与微卫星基因分型研究相比,使用高通量测序的研究由于费用的原因倾向于使用较小的样本量。然而,有限的抽样会极大地影响群体遗传推断(Meirmans,2015年)。Hoban和Schlarbaum(2014)建议25?使用模拟微卫星和单核苷酸多态性数据集,每个植物群体采集0个样本,以获取空间受限等位基因。相比之下,使用10000个双等位基因位点进行的模拟发现,4到6个样本大小可以满足部分但不是全部的FST统计数据(Wildly、Dreyer和van Oosterhout,2012年)。一项模拟不同深度测序数据的研究估计,40个低测序深度的样本在评估种群结构方面具有最高的准确性(Fumagalli,2013年)。经验数据集对这种评估可能更有用,因为模拟数据集不太可能包括真实系统的所有方面(2004年5月)。最近一项利用一个树种的单核苷酸多态性进行的实证研究表明,超过8个个体的样本量增加对种群内和种群间遗传多样性的估计几乎没有影响(Nazareno、Bemmels、Dick和Lohmann,2017)。这项研究是使用经验基因组数据集对样本量文献做出贡献的一个进步,但仅限于每个模拟(100)的少量重复和一个非模型植物物种两个种群的少量单核苷酸多态性(1000)。另一项实证模拟研究采用23057个单核苷酸多态性来评估加拉帕戈斯乌龟种群之间FST估计的精度,并确定每个种群中的三个或五个样本提供的估计比两个样本更精确(Gaughran等人,2017年)。然而,目前还没有针对自由放养哺乳动物的实验基因组模拟。
由于影响群体遗传指标的因素很多,因此谨慎地评估每一个独特数据集的估计器的精度和准确性(Taylor,2015;van de Castele等人,2001;Wang,2011)。这在评估与过去瓶颈和怀疑的低遗传多样性有关的保护种群时尤其重要(Taylor,2015年)。因此,开发了多种模拟软件选项,以满足测试特定方法对给定研究问题、分子标记数据集和研究物种的性能的需要(Hoban,2014年)。例如,开发了与R统计软件环境(R核心团队,2017年)一起使用的“共同”计划及其相关的“related”包(Pew、Muir、Wang和Frasier,2015年;Wang,2011年),以允许用户为给定的数据集选择最佳关联性或近亲繁殖估计量。该软件利用经验等位基因频率进行先验模拟,并评估矩估计和似然估计的可靠性。然而,该工具仅限于7个指标,所有指标都估计了与参考群体相关和近亲繁殖,假设参考群体包括无关和非繁殖动物(Taylor,2015年)。这些指标是基于将特定同质群体的分子标记与个体或Dyads中的分子标记进行比较(Purcell等人,2007年)。然而,检测人口结构取决于正确识别不相关的个体(朱、李、库珀和埃尔斯顿,2008年),这违反了相同人口的假设,从而导致不准确的关系推断(Manichaikul等人,2010年)。
考虑到不同的分子标记和研究群体,需要一种更为友好和灵活的方法来评估近亲繁殖和亲属关系指标的样本量。如果研究人员对样本量进行分析以得出关系推论,结果报告将在研究中变得更具可比性,并允许更广泛的见解。因此,我们试图利用野生动物的经验基因组数据集进行严格的模拟研究,以评估近亲繁殖和亲属关系指标,考虑对估计精度的不同影响,并为今后类似的工作提供抽样指导。以一种特定的方式,我们想确定在样本大小的梯度上,与样本大小相关的度量值的总体平均方差是如何变化的,从不足到足以提供可靠和信息丰富的洞察。为了实现这一点,我们利用三个选定的指标进行了模拟,以评估落基山脉大角羊(加拿大大角羊)种群内和种群间的基因组关系推断。落基山大角羊的基因组学提供了一个很好的机会来评估和比较不同种群规模的遗传管理指标,范围从从种群瓶颈中恢复的小而孤立的牛群到能够维持人类收获的大型元种群。因此,我们研究的畜群由不同的管理和人口统计学历史组成,这些历史可能会影响近亲繁殖和亲属关系,并代表许多其他受保护的野生动物种群。由于采样指南可能无法同样适用于所有情况和物种(Hoban&Schlarbaum,2014年),我们寻求开发一种灵活透明的方法,其他研究人员和管理人员可以很容易地将其应用于其他数据集。因此,我们为R(R核心团队,2017年)开发了注释良好、简单易懂的代码,其他人可以修改和实施该代码,以做出明智的样本大小决定,并为其他人群实现所需的生物学见解。我们试图从单一样本量建议的范式转变为更具适应性的框架,研究人员采用类似的方法评估特定数据集和指标的样本量决策,以增强推理可靠性,并最大限度地提高估计近亲繁殖和亲属关系的研究的可比性。

你可能感兴趣的:(Flesch2018 基因组数据 评估样本大小)