基因组在动物的实际应用综述

本文来自Berry and Spangler的最新综述(见文末的链接)。


image.png

关键点

• 获取牲畜高维基因组信息的速度正在加快。

• 基因分型的投资回报取决于生成的信息。

• 个体动物的基因组信息的用途越来越多。

• 未来可能涉及(几乎)所有动物出生时的基因分型。

• 也可能会出现从基因型微阵列到测序的转变。

摘要

许多牲畜物种的高维基因组信息的获取正在加速。这不仅得益于基因分型成本的持续降低,而且还得益于利用基因组信息创造更大投资回报的可用服务的扩展(注:这也是基因组可以应用到实践的关键一点,多组学数据想要应用到实际,这也是关键)。

个体动物的基因组信息有许多用途:
包括

  1. 亲子关系验证和发现,
  2. 可追溯性,
  3. 核型分析,
  4. 性别确定,
  5. 报告和监测带来重大影响或先天缺陷的突变,
  6. 更好地估计个体的近亲繁殖和个体之间的亲缘关系,
  7. 交配建议,
  8. 确定品种组成,
  9. 实现精准管理,
  10. 基因组评估;基因组评估利用全基因组基因型信息来提高预测动物(及其后代)遗传价值的准确性。

结论:基因组数据为研究提供了巨大的资源。但是尽研究的结果成功需要最终应该通过上述的十个应用之一来实现。

感兴趣的点

  • 应用于牲畜的实用基因组学中最有影响力的发展之一是通常称为 SNP 芯片、珠芯片或 SNP 微阵列的商业可用性。目前动动物基因组最常用的还是50K 芯片。

  • SNP 芯片本身的成本在生成动物基因型的总成本中所占的比例相对较小,因为其他成本包括样本采集、DNA 提取、实际从 DNA 生成基因型以及运行和发布基因组评估等也是整个成本的一部分。

  • 基因分型 SNP 芯片可能很快就会被基于低通测序方法的基因分型测序所取代(注:这是目前正在发生现象)

样品采集

  • DNA 的质量(尤其是数量)不仅因生物样本类型而异,而且还因获取方式(包括储存方式)而异

  • 一般是对家畜进行标记时获得的耳活检得到样本;也有精液(人工授精雄性)或 FTA 过滤卡(羊)

  • 样本采集的成本包括运送采样工具的物流、标签情况下机制本身的成本或精液吸管的成本,以及最后将样本返回中心仓库进行基因分型的成本。

  • 随着样品数量的增加,每个样品的成本预计会降低,因为交付和返回样品的成本会随着单位数量的增加而摊薄。

  • 潜在的错误来源包括对与预期不同的动物进行取样以及错误地标记样品

DNA提取

  • 每种基因分型或测序方法都指定了所需 DNA 的最低质量和数量阈值。

  • DNA 提取需要一定的成本,特别是需要清洁样品或扩增 DNA 时。DNA 提取的成本通常受益于规模经济。

基因分型和测序

使用哪个基因分型平台(包括作为基因分型策略的测序)的决定取决于多个因素,包括

  1. 基因分型的动机(即亲子鉴定、候选基因(研究)、基因组评估、精细定位)
  2. 可用的平台
  3. 可用预算
  4. 待基因分型个体的价值和作用(即种子或商业)
  • 传统上,亲子分析是使用微卫星标记进行的,但大多已经转变为单核苷酸多态性

  • 一般来说,虽然样本采购和 DNA 提取的成本相对恒定(测序除外),但进行基因分型的标记数量越多,基因分型过程的成本就越高。

  • 人们对使用测序基因分型作为生成个体动物基因型信息的手段越来越感兴趣,特别是作为“动物端”快速基因分型的手段

  • 基因分型有三个主要成本。就芯片基因分型而言,是SNP芯片硬件本身的成本、相关试剂的成本以及服务的成本;后者包括资本回报(即基础设施、人员、时间)和利润。对于测序,成本包括试剂和服务成本。许多测序服务提供商还提供下游生物信息分析作为服务,包括数据传输

生物信息学

基因型输出文件中的附加信息包括所调用基因型的质量指标,这些指标处于 SNP 级别(例如,Illumina 基因型的 GenTrain 评分),但也包括单个 SNP 样本级别的质量指标(即 Illumina 的 GenCall 评分)和 Thermoscientific 的置信度得分)。

  • Illumina 平台调用的基因型的 GenTrain 评分考虑了调用的基因型簇的质量和形状(即纯合与杂合)以及彼此之间的相对距离。GenTrain 得分 <0.55或<0.60 表示基因型簇分辨率较差, SNP 通常会被丢弃。

  • Illumina 软件生成的 Gencall 分数是对分配给每个个体的每个 SNP 的调用基因型的置信度的度量,用于过滤质量较差的调用。Gencall分数低于0.15表明基因型失败,并被视为 Illumina Genome Studio 中的默认阈值

  • 每个 SNP 的每个强度值代表(X 和 Y 信号强度)与所研究的 SNP 的两个等位基因相关的荧光染料的每个通道的强度。B 等位基因和对数归一化 R 比率输出可用于检测拷贝数变异插入缺失或核型异常

基因型质量控制

  • 每个动物的最低call rate 一般是85 to 95%; 商业动物的常规基因组评估中可以是85%

  • 一些人对常染色体与性染色体的每个 SNP 以及次要等位基因频率应用不同的调用率

  • 无论如何,在调用率编辑后剩余的零星缺失基因型通常使用插补过程来填充

  • 在存在祖先信息的情况下,不符合预期孟德尔遗传的常染色体 SNP 通常会被丢弃。理想情况下,这应该迭代进行,因为如果群体中存在 10% 的亲子关系错误,那么许多 SNP 可能会表现出较高的孟德尔错误,而且如果许多 SNP 基因型被错误地调用并随后被标记为孟德尔错误,那么记录的祖先关系可能会被忽略。

  • 研究经常对最不常见等位基因的频率施加限制——这被称为次要等位基因频率(MAF)。
    三个理由:1)像统计模型中的任何特征一样,需要大样本量来检测表现出很小变异性的特征中的(小)关联,2)算法可能难以正确调用基因型校准过程中存在一个等位基因的杂合子和纯合子数量较少,3)低 MAF SNP 往往不包含多基因性状的太多信息,因此排除它们可以减少计算要求。动物中常用的是从0.1%到5%。

  • 大多数基因组研究也倾向于丢弃基因型频率偏离 Hardy-Weinberg 平衡的 SNP。虽然报告的基因型数据偏离 Hardy-Weinberg 平衡的情况可能是由于基因型错误而发生,但实际偏离 Hardy-Weinberg 平衡的原因可能是进化力量的作用,其中之一就是选择。鉴于许多基因组研究试图识别选择中的位点,因此在根据 Hardy-Weinberg 偏差而丢弃 SNP 时需要小心。

  • 为了减少计算时间和资源,还可以去除冗余的 SNP。这些 SNP 处于完全连锁不平衡状态,因此除了其中一个 SNP 之外的所有 SNP 中的边际信息为零;

基因组信息的实际应用

  • 亲子关系验证和发现. 如果选择得当,大多数家畜中亲子验证所需的 SNP 数量在 300 至 400 个之间

  • 可追溯性.

  • 核型分析.核型是用于描述细胞中染色体的外观和数量的术语。染色体数量或出现方式的改变称为核型异常,所产生的影响从没有可观察到的外部差异到不孕或胚胎死亡

  • 性别决定. 建议使用 Y 染色体和 X 染色体非假常染色体区域的基因型

  • 品种组成.准确了解个体的品种组成对于以下方面非常重要:

  1. 制定交配计划以充分利用品种间非加性遗传效应,

  2. 了解导致个体品种组成的历史(例如区分首次杂交与稳定杂交), 可用于对遗传评估模型中的非加性效应(例如杂种优势)进行建模,
    3)有助于维护品种协会记录和对品种纯度施加限制的品种保护计划的完整性,
    4)令人安心消费者对基于品种来源要求较高价格的动物产品的真实性的了解,

  3. 作为多品种遗传评估的调整因素,

  4. 作为样品采购或基因分型过程中错误标签错误的早期预警系统,

  5. 实验设计,其中感兴趣的因素之一是品种/杂交差异

监测主要基因或突变带来先天性或重大影响

目前尚不清楚,一旦纳入全基因组 SNP 信息,在基因组评估中纳入实际因果突变是否会提高基因组预测的准确性.

尽管益处或缺乏益处将取决于许多因素,例如

  1. 实际识别此类变异的能力以及基因座的等位基因替代效应,
  2. 主要基因座附近基因分型 SNP 的密度,以及它们的连锁不平衡结构,
  3. 是否在品种内或跨品种以及该区域的连锁不平衡结构(和单倍型阶段)进行评估
  4. 全基因组标记的表型和基因型动物参考群体的大小。

相关性、同源性、近交和杂种优势

近亲繁殖只有在以下情况下才会产生影响:
1)影响性能的基因座,
2)纯合基因型低于其他可能的基因型,在这种情况下,如果已知,可以通过选择性育种将其从种群中清除。

交配建议

  • 交配建议工具或决策支持系统的基础是最大限度地提高群体的遗传增益,同时尝试纠正雌性的特定特征与在这些特征上表现出色的雄性,并避免与(密切)相关的个体交配。
  • 线性规划有时用于交配程序,其目标是在一组约束(例如共同性上限)下最大化目标函数(例如总遗传价值)在潜在的伴侣中。
  • 对于商业生产者来说,另一个目标可能是尽量减少后代表型表现的预期异质性,而对于种子育种者来说,情况可能恰恰相反。了解个体的配子变异也可以帮助识别动物以及交配,从而最大限度地减少(或最大化)后代的预期异质性。

基因组评估

事实证明,投资基因分型以构建具有代表性的参考群体是实现基因组选择的关键的第一步。虽然表型分析的成本也很高,但许多初始参考群体都利用了现有的表型数据。
“单步”方法(ssGBLUP, H矩阵)显示出在提高基因组育种值准确性方面的优势,并已成为大多数商业育种计划的首选方法。

精准管理

  • 精准或个性化管理是针对其基因型优化个体的管理。
  • 获得有关亲子关系、主要效应基因携带者(包括核型异常)的信息以及更准确的基因组预测和表型优点都有助于更精确的管理决策。
  • 通过基因组评估更准确地估计遗传价值还可用于修改规则以在决策支持系统中调用行动。例如,一头被预测在遗传上易受子宫感染或更容易患卵巢囊肿的奶牛,可能会被建议在繁殖季节开始之前对其生殖道进行超声检查。类似地,对于预计在遗传上更容易患亚临床乳腺炎的奶牛,可以降低哺乳动物乳汁中触发推荐行动的阈值体细胞计数水平。

基因型组的开发

-创建定制基因分型面板的优点是内容由开发人员决定。这可能意味着所包含的变体对于感兴趣的群体来说信息量最大,尽管这假设所有变体都经过适当选择。

  • 基因分型成本取决于芯片或试剂订购量等因素——在其他条件相同的情况下,数量越大,基因分型平台(和服务)的单价越低。

  • 实际上,使用商用(更高密度)面板可能更具有经济意义,即使没有针对使用人群进行完全优化。许多市售的基因型组在信息基因组标记方面与最新技术水平非常接近——保持最新需要大量资源

  • 使用市售的50kSNP芯片,一般不包含专门用于可追溯,亲子关系,定品种组成的特定 SNP

低深度测序的使用

  • 人们对基因型测序或低通测序方法越来越感兴趣。 低通或脱脂测序是低深度(即 0.5x)的全基因组测序,与插补相结合时,可以以更深序列成本的一小部分获得更密集的基因组数据。
    低通测序解决方案的吸引力有两个方面:
    1). 包括潜在致病突变在内的更多变异,
    2). 更改实际适合遗传评估的变体集,而无需重新设计定制测定,从而使包含新变体的过程更加动态。
    有两个主要缺点:
    1). 需要有代表性的参考群体,
    2). 确定基因型的能力,需要比插补可能提供的确定性更大的重要变异。

以更深度(例如 10 倍)测序的代表性动物参考集理想地能够对目标群体中的所有动物进行高精度插补,因此参考集最初应包含当代高使用率的公畜和来自任何较低使用率的代表性动物。连接的子群体,以确保参考可以捕获当前群体中单倍型的多样性。

  • 随着时间的推移,参考群体需要是不断更新。
  • 使用序列推算变异的最终目标是能够更准确地预测遗传价值
  • 如果希望跨品种或不同品系进行基因组评估,则可能需要更高密度的基因型

未来展望

  • 通过更多地使用全基因组测序来提高基因组信息的密度,将需要对目前使用的统计模型进行根本性的改变,以利用数据量的爆炸性增长
  • 高效的数据存储和管理以及高效的数据检索机制,同时还要解决强大的数据安全实践,将是一个重大挑战
  • 将来自不同基因组来源(包括供应商和基因分型/测序平台)的数据与其他数据(包括其他组学学科生成的数据)进行整合将变得越来越重要,因为开发可扩展、复杂的计算策略来整合这些多样化、分层且通常是非结构化的数据集将变得越来越重要并提取有意义的见解,以理解基因组学和各种表型之间复杂的相互作用。

参考文献:“Animal board invited review: Practical applications of genomic information in livestock”

https://doi.org/10.1016/j.animal.2023.100996

你可能感兴趣的:(基因组在动物的实际应用综述)