MIR增加GS预测准确性和深度学习预测奶牛怀孕状态

1. MIR增加GS准确性

MIR现在主要是用于表型预测,其便于收集,为遗传估计提供表型,下文研究了新预测表型,对于GS准确性的影响,也可以说是证明MIR预测的新表型,是否可以用于GS。
文章:“The use of milk mid-infrared spectroscopy to improve genomic prediction accuracy of serum biomarkers” 2020. https://doi.org/10.3168/jds.2020-19468

摘要:
乳制品行业的育种目标已经从仅专注于生产转移到包括生育,动物健康和环境影响。增加健康和生育能力的候选生物标记物(例如,β-羟基丁酸(BHB),脂肪酸和尿素)的血清浓度难以测量且成本高昂,因此限制了记录数量。准确的基因组预测需要大量的参考人群。牛奶中红外(MIR)光谱学预测的生物标志物的纳入可能会增加这些性状的基因组预测准确性。
我们的目标是(1)估计所选血清生物标志物及其各自的MIR预测的遗传力和遗传相关性,(2)评估仅测得的血清性状或血清性状加MIR预测的性状的基因组预测准确性。
方法: MIR预测的性状要么适合于单个性状模型(假定测得的性状和预测的性状是同一性状),要么适用于多性状模型,其中的测量性状和预测性状被假定为相关性状。我们使用由谱系(A矩阵),基因型(G矩阵)或谱系和基因型(H矩阵)构成的关系矩阵进行了所有分析。
数据:我们的数据集包括多达2198头和9657头荷斯坦奶牛,分别记录了血清生物标志物和MIR预测的性状。
结果: BHB测得的血清性状的遗传力范围为0.04至0.07,脂肪酸的遗传度范围为0.13至0.21,尿素的范围为0.10至0.12。 MIR预测性状的遗传力与实测性状没有显着差异。尿素的测定性状与MIR预测性状之间的遗传相关性接近1。对于BHB和脂肪酸,遗传相关性较低,标准误较大。包含MIR预测的尿素大大提高了尿素的预测准确性。对于BHB,包括MIR预测的BHB降低了基因组预测的准确性,而对于脂肪酸,预测精度与测得的脂肪酸,MIR预测的脂肪酸或两者相似。尿素和MIR预测的尿素之间的高度遗传相关性,再加上提高的预测准确性,证明了将MIR预测的尿素用于尿素的基因组预测的潜力。对于BHB和脂肪酸,需要使用更大的数据集进行进一步研究,以获得更准确的遗传相关性估计。

2. MIR以深度学习预测奶牛怀孕状态

最近增加了好几篇相关的文章,这里给出最新的文章,其使用深度学习算法
“Predicting pregnancy status from mid-infrared spectroscopy in dairy cow milk using deep learning”。 2021. https://doi.org/10.3168/jds.2020-18367。

摘要:
盈利的乳品企业必须准确地确定怀孕状况。通常使用中红外(MIR)光谱法测定牛奶样品中的脂肪和蛋白质浓度。中红外光谱已成功用于预测其他经济上重要的特征,包括脂肪酸含量,矿物质含量,身体能量状况,乳铁蛋白,饲料摄入量和甲烷排放量。机器学习已在各种领域中使用,以查找大量数据中的模式。
目的:这项研究旨在利用深度学习(机器学习的一个分支),从常规收集的牛奶MIR光谱数据确定怀孕状态。牛奶光谱数据是从国家牛奶记录(英国希彭汉姆)获得的,后者每月连续收集大量数据。
算法:遵循了两种方法:使用遗传算法进行特征选择和网络设计(模型1),以及使用预先训练的DenseNet模型(模型2)进行转移学习。
结果:模型1中的特征选择表明,MIR数据中的波点数量可以从1,060个减少到196个波点。经过训练的模型在162个时期后收敛,验证准确性和损失分别为0.89和0.18。尽管准确性足够高,但损失(仅预测2个标签)被认为过高,这表明该模型的鲁棒性不足以应用于工业。对模型2进行了两个阶段的训练,每个阶段100个时期,并将光谱数据转换为灰度图像,分别导致精度和损失0.97和0.08。检查推断数据显示预测灵敏度为0.89,特异性为0.86,预测精度为0.88。
结论:牛奶MIR数据包含与妊娠状态和奶牛潜在代谢变化有关的特征,并且可以通过深度学习来识别这些特征。来自受过训练的模型的预测方程式可用于提醒农民不可行的怀孕以及验证受孕日期。
讨论+前期的一些文章:

我们的研究不是第一个研究使用牛奶MIR光谱来尝试诊断奶牛怀孕的工具,但我们相信这是第一个使用深度学习尝试这样做的工具。正如我们的导言中强调的那样,先前的研究已尝试校准牛奶MIR光谱以预测奶牛的怀孕状况,其准确度为0.90(Lainé等,2014;基于敏感性和特异性); 0.60(Toledo-Alvarado等人,2018;基于接收者算子曲线下方的面积);最近,从0.65到0.76(Delhez等,2020;基于接收者算符曲线下的面积)。这些研究的预测方程是使用残差(Lainé等人,2014; Delhez等人,2020)和全光谱MIR谱(Toledo-Alvarado等人,2018)开发的。这些研究中的每一项都突出了牛奶MIR光谱作为妊娠状态预测指标的潜力。
Lainé等。 (2014),使用区分分析方法,能够成功区分来自怀孕和未怀孕奶牛的残留光谱,在交叉验证过程中的灵敏度为99.7%,特异性为86.2%。通过从观察到的光谱中减去预期的开放光谱(通过混合模型获得)来生成残留光谱。据报道,在外部验证期间,准确度显着下降(高达50%)(Delhez等,2020),应用于原始光谱时观察到的错误率为55.5%(Lainé等,2014)。

Toledo-Alvarado等。 (2018)使用来自多个品种的全光谱MIR,通过广义线性模型预测了怀孕状况,该模型拟合了除光谱以及牛奶成分之外的各种效应(DIM,平价,畜群年)的组合。将牧群和年份包括在光谱中时,可获得最佳精度(曲线下的面积);在荷斯坦(0.61)中观察到最低的预测准确性。

Delhez等。 (2020)采用PLS-DA方法,并基于(1)授精后的单一光谱,研究了三种区分孕牛和非孕牛的策略,类似于Toledo-Alvarado等。 (2018),但增加了没有产犊记录的母牛; (2)残留光谱,类似于Lainé等。 (2014),但仅使用观察到的光谱(未建模); (3)授精后按时期分组记录。 Delhez等。 (2020)报告的策略1的训练和测试的准确度(曲线下面积)分别为0.63和0.65(测试期间的相应灵敏度和特异性分别为0.65和0.56)。对于策略2,结果在测试期间相似,准确度,灵敏度和特异性分别为0.58、0.59和0.52。第三种策略观察到在授精后超过151 d的记录中有希望的结果,报告的平均准确性,敏感性和特异性分别为0.76、0.73和0.64。

妊娠状态表型的定义是基于MIR的预测的一个极其重要的方面(如果不是最重要的话)。高质量和干净的表型不仅是深度学习模型(即标签)的关键要求,而且还是任何预测模型的关键要求。在之前的3项研究中以及在我们自己的研究中,对怀孕和未怀孕(或未怀孕)母牛的定义方式都不同。我们相信,通过将非怀孕记录定义为分娩和第一次受精之间的记录,我们可以100%肯定地说这种记录代表了非怀孕类别。类似地,对于怀孕记录(如最后一次受精和随后的产犊之间的妊娠长度在240至284 d之间的记录)。这为我们提供了传递到深度学习网络的强大表型。

最后,值得注意的是,与我们自己的研究相比,每个先前研究的可用数据量都存在差异。 Lainé等人先前开发的模型。 (2014),Toledo-Alvarado等。 (2018)和Delhez等人。 (2020)分别使用了68,998、69821和8064头母牛的光谱;本研究通过8个月的每月牛奶记录获得了697671头奶牛的英国国家数据。此外,转移学习的应用大大减少了训练模型所需的数据量,使我们能够创建包含尽可能多的最精确表型的训练数据集。结合对整个哺乳期(随机)看不见的数据进行测试(结果见表2,表3),似乎可以很好地表明妊娠状况。将通过现场测试获得对模型区分孕妇与未怀孕母牛的能力的最终测试。

2022新的一篇:MIR预测奶牛的妊娠状态-作者认为不准确

Pregnancy status predicted using milk mid-infrared spectra from dairy cattle 新西兰的工作
意义:
准确及时的妊娠诊断是奶牛有效牛群管理的重要组成部分。从傅里叶变换中红外 (FT-MIR) 光谱数据预测怀孕尤其令人感兴趣,因为这些数据通常已经可以从常规牛奶检测中获得。

目的和数据:
本研究的目的是评估在季节性产犊系统中管理的 863,982 只混合品种牧场的新西兰奶牛的 1,161,436 条 FT-MIR 牛奶光谱记录的大型数据集中预测妊娠状态的程度。

方法:
在根据训练人群中的妊娠状态划分记录时,评估了三种策略来定义非妊娠奶牛。其中两个使用了仅随后产犊的奶牛的记录,而第三个还包括没有随后产犊的奶牛的记录。
对于每个分区策略,开发了偏最小二乘判别分析模型,其中 80% 牛群中所有奶牛的光谱用于训练模型,其余牛群中奶牛的预测用于验证。一个单独的数据集也被用作二次验证。
参考数据:根据牛奶样本中妊娠相关糖蛋白 (PAG) 的存在来分配妊娠诊断。我们研究了在预测模型中解释泌乳阶段的不同方法,要么将其作为预测模型中的影响,要么在拟合模型之前预先调整光谱。对于一部分策略,我们还利用原始光谱或光谱图像评估了深度学习方法的预测准确性。

结果:
在所有策略中,使用未调整光谱作为模型预测因子的模型的预测准确度最高。随后产犊的奶牛策略在独立于牛群的验证中表现良好,敏感性高于 0.79,特异性高于 0.91,接受者操作特征曲线 (AUC) 值超过 0.91。
然而,对于这些策略,在外部 PAG 数据集中预测非妊娠奶牛的特异性较差(0.002-0.04)。
表现最好的模型是那些包含没有随后产犊的奶牛的记录,并使用未调整的光谱和牛奶中的天数作为预测因子的模型,在训练、独立于牛群的验证和 PAG 数据集中观察到一致的结果。对于偏最小二乘判别分析模型,PAG 数据集中的敏感性为 0.71,特异性为 0.54,AUC 值为 0.68;对于基于图像的深度学习模型,灵敏度为 0.74,特异性为 0.52,AUC 值为 0.69。

结论:
我们的研究结果表明,在以牧场为基础的季节性产犊群中,妊娠状态和与泌乳阶段相关的光谱变化之间的混杂会提高预测的准确性。当这种混杂因素的影响降低时,预测准确度就不够高,无法用作妊娠状态的唯一指标。

4 MIR与怀孕状态的关联分析

The use of milk Fourier-transform mid-infrared spectroscopy to diagnose pregnancy and determine spectral regional associations with pregnancy in US dairy cows . 2022.美国的工作

意义:
准确的早期妊娠诊断对于奶牛场的及时生殖管理具有重要意义。傅立叶变换中红外 (FT-MIR) 牛奶光谱数据通常用于确定牛奶成分,例如脂肪和蛋白质,而众所周知,牛奶成分会随着妊娠的进展而变化。

目的:
比较偏最小二乘判别分析 (PLS-DA) 和贝叶斯变量选择回归模型 (BayesC) 从牛奶 FT-MIR 数据诊断妊娠状态 (PS) 并推断任何光谱区域可能与妊娠不同阶段的 PS 高度相关。

数据:
在 2018 年和 2019 年期间,从密歇根州、俄亥俄州和印第安纳州的 123 头荷斯坦奶牛中获得了已确认怀孕奶牛的受孕日期。这些怀孕奶牛在 7 个不同怀孕阶段的牛奶样本进行了病例对照匹配,以开放当代牧群伴侣在同一乳样测试日期的同一泌乳阶段(乳中天数±10 d)内。获得了所有这些牛奶样品的 FT-MIR 数据。

方法:
使用受试者工作特征曲线下面积 (AUC) 使用十倍群体独立交叉验证来比较 PLS-DA 与 BayesC。

结果:
与 PLS-DA 相比,BayesC 模型在妊娠超过 60 天的所有阶段均表现出更高的平均 AUC。

  • 第 1 阶段(1-30 天)的平均 BayesC AUC 为 0.58 ± 0.02,优于随机猜测(AUC = 0.50),但太低而无法实际使用。
  • 第 7 阶段(≥180 天)的平均 BayesC AUC 比第 1 阶段(1-30 天)高 0.13,比第 2、3、4、5 和 6 阶段(31-180 天)高 0.07 到 0.10以 30 天为增量)。与第 1 阶段相比,第 2 至第 6 阶段的平均 AUC 高 0.03 至 0.06,但又太低而无法实际使用。
  • 由于许多相邻波数之间的高度多重共线性,在推断光谱区域与怀孕的关联之前,使用空间约束聚类算法将波数自适应地划分为 68 个窗口。妊娠状态与波数窗口 1,063 至 1,134 cm-1、1,201 至 1,257 cm-1 和 1,260 至 1,432 cm-1 高度相关,基于估计的 BayesC 后验关联概率 (PPA) 在这些窗口中的每一个接近 100%所有怀孕阶段。
  • 从 1,730 到 1,764 cm-1、1,775 到 1,992 cm-1、1,995 到 2,163 cm-1 和 2,167 到 2,316 cm-1 的其他窗口在各个阶段具有不同的中高 PPA(30% 到 100%)。与后期相比,1,477 至 1,507 cm-1 和 1,510 至 1,574 cm-1 波数区域的估计 PPA 在第 1 阶段和第 2 阶段较弱,而在 2,984 至 3,077 cm-1 和 3,081 至 3,133 cm-1 区域与其他阶段相比,第 1 阶段的妊娠影响更大。

结论:
尽管我们的结论是牛奶 FT-MIR 数据不能很好地诊断 PS,但我们的研究为与 PS 密切相关的光谱区域提供了新的见解,值得更多关注。

你可能感兴趣的:(MIR增加GS预测准确性和深度学习预测奶牛怀孕状态)