当生物信息遇见机器学习

随着遗传学、育种学的不断发展和人类基因组计划和分子生物学的日益发展,生物学数据在短短的几十年里得到了爆发式地增长。比如生物信息学里面的:回归分析、随机森林、支持向量机等算法,都是比较成熟的应用了。那今天本文,就给大家剖析一下当生物信息遇见机器学习,会有什么火花。

那开始讲生物信息与机器学习之前,我们要先阐述几个概念:

1. 什么是生物信息学的数据

2. 什么是GWAS

什么是生物信息学的数据

研究的数据类型,可以根据术手段分为基因型数据(GenoType Data)、表达量数据等;那其中基因型数据则是通过WGS、WES、基因芯片数据获得的。

而基因型数据的内部是有关联性的。而基因型数据间存在一定的关联性是由遗传学第三定律中连锁定律造成的;而基因型数据可以将数据理解为{0,1,2}(分别表示:野生型纯合、杂合、突变型纯合)。

位点之间如果充分杂交(换到医学研究中则是经过经历多世代),会达到连锁平衡状态。但是事实上,由于人口分层和其他因素,不存在完全独立的位,那么位点间存在着连锁不平衡现象(LD)。

某类疾病本质上是由于DNA突变造成了蛋白结构发生了改变,这类突变可能随机发生在一个基因区间上。某两个突变虽然没有遗传学上的联系,可能造成同一后果。因此可以以基因为单位作为观察对象,例如负荷检验(SNP Burden Test)。

对于RNA分子转录水平、蛋白表达量、代谢相关分子的定量等,也因为生物体本身的代谢调控的复杂性,造成变量内部会存在一定的相关性。例如某一转录调控因子基因转录水平增高,会引起一系列相关基因的转录水平升高。

而且基因型数据还具备高通量性。

什么是高通量性呢

其实高通量技术(如高通量测序、高通量质谱技术等)使得全基因组、蛋白组、代谢组水平的检测得到可能。但是位点信息动辄百万级,基因表达量也是万级别的,虽然初衷是对遗传和分子水平认知更为清晰,但是同时造成了无关变量的激增。

由于无关变量占比非常高,因此在数据分析时首要面对的问题就是如何将变量数量进行减少。

那介绍完生物信息学的数据,还会牵扯另一个概念,那就是GWAS。

什么是GWAS

一般意义上,对于位点和表型之间的关联,经常采用全基因组关联分析(GWAS Genome-Wide Association Study) 进行,其本质是不同的表型——例如正常样本和患病样本——与基因型的线性回归模型,对位点与表型之间的相关性给出评估。

目前随着基因组数据(如基因芯片数据、高通量测序数据)的不断积累,GWAS在表型关联性研究上已经取得了很多的结果。而人口分层分析(Population Structure Analysis)结果和其他协变量,可以通过广义线性模型引入GWAS分析,也使得模型更加精致。

但从结果上看,GWAS还是不足以完全解释基因型对表型的影响。而目前已有的GWAS分析工具,也对表型选择也存在较大的限制(目前只支持连续变量或二分类变量)。

但GWAS分析后会产生的结果则需要一个评价数值。

什么是PRS

因为GWAS的结果只反应了位点与形状之间的关联程度,而如何评价某个个体是否具有该形状,则可以通过PRS来进行评价。Polygenic risk scores(PRS) 估计常用的三种方式,这三种方式基本上都强烈依赖于GWAS的结果。本质上就是对GWAS结果的系数赋权重之后加和。

BLUP (最佳线性无偏预测; 通用工具 gcta 提供了相应功能实例,也有不少独立工具可以使用)

BayesA

LDpred (其使用可以参考该站点)

PRS可以理解为通过GWAS结果给出的评价模型,该评价以数值型表征患病风险。实际上Polygenic risk scores也可以是分类结果(例如推断该样本是否患病)。

相信大家,已经理解了什么是生物信息学数据以及GWAS和其评分。

那当生物信息数据中的基因型-表型数据遇见机器学习算法的时候,那机器学习在基因型数据-表型数据中分析中遇到了什么问题?

机器学习算法在基因型数据分析遇到的问题

1.基因型数据的位点(即Feature数量)与样本数量相比过于庞大——基因型数据的位点数量通常M级别的,因此如果模型拿来就用,通常会出现过拟合现象,从而使得模型失去实际意义。

2.采用神经网络模型,难以对结果中哪些位点起到决定作用给出明确的判断。这对一般以找出显著影响因素的目的的基因组学研究来说,造成了困扰。

3.目前应用机器学习算法分析基因型-表型之间的关联依然处于起步阶段,由于与传统的GWAS关联分析有较大区别,所以还没有一个非常合理的方法。

那目前已有的减少特征的方案都有什么呢?

目前知道已有的减少特征的方案

1.神经网络模型常见方式有:

选择已知和疾病突变作为数据集的Feature (Hess et al., 2017)。

通过前期GWAS分析,对变异进行形状关联后,选择显著关联的突变作为Feature (Bellot et al., 2018)。

通过自动编码器(Autoencoder)进行降维 (Fergus et al., 2018; Montañez et al., 2018a).

对于这个方案,特别提醒一下大家:

上述方法都存在过高估计上位突变(epistasis);同时低估效力较小的突变

通过特征嵌入(Feature Embedding)方式进行特征选择,由于将数据集进行转置,因此大大减小了训练计算量 (Romero et al. 2016)。

通过隐含因果模型 (implicit causal model) 来识别位点间相关性,同时再逐步增加变量 (Tran and Blei 2017 )。

2.线性模型也有一些变量筛选方式:

通过LASSO模型,实现变量的筛选及回归分析(Charles Kooperberg. 2011)

弹性网络(elastic net)进行变量选择及回归分析(Hui Zou and Trevor Hastie 2005)

上述所有的方法,核心都是解决数据集Feature数量过多的问题。

你可能感兴趣的:(机器学习)