融合遗传算法与XGBoost的玉米百粒重相关基因挖掘

转录组分析是一种快速有效的基因组调查、大规模功能基因和分子标记鉴定的方法[1]。相较于基因芯片等方法,基于转录组测序(RNA-sequencing, RNA-Seq)的方法不依赖基因的先验知识,能够覆盖更大的转录组范围,具有更高的分辨率并且测序成本更低[2]。已有很多学者针对RNA-Seq测序数据进行了研究[3- 4],其中不乏使用机器学习进行研究的方法[5- 6]。通过RNA-Seq得到的转录组测序数据具有样本量较少(几十或者几百个)、基因数极高(通常有上万个基因)的特点。数据高维的特点导致对其进行分析需要更大的计算资源和时间;同时,传统的统计方法往往也由于数据维度过高而失效。因此,对数据进行降维,寻找能够表示其特征空间的最优子集成为研究人员需要解决的问题。

常见的转录组分析方法主要可以分为两类:1) 根据已知的生物学领域知识和统计知识对数据进行处理,筛选出相对低维的特征空间进行后续研究,例如差异表达分析。此类方法[7- 8]能够较快速地获得特征子空间,但是无法保证子空间能够保留原始空间的全部信息,从而可能导致最终的效果不尽如意。2) 结合机器学习算法,从样本的基因全集中选择若干个基因作为特征构建学习器,并根据学习器的性能和基因在学习器中的重要性(如特征权重)筛选候选基因[5]。此类方法使用学习器的性能作为评判标准,虽然能够获得比较优秀的特征子集,但是只是针对单一特征进行评价,没有考虑到基因之间的相互作用。而基因间的相互作用也会导致表型的差异,如此选出的特征子集往往不是最优子集。

遗传算法(genetic a

你可能感兴趣的:(物联网及AI前沿技术专栏,人工智能,python)