微生物数据x机器学习 基础

文章目录

  • 前言
  • 一、一些名词
    • 1.英文名词/缩写
    • 2.微生物组表格阅读
    • 3.GMrepo内容翻译
  • 二、微生物组特征
  • 三、微生物组问题
    • 1.大p小n问题
    • 2.合并分类群/OTUS系统发育树信息
    • 3.零膨胀
  • 总结


前言

机器学习+微生物组学的基础知识。


一、一些名词

1.英文名词/缩写

GMrepo ML repository 机器学习存储库
mAML (microbiome Auto Machine Learning)扩充有关人类疾病的微生物组学习库
metagenomic 宏基因组:环境中全部微小生物遗传物质的总和
amplicon 扩增子 :经过人工扩增的DNA片段或RNA片段的扩增产物,以揭示环境样品中众多的微生物种类及它们之间的相对丰度和进化关系。
metadata 元数据:又称中介数据,为描述数据的数据
abundnce 丰度:指一种化学元素在某个自然体中的重量占这个自然体总重量的相对份额(如百分数)
QC程序:质量控制程序
NCBI:(National Center for Biotechnology Information),美国国家生物技术信息中心
ETE:(The Environment for tree Exploration)(树形勘探环境)是python中的一款工具集,用来计算、分析和可视化系统发生学数据
phyloseq:一款应用于微生物组分析的软件包
BIOM:微生物数据格式,一种生物矩阵数据,微生物组领域最常用的结果保存格式。这种格式的数据是一种高度压缩的数据,便于数据的传输和交流。
distal DBA:远端判别平衡分析方法
log contrasts(balabces):日志对照集(平衡集)

Nr…reads.sequenced
Nr:非冗余蛋白库(NCBI常见数据库)
read:高通量测序时,在芯片上的每个反应都会读出相应的一条序列,是比较短的,叫read
sequenced:测定序列

MESH:医学主题词表(Medical Subject Headings),是美国国立医学图书馆编制的权威性主题词表

OTU:(operational taxonomic units) 系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志,每一个 OTU 通常被视为一个微生物物种。

2.微生物组表格阅读

生物分类法(从高到低)
#featureid:特征ID(int:285)
Domain:域(k_Bacteria)
界:真菌界
Phylum:门(p__Proteobacteria)
Class:纲(c__Betaproteobacteria)
Order:目(o__Burkholderiales)
Family:科(f__Comamonadaceae)
Genus:属(g__Comamonas)
Species:种(s__Comamonas testosteroni)

样本ID:ERRxxxxx
疾病主题词表ID:D00xxxx

3.GMrepo内容翻译

  GMrepo ML 存储库(GMrepo Machine Learning repository)是从 GMrepo 数据库开发的,以促进 mAML 的应用,扩展了与人类疾病相关的微生物组学习存储库。该存储库总共涉及 12,429 个宏基因组样本,涵盖 49 种疾病表型和 38,643 个扩增子样本,涉及 71 种疾病表型。

1.从 GMrepo 网站下载所有通过 QC (质检)程序 (QCStatus = 1) 的样本的元数据。
2.检索所有宏基因组和扩增子样本的分类丰度信息(包括属和种水平)。
3.通过使用 ETE3 python 模块,根据每个分类群的 NCBI 分类 id 检索分类谱系和树信息。
4.检索的文件根据表型分为子文件:分类丰度表(out_table.xls)、元数据表(sample_data.xls)、分类谱系表(tax_table.xls)和分类树文件(tree.nwk)。

  对于每个表型,可以将分类丰度表和元数据表直接上传到mAML服务器,以建立疾病预测的优化模型。
  构建了每个表型的 phyloseq 类对象(phyloseq.RData),可以将其导入 phyloseq 管道,用于后续微生物组数据的交互式探索。
  mAML 管道提供并支持 BIOM 格式的文件 (otu_table.biom)。
  微生物组特征可以作为患者分层和疾病预测的生物标志物。然而,由于微生物组数据的组成性质,常规分析是不合适的。为了克服这个问题,mAML 管道采用远端 DBA 方法将相对丰度数据转换为可解释的日志对比(平衡)集,以进行适当的分类。
  在 GutBalance 服务器上提供了与各种主流机器学习软件(Weka、LIBSVM 或 MatLab)兼容的多种格式(.arff、.libsvm、.csv)的平衡转换数据集,用于机器学习算法优化。

二、微生物组特征

  微生物组数据有几个特点。微生物群落计数数据(OTU计数、类群丰度)具有自然约束性、高维、稀疏性,在OTU(分类群)表中含有较大比例的零计数。
(1)微生物组数据组成
  微生物组计数数据(来自16S rRNA测序的OTUS或分类群丰度数据)由两个关键几何属性组成。首先,所有组件值的总和(有时称为库大小)是采样过程的产物。文库的大小可能会受到许多因素的影响,例如技术上的可变性或特定于实验的丰度的差异。其次,成分数据是成比例的,即分量值之间的距离只有成比例才有意义。构成要素是非负和合一的。
(2)数据高维和不确定
  微生物组序列数据集是具有数万个不同类别的高维数据集。它们不能鉴定,分类群或OTUS的数量远远大于样本的数量。例如,病人群体很小,描述性特征很多,这会导致建模的困难。高维可能导致大p小n问题,并对微生物组数据的分析提出统计挑战。
(3)数据过于分散
  分类群计数数据,无论是来自微生物组研究中扩增子测序实验的分类reads或OTU计数,还是来自RNA测序实验的差异表达数据,通常都是过度分散的。
(4)数据稀疏,有许多零点
  在微生物组数据中,稀疏性即在样本中缺少很多分类群,并且在大多数实验中都会产生零点。根据零点的来源,经常涉及两种零点:由于采样变异性而导致的采样零点和构建模型下高于和超过预期零点频率的结构零点。

三、微生物组问题

1.大p小n问题

  在机器学习中,通常需要预测量和样本来描述训练集。使用术语“p”描述数据集中的预测器数量,使用术语“n”(或“N”)描述数据其中的样本数。大p小n问题即相比样本,预测器数量太多。医学领域中微生物组数据中会出现这样的问题:病人群体很小,描述性特征很多,这会导致建模的困难。
  一个例子来帮助理解:考虑一个超立方体,其中预测器(p)的数量定义了超立方体的维度的数量。超立方体的体积是可以从域中提取的可能样本的范围。样本(n)的数量是从域中提取的实际样本,我们要使用这些样本来对预测建模问题进行建模。
  这是应用机器学习中“获取尽可能多的数据”这一公理的基本原理,希望收集一个足够有代表性的样本的p维问题域。
  随着维数(p)的增加,域的体积呈指数增长。这进而需要更多的来自域的样本(n)来为学习算法提供域的有效覆盖。我们不需要完全覆盖这个领域,只要那些可能被观察到的。缺乏样本n时,标准机器学习模型所做的假设可能会导致模型发生意外行为,提供误导性结果或者完全失败。

2.合并分类群/OTUS系统发育树信息

  微生物组数据的一个独特特征是系统发育树结构。一个群落中的细菌分类群并不是随机分布的,它们通常不仅相互依赖,而且还存在着细菌间的系统发育关系,这为研究细菌分类群之间的进化关系提供了解:一个系统发育树。系统发育树已经被定义为生物学中无处不在的图形,它描述了一组物种之间的进化关系或将所有细菌物种联系在一起。它由多个层次组成。系统发育树结构表明,不同微生物之间的类群关系不仅是分类上的,而且是进化的。
  因此分类群中一点内容的不同会对系统发育树造成深刻的影响,很难将不同的分类群、系统发育树的信息合并利用。

3.零膨胀

零点由什么造成?
1.由于采样变异性而导致的采样零点:
  采样零也称为计数零。这种零是由于采样问题造成的,可能由于样本大小有限而无法观察到分量,或者由于技术限制而无法检测到分量。也就是说,零是因为样本不够大,而未观测到的正值可以通过更多的试验或不同的抽样设计来观察。
2.考虑模型下高于和超过预期零点频率的结构零点:
  结构零点也称为基本零,真正的零,它是一个真正为零的部件,而不是仅仅因为实验设计或测量仪器没有记录为零,此时记录为零的部件已经足够灵敏,能够检测到该部件的痕迹。例如,真正代表特定样本中没有分类群的零属于结构零。

  在微生物组文献中,除了计数零和结构零之外,还有四舍五入的零。连续变量大多会出现四舍五入的零。实际上,它不是真正的零,而是表示低于特定最大可能舍入误差或低于检测值或限值的观测值。
  零计数是由于真正发现了低丰度的分类群,这些分类群只存在于少数样本中。例如,标记基因研究中最多的分类群(OTU)很少。因此,它们没有出现在大量的样本中。零膨胀的发生会对模型的构建造成一定的阻碍。


总结

需要更多的了解。

你可能感兴趣的:(机器学习,人工智能)