相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale

论文标题:Similarity network fusion for aggregating data types on a genomic scale.

  • 论文下载地址

论文总结

  • 论文以计算机视觉多视图方式为启发,设计了一种图融合网络用于解决基因数据不能综合处理的困难。现有的基因数据非常丰富,有各种类型的基因数据可以利用。但现有的基因数据处理方式大多数是只利用一种基因数据,例如只使用DNA或者是只使用mRNA,不能综合所有的基因数据,得到一个既有共享信息又有互补信息的处理结果。本文考虑将患同一种癌症的病人组成一个群体,利用群体里面每个病人个体的不同基因数据分别构建不同的图,并设计了一个图融合方式,将不同的图融合成一个最终的图,最终的图包括了所有的基因信息数据,因此是一个综合的结果,利用该综合的结果进行聚类,可以将癌症分为不同的亚型,利用该综合结果进行回归任务,可以对病人的生存风险进行预测。论文的框架和模型的结构如下:
    相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第1张图片

问题陈述

  • 现有的科技可以获得各种基因数据,但是将各种基因数据综合起来处理还存在一些问题:
    • 病人较少但是测量的基因数据非常多;
    • 各种基因数据不统一,且各个数据上都存在噪声;
    • 如何提取各种基因数据上的互补信息。
  • 已经有一些方法可以综合使用所有种类的基因数据,但是存在各种问题:
    • 基于拼接的方式:存在低信噪比的问题;
    • 独立分析后拼接:数据独立,容易产生不同的输出结果,不能统一;
    • 基因预先选择:聚焦公共信息,缺失了互补信息;
    • 机器学习聚类:对于预先选择的基因数量特别敏感。
  • 本文提出SNF:Similarity network fusion:
    • 为每一类构建一个相似度网络;
    • 用非线性方法融合所有的相似度网络得到一个单一的输出网络。
  • SNF的优势:
    • 同时包含不同基因类型的公共信息和互补信息,提取的信息比较全面;
    • 可以综合处理多种基因数据,对噪声鲁棒,可用于样本少的情况;
    • 迭代融合的过程可以去除弱连接,增强强连接。

方法


相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第2张图片

  • 上图以融合两种基因数据为例,原始的数据是一批患有同一种癌症的病人,分别提取每一个病人的DNA甲基化数据和mRNA基因数据。a图展示了每一个病人的两种基因数据,纵轴表示每个病人,横轴表示一条基因数据。b图展示了病人之间两两相似度计算后的相似度矩阵,c图是根据相似度矩阵画出的图,节点表示病人,连接的边表示了相似度的大小,即权值。c图中边只有一种颜色,此时边是纯净的,即每一条边都是由单一数据计算出来的。d图表示了图融合的 过程。通过融合迭代公式的不断迭代,两个图逐渐融合,互相学习得到各自的“长处”,最终达到收敛条件时,得到最终的融合图,即e,此时边不是纯净的,每条边都是由两种数据综合计算出来的。


相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第3张图片


  • 论文以一个细胞瘤数据集进行了分析,展示了SNF的具体过程,这里使用了三种基因数据,首先也是根据这三种基因数据分别进行构图,构图后对三个图进行融合。利用融合之后的图进行聚类和生存预测。使用谱聚类的方式将病人聚类成不同的癌症亚型,并将网络作为一个正则化项,加入到回归任务中,得到病人的生存风险预测。

  • 相似度计算公式:
    相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第4张图片
    相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第5张图片
    相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第6张图片

  • 图融合迭代公式:
    相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第7张图片
    相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第8张图片

  • 谱聚类损失函数:
    在这里插入图片描述

  • 回归系数更新公式:
    在这里插入图片描述

评估

  • 指标1:P值,表示样本检查结果有显著意义的最低水平;
  • 指标2:轮廓分数,用于评估聚类,同类靠近,异类远离;
  • 指标3:运行时间,测试网络的伸缩性的方法。

相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale_第9张图片

结论

  • 本文使用了一个相似度融合的网络,可以综合处理各种基因数据,得到丰富全面的特征,用于后续的聚类和回归任务。

笔记

  • 本文来源于多视图,但也可以返回应用于多视图;
  • 聚类的评估指标可以借鉴。

参考文献

  • Bayesian correlated clustering to integrate multiple datasets.
  • On spectral clustering: analysis and an algorithm.
  • A tutorial on spectral clustering.

你可能感兴趣的:(论文笔记,机器学习,神经网络,深度学习)