《Similarity network fusion for aggregating data types on a genomic scale》

    • 链接:https://github.com/yik-cyber/SNFtool

    • 总结

      • 相似融合网络:聚合不同的基因数据类型

      • 论文以计算机视觉多视图方式为启发,设计了一种图融合网络用于解决基因数据不能综合处理的困难。

      • 本文考虑将患同一种癌症的病人组成一个群体,利用群体里面每个病人个体的不同基因数据分别构建不同的图,并设计了一个图融合方式,将不同的图融合成一个最终的图,最终的图包括了所有的基因信息数据,因此是一个综合的结果,利用该综合的结果进行聚类,可以将癌症分为不同的亚型,利用该综合结果进行回归任务,可以对病人的生存风险进行预测。论文的框架和模型的结构如下:
        image
    • 问题陈述

      • 已经有一些方法可以综合使用所有种类的基因数据,但是存在各种问题:

        • 基于拼接的方式:存在低信噪比的问题;

        • 独立分析后拼接:数据独立,容易产生不同的输出结果,不能统一;

        • 基因预先选择:聚焦公共信息,缺失了互补信息;

        • 机器学习聚类:对于预先选择的基因数量特别敏感。

      • 本文提出SNF:Similarity network fusion:

        • 为每一类构建一个相似度网络;

        • 用非线性方法融合所有的相似度网络得到一个单一的输出网络。

      • SNF的优势:

        • 同时包含不同基因类型的公共信息和互补信息,提取的信息比较全面;

        • 可以综合处理多种基因数据,对噪声鲁棒,可用于样本少的情况;

        • 迭代融合的过程可以去除弱连接,增强强连接。

    • 方法

      • 下图以融合两种基因数据为例,原始的数据是一批患有同一种癌症的病人,分别提取每一个病人的DNA甲基化数据和mRNA基因数据。a图展示了每一个病人的两种基因数据,纵轴表示每个病人,横轴表示一条基因数据。b图展示了病人之间两两相似度计算后的相似度矩阵,c图是根据相似度矩阵画出的图,节点表示病人,连接的边表示了相似度的大小,即权值。c图中边只有一种颜色,此时边是纯净的,即每一条边都是由单一数据计算出来的。d图表示了图融合的 过程。通过融合迭代公式的不断迭代,两个图逐渐融合,互相学习得到各自的“长处”,最终达到收敛条件时,得到最终的融合图,即e,此时边不是纯净的,每条边都是由两种数据综合计算出来的。
        image
      • 论文以一个细胞瘤数据集进行了分析,展示了SNF的具体过程,这里使用了三种基因数据,首先也是根据这三种基因数据分别进行构图,构图后对三个图进行融合。利用融合之后的图进行聚类和生存预测。使用谱聚类的方式将病人聚类成不同的癌症亚型,并将网络作为一个正则化项,加入到回归任务中,得到病人的生存风险预测。
        image
      • 相似度计算公式
        image
        image
        image
      • 图融合迭代公式
        image
        image
    • coding

      • 将数据分为两部分

      • 基于原始数据计算相似度矩阵
        image
      • 将得到的相似度矩阵进行融合,得到融合后的矩阵
        image
      • 对融合后的矩阵进行聚类分析,得到两个不同的簇。
        image
      • 对相似度矩阵进行网络可视化
        image
        image
        image
        image
      • 对相似度矩阵进行二值化处理
        image
      • 关于模型
        image
        image
        image
        image
        image
      • 相似文章

        • https://www.sciencedirect.com/science/article/abs/pii/S016926071930327X?via%3Dihub

你可能感兴趣的:(《Similarity network fusion for aggregating data types on a genomic scale》)