多视图聚类的算法总结

多视图聚类算法总结

多视图聚类主要利用不同视图间的差异性和互补性的信息来对数据进行聚类;关键问题在于如何有效地利用多个视图的信息,发挥各视图的优势,减少各视图的局限,从而获得准确且稳健的聚类性能;
两个原则:
1)一致性原则:旨在最大化多个视图之间的一致性,如多个视图应具有相同的类别结构;
2)互补性原则:指多视图数据的每一个视图都可能包含其他视图不具备的信息或知识,使用多个视图可以获得更加全面而准确的数据描述;

从方法原理的角度将多视图聚类广义的划分为:

    • 多视图聚类算法总结
    • 一、基于协同学习的算法
    • 二、基于图学习的算法
    • 三、基于子空间学习的算法
    • 四、基于集成学习算法
    • 五、基于多核学习的算法
    • 六、基于深度学习的算法
    • 七、多视图聚类研究的改进方向

一、基于协同学习的算法

1、思想:基于协同学习的多视图聚类算法旨在利用每个视图的先验信息或学习得到的知识去引导其他视图上的聚类进程,在执行多次迭代策略后,使得所有视图上的聚类结果趋于一致,共识信息达到最大化。
2、作用:基于协同学习的聚类方法可以促进不同视图间相互学习、相互改进,然而算法的有效性依赖于视图的充分性、兼容性和条件独立性三个条件,在一定程度上限制了其在复杂多视图上的应用。

二、基于图学习的算法

1、思想:找出一个由所有视图共享,且能够刻画所有视图相互关系的融合图,在融合图上使用图切割算法或其他谱图技术,最终获得聚类结果;
2、该类算法的三个关键步骤:1)基于单视图分别构造初始图;2)学习融合全部视图拓扑结构的一致图;3)将聚类问题转化成图分割问题;其中最关键的是如何构造高质量的初始图和如何设计有效的图融合策略。
3、作用:基于图结构具有可解释性强的特点,该类方法在聚类结果的解释方面具有一定优势;但是图模型的多视图聚类算法的性能大多依赖于图的初始化,而初始图的质量通常难以得到保障;

三、基于子空间学习的算法

1、思想:假设所有的数据对象共享 一个公共的子空间,每个视图样本在该空间中都有对应的投影或表示;多视图子空间学习的核心思想在于尽可能保留每个视图特有分布信息的情况下,寻找多个视图共享的表示空间;经典的子空间学习方法有:典型相关分析、矩阵分析、自表示、主题模型、字典学习等;
1)基于典型相关分析(CCA)
以最大化视图间相关性作为学习目标去寻找数据的潜在公共子空间;是多视图子空间算法的开创性研究,本质是一种浅层的视图融合方法,且特征融合过程与聚类过程独立进行,因此往往得不到较为理想的聚类结果;
2)基于矩阵分解的方法
核心思想是将原始数据分解为两个低维矩阵:系数矩阵和基矩阵,其中系数矩阵可以看作聚类的指示矩阵,实现数据从高维向低维的映射表示;尽管矩阵分解可以挖掘到多视图数据中隐含的聚类结构,具有一定的稳定性和鲁棒性,但是产生的低维潜在表示存在难以解释的问题;
3)基于自表示的方法
核心思想是通过数据之间的互相表达来重建数据自身,并基于重建系数构造样本间的相似性,从而挖掘样本之间的关系,实现数据从视图维度向样本维度的映射表示;可以划分为:多个视图共享一致的子空间、多个视图编码不同的子空间、一致性和多样性联合嵌入的子空间;能够实现数据降维的同时保留数据的流形结构,但是该类方法往往涉及较多参数、计算复杂度较高,需要的计算机资源较大;

四、基于集成学习算法

1、思想:充分发挥每个个体学习器的优势,形成弱弱生强的学习模式,提高算法的学习能力;这类算法通常具有很强的可扩展性,但是基聚类器的质量往往是参差不齐的,最终导致准确率降低;

五、基于多核学习的算法

1、思想:核函数是实现映射关系内积的一种方法,将低维特征空间映射到高维空间,使得低维特征空间线性不可分的数据在高维空间可能实现线性可分。多视图数据由于每个视图都有其特有的分布信息,单个核函数构成的核运算并不能满足多视图数据的实际分析需求。多核学习需要对不同的视图构造不同的基核,并通过线性、非线性等方式找出视图间的结构关联,有效融合多视图信息得到一致性核,最终达到提高聚类性能的目的。多核学习存在两个关键问题:一是如何选择合适的核函数;二是如何有效地组合多个核函数。
2、结果:基于多核的多视图聚类算法通过将样本映射到可再生希尔伯特空间实现了数据的非线性映射,核方法通过利用优化组合算法进一步提高聚类性能,但存在时间复杂度较高,内存消耗较大,可扩展性较差等问题。

六、基于深度学习的算法

1、思想:深 度 学 习 算 法 具 有 很 强 的 非 线 性 拟 合 能力,能够使用深度结构从大规模数据中进行深层特征学习,还能表达更加复杂的目标函数,进而提升聚类和分类等学习任务的性能。根据
获取特征表示的方式,可以将该类算法划分为两类:(1)基于共享特征表示学习的聚类算法;(2)基于联合特征表示学习的聚类算法;
2、结果:上述基于深度的多视图聚类算法虽然在高维和大规模数据集上表现出比传统聚类更好的处理能力,但是算法依赖于聚类网络的初始化和预训练。因此,如何设计更高效可用的深度聚类算法,以及如何提升大规模多视图数据的聚类效果,将是未来深度多视图聚类研究的重点;

七、多视图聚类研究的改进方向

1、多视图数据的低质性问题:多视图聚类算法通常要求数据是高质量的;
2、多视图数据的规模性问题:在信息时代,每天都会产生海量的数据,并且在许多的研究领域都涉及到多视图数据;
3、多视图数据的动态性问题:具有时序关系的多视图数据;
4、多视图聚类的多解性问题;

注:每个算法划分的更详细的算法介绍,以及算法演变,可以去阅读《多视图聚类研究进展与展望》这篇文章!!!

你可能感兴趣的:(多视图聚类,算法总结,深度学习,聚类,图搜索算法,深度学习)