作者:朱信忠
论文类型:算法研究 博士论文
论文页面:http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=1019000270.nh&dbcode=CDFD&dbname=CDFDTEMP
论文时间:2017年
将每个核矩阵视为一个视图,主要工作集中于设计有效的多视图聚类算法以提高聚类性能。四个方面:
多视图聚类算法按照视图的组合方式可以分为两大类:特征级融合,决策级融合。
目前已有研究的问题:
本论文的研究目标是(对应上面的问题)(对应第二-五章内容):
【核聚类】是什么:核聚类简单描述(拓展)
核聚类步骤:(k-means举例)核k-means首先通过特征图谱映数据到高维空间,然后在新的空间中进行k-means聚类。
现有的多核聚类算法的问题:(1) 通过低秩优化学习一个一致矩阵;(2) 另一种方式则通过使用多核学习框架优化一组核系数以组合不同的核(本文是第二种)
为了减少冗余,增强被选中核的多样性,需要一个正则化项以描述每一对核的相关性。
评价指标:聚类准确度 (ACC) 和归一化互信息 (NMI)
多视图聚类利用一簇预先指定的核来学习最优核,进而改善聚类性。这些算法大致可以被分为:(1)算法利用低秩优化构建一致矩阵;(2)假设最优核是基核的线性组合,通过优化基核的组合系数来最小化聚类指标(本文是第二种)
方法&优点:将最优邻居核学习与现有的多核K-均值聚类(MKKM)算法结合来提高最优核的表示能力,并更好地平衡核学习过程与聚类过程。算法内容:在Kγ的邻居中寻找最优核G,然后用它来聚类。
聚类矩阵明确地被用来学习最优核,反过来,它又被用来聚类。这两个学习过程被无缝耦合同时相互协作来取得最好的聚类效果。
算法和现有大多数MKKM算法最大的不同在于最优核的形式。现有MKKM 算法采用的假设是最优核是基核的线性组合。此算法只要求最优核在基核组合的附近就行。
评价指标:精度、互信息和纯度
现有算法的假设/缺点:多核聚类算法并没有考虑到基核之间的相关性,所有基核都是完整的,也就是说每个基核的行和列都没有缺失。
一个直接的补救措施就是先用一种填补算法来填补缺失核,然后利用一种标准的聚类算法进行聚类。其缺点:它们分开了填充和聚类这两个过程,这抑制了两个过程之间的相互协调从而达到最优的聚类结果。
算法内容:每一轮迭代的聚类结果将指引缺失核元素的填补,这将用于后续进一步的聚类,这两个流程交替进行直至收敛。优点:这样填补和聚类过程可以无缝连接,从而达到最佳的聚类效果。
优点:(1)有效解决了多核聚类中出现的行列缺失的问题;(2)相比同类算法,取得了更好的实验结果,特别是存在大量缺失的情况时;(3)通过考虑聚类目标,能够更好地恢复缺失的基核。
评价指标:聚类精度(ACC)、归一化互信息(NMI)
将缺失填充和聚类整合到单一的优化过程的缺点:(1)强制性地迫使更近和更远的样本对与相同的理想相似度相等,并且不适当地忽略同一类别中样本的变化; 和 (2)没有充分考虑到多核矩阵之间的相关性,这可能导致所选择的内核存在高冗余度和低样性。这两个因素使得这些预定义的核矩阵没有得到有效的利用,反过来又不利地影响聚类表现(P.S.按这个说法那第四章也有这些缺点?没有提到说是第四章的改进)
算法:基于矩阵引导的正则化(LI-MKKM-MR)的局部缺失多视图k-means算法。
其优点:仅要求样本与其k个最近的邻居的相似性与理想的相似性矩阵对齐。引入矩阵引导的正则化能够减少多核的冗余并增强所选择的核的多样性,使多核能够更好地用于聚类。
算法的改进:(1)遵循,引入矩阵引导的正则化项来减少冗余并强制所选基核的多样性,在正则化项中采用 Mpq = Tr(KpKq) 来度量 Kp 和 Kq 之间的相关性,充分利用更多的基核矩阵, 这是提高聚类性能(2)使用代替Mpq, Kp(0)是Kp的初始填充,满足了我们对核系数的要求, 减少冗余和提高多样性。
评价指标:聚类精准度 (ACC)、归一化互信息(NMI) 和纯度
略
P.S.这篇有的算法不太看得懂,回头多视图聚类算法看多了再来看看。