【论文笔记】《一种改进的多视图聚类集成算法》

论文作者:邓强,杨燕,王浩

论文类型:应用型论文

论文地址:http://www.cnki.com.cn/Article/CJFDTotal-JSJA201701013.htm

论文时间:2017年

论文内容:

  1. 基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。
  2. 结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。

1 引言

在多视图聚类中,聚类数据由多个视图构成,具有一致性和互补性的特点,所有视图共享同一标签信息。

多视图聚类就是要找到一个满足所有视图的最优划分。

聚类结果容易受到聚类参数和数据样本的影响→聚类集成。

Spark并行化提高聚类效率。

2 基本原理

2.1 多视图 K-means聚类

输入:多视图数据集,视图权重向量

聚类目标函数(在一般的目标函数中结合了[多维]和[视图权重]),使每个视图点间距平方和最小:

【论文笔记】《一种改进的多视图聚类集成算法》_第1张图片

设多视图数据集 X=[x1, x2,…,xm ]∈Rdv×n ,1≤v≤m,表示数据集的样本数为n,视图个数为 m,每个视图的维度是dv。k等于聚类簇的个数

μji=1表示样本j属于簇i, xj(v)表示在视图v 下的样本j, ci(v) 表示在视图v下的第i个簇的聚类中心。

2.2 聚类集成

对数据进行r次聚类,得到一组聚类划分 P={π1,π2,…,πr},πi表示第i个聚类划分。则聚类集成可表示为如下形式: P={π1,π2,…,πr}→π*。

以聚类划分P作为输入,然后输出新的相似度矩阵CTS,提高集成算法准确性

3 多视图聚类集成

【论文笔记】《一种改进的多视图聚类集成算法》_第2张图片

【论文笔记】《一种改进的多视图聚类集成算法》_第3张图片

 

4 分布式多视图聚类集成算法

4.1 分布式多视图 K-means算法(DMKC)

【论文笔记】《一种改进的多视图聚类集成算法》_第4张图片

【论文笔记】《一种改进的多视图聚类集成算法》_第5张图片

4.2 分布式多视图聚类集成算法 (DMKCE)

【论文笔记】《一种改进的多视图聚类集成算法》_第6张图片

5 实验

5.1 多视图聚类集成算法对比实验

实验对比算法采用了经典聚类算法、多视图聚类算法以及多视图聚类集成算法

5.2 分布式算法性能实验

数据:不同规模大小的数据样本 

分析:执行时间、 加速比(数据不变增加计算节点)、数据伸缩率(计算节点不变增加数据)

 

 

 

你可能感兴趣的:(人工智能)