聚类发展历史、现状、未来趋势

1、发展历史
聚类算法的历史与有监督学习一样悠久。层次聚类算法出现于1963年[26],这是非常符合人的直观思维的算法,现在还在使用。它的一些实现方式,包括SLINK[27],CLINK[28]则诞生于1970年代。

k均值算法[25]可谓所有聚类算法中知名度最高的,其历史可以追溯到1967年,此后出现了大量的改进算法,也有大量成功的应用,是所有聚类算法中变种和改进型最多的。

大名鼎鼎的EM算法[29]诞生于1977年,它不光被用于聚类问题,还被用于求解机器学习中带有缺数数据的各种极大似然估计问题。

Mean Shift算法[32]早在1995年就被用于聚类问题,和DBSCAN算法[30],OPTICS算法[31]一样,同属于基于密度的聚类算法。

谱聚类算法[33]是聚类算法家族中年轻的小伙伴,诞生于2000年左右,它将聚类问题转化为图切割问题,这一思想提出之后,出现了大量的改进算法。
聚类发展历史、现状、未来趋势_第1张图片
2、现状
聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类,该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架,并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难,指出模糊技术在处理大数据上的有效性,研究抽样和增量在大数据上运行C-mean的作用。
参考

你可能感兴趣的:(机器学习)