特征选择、数据降维与聚类的区别与联系

        对于许多机器学习的初学者,可能对以上的概念没有特别清楚的区别,但是三者的区别还是很大的。

        特征选择和数据降维的目的都是使得数据的特征数目(属性值/维数)减小,但是二者却有着本质的不同。

        特征选择是指在特征值不变的情况下,从原特征集中选取部分具有代表性的特征(删除冗余和不相关的特征)组成新的特征集合,没有改变原特征空间,但是维数也会相应减少。

        数据降维改变特征值,是从一个高维空间映射到另一个较低维空间,特征数目不变。

        聚类是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即类内足够近,类间足够远。聚类属于无监督学习,不需要先验知识进行数据训练。

        常见的特征选择算法有:Pearson相关系数、正则化、随机森林等。

        常见的降维算法有:主成分分析PCA、多维缩放MDS、线性判别分析LDA、等度量映射Isomap、局部线性嵌入LLE、t-SNE等。

        常见的聚类算法有:K-means(K均值算法)、BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies,基于层次)、DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度)、STING(STatistical INformation Grid,基于网格)、SOM(Self Organized Maps,基于模型)、FCM(模糊C均值,基于模糊)等。

你可能感兴趣的:(聚类,算法,机器学习)