聚类和降维

1.何为聚类

        聚类是用于寻找数据内在的分布结构。既可以作为一个单独的过程,如异常检测等;也可作为分类等其他学习任务的前驱过程。聚类是标准的无监督学习。

        在一些推荐系统中需要确定新用户的类型,但“用户类型”这个概念可能无法精确定义,此时往往会先对原有的用户数据进行聚类。然后根据聚类的结果将每个簇定义为一个类。然后在基于这些类别取进行相应的分类训练,以判断新用户的类型。

2.何为降维

        降维主要是为了缓解维数灾难的一个重要方法。

        主要是通过数学变换将原始的高维属性转变到一个低维的子空间。虽然人们平时观测到的数据基本都是高维的,但实际上真正与学习任务的分布相关的往往是低纬度的分布。所以,一般可以通过最主要的几个特征维度就可以实现对数据的描述。如kaggle上的泰坦尼克号生还问题。其主要是通过给定一个人的许多描述特征如年龄、姓名、性别和票价等来判断其是否能在海滩中生还。这就需要先进行特征筛选,从而找出主要的特征,让学校到的模型有更好地泛化性。

3.异同

        (1) 聚类和降维都可以作为分类等问题的预处理步骤。

        (2) 但他们虽然都可以实现对数据的约减,但二者使用情况不同。聚类针对的是数据点,而降维针对的是数据的特征。

        聚类常见的有k-means,层次聚类,基于密度的聚类等;降维中常见的有PCA、Isomap、LLE等。

 

        本文摘自“深度学习500问”。

你可能感兴趣的:(机器学习)