【机器学习算法-聚类算法】

机器学习算法-聚类算法

  • 1.聚类算法
  • 2.模型评估
  • 3.特征降维

1.聚类算法

聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。
API:
sklearn.cluster.KMeans(n_clusters=8)

k-means聚类步骤:
随机设置k个特征空间内的点作为初始的聚类中心。
对于其他每个点计算到k个中心的距离,未知的点选择最近的一个聚类中心作为标记类别。
接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程。

优点:原理简单实现容易、聚类效果中上、空间和时间复杂度良好
缺点:对离群和噪声敏感(中心点易偏移)、很难发现大小差别很大的簇及进行增量计算、结果不一定是全局最优只能保证局部最优(与K的个数及初值选取有关)

2.模型评估

1.误差平方和(SSE)
2.肘部法:下降率突然变缓,即认为是最佳的k值。

3.特征降维

两种方式:特征选择和主成分分析(可以理解一种特征提取的方式)

PCA:将数据分解为较低维数空间。
sklearn.decomposition.PCA(n_components=None)

你可能感兴趣的:(机器学习算法,聚类,机器学习,算法)