MLlib-聚类

 

  • 聚类
    • 例子
  • 流聚类
    • 例子

 

聚类

 

MLlib支持k-means聚类,一种最常用的聚类方法,将数据点聚成指定数据的簇。MLlib实现了一种k-means++的并行变种,叫做kmeansII。MLlib的实现包括以下参数:

  • k  设定的聚类数目
  • maxIterations   最大循环册数
  • initializationMode  随机初始化或使用k-meansII初始化
  • runs  k-means算法运行册数(k-means不能保证找到全局最优,如果在给定的数据集上运行多次,返回最好的结果)
  • initializationSteps  k-meansII算法的步骤数
  • epsilon  k-means的收敛阈值

 

流聚类

 当数据作为流到达时,簇应该被动态估计。MLlib提供了支持流的k-means聚类,使用参数控制估计延迟(或忽略)。算法使用小批量k-means更新规则,针对每一批数据,将他们分配给离他们最近的簇,计算新的簇中心, 然后用

\( c_{t+1}=\frac{c_t n_t \alpha + x_t m_t}{n_t \alpha + m_t} \)

\( n_{t+1} = n_t + m_t \)

更新每个簇。

你可能感兴趣的:(lib)