网络数据挖掘 L6 聚类


title: 网络数据挖掘 L6 聚类
date: 2017-04-12 18:35:28
categories: DataMining
mathjax: true
tags: [WebDataMining]


L6 Clustering

特征:

  • 特征提取 feature Extraction
  • 特征向量
  • 特征空间

Metric 距离:

在使用欧氏距离的时候,二维是圆,三维是球..如此,用它来聚类的标准会倾向于圆/球等。
网络数据挖掘 L6 聚类_第1张图片
Paste_Image.png

因此当数据是
Paste_Image.png

聚类的结果并不好。

  • Euclidean space欧氏空间
    • Position: x,y
    • Similarity: =\sum_ix_iy_i
      • 内乘
    • distance: d(x,y)=|x-y|=\sqrt()=
      • Induced norm导出范数|x-y|
    • Similarity-Distance:d(x,y)^2==+-2

cluster 聚类

聚类是在无监督的情况下得到自然特征的方法。
本课介绍k-means 和 k-medians

k-means

算法:

  1. 假设要分为3类,随机在样本中选择3个点
  2. 每个样本计算到3个点的距离,把样本归类到最近的点所在的类
  3. 更新中心点:每个类的各个维度x_i,y_i,z_i...的平均值
  4. 重复2步骤、3步骤,直到中心点的变化小于某个阈值,结束算法

优点:

  • 简单好理解

  • 样本自动归类
    缺点:

  • 手动选择类别数

  • 所有的样本都会被强制分类

  • 个别异常点太远了会导致平均值偏离,中心点偏离

k-medians

因为k-means异常点的敏感性,提出该改进算法
算法:

  1. 假设要分为3类,随机在样本中选择3个点
  2. 每个样本计算到3个点的距离,把样本归类到最近的点所在的类
  3. 更新中心点:每个类的每个维度如x_i排序后的中位值,作为中心点该维度的坐标
  4. 重复2步骤、3步骤,直到中心点的变化小于某个阈值,结束算法

优点: 解决异常点问题
缺点:大数据时候排序耗时(解决:sampling 从样本中随机选择小数量的sample)

Appendix

推荐一篇把聚类用于图像颜色更换的论文:Palette-based Photo Recoloring

你可能感兴趣的:(网络数据挖掘 L6 聚类)