吴恩达机器学习-Chapter 14 无监督学习

目的:无监督学习 聚类算法

1. Lesson 108 无监督学习

    1. 目的:介绍无监督学习,无标签y,只有特征变量X
    2. 应用场景:市场划分、社交网络人群聚类、服务器集群划分

2. Lesson 109 K-Means 算法

    1. 目的:介绍K-Means定义及原理
    2. K-Means是迭代算法,它做2件事 1)簇分类 2)移动聚类中心
    3. 步骤:
      1. 随机找2个聚类中心,分别叫:μ_a、μ_b(分为2类)
      2. 遍历样本数据中每个点分别与μ_a、μ_b的距离,距离近的便分配到哪个簇中(即:离μ_a近的样本便算到a簇中,否则算到b簇中)
      3. 移动聚类中心,将μ_a移动到a簇中所有样本的均值处,μ_b移动到b簇中所有样本的均值处(相当于重新得到了2个聚类中心)
      4. 重复上面2,3的过程,直到μ_a、μ_b两个聚类中心的值不再变化

      5. 算法:
吴恩达机器学习-Chapter 14 无监督学习_第1张图片
K-Means算法.png

    6. 几种距离算法
      1. 欧氏距离(Euclidean Distance)
         1. 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:
二维平面欧式距离.png

        2. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量)
n维空间欧式距离.png

      2. 曼哈顿距离(Manhattan Distance)
        1. 顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

        2. 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离:
二维平面曼哈顿距离.png

        3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:
n维空间曼哈顿距离.png

      3. 切比雪夫距离 (Chebyshev Distance)
        1. 国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。
        2. 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离
二维平面切比雪夫距离.png

        3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离:
n维空间切比雪夫距离.png

      5. 标准化欧氏距离 (Standardized Euclidean Distance)
        1. 定义: 标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,X的“标准化变量”表示为:
标准化变量.png

        2. 标准化欧氏距离公式:
标准化欧氏距离.png

5. Lesson 110 优化目标

      1. 目的:K-Means算法最小代价函数(优化目标),该函数2个目的,1)调试算法效果;2)找到最好的簇,避免局部最优解

      2. 代价函数:所有样本点到其所在的簇中心的距离平方和最小
吴恩达机器学习-Chapter 14 无监督学习_第2张图片
image.png

6. Lesson 111 随机初始化

      1. 目的:初始化聚类中心的方法
  2. 在样本数据中随机选择K个点即可(K要小于样本数量m)
      3. 如果担心出现局部最优解,可以进行多次随机初始化,并计算出每次随机初始化的代价函数,取最小值的即可
      4. 如果分类数量K在2-10之间,经过多次随机初始化,效果会比较好,如果K值较大(成百上千),此方法效果不佳

7. Lesson 112 选取聚类数量

    1. 目的:选取聚类数量K的值(无自动化方法)

    2. 肘部法则(效果不一定好)
吴恩达机器学习-Chapter 14 无监督学习_第3张图片
肘部法则.png

    3. 根据业务场景和需求来定K值

你可能感兴趣的:(吴恩达机器学习-Chapter 14 无监督学习)