13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)

在前面的博客中介绍了监督学习和半监督学习,本篇博客将开始介绍无监督学习。


目录

  • 无监督学习介绍
    • 监督学习、半监督学习、无监督学习
    • 无监督学习的用处
  • 聚类(Clustering)
    • K均值聚类
    • Hierarchical Agglomerative Clustering (HAC)
  • 降维( Dimension Reduction)
    • Feature selection
    • Principle Component Analysis (PCA)
      • PCA介绍
      • W求解
      • PCA-decorrelation
      • PCA-NN
  • Matrix Factorization


无监督学习介绍

监督学习、半监督学习、无监督学习

  • 监督学习中的样本 {(xr,ŷ r)}Rr=1 { ( x r , y ^ r ) } r = 1 R 中的 ŷ  y ^ 是已知的,所以监督学习算法可以在训练集数据中充分使用数据的信息​​
  • 半监督学习的样本 {(xr,ŷ r)}Rr=1,{xu}R+Uu=R { ( x r , y ^ r ) } r = 1 R , { x u } u = R R + U 中只有R个样本的 ŷ  y ^ 是已知,U个样本的 ŷ  y ^ 未知,且通常U远大于R
    – Transductive learning :将未知标签的数据作为测试集数据(用了未知标签的数据的feature)
    – Inductive learning:未知标签的数据不作为测试集数据
  • 无监督学习的样本 {xr}Rr=1 { x r } r = 1 R 中的 ŷ  y ^ 都是未知的

无监督学习的用处

  • 聚类(Clustering) 和降维( Dimension Reduction)
  • Generation

聚类(Clustering)

K均值聚类

  • 将样本 X={x1,x2xN} X = { x 1 , x 2 … x N } 聚合成K个类
  • 初始化类中心 ci c i i=1,2,K i = 1 , 2 , … K
  • 重复
    – 利用 ci c i 将样本分为K各类
    – 利用分好的K个类中的样本重新算出每一个类的 ci c i

Hierarchical Agglomerative Clustering (HAC)

假设有5个样本,计算两两之间的相似度,将最相似的两个样本聚合在一起(比如第一个和第二个),再将剩下的4个聚合在一起,以此类推。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第1张图片

降维( Dimension Reduction)

Feature selection

直接按照特征的分布来选取有分布的特征。

Principle Component Analysis (PCA)

PCA介绍

现在举一个从二维数据降到一维的情况, w1x w 1 x 表示 x x w w 向量上的投影,我们希望找到 w w 使得样本投影在这一向量上的点的分布方差最大,如图,我们选择Large variance这一向量。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第2张图片

现在考虑高维的情况,此时同样的思路也是找到相互垂直的 w1,w2wK w 1 , w 2 … w K ,使得 z1,z2zK z 1 , z 2 … z K 分布方差最大。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第3张图片

W求解

接下来推导如何计算 w w ,先计算 w1 w 1

13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第4张图片
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第5张图片

接下来计算 w2 w 2 ,同样也是极大化 (w2)TSw2 ( w 2 ) T S w 2
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第6张图片

PCA-decorrelation

降维之后的 z z 之间彼此是互相垂直的( cov(z) c o v ( z ) 是一个对角矩阵),由此得出的结果再作为其他模型的输入,可以大大减少模型的参数。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第7张图片

PCA-NN

PCA可以看作是一个一层的神经网络,我们现在找到了 w1,w2wK w 1 , w 2 … w K ,图中 x̂  x ^ 表示误差,则可以表示为图中的神经网络(3维降为2维)。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第8张图片

直接用Gradient Descent训练出来的w和PCA中的不一样,因为PCA中的w一定是垂直的,Gradient Descent训练出来的w不一定

Matrix Factorization

现在假设有两种object,它们之间是受到共同的factor的影响,举个例子,现在假设有 A A B B C C D D E E 五个人,有 1、2、3和4四种手办,可以直观地看到购买手办1多的人倾向于购买更多的手办2 ,购买手办13多的人倾向于购买更多的手办4 ,因此二者之间存在这隐藏的关系(萌、呆),属性相同的人和手办相互match(推荐系统!!!),越match二者的latent factor内积越大(如 rAr15 r A r 1 ≈ 5 )。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第9张图片

现在考虑更复杂的情况,假设A所在的地区就没有发行手办3,那么此时应该用?表示,此时应如下图,利用梯度下降算法最小化 L L
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第10张图片

最终计算出 A A B B C C D D E E 五个人与1 、2、3和4四种手办的共同属性,并且可以由此计算出?值。
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第11张图片

现在考虑更精致的模型,考虑其他独立的因素对手办购买的影响,比如 rAr1+bA+b15 r A r 1 + b A + b 1 ≈ 5 (除了潜在因子 rA,r1 r A , r 1 还考虑了 A A 这个人购买手办的意愿 bA b A 与手办1吸引人购买的能力 b1 b 1 ),最小化新的 L L
13、【李宏毅机器学习(2017)】Unsupervised Learning: Linear Dimension Reduction(无监督学习:线性降维)_第12张图片

你可能感兴趣的:(学习笔记,李宏毅机器学习(2017),笔记)