电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析

  • 论文
  • 介绍
  • 单词向量空间
  • 话题向量空间
    • 话题向量空间
    • 文本在话题向量空间的表示
    • 从单词向量空间到话题向量空间的线性变换
  • 潜在语义分析算法
    • 矩阵奇异值分解算法
      • 步骤
        • 1. 单词-文本矩阵
        • 2. 截断奇异值分解
        • 3. 话题向量空间
        • 4. 文本的话题空间表示
      • 例子
    • 非负矩阵分解算法
      • 非负矩阵分解
      • 潜在语义分析模型
      • 非负矩阵分解的形式化
      • 算法
        • 步骤
  • 本章概要
  • 相关视频
  • 相关的笔记
  • 相关代码

论文

潜在语义分析:《Indexing by latent semantic analysis》
非负矩阵分解算法:《Learning parts of objects by non-negative matrix factorization》、《Algorithms for non-negative matrix factorization》

介绍

电信保温杯笔记——《统计学习方法(第二版)——李航》
本文是对原书的精读,会有大量原书的截图,同时对书上不详尽的地方进行细致解读与改写。

潜在语义分析(latent semantic analysis,LSA)是一种无监督学习方法,也被称为潜在语义索引(latent semantic indexing,LSI),主要用于文本的话题分析。传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行分解,从而得到话题向量空间,以及文本在话题向量空间的表示。

单词向量空间在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。为了解决这个问题,提出了话题向量空间。

单词向量空间

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第1张图片

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第2张图片

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第3张图片

优点:单词向量空间模型的优点是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
缺点:在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第4张图片

话题向量空间

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第5张图片

话题向量空间

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第6张图片

文本在话题向量空间的表示

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第7张图片

从单词向量空间到话题向量空间的线性变换

潜在语义分析算法

矩阵奇异值分解算法

在这里插入图片描述

步骤

1. 单词-文本矩阵

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第8张图片

2. 截断奇异值分解

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第9张图片

3. 话题向量空间

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第10张图片

4. 文本的话题空间表示

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第11张图片

例子

非负矩阵分解算法

在这里插入图片描述

非负矩阵分解

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第12张图片

潜在语义分析模型

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第13张图片

非负矩阵分解的形式化

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第14张图片

算法

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第15张图片

∂ J ( W , H ) ∂ W i l = ∂ ( 1 2 ∑ p ∑ j [ X p j − ∑ k W p k H k j ] 2 ) ∂ W i l = 1 2 ∂ ( ∑ p ≠ i ∑ j [ X p j − ∑ k W p k H k j ] 2 + ∑ j [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = 1 2 ∂ ( ∑ j [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = 1 2 ∑ j ∂ ( [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = ∑ j ( [ X i j − ∑ k W i k H k j ] ) ∂ ( [ X i j − ∑ k W i k H k j ] ) ∂ W i l = ∑ j ( [ X i j − ( W H ) i j ] ) ∂ ( [ X i j − ∑ k W i k H k j ] ) ∂ W i l = − ∑ j ( [ X i j − ( W H ) i j ] ) ∂ ( ∑ k W i k H k j ] ) ∂ W i l = − ∑ j ( [ X i j − ( W H ) i j ] ) H l j = − ∑ j ( [ X i j − ( W H ) i j ] ) H j l T = − ( ∑ j X i j H j l T − ∑ j ( W H ) i j H j l T ) = − [ ( X H T ) j l − ( W H H T ) i j ] ( 17.28 ) \begin{aligned} \frac{\partial J(W,H)}{\partial W_{il}} &= \frac{ \partial \left( \frac{1}{2} \sum_{p}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{p\neq i}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 + \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \sum_{j} \frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{lj} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{jl}^T \\ &= - \left( \sum_{j}X_{ij}H_{jl}^T - \sum_{j}(WH)_{ij}H_{jl}^T \right) \\ &= - \left[ (XH^T)_{jl} - (WHH^T)_{ij} \right] \quad\quad\quad\quad\quad\quad (17.28) \end{aligned} WilJ(W,H)=Wil(21pj[XpjkWpkHkj]2)=21Wil(p=ij[XpjkWpkHkj]2+j[XijkWikHkj]2)=21Wil(j[XijkWikHkj]2)=21jWil([XijkWikHkj]2)=j([XijkWikHkj])Wil([XijkWikHkj])=j([Xij(WH)ij])Wil([XijkWikHkj])=j([Xij(WH)ij])Wil(kWikHkj])=j([Xij(WH)ij])Hlj=j([Xij(WH)ij])HjlT=(jXijHjlTj(WH)ijHjlT)=[(XHT)jl(WHHT)ij](17.28)

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第16张图片

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第17张图片

步骤

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第18张图片

本章概要

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第19张图片

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第20张图片

电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析_第21张图片

相关视频

李航统计学习之潜在语义分析LSA

相关的笔记

hktxt /Learn-Statistical-Learning-Method

相关代码

Dod-o /Statistical-Learning-Method_Code

你可能感兴趣的:(机器学习,学习,算法,python)