第十五课 奇异值分解

本讲大纲:

  1. 潜在语义索引(Latent Semantic Indexing)
  2. 奇异值分解(Singular value decomposition )
  3. 独立成分分析(Independent Component Analysis)

逻辑关系
LSI潜在语意索引是PCA主成分分析的一个应用,而SVD奇异值分解是LSI(PCA)的一个实现。
ICA独立成分分析是务监督学习的一种。

1. 隐含语意索引 LSI

参考:http://blog.csdn.net/u011450885/article/details/46500901
是自然语言处理的一项技术,在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。
分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角的余弦等同于向量的内积。从理论上讲,这种算法非常好。但是计算时间特别长。
主成分分析中隐含语音索引的意思就是,通过降维的手段,将意义相同的词映射到低维空间中的同一个维度上去。

2. 奇异值分解 SVD

如果用一个矩阵来表示一百万篇文章和五十万词的关联性,每一行对应一篇文章,每一列对应一个词:


第十五课 奇异值分解_第1张图片

这个矩阵的元素个数非常巨大。行数M=1,000,000,列数N=500,000。

奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。这三个矩阵的元素总数远远小于上面的大矩阵A。以此来降低存储量和计算量。


第十五课 奇异值分解_第2张图片

三个矩阵有非常清楚的物理含义。

  • 第一个矩阵X中的每一列表示一类主题,其中的每个非零元素表示一个主题与一篇文章的相关性,数值越大越相关。
  • 最后一个矩阵Y中的每一列表示100个关键词,每个key word与500,000个词的相关性。
  • 中间的矩阵则表示文章主题和keyword之间的相关性。是对角矩阵。
  • 总结来说就是从直接求文章和单词的关联性,转化为求文章<->主题,主题<->关键词,关键词<->单词的相关性。
    因此,我们只要对关联矩阵A进行一次奇异值分解,w 我们就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。

应用:个性化推荐、文本及web挖掘、降噪

扩展:奇异值分解的几何意义
参考,推荐:http://blog.chinaunix.net/uid-20761674-id-4040274.html
矩阵线性变换的几何解释,很清楚:http://blog.sciencenet.cn/home.php?mod=space&uid=696950&do=blog&quickforward=1&id=699380


3. 独立成分分析 ICA

3.1 基本概念



首先区分两个概念:

  • 线性非相关,指协方差为0。描述两个变量整体的数值表现,它们在整体上没有出现数值一起改变迹象。但是未必两个变量之间没有相互影响。
  • 相互独立描述更加本质,它要求两个变量时时刻刻都的确不会相互影响,等价于f(x,y)=g(x)h(y)。

与PCA主成分分析的区别

首先相同点是目的都是找到一个方向,即一个n维向量w,使得线性组合wTx的某种特征最大化。

  • 主成分分析假设源信号间彼此非相关,独立成分分析假设源信号间彼此独立。
  • 主成分分析认为主元之间彼此正交,样本呈高斯分布;独立成分分析则要求样本不呈高斯分布。

理解:经典鸡尾酒会问题


第十五课 奇异值分解_第3张图片

其中s代表人,x代表话筒,A是距离。x已知,s和A未知,需要推出s。


第十五课 奇异值分解_第4张图片


3.2 ICA的算法

参考:http://blog.csdn.net/u012409883/article/details/17091383

  • 1、预处理部分:
    (1)对X零均值处理
    (2)球化分解(白化)
    即:乘球化矩阵S,使Z=SX各行正交归一,即ZZ’=I意义:消除原始各道数据间二阶相关,以后只需要考虑高阶矩量(因为独立时各阶互累积量为0),使很多运算过程简化。

  • 2、核心算法部分:
    寻求解混矩阵U,使Y=UZ,Y各道数据尽可能独立(独立判据函数G)。
    注意:
    (1)、由于Y独立,各行必正交。且通常取U保持Y各行方差为1,故U是正交变换。
    (2)、所有算法预处理部分相同,以后我们都设输入的为球化数据z,寻找正交矩阵U,使Y=Uz独立。由于独立判据函数G的不同,以及步骤不同,有不同的独立分量分析法。

  • 3、Fast ICA算法思路:属于探查性投影追踪 ICA
    目的:输入球化数据z,经过正交阵U处理,输出Y=Uz
    (1)输入球化数据z,经过正交阵某一行向量ui处理(投影),提取出某一独立分量yi.
    (2)将此分量除去,按次序依次提取下去,得到所有的yi ,以及ui。得到独立的基向量U
    U=WX

你可能感兴趣的:(第十五课 奇异值分解)