无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计。无监督学习可以用于数据分析或者监督学习的前处理。
无标注数据 U = { x 1 , x 2 , . . . , x N } U=\{x_1,x_2,...,x_N\} U={x1,x2,...,xN}
模型
①函数 z = g θ ( x ) z=g_\theta(x) z=gθ(x)
②条件概率分布 P θ ( z ∣ x ) P_\theta(z|x) Pθ(z∣x)
③条件概率分布 P θ ( x ∣ z ) P_\theta(x|z) Pθ(x∣z)
X = [ x 11 ⋯ x 1 N ⋮ ⋮ x M 1 ⋯ x M N ] X= \left[ \begin{matrix} x_{11} & \cdots & x_{1N} \\ \vdots & & \vdots \\ x_{M1} & \cdots &x_{MN} \end{matrix} \right] X=⎣⎢⎡x11⋮xM1⋯⋯x1N⋮xMN⎦⎥⎤
每一行对应一个特征,每一列对应一个样本。
无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压缩”,从而找到数据的潜在结构。假定损失最小的压缩得到的结果就是最本质的结构。
①发掘数据的纵向结构,把相似的样本聚到同类;
②发掘数据的横向结构,把高维空间的向量转换为低维空间的向量;
③同时发掘数据的纵向与横向结构,假设数据由含有隐式结构的概率模型生成得到,从数据中学习该概率模型。
1、聚类(clustering)
硬聚类(hard clustering):一个样本只能属于一个类;
软聚类(sort clustering):一个样本可以属于多个类。
函数是硬聚类模型,条件概率分布是软聚类模型。
例外:co-clustering是聚类算法,对样本和特征都进行聚类,同时发现数据中的纵向横向结构。
2、降维(dimensionality reduction)
流形(mainfold)
降维可以帮助发现数据中的隐藏的横向结构。
3、概率模型估计(probability model estimation)
概率模型包括混合模型、概率图模型等。
概率图模型包括有向图模型和无向图模型。
概率模型表示为条件概率分布 P θ ( x ∣ z ) P_\theta(x|z) Pθ(x∣z),z表示隐式结构。模型是混合模型时,z表示成分的个数;模型是概率图模型时,z表示图的结构。
特殊情况:z不存在,即 P θ ( x ∣ z ) = P θ ( x ) P_\theta(x|z)=P_\theta(x) Pθ(x∣z)=Pθ(x)。
软聚类也可以看作是概率模型估计问题,自行根据贝叶斯公式理解。
1、模型
模型
①函数 z = g θ ( x ) z=g_\theta(x) z=gθ(x)
②条件概率分布 P θ ( z ∣ x ) P_\theta(z|x) Pθ(z∣x)
③条件概率分布 P θ ( x ∣ z ) P_\theta(x|z) Pθ(x∣z)
2、策略
目标函数的优化:
①聚类:样本与所属类别中心距离的最小化;
②降维:样本从高维空间转换到低维空间过程中信息损失的最小化;
③概率模型估计:模型生成数据概率的最大化。
3、算法
通常是迭代算法,通过迭代达到目标函数的最优化。
1、聚类
第十四章讲述聚类方法,包括层次聚类和k均值聚类。
2、降维
第十六章介绍降维方法的主成分分析,第十五章介绍基础的奇异值分解。
3、话题分析
话题分析是文本分析的一种技术。给定一个文本集合,话题分析旨在发现文本集合中每个文本的话题,而话题由单词的集合表示。
第十七章介绍潜在语义分析;
第十八章介绍概率潜在语义分析;
第十九章介绍基础的马尔科夫链蒙特卡罗法;
第二十章介绍潜在狄利克雷分配。
4、图分析(graph analysis)
链接分析(link analysis)是图分析的一种,包括PageRank算法,主要是发现有向图中的重要结点。第二十一章介绍PageRank算法。