第十三章半监督学习笔记

  1. 未标记样本
    很多时候我们有大量数据的数据集Du,但是只有少部分有标记记作Dl,如果仅用这一部分有数据的,数据量太小。我们可以用 Dl 先训练一个模型,拿这个模型去挑一个未标记样本,询问其标签,然后把这个新获得的有标记样本加入 Dl 中重新训练一个模型,再去挑 下一个,这样,若每次都挑出对改善模型性能帮助大的样本,则只需询问比较少的样本标签就能构建出比较强的模型,从而大幅降低标记成本。这样的学习方式称为"主动学习" ,其目标是使用尽量少的"查询" 即可获得尽量好的性能。
    显然,主动学习引入了额外的专家知识,通过与外界的交互来将部分未标记样本转变为有标记样本。若不与专家交互,没有获得额外信息,还能利用未标记样本来提高泛化性能吗?
    当然可以。未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建立模型将大有禅益。
    要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。最常见的是"聚类假设",即假设数据存在簇结构,同一个簇的样本属于同一个类别。另一种常见的假设是"流形假设" , 即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。
    半监督学习可进一步划分为纯半监督学习直推学习,前者假定训练数据中的未标记样本并非待预测的数据, 而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。

  2. 生成式方法
    通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于EM 算法进行极大似然估计求解。基于混合高斯模型,Dl UDu 的对数似然是
    第十三章半监督学习笔记_第1张图片
    由两项组成:基于有标记数据 Dl 的有监督项和基于未标记数据 Du 的无监督项。显然,高斯混合模型参数估计可用 EM 算法求解
    根据当前模型参数计算未标记样本Xj属于各高斯混合成分的概率
    在这里插入图片描述
    更新模型参数,其中 li 表示第i 类的有标记样本数目
    第十三章半监督学习笔记_第2张图片
    以上过程不断迭代直至收敛,即时获得模型参数。将上述过程中的高斯混合模型换成混合专家模型、朴素贝叶斯模型等即可推导出其他的生成式半监督学习方法。 遗憾的是,在现实任务中往往很难事先做出准确 的模型假设,除非拥有充分可靠的领域知识。

  3. 半监督SVM
    在不考虑未标记样本时,支 持向量机试图找到最大间隔划分超平面, 在考虑未标记样本后, S3VM 试图找到能将两类有标记样本分开穿过数据低密度区域的划分超平面, 如图
    第十三章半监督学习笔记_第3张图片
    TSVM 试图考虑对未标记样本进行各种可能的标记指派, 然后在所有这些结果中, 寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面。 一旦划分超平面得以确定,未标记样本的最终标记指派就是其预测结果。即优化目标为
    第十三章半监督学习笔记_第4张图片
    在这里插入图片描述
    显然,尝试未标记样本的各种标记指派是一个穷举过程,仅当未标记样本很少时才有可能直接求解。在一般情形下必须考虑更高效的优化策略。TSVM 采用局部搜索来迭代地寻找近似解。步骤如下:
    第十三章半监督学习笔记_第5张图片
    第十三章半监督学习笔记_第6张图片
    半监督 SVM 研究的一个重点是如何设计出高效的优化求解策略,由此发展出很多方法,如基于图核函数梯度下降的 LDS 、基于标记均值估计的 meanS3VM 等。

  4. 图半监督学习
    给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的强度正比于样本之间的相似度(或相关性)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    第十三章半监督学习笔记_第7张图片
    事实上,上述算法对应于正则化框架
    在这里插入图片描述
    μ为正则化参数。当在这里插入图片描述
    式(13.21)的最优解恰为上图算法的迭代收敛解 F*
    式(13.21)右边第二项是迫使学得结果在有标记样本上的预测与真实标记 尽可能相同,而第一项则迫使相近样本具有相似的标记,显然,它与式(13.12)都 是基于半监督学习的基本假设,不同的是式(13.21)考虑离散的类别标记,而 式(13.12)则是考虑输出连续值.
    第十三章半监督学习笔记_第8张图片
    但此类算法的缺陷也相当明显。首先是在存储开销上,若样本数为 O(m), 则算法中所涉及的矩阵规模为 O(m^2),这使得此类算法很难直接处理大规模数据;另一方面,由于构图过程仅能考虑训练样本集,难以判知新样本在图中的位置,因此,在接收到新样本时,或是将其加入原数据集对图进行重构并重新进行标记传播,需引入额外的预测机制。

  5. 基于分歧的方法
    基于分歧的方法使用多学习器,而学习器之间的分歧对未标记数据的利用至关重要。协同训练正是很好地利用了多视图的相容互补性假设数据拥有两个充分条件独立视图,"充分"是指每个视图都包含足以产生最优学习器的信息;"条件独立"则是指在给定类别标记条件下两个视图独立。首先在每个视图上基于有标记样本分别训练出一个分类器,然后让每个分类器分别去挑选自己"最有把握的"未标记样本赋予伪标记,并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新,直到两个分类器都不再发生变化,或达到预先设定的迭代轮数为止。
    若在每轮学习中都考察分类器在所有未标记样本上的分类置信度,会有很大的计算开销,因此在算法中使用了未标记样本缓冲池分类置信度的估计则因基学习算法而异,例如若使用朴素贝叶斯分类器,则可将后验概率转化为分类置信度;若使用支持向量机,则可将间隔大小转化为分类置信度。
    协同训练算法本身是为多视图数据而设计的,但此后出现了一些能在单视图数据上使用的变体算法,它们或是使用不同的学习算法,或使用不同的数据采样,甚至使用不同的参数设置产生不同的学习器,也能有效地利用未标记数据来提升性能。

  6. 半监督聚类
    聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类来利用监督信息以获得更好的聚类效果。
    聚类任务中获得的监督信息大致有两种类型。第一种类型是必连与勿连约束。第二种类型的监督信息则是少量的有标记样本
    第一种流程如下:
    第十三章半监督学习笔记_第9张图片
    第二种流程如下:
    第十三章半监督学习笔记_第10张图片

你可能感兴趣的:(机器学习)