参考:半监督学习理论及其研究进展概述。
根据发展历程,半监督学习可分为三个阶段:
早期的半监督学习是初步探索无标记样本在传统监督学习模型中的价值[1],学习算法多事对传统算法进行改进,通过在监督学习中加入无标记样本来实现,这类算法有最大似然分类器、贝叶斯分类器、多层感知器、支持向量机等。其中有较大影响力的有半监督支持向量机 (Semi-supervised SVM, S3VM ) 和 协同训练 (Co-training)。
S3VM 的目标函数是在传统的支持向量机目标函数基础上, 增加了一个包含无标记样本的约束项来惩罚分类超平面穿过样本密集区域的情况。
原始的求解难度大,不实用,后来Joachims提出了基于标记切换的组合优化算法,使算法具有了实用意义。然后出现的算法:半正定规划算法,凹凸过程,延续法,梯度下降,确定性退火。
协同训练在自然语言处理中有着重要的应用。
[1] Classification rules in the unknown mixture parameter case: relative value of labeled and unlabeled samples, 1994.
这个时期的半监督学习主要包括混合模型,伪标记或自训练,图论半监督学习,流形半监督学习等。
最优模型:图论半监督学习
图论半监督学习需要首先构建一个图,图的节点集就是所有样本集( 包括标记样本和无标记 样 本),图的边是样本两两间的相似性( 通常使用高斯核函数作为相似性度量), 然后把分类问题看作是类别信息在图上由标记节点向无标记节点的扩散或传播过程。
驱动力:深度学习对海量标记样本的需求
论文[2]尝试把图论半监督学习中的拉普拉斯正则项引入到神经网络的目标函数中,对多层神经网络进行半监督训练。
已有半监督深度学习算法分类:无监督特征学习类, 正则化约束类和生成式对抗网络类。
[2] Deep learning via semi-supervised embedding, 2012
无监督特征学习类算法通常利用所有样本( 包含标记样本和无标记样本) 学习出样本的隐特征或隐含 变量表示,在此基础上利用有监督分类器对无标记样本所对应的隐特征进行分类, 从而间接地对无标记样本进行分类。
文献[3]中采用叠加的生成模型来学习标记样本和无标记样本的隐变量并使用SVM对学习的隐变量进行分类。
随后文献[4]中又对该算法进行了拓展,采用LSTM(Long Short-Term Memory)进行区域大小可变的文本特征学习。
文献[5]中把自编码器(Auto-En-coder)的编码层和解码层之间加入短路连接,然后使用分类器对自编码器学习的特征进行分类。
文献 [6]中把自编码器按顺序拼接在一起,通过最小化这些自编码器的重构误差可以学习出序列数据的隐特征。
[3] Advances in Neural Information Processing System,2014,KINGMA D P
[4] International Conference on Mach Learning,2016
[5] Advances in Neural Information Processing System,2015, RASMUS A
[6] Advances in Neural Information Processing System,2015, DAI A M
正则化约束类算法通常是在有监督神经网络的输出层或者隐含层的目标函数中加入体现样本分布特性的正则化项, 用以在训练中引入无标记样本。
文献[64]中把图的拉普拉斯正则化项分别加入到网络输出层的目标函数和中间隐含层的目标函数中,用来做半监督的分类和特征学习。
文献[72]中定义一组标准的随机变换操作,然后定义网络目标函数包括两个部分:监督学习损失函数为标记样本多次随机变换后的预测差异,正则化项为无标记样本多次通过网络预测的结果差异,最后通过反向梯度传播来最小化目标函数进行半监督深度学习。
文献[75]中采用分类指示向量互斥原则对网络进行正则化,即所有样本通过网络后输出的类别向量中只有一个为非0,这就迫使网络在训练时对无标记样本的分布进行学习并给出确定的类别。
[7] Deep learning via semi-supervised embedding, 2012
[8] Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning,2016
[9] Mutual exclusivity loss for semi-supervised deep learning,2016
生成式对抗网络通过让生成器和判决器相互竞争达到平衡状态来无监督地训练网络。
文献[89]中证明了在半监督学习情况下,一个差的生成器能够更有利于判决器进行半监督地学习,并以此为基础对GAN做了修改,通过最小化生成器真假样本分布的KL散度和最大化判决器的条件熵来交替训练网络,效果改进明显。
[10] Good semi-supervised learning that requires a bad gan。 2017