伪标签技术

前言

该方法主要应用于半监督问题,是一种通过有监督样本训练得到的模型,来对无标签数据进行利用的方式。

思路

1.使用思路:

(1)使用有标签数据A训练一个有监督模型。

(2)利用该模型对无标签数据进行预测,得到预测概率值。

(3)基于无标签样本概率值 按照一定阀值进行 真值样本抽取,生成新的有标签数据B。

(4)基于A和B重新训练模型C,并使用测试集验证模型小效果。

tips:可以发现,该方法主要适用于分类任务,因为我们需要根据一定概率置信值进行样本的筛选。

以上的步骤,可以对应如下的图:

 

2.该方法的有效性可以从两个角度说明:

(1) 从数据分布上进行思考,原始的有标签数据较少,所以存在样本分布有偏,不全面的问题,而无标签样本中存在大量的、完善的数据样本分布情况,所以当我们用偏分布数据训练的模型 对无标签数据做预测时,可以在一些共有特征分布上提取一些高置信样本,从而拿到了一些标签样本,进行样本合并后可以起到一定对 数据分布情况补充的效果,提升模型的分布学习能力。

当然,因为是依靠 有标签样本训练的模型为无标签样本打标签,所以有标签样本最好是分布无偏的数据,能够在问题样本空间中均匀分布,这样的样本能有更好的聚类效果,不然较有偏的数据所聚类打标的数据依然是有偏的。

(2)另一方面,在论文《Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks》中做说明,作者提出了 聚类假设和熵正则化两个方面说明了该方法的有效性。也就是从高维聚类角度判别样本有效性,拿有效样本来补充原样本的数据多样性。

Low-Density Separation between Classes

“The goal of semi-supervised learning is to improve generalization performance using unlabeled data. The cluster assumption states that the decision boundary should lie in low-density regions to improve generalization performance (Chapelle et al., 2005). Recently proposed methods of training neural networks using manifold learning such as Semi-Supervised Embedding and Manifold Tangent Classifier utilize this assumption. Semi-Supervised Embedding (Weston et al., 2008) uses embedding-based regularizer to improve the generalization performance of deep neural networks. Because neighbors of a data sample have similar activations with the sample by embedding based penalty term, it’s more likely that data samples in a high-density region have the same label. Manifold Tangent Classifier (Rifai et al., 2011b) encourages the network output to be insensitive to variations in the directions of low-dimensional manifold. So the same purpose is achieved.”

Entropy Regularization

“Entropy Regularization (Grandvalet et al., 2006) is a means to benefit from unlabeled data in the framework of maximum a posteriori estimation. This scheme favors low density separation between classes without any modeling of the density by minimizing the conditional entropy of class probabilities for unlabeled data.”

实践经验

曾经在两个竞赛中使用过该方法:

(1)一个银行竞赛中,使用该思路设计了一种迭代半监督的方式,这里因为一方面因为需要使用阈值的问题,另一方面因为数据量较小的问题,设计了一种迭代设定阈值、并按照该阈值生成新标签,合并标签训练验证模型的方式,但是最终因为线上集的数据分布问题,该方法效果并不好。

(2)另一个百度赛中,因为数据量过大,直接设定了0.95的阈值,竞赛数据上,该方法在有不错的提分效果。

 

你可能感兴趣的:(机器学习算法)