转导学习 transductive learning

转导推理(也称为直推式学习(Transductive Learning)

区别于归纳推理(Inductive Inference)从特殊到一般,再从一般到特殊的学习方式,转导推理(Tranductive Inference)是一种从特殊到特殊的统计学习(或分类)方法。在预测样本的类别时,转导推理试图通过局部的标注训练样本进行判断,这与归纳推理先从训练样本中归纳得到一般模型有着很大差异。特别是当训练样本的数量不足以归纳得到全局一般模型时,转导推理能够利用未标注样本补充标注样本的不足。然而转导推理还有很多问题亟待解决,例如KNN每次预测都要遍历所有测试样本,TSVM的精确解如何更好地近似等。

直推式学习则是将带有标签的训练集和不带标签的测试集都输入到网络进行训练,然后再预测这部分测试集的结果(一个形象的例子就是在布置课后作业时,把考试原题给你了,但不给你答案)

浅谈归纳学习和转导学习

归纳

归纳是从观察到的训练实例一般规则的推理,然后将其应用于测试实例。

归纳学习与我们通常所知的传统监督机器学习是一样的。我们基于已有标记的训练数据集构建和训练机器学习模型。然后我们使用这个训练过的模型来预测我们的测试数据集的标签。

转导

转导是从观察到的特定(训练)实例到特定(测试)实例的推理。

与归纳学习相反,转导学习技术事先观察了所有的数据,包括训练数据集和测试数据集。我们从已经观察到的训练数据集中学习,然后预测测试数据集的标签。即使我们不知道测试数据集的标签,我们也可以在学习过程中利用这些数据中的模式和其他信息。

示例性的转导学习方法包括转导SVM(TSVM)和基于图的标签传播算法(LPA)

有什么区别?

主要的区别在于,在转导学习过程中,您在训练模型时已经遇到了训练集和测试集。然而,归纳学习在训练模型时会遇到训练数据,并将学习到的模型应用于从未见过的数据集上。

转导不能建立预测模型。如果一个新的数据点被添加到测试数据集中,那么我们将不得不从头重新运行算法,训练模型,然后使用它来预测标签。另一方面,归纳学习建立了一个预测模型。当遇到新的数据点时,不需要从头重新运行算法。

简单地说,归纳学习试图建立一个通用模型,在这个模型中,任何新的数据点都将基于一组观察到的训练数据点进行预测。在这里,您可以预测点空间中除未标记点之外的任何点。相反,转导学习建立了一个适合它已经观察到的训练数据点和测试数据点的模型,这种方法利用已知的标记点和附加信息来预测未标记点的标记。

在引入新数据点的情况下,转导学习的成本可能会很高,每次有新数据点时,都必须重新运行所有内容。另一方面,归纳学习最初会建立一个预测模型,新的数据点可以在很短的时间内用较少的计算量标记出来。

转导学习 transductive learning_第1张图片

实例演练

假设您有一组点,如图1所示。有四个标记点A,B,C和D。我们的目标是标记其余的未标记数据点(无色),编号从1至14。如果我们在这个任务中使用归纳学习,我们将不得不使用这4个标记点,并建立一个监督学习模型。

转导学习 transductive learning_第2张图片图1

粗略一看,我们可以看到有两个独立的聚类。在归纳学习中,由于我们只有很少的训练样本,因此很难建立一个能够捕捉数据完整结构的预测模型。例如,如果使用最近邻算法,则靠近边界的点(例如12和14)可能会被着色为红色而不是绿色,因为它们更靠近红色点A和B而不是绿色点C和D(如如图2所示)。

转导学习 transductive learning_第3张图片图2

如果我们有一些关于数据点的附加信息,例如基于相似度等特征的点之间的连接性信息(如图3所示),我们可以在训练模型和标记未标记点时使用这些附加信息。

转导学习 transductive learning_第4张图片图3

例如,我们可以使用转导学习方法(如半监督基于图的标签传播算法),使用所有标记和未标记点的结构信息来标记未标记点,如图4所示。沿边界的点(例如12和14)连接到的绿色点多于红色点,因此它们被标记为绿色,而不是红色。

转导学习 transductive learning_第5张图片图4

请注意,由于我们在开始时就遇到了所有训练数据点和测试数据点,并且测试数据还包含一些有用的附加信息,因此我们能够应用诸如标签传播之类的转导学习方法。如果一开始没有测试数据点,我们将不得不采用归纳学习方法。

你可能感兴趣的:(小样本学习)