transductive learning(Transduction)和inductive learning

transduction(转导学习): 对于A集合(labeled data)和B集合(unlabeled data),通过比较B重个体特征与A中个体特征得出B的label。即训练时会用到A的X和y一级B的X。

induction(归纳学习): 不看B集合,只通过A集合得到一个general的model的模型。通常的监督学习就是这种。

在训练中包含未标记的样本不是转导的主要特征——避免建立一个通用的“模型”才是。

transduction的performance通常比induction要高,但问题在于:

  1. 模型的泛化性能不足,可能有过拟合现象。因为模型只是针对B中的样本。
  2. 如果有新的样本来了,需要重新训练模型。要将新样本加入B集合中,然后重新来一遍。因为你不是在建立一个模型。本质上,每次你想对一组新的实例进行分类时,你都必须重新进行整个训练。因此,只有当您的目标(就您想要理解的实例而言)是特定的时,它才最有意义。
  3. 如果你的数据中有一些非常嘈杂的样本,转导的有效性可能会受到影响。如果一些没有标记的样本来自某个随机品种C(或A和B的杂交品种),你对整个数据的内部理解就会受到影响。你会看到一些样本随机地和其他样本有一致的特征,一些同时表现出这A和B的两种特征——这可能会让你质疑那些已经标记的样本!由于未标记数据的分布是与训练数据一起使用的,所以整个数据集(或至少大部分数据集)的完整性是换向学习的先决条件。

参考: intro to transductive-learning

你可能感兴趣的:(机器学习)