inductive learning 与 transductive learning在图神经网络上的区别

监督学习与非监督学习

监督学习

简单解释:
监督学习就是要在一组有标签信息的数据中训练一个模型,然后将该模型应用于一组测试数据上分析模型的泛化误差。
监督学习会把数据分成训练集和测试集,监督学习方法的重要假设是数据的分布是独立同分布的。监督学习要在训练数据中归纳出一个一般规则然后应用于测试数据中。训练数据是有标签的,测试数据是没有标签的。
百度百科解释

非监督学习,

简单解释:
非监督学习是在数据中无标记信息或者数据集中存在大量数据没有标签的情况下,使用某种规则或策略对数据进行分析归纳出数据的分布。比如,聚类。非监督的重点在于没有标记信息作为指导。非监督方法的数据假设参与训练的数据是独立同分布的。
百度百科解释

自监督

在绝大多数场景中,有标签的数据是非常稀少的,并且数据标记的代价非常巨大。非监督的学习方式在同等数量级上效果远不及监督学习,因此,从数据中寻找监督信息便吸引了很多研究者的注意力。自监督学习的主要方法是通过设计辅助任务(proxy tasks)从数据中寻找监督信息。需要注意的是这里的监督信息不是原始数据中的标签信息而是辅助任务设计的监督信息。比较常见的自监督应用就是预训练模型,比如bert中会mask掉一个句子中的部分单词,被mask的单词就可以作为监督信息,任务会预测被mask掉的是啥。

半监督

半监督介于监督学习和无监督之间。训练集中只有部分数据有标签,需要通过伪标签生成等方式完成模型训练。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标记扩充标记数据集并不断训练学习器期望学习器能对原有标记数据准确预测。X={{S,Y},U},S为有标记的数据,Y为S的标签,U为没有标记的数据,期望训练得到f对于X能准确预测Y。百度百科

半监督学习(Semi-SupervisedLearning,SSL)按照统计学习理论的角度包括直推(Transductive)SSL和归纳(Inductive)SSL两类模式。
1. 直推SSL利用训练数据中有标签的样本和无标签的样例进行训练,预测训练数据中无标签的样例的类标签。该方法只处理样本空间内给定的训练数据即对训练时未见过的数据不予预测(没有测试数据集了)
2. 归纳SSL参与训练的数据包括训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例。归纳式不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。该方法处理整个样本空间中所有给定和未知的样例即训练时使用到的数据和没有见过的数据。
二者主要的差别在于涉及到的数据,inductive会对未知的样本做预测即不在训练数据中的样本。

inductive learning 与 transductive learning

inductive learning

inductive semi-supervised learning与监督学习方法类似,基于已有的标记训练数据集构建和训练机器学习模型。 然后,我们使用这个训练过的模型来预测从未遇到过的测试数据集的标签。

transductive learning

直推式学习技术已经预先观察了所有数据。 我们从已经观察到的训练数据集中学习,然后预测训练数据集中未标记数据的标签。 即使我们不知道数据的标签,我们也可以在学习过程中利用这些数据中存在的模式和其他信息。 如果将新的数据点添加到数据集中,那么我们将必须从头开始重新运行算法,训练模型,然后使用它来预测标签。 另一方面,归纳学习建立了预测模型。 当您遇到新的数据点时,无需从头开始重新运行算法。

inductive & transductive learning在图上的应用

由于在图数据上的学习需要考虑图的结构信息,在模型训练时需要将全图输入,所以训练时会使用到没有标记信息的数据信息,所以使用的是transductive方式,一旦图的结构发生变化,需要重新学习。
当图结构非常的时,内存可能无法全部放下数据,因此需要对图进行采样,如graphSage。那么采样到的数据就可以不包含没有标记的结点,因此可以使用inductive方式学习,这样模型就有一定的迁移能力,可以预测没有见过的结点。

标准的半监督要求数据满足独立同分布假设,但是在图数据中并不遵循该前提,所以,图机器学习任务不被认为是标准的机器学习任务。

参考

https://www.zhihu.com/question/68275921
https://www.cnblogs.com/chuanyang/p/13892321.html

你可能感兴趣的:(数据挖掘,机器学习,机器学习,数据挖掘)