文章作者:梦家
个人站点:dreamhomes.top
原文地址:https://dreamhomes.github.io/posts/202005162008.html
公众号ID:DreamHub
理解机器学习中的学术名词:
半监督学习特指的是学习算法不需要人工干预,基于自身对未标记数据加以利用,来提高学习模型的泛化性能。
一般认为半监督学习包含纯半监督学习(pure semi-supervised learning)和直推学习(transductive learning)。
主动学习是指:大多数情况下,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,此时学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注,因此需要一个外在的能够对其进行标注的实体(通常是相关人员),即主动学习是交互进行的。这个筛选过程是主动学习主要研究点。
参考:Inductive vs. Transductive Learning
Induction is reasoning from observed training cases to general rules, which are then applied to the test cases.
简而言之,归纳式学习是从训练样本中学习规则然后应用在测试样本中。常用的监督学习就是归纳学习。
Transduction is reasoning from observed, specific (training) cases to specific (test) cases.
直推式学习是同时使用训练样本和测试样本来训练模型,然后再次使用测试样本来测试模型效果。
以数学的形式来表达可以更加容易地理解这两种学习方法及其区别:
考虑普通学习问题,训练集为 D = { X t r , y t r } \mathcal{D}=\left\{\mathbf{X}_{t r}, \mathbf{y}_{t r}\right\} D={Xtr,ytr} ,测试(未标记) X t e \mathbf{X}_{t e} Xte ,当 X t e \mathbf{X}_{t e} Xte不出现在训练集中时这种情况是 归纳式学习。
半监督学习的情况,训练集为 D = { X t r , y t r , X u n } \mathcal{D}=\left\{\mathbf{X}_{t r}, \mathbf{y}_{t r}, \mathbf{X}_{u n}\right\} D={Xtr,ytr,Xun} ,测试 X t e \mathbf{X}_{t e} Xte ,此时 X u n \mathbf{X}_{un} Xun与 X t e \mathbf{X}_{t e} Xte都是未标记的,且测试的 X t e \mathbf{X}_{t e} Xte 在训练时没有见过,这种情况是 半监督归纳式学习。
如果不管 X t e \mathbf{X}_{t e} Xte ,而是想知道对 X u n \mathbf{X}_{un} Xun 的效果怎么样时,由于此时在训练的时利用了 X u n \mathbf{X}_{un} Xun 的特征信息,这种情况称为 半监督直推式学习。
简单来说,transductive和inductive的区别在于我们想要预测的样本,是不是我们在训练的时候已经见(用)过的。
归纳学习是基于“开放世界”的假设,直推学习是基于“封闭世界”的假设。
通常transductive比inductive的效果要好,因为inductive需要从训练generalize到测试。
参考:如何理解 inductive learning 与 transductive learning?