部分参考:https://blog.csdn.net/tszupup/article/details/106611822
提出弱监督学习的概念。主要有这三类
不完全监督(incomplete supervision)——只有一部分训练数据有标签
人工标注标签代价大,通常只有一部分训练数据有标签。
解决不完全监督学习问题的两种主要技术分别是主动学习和半监督学习。
利用机器学习的方法,将那些判断为“难”判断的样本交给人工专家进行标注,再将标注后的样本数据使用强监督学习或半监督学习的方式进行特征学习。
增量学习:学习系统从新样本中学习新知识,同时保存大部分已经学习到的知识
对未标注样本数据的利用主要从两个维度出发:信息量性(informativeness)和代表性(representativeness)
从信息量角度出发的代表查询策略有:
从代表性角度出发的主要是:
论文中指出:基于信息量性标准的样本选择方法的主要缺点是它们严重依赖于有标签样本构建初始的无标签样本选择模型,且该方法在只有少量有标签样本可用时性能通常不稳定;基于代表性标准的样本选择方法的主要缺点是其性能严重依赖于以无标签样本为主的数据的聚类结果。因此,最近关于主动学习的研究尝试同时利用样本的信息性和代表性。
主动学习:https://www.zhihu.com/question/352299820
半监督学习只需要少量带标签的样本和大量无标签的样本即可学习。将标签推广至无标签样本时需要基于以下三个基本假设:
目前主流的半监督学习方法有四种:
半监督学习:
https://zhuanlan.zhihu.com/p/55701854(包含一些半监督学习方法的介绍和归纳)
https://zhuanlan.zhihu.com/p/252343352(包含相关论文和开源代码)
例如在图像识别任务中,仅有图像级别的标签,而没有我们需要的对象级别标签。论文中举例了一个典型的应用场景:药物活性预测,目标是建立模型,从目前已经掌握的一系列分子学习,预测一个新分子是否适合制作特殊的药物。一个分子可以有多个低能量形态,一个分子是否适合制作药物取决于分子是否有特殊的分子结构。药学专家仅能了解分子是否适合,并不了解是哪一个特殊分子结构起到了决定性作用。
多示例学习(multi-instance learning)的场景是数据是一个包含多个示例(instance)的包(bag),在二分类问题中,当包内所有示例为负示例,那么这个包被标记为(negative)。
已经有许多有效的算法应用在多示例学习上。大部分算法将使用与单一示例监督的学习算法推广到多示例表示中,主要是将关注点从对示例的差异转移到对包的差异上。或寻找单一示例到多示例的表示转换,将包、示例、两者之间的embedding分别投射在对应的空间里。注意,在算法中经常讲示例认为是独立同分布的样本(i.i.d sample)(在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布),但实际上在MIL中,示例不可以被假设为相互独立无关的样本。
目前多示例学习已经成功应用在多种任务中,例如图像分类\检索\标注、文本分类、垃圾邮件检测、医学诊断、人脸\目标检测、目标类发现、目标跟踪等。在具体任务中其实多示例的包和示例的概念有着具体且自然的对应,但在有些任务中并没有这些清晰的对应,有些时候也需要包生成器(bag generator)来生成包。
MIL的最初目标是对于不可见的包进行标签预测。有一些研究试图用关键示例(key instance)对包的标签进行判断。值得注意的是,标准的MIL假设每一个positive的包必定包含一个key instance,但是还有一些研究中认为包中的每一个示例都对包的标签的判定有贡献。甚至还有假说认为存在有多个概念,只有当bag包含满足每个概念的实例时,包才是positive的。
早期的理论研究中认为,MIL不适用于包中每个实例按照不同的规则进行分类的异构情况(heterogeneous),适用于包中每个实例按照相同的规则进行分类的同构情况(homogeneous)与算法和应用研究的蓬勃发展相比,MIL的理论成果却非常稀少,因为相关的分析比较困难。
多示例学习:https://zhuanlan.zhihu.com/p/299819082
不准确监督的典型场景即在有标签噪声的情况下学习(标签受随机噪声的影响)。在实际中,一般是先鉴别出错误标签的样本,再将其修正。论文中举例了data editing为例子。data-editing在训练样例中构建相对邻域图,若一条边连接的两个数据标签为不同时,称它为cut edge。若某个示例周围多条cut edge,可以认为该示例的标签是可疑的,可以通过移除(remove)或重新标注(relabel)的方法修改。值得注意的是,该方法仅依赖邻近的数据信息,在高维特征空间时可信度不高,因为高维特征空间中数据稀疏,稀疏的邻近节点的信息不够有信服力。
不准确监督有一个有趣的应用场景,“众包”(crowdsourcing)。将标注任务发布给众多用户,用户通过标注获取微小的收益,数据收集方可为训练数据廉价地获取标注。但在这个过程中可能存在标注的用户经验不足、有作弊工具完成、故意标注错误等可能性造成标注的不准确。许多研究试图从人群中推断出ground-truth。多数投票策略在实际中被广泛应用,常被作为基线。为了让crowdsourcing获得更好的效果,可以对标注工人和任务难度进行建模,对不同的标注工人和不同任务赋予权重。为了达到这个目的可以采用一些概率模型,应用EM算法或minimax entropy对其进行评估。针对作弊者和低质量工作者的淘汰也提出了一些理论条件。(从提高标签的质量入手)。
一方面可以考虑提高标签质量,另一方面也可以考虑如何从带噪的标签中进行学习。(之前提及的方法)对于众包来说,应当最小化代价且获取有效的众包学习。有些研究从任务发布和预算分配入手,尝试平衡正确率和花销。有些研究基于Dawid-Skene模型进行研究。
设计一个有效的众包策略也是重要的,例如“不确定”选项的加入,提高标签的可信度。"double or nothing"策略的加入,确保标注数据的工人诚实,防止作弊者加入其中。
(众包领域部分其实看得不是很懂……)