图像分类作为计算机视觉、模式识别和机器学习等多个领域的交叉方向,旨在从图像或图像序列中提取判别性的特征并进行归类,使得机器视觉具有一定的识别能力。随着大数据的出现和计算机运算能力的不断突破,深度学习在很多领域取得了显著的成绩,广泛应用于医疗图像处理、智能交通、电商平台、人脸识别等领域。然而,目前的深度学习方法高度依赖于大量的标注样本。但大多数实际应用场景仍严重缺乏标注样本,并且高质量的标签将会产生昂贵的标注成本。主动学习方法通过合适的策略,主动筛选或生成最能够提升当前模型性能的样本;目标模型基于专家标注的样本进行迭代式地训练,从而不断提升目标模型的性能。主动学习方法的核心目标是使用尽可能少的标注样本达到预期的模型性能,从而显著地减少标注成本。主动学习方法能够在一定程度上缓解深度学习对大量标注样本的依赖问题。因此,研究主动学习策略及其在图像分类中的应用是一项既富有挑战又具有实际意义的工作。
近年来,随着人工智能(Artifcial Intelligence, AI)的高速发展及其在许多领域取得的显著成绩,使其逐渐成为推动人类进入智能时代的决定性力量。图像分类是 AI 的重要研究目标之一,它作为计算机视觉、模式识别和机器学习等多个领域的交叉方向,旨在从图像或图像序列中提取判别性特征并进行归类,使得机器视觉具有一定的识别能力。最原始的图像分类任务主要由大量的人工进行标记,即耗时又无法保证分类的效果。随着计算机相关技术的蓬勃发展,图像自动分类技术成为计算机视觉的研究热点之一。图像分类技术通过模拟人类视觉系统对客观世界中存在的物体进行识别,使其能够帮助人类对海量的图像进行分类。目前,图像分类技术被广泛应用于医疗图像处理领域、智能交通、电商平台、人脸识别等领域。
在大数据的出现和计算机运算能力突飞猛进的背景下,以深度学习为代表的机器学习算法逐渐成为推进 AI 发展的重要工具。深度学习算法在图像分类任务中取得了质的飞跃,但其效果在一定程度上取决于目标领域中标注样本的质量和数量。约翰霍普金斯大学教授 Alan Yuille[1]总结了深度学习方法在计算机视觉领域的三大瓶颈,其中瓶颈之一正是“需要大量的标注数据”。目前,虽然已有一些方法可以减少对数据的依赖,比如迁移学习、少样本学习、无监督学习和弱监督学习,但是上述方法的性能仍无法与监督学习方法媲美。然而,以监督学习为主的深度学习方法需要大量的标注样本指导模型进行训练,从而不断提升模型在目标领域中的性能,最终取得一定的泛化能力并投入实际应用场景中。伴随着互联网的热潮以及数据采集技术的不断提升,很多领域能够以廉价的成本获取大量的未标注数据。但是,监督学习方法在大多数实际应用中仍严重稀缺标注样本,很难找到类似 ImageNet[2]这样的大规模标注数据集。此外,获取高质量的标签需要昂贵的人工成本,而且在一些特定的领域很难找到合适的标注专家。例如,在医疗图像处理领域中,一位训练 有素的医生标注一张 X 射线图像需要花费 4-5 分钟以及 20-30 元的成本,标注一组CT 图像需要花费 15-20 分钟以及 50-70 元的成本。原始的人工筛选样本方法也存在一些不可避免的问题: 1)挑选的样本存在一些人为的偏向性,缺失代表性的样本; 2)标注的样本可能存在较少的信息量、大量的重复信息等情况; 3)仍需要大量的标注成本。综上所述,如何在保证不降低模型性能的前提下,显著地减少样本的标注成本是一个亟待解决的问题,同时也是一个具有重大意义的研究方向。
主动学习(Active Learning,AL) [3,4,5]和半监督学习(Semi-Supervised Learning,SSL) [6]作为两种缓解标注样本不足的方法,逐渐吸引了广大研究人员的关注。主动学习旨在以尽可能少的标注样本达到目标模型的预期性能,从而显著地减少样本的标注成本。通常,主动学习方法首先通过合适的策略主动筛选或生成最具有价值的样本,从而在一定程度上避免了人工挑选样本的偏向性和随机性。然后,专家对这些样本进行标注,并将其加入到训练数据集中。最后,模型在更新后的数据集上训练。随着训练集的规模不断增大,模型通过迭代式的训练方式不断提升性能,直到满足预设的条件为止。除了图像分类任务之外,主动学习方法也广泛应用于自然语言处理[7,8,9],视频检索[10],语音识别[11]和文本分类[12,13]等领域,并取得了显著的成绩。半监督学习作为另一种缓解标注样本不足的方法,首先,通过少量目标领域的标注样本对模型进行预训练。然后,在不需要人工标注的情况下,以纯半监督学习或者直推式学习的方式[14]训练模型。半监督学习方法相较于主动学习方法的优势之一是:能够充分利用未标注样本的信息,并且不需要额外的人工标注成本。但同时也带来了缺陷:在学习的过程中极有可能引入大量的噪声样本,导致模型学习到错误的信息。值得注意的是,主动学习方法和半监督学习方法具有相似的迭代训练过程,并且具有部分能够互补的优缺点。因此,主动学习方法和半监督学习方法的有效结合将有可能更加显著地减少标注成本。
Goodfellow 等[15]在 2014 年提出了著名的生成对抗网络(Generative AdversarialNetworks, GAN)模型,因其创新性和实用性很快便成为机器学习和计算机视觉领域的研究热点。随后,大量基于 GAN 的改进算法不断涌现。例如, DCGAN[16],WGAN[17] 和 BigGAN[18]等。经过大量的研究发现, GAN 系列模型能够更好地获取图像特征,更好地解释图像语义,并且在无监督学习和少样本学习领域也能够挖掘出更大的作用。近几年, GAN 与主动学习方法的结合也逐渐引起了研究员的广泛关注[19,20,21,22]。此外,考虑到主动学习方法的实际应用场景中,往往同时需要多种不同角色的互相配合,导致同时消耗大量的人力成本和时间成本。因此,设计并实现一个完整的主动学习系统作为不同角色之间的桥梁,从而减少额外的人力成本和时间成本,同样具有重要的实际应用价值。
综上所述,主动学习策略的研究及其在图像分类中的应用具有重要的理论意义和实际应用价值 。
本节将围绕如下要点对主动学习方法的研究现状展开讨论,包括: 1)基于未标注样本池的主动学习策略; 2)批量式主动学习方法,侧重于组合式策略以及引入聚类算法的主动学习方法; 3)半监督主动学习方法; 4)结合生成对抗网络的主动学习方法。此外,主动学习方法在近几年的进展不仅局限于上述归类的方法,本节将其总结于“其他主流的主动学习方法”中。
(1) 主动学习方法概述: 主动学习作为机器学习的一个子领域,核心思想是通过一些启发式策略找到相对最具有“价值”的训练样本,使得模型能够以尽可能少的标注样本达到甚至超过预期的效果。主动学习的概念是 Simon[23] 在 1974 年提出。随后,主动学习方法在许多领域中层出不穷,并进一步被归纳为生成式成员查询(Membership Query Synthesis)、流式主动学习方法(Stream-Based SelectiveSampling)和基于未标注样本池的主动学习方法(Pool-Based Sampling)等经典的场景[4]。 Angluin 等[24] 于 1988 年提出了生成式成员查询场景,模型通过预设的条件控制生成新的样本并向标注专家询问标签;由于当时生成模型的能力有限,并且无法较好的控制生成所需的样本,因此这类方法的应用范围未被推广。 Atlas 等[25]在 1990 提出了基于数据流的方法,模型按照顺序依次判断是否需要对样本进行标记。由于基于数据流的方法不需要将所有样本统一放在池中,因此适用于存储空间较小以及处理能力有限的情况(如,应用到移动设备),但存在最大的缺陷是无法获取样本的结构分布。相较之下,基于未标注样本池的主动学习方法[26] 将大量未 标注样本构成未标注样本池,通过设计样本筛选策略从未标注样本池中筛选出最有“价值”的样本优先进行标注。此外,伴随着互联网的热潮以及数据采集技术的不断提升,很多领域能够以廉价的成本获取大量的未标注数据。因此,基于未标注样本池的主动学习方法最流行并且广泛应用于不同的领域中,在机器学习和数据挖掘的应用中处于非常重要的地位。本文在第三章和第四章提出的方法都与基于未标注样本池的场景有着紧密的联系。
(2) 基于未标注样本池的主动学习方法: 样本筛选策略的质量直接影响到基于未标注样本池的主动学习方法的效果。目前,一些手工设计策略不断被提出并应用到主动学习方法中,如不确定性策略和代表性策略。文献[27,28]通过计算信息熵(entropy)表示最不确定的样本。文献[12,29,30]使用 SVM 作为目标分类器,通过选择距离支持向量最近的样本作为最不确定的样本。 Seung 等[31] 首次提出了基于委员会的筛选算法(Query-by-Committee, QBC),首先训练了一组分类器组成委员会。紧接着,以委员投票的方式决定筛选哪个样本作为最不确定的样本。随后,一些基于 QBC 的改进方法不断被提出:例如, Breiman 等[32] 基于 Bagging 提出的 Query-by-Bagging(QBBAG)以及 Mamitsuka 等[33] 基于 Boosting 提出的Query-by-Boosting(QBB)。对于样本的代表性策略,文献[34,35]通过使用未标注样本的先验密度(Prior Density)作为不确定性指标的权重,从而达到利用未标注样本的目的。 Settles 等[28] 提出一种相似的框架,使用 cosine 距离衡量信息密度(Information Density)。
(3) 批量式主动学习(Batch Mode Active Learning, BMAL)方法: 目前,大多数主动学习方法存在一个共同的问题:串行地筛选样本,即每次迭代选择一个样本进行标注,这种方式非常低效且无法满足大多数实际需求。在实际应用中,往往需要以分布式的形式并行处理,多名标注专家同时在不同的环境下标注样本。BMAL 旨在每次迭代中能够产生一批未标注样本,同时提供给多名标注者,从而极大地提升了应用效率。 BMAL 的发展历程中,起初,有研究尝试将很多不同的预测模型应用到不同的策略中。但他们在筛选样本时,只使用了单一的不确定性指标或者多样性指标的主动选择策略,导致所挑选的样本中存在大量的冗余信息,从而造成了额外的标注成本。基于此, Li 等[36] 提出一种新颖的自适应组合式的样本筛选策略,将不确定性策略和信息密度指标进行结合。在每次迭代中,通过自适应地 调整两种策略的权重,从而选择最具有“价值”的样本给专家标注,并在三组图像分类数据集上验证了所提出方法的有效性。 Gu 等[37] 提出了一种面向多分类的BMAL,通过组合不确定性策略和多样性策略,并在两组图像分类的数据集上进行验证,实验结果表明该方法能够挑选出同时满足最不确定性和最具多样性的样本。 Zhou 等[38]通过组合不确定性指标和多样性指标,同时引入了迁移学习和数据增强等技术,提出了 AIFT 方法并将其应用到医疗图像领域,验证了该方法至少能够减少一半的标注成本。 Cardoso 等[39] 在传统 BMAL 的基础上提出了一种排序批量式主动学习方法(RBMAL),通过生成一个优化过的排序表决定样本被标注的优先级。 RBMAL 避免了标注专家频繁等待被选中的未标注样本,实验结果表明RBMAL 能够在保证甚至提升模型性能的条件下显著地减少标注成本。此外,为了更加充分利用大量未标注样本的信息,有研究员[40,41,42]尝试将聚类算法引入主动学习中。然而,目前大多数聚类方法都是先通过手工提取特征再聚类,在很大一定程度上局限于特征的质量。本文在第三章尝试将卷积自编码聚类算法[43]应用到BMAL 中,通过将特征提取和聚类算法以端到端的形式整合到同一个模型里。从而既能够提升聚类性能,又能够利用卷积神经网络的优势处理更复杂的图像。 (4) 半监督主动学习方法: 半监督学习能够在少量标注成本的情况下训练模型,通过挑选出预测结果较明确的样本并由模型直接给标签,但是容易产生噪声标签。而主动学习则是挑选预测结果最不确定的样本给专家标注,能够保证标签质量。因此,半监督学习方法和主动学习方法的结合能够在一定程度上互补优缺。1998 年, McCallumzy 等[44] 首次组合了 QBC 和期望最大化(EM)算法,使用朴素贝叶斯方法作为分类器并在文本分类任务上进行实验。随后, Muslea 等[45] 提出了一种 QBC 的改进方法,联合测试方法(Co-Testing),通过分别在不同视角训练的两个分类器共同筛选样本给专家标注,并将其与联合期望最大化(Co-EM)算法结合。 Zhou 等[46] 尝试将 Co-Testing 和 Co-Training 方法进行结合并在图像检索任务中验证了算法的优势。此外,文献[47,48,49]组合了不确定性策略和自学习方法(Self-Training)。上述方法将半监督学习和主动学习巧妙地结合,充分利用各自的优势并弥补不足,取得了显著的成绩。然而,目前的半监督主动学习方法尚未对噪声样本进行有效地处理,因此仍会对模型造成不小的影响。本文第三章将噪声样本处理方法引入半监督学习中,从而提供模型的抗噪能力。
(5) 结合生成对抗网络的主动学习方法: GANs 对提升主动学习方法的样本筛选效率具有重要的意义。文献[19,50]将主动学习策略结合生成器构建目标函数,通过解决优化问题使得生成器直接生成目标样本,提升了筛选样本的效率。 Huijser等[20]首先使用 GAN 沿着与当前分类器决策边界垂直的方向生成一批样本。紧接着,通过可视化从生成的样本中找出类别发生改变的位置,并将其加入待标注样本集。最后,通过大量的图像分类实验验证了该方法的有效性。此外,除了图像分类任务以外,主动学习方法与 GAN 的结合也广泛应用到其他领域中,例如离群点检测[21]。本文第四章将主要分别从提升生成样本的质量和减少预测时间成本等两个方面综合分析,将生成对抗网络应用到主动学习方法中。
(6) 其他主流的主动学习方法: Huang 等[51] 提出一种针对深度神经网络的主动学习方法,能够用更少的标记样本将预训练好的深度模型迁移到不同的任务上,从而降低深度神经网络的学习代价。 Huang 等[52] 提出一种结合主动学习和矩阵补全技术的方法,能够在特征缺失严重的情况下有效利用标记信息,节省特征提取代价。 Chu 等[53] 认为应用在不同数据集上的主动学习策略存在有效的经验,并且这些经验可以被迁移到其他数据集中进而提升模型或者策略的性能。作者尝试将模型迁移到不同的数据集中,实验部分证明了当前大多数策略不仅存在有效的经验,而且经验能够被迁移到不同的数据集中,并提升特征学习任务的性能。