零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)

现有的视觉图像分类、目标检测、场景识别等技术大多基于监督学习,这些方法和技术需要进行大量的数据标注工作,对有标签的数据集进行人工智能算法的训练,得到相应的算法模型。但是仅仅是人类可识别的物体种类大约就有 3 万类,并且在不同场景下物体的状态不同,所得到的数据量及其庞大,要对如此多的图像进行类别数据标注极其费力。与此同时生活中的物体种类、生活场景等也在不断增长,数据也在不断增多,如何处理标注数据完全缺失的情景,是人们急需解决的一个问题,,在现实需求和技术发展的推动下,零样本学习逐步成为一个热门的研究方向。

零样本学习定义见:零样本学习综述 Zero-Shot Learning(一):定义

知识图谱是人工智能的重要一环,以图作为数据结构,节点和关系作为基本组成单元,对客观世界中的概念、实体、关系进行描述。知识图谱技术将海量的信息构成接近人类推理习惯的图结构网络,为机器理解世界提供了提供了一种更好的组织、管理和理解信息的能力。

识别零样本任务中的未见类别需要借助大量的辅助信息,知识图谱为其提供了天然的语义辅助信息和结构关联信息,借助于知识图谱技术有利于提升现有零样本学习的效果。本文对近三年的三篇借助知识图谱处理零样本图像分类任务的论文进行概述和理解,这三篇文章分别发布在 CVPR 2018、CVPR 2019、AAAI 2020.


基于语义词嵌入和知识图谱的零样本识别 CVPR 2018

文章链接:Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

在这篇论文中,作者引入了图卷积网络 GCN(图卷积网络介绍见:图卷积网络 Graph Convolutional Networks),并提出了一种使用语义词嵌入和类别关系来预测分类器的零样本图像识别方法。文中给定了一个知识图谱,每个图像的类别作为图中的一个节点,这些图像类别的层级关系作为关联的边。训练模型时,将节点的语义嵌入作为输入,经过6层图卷积网络后,预测了每个类别的分类器。在训练过程中,通过给定的可见类别的分类器,学习 GCN 的模型参数。在测试时,GCN模型用于预测未见类别的分类器。该方法与前人的工作结果相比,可以显著提高性能,在某些指标上可以提供2-3%,在少数指标上效果提升可达到20%。下面对该方法进行详细描述:

  1. 图谱的构建
    该文章主要对两个数据集进行了测试分别为NELL,NEIL datasets和 WordNet,ImageNet。其中NEIL数据集提供原始图像数据,NELL数据集提供常识知识规则,构成知识图谱。同样的ImageNet数据集提供原始图像数据,WordNet提供常识知识规则,构成知识图谱。
  2. 图像特征提取与分类器权重标签生成
    文章中基于 GCN 预测的图像分类器是基于预训练卷积网络图像特征的逻辑回归模型。作者通过使用卷积网络提取图像特征,并对特征进行逻辑回归分类,将可见的有标签的训练集图像类别对应的逻辑回归分类器权重参数作为后续GCN网络预测的输出,即GCN网络负责预测每个类别的逻辑回归分类器。文中涉及的卷积网络有:Inception-v1、ResNet-50、AlexNet。
  3. 使用GCN进行零样本学习
    如下图所示,以每个类别名称的词嵌入(Word Embedding)作为图卷积网络的输入,经过6层网络训练得到每个类别的分类器权重作为输出,基于已知图像类别的分类器权重标签学习网络模型,学习得到每个类别的分类器。
  4. 零样本预测
    通过预训练的卷积网络得到测试集图像的图像特征,经过上一步学到的分类器计算出属于每个类别的概率。
    零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第1张图片

实验结果
ImageNet 数据集的实验结果:

零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第2张图片


零样本学习中知识图传播的再思考 CVPR 2019

文章链接:Rethinking knowledge graph propagation for zero-shot learning

这篇文章基于 CVPR 2018 年的 Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs 一文进行了改进。作者认为深层的 GCN 网络会导致过度的拉普拉斯平滑,使得各节点的特征趋于相同,在上一篇文章中的 6 层 GCN 网络,对节点特征进行了过度平滑,降低了模型的性能。但是浅层的 GCN 模型又不能够将距离较远的节点特征和当前节点进行关联,未解决上述两个问题,作者对模型进行了改进:

  1. 减少神经网络层数,将 GCN 限制为 2 层;
  2. 修改知识图谱结构,将一些节点的祖先节点和子孙节点直接与该节点相连,生成新的密集图谱,根据距离的远近生成权重参数,如下图所示。上一篇文章中为层级结构的树状图,每个物种属于包含它的大类,同时包含属于它的小类。

零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第3张图片
对新生成的密集知识图谱,作者提出了新的 GCN 传播模式 DGP,如下图所示。根据邻接顶点在图谱中所处的层级位置,该模型将图神经网络传播模式分为前项和后项,即对于该节点在图中的祖先节点和子孙节点采用不同的处理模式,下式中 A a A_a Aa A d A_d Ad分别表示该节点的祖先节点关联矩阵和子孙节点关联矩阵。
在这里插入图片描述
其他处理模式和第一篇文章保持一致。
零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第4张图片

实验结果
在 ImageNet 数据集上实验结果如下:

零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第5张图片


基于属性传播网络的图零样本学习 AAAI 2020

文章链接:Attribute Propagation Network for Graph Zero-shot Learning

该文章与上述两篇文章不同,作者没有直接使用现有的 WordNet 作为知识图谱的基础,而是通过语义词嵌入,根据语义的差距生成了适用于属性传播网络 APNet 的语义知识图谱。并且和上述文章中将模型分为两个阶段不同,作者提出了一种端到端的生成图谱以及传播预测机制。整体框架如下图所示:

在这里插入图片描述

下面对方法进行详述:
属性传播的管道。一。初始化节点特征:不同类的属性向量用不同颜色的点表示。每个属性向量都与来自相应类的一些图像相关联。传播图上的节点特征通过使用来自(Zhang和Shi 2019)的专家模块转换属性来初始化。2。确定图的边:如果传播图上的两个节点的特征向量之间的相似度超过预先确定的阈值,则它们通过一条边连接。三。图上的传播:节点特征通过注意机制传播。四。零镜头预测:传播后,在传播的上下文感知/结构感知属性表示和查询图像特征表示之间学习相似度度量。将传播后的属性向量与嵌入到属性空间中的查询图像的相似度最大的类作为预测类。

  1. 初始化图谱节点的特征
    将各种类别作为图谱的顶点,使用Zhang and Shi 2019 的模型初始化节点的特征表示,对每个类顶点 y y y 有初始化顶点特征表示 X y 0 X^0_y Xy0
    在这里插入图片描述
    其中 s y s_y sy 是给定的辅助信息,即对每个顶点的类别名称的词嵌入。通过k-mean聚类算法将所有的词嵌入进行聚类得到类属性空间的形心矩阵C, C i C_i Ci 是第i个形心向量, Θ i \Theta_i Θi是线性变换函数。

  2. 生成图谱的边
    作者提出了根据顶点特征表示、基于注意力机制的图谱边生成方法,对每一对节点进行相似性度量,图谱中的边集合为:
    零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第6张图片
    其中 a ( ⋅ , ⋅ ) a(\cdot,\cdot) a(,) 是相似性度量函数, f ( ⋅ ) f(\cdot) f() 是可学习变换函数, ϵ \epsilon ϵ是边连接的阈值。特征表示可视化如下图所示:

零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第7张图片

  1. 属性传播
    基于构造的图谱,采用注意机制,通过顶点的关联关系进行属性特征表示的双向传播,如下图所示:
    零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第8张图片
    每一次迭代传播,对当前节点的相邻节点特征表示进行加权求和,得到迭代的新表示:
    在这里插入图片描述
    其中

在这里插入图片描述

  1. 类别预测
    使用注意力机制进行预测,图像特征 x x x 和类别 y y y 之间的相似性为:
    在这里插入图片描述

实验结果

文章使用的测试集和实验结果如下所示:
零样本学习综述 Zero-Shot Learning(二):基于知识图谱的零样本学习 (Graph-based Zero-Shot Learning)_第9张图片


上述三篇文章引入了知识图谱的概念,图结构数据从简单的树形层级结构,修正为较为稠密的祖先、子孙节点关联结构,再发展为通过语义词嵌入向量生成关联边结构。研究人员通过对图结构数据的挖掘不断提升零样本学习的性能。

参考文献

[1] Wang X, Ye Y, Gupta A. Zero-shot recognition via semantic embeddings and knowledge graphs[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6857-6866.
[2] Kampffmeyer M, Chen Y, Liang X, et al. Rethinking knowledge graph propagation for zero-shot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 11487-11496.
[3] Liu L, Zhou T, Long G, et al. Attribute Propagation Network for Graph Zero-shot Learning[C]//Thirty-Fourth AAAI Conference on Artificial Intelligence. 2020.

你可能感兴趣的:(人工智能,图深度学习,零样本学习)