《Graph Neural Networks Foundations,Frontiers and Applications》第一部分第一章第1.2.3节翻译和解读

书名:《Graph Neural Networks Foundations,Frontiers and Applications》(图神经网络的基础、前沿和应用)

出版社:Springer Berlin Heidelberg

作者:Lingfei Wu · Peng Cui · Jian Pei · Liang Zhao

红色部分为个人的一些解读,不足之处请多多指点!

第一部分 引言

第一章 表示学习

第1.2节 不同领域的表示学习

第1.2.3节 自然语言处理中的表示学习

        除了语音识别之外,还有许多其他自然语言处理(NLP)在表示学习中的应用,例如文本表示学习。例如,谷歌的图像搜索基于NLP技术,利用大量数据在同一空间中绘制图像和查询(Weston等人,2010年)。一般来说,在NLP中有两种类型的表示学习应用。在一种类型中,语义表示(如单词嵌入)在预训练任务中进行训练(或由人类专家直接设计),并传输到目标任务的模型中。它通过使用语言建模目标进行训练,并作为其他下游NLP模型的输入。在另一种类型中,语义表示位于深度学习模型的隐藏状态中,直接目的是以端到端的方式更好地执行目标任务。例如,许多NLP任务都希望在语义上组成句子或文档表示,如情感分类、自然语言推理和关系提取等任务,这些任务需要句子表示。

        传统的NLP任务严重依赖于特征工程,这需要仔细的设计和大量的专业知识。最近,表示学习,特别是基于深度学习的表示学习,正成为NLP最重要的技术。首先,NLP通常涉及多个级别的语言条目,包括但不限于字符、单词、短语、句子、段落和文档。表示学习能够在统一的语义空间中表示这些多级语言条目的语义,并对这些语言条目之间的复杂语义依赖进行建模。第二,可以对同一输入执行各种NLP任务。例如,给定一个句子,我们可以执行多个任务,如分词、命名实体识别、关系提取、共同引用链接和机器翻译。在这种情况下,为多个任务构建一个统一的输入表示空间将更加高效和稳健。最后,自然语言文本可以从多个领域收集,包括但不限于新闻文章、科学文章、文学作品、广告和在线用户生成的内容,如产品评论和社交媒体。此外,文本也可以从不同的语言中收集,如英语、汉语、西班牙语、日语等。与传统的NLP系统相比,NLP系统必须根据每个领域的特点设计特定的特征提取算法,表示学习使我们能够从大规模的领域数据中自动构建表示,甚至可以在不同领域的语言之间添加桥梁。鉴于NLP表示学习在特征工程简化和性能改进方面的这些优势,许多研究人员已经开发了NLP表示学习的有效算法,特别是基于深度学习的方法。

        NLP的监督表示学习。近年来,NLP监督学习环境中的深层神经网络从分布式表示学习发展到CNN模型,最后发展到RNN模型。早期,Bengio(2008)在所谓的神经网络语言模型中首次在统计语言建模的背景下开发了分布式表示。该模型是关于学习每个单词的分布式表示(即单词嵌入)。因此,需要一个有效的特征函数,从构成单词或n-gram中提取更高级的特征。鉴于CNN在计算机视觉和语音处理任务中的优异性能,CNN被证明是自然选择。CNN能够从输入句子中提取显著的n-gram特征,为下游任务创建句子的信息性潜在语义表示。该领域由Collobert等人(2011年)和Kalchbrenner等人(2014年)开创,这导致了后续文献中基于CNN的网络的大量涌现。神经网络语言模型还通过向隐藏层添加递归(Mikolov et al,2011a)(即RNN)进行了改进,使其不仅在复杂度(预测右下一个单词的平均负对数似然指数)方面,而且在语音识别中的WER方面,都超越了最先进的(平滑n元模型)。RNN(RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络。)使用处理顺序信息的思想。术语“递归”适用于它们对序列的每个标记执行相同的计算,并且每个步骤取决于以前的计算和结果。通常,通过逐个向循环单元馈送标记来生成固定大小的向量来表示序列。在某种程度上,RNN比以前的计算具有“内存”,并在当前处理中使用此信息。该模板自然适用于许多NLP任务,例如语言建模(Mikolov et al,2010,2011b)、机器翻译(Liu et al,2014;Sutskever et al,14)和图像字幕(Karphy and Fei Fei,2015)。

        NLP的无监督表示学习。无监督学习(包括自监督学习)在NLP中取得了巨大成功,因为纯文本本身包含了丰富的语言知识和模式。例如,在大多数基于深度学习的NLP模型,句子中的单词首先通过word2vec Mikolov等人(2013b)等技术映射到其对应的嵌入,Glo Ve Pennington等人(2014年)和BERT Devlin等人(2019年),然后发送至网络。然而,没有人注释的“标签”来学习这些单词嵌入。为了获得神经网络所需的训练目标,有必要从现有数据中内在地生成“标签”。语言建模是一种典型的无监督学习任务,它可以在单词序列上构造概率分布,不需要人工注释。基于分布假设,使用语言建模目标可以对单词语义进行编码的隐藏表示。NLP中另一个典型的无监督学习模型是自编码器(AE)(自编码器(autoencoder, AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks, ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表示学习(representation learning)。),它由重制(编码)阶段和重构(解码)阶段组成。例如,递归自编码器(它推广了具有VAE的递归网络)在其发布之时,通过将F1复述检测分数几乎翻了一番,击败了全句复述检测的最新技术(Socher等人,2011)。

        NLP的迁移学习。近年来,近年来,NLP领域通过顺序迁移学习模型和架构见证了迁移学习方法的快速发展,这些方法在广泛的NLP任务中大大改善了技术水平。就领域适应而言,顺序迁移学习包括两个阶段:一个预训练阶段,在该阶段中学习源任务或领域的一般表示,然后是适应阶段,在这个阶段中学习的知识应用于目标任务或领域。NLP中的域适应分为以模型为中心、以数据为中心和混合方法。以模型为中心的方法旨在扩大特征空间,以及改变损失函数、架构或模型参数(Blitzer等人,2006)。以数据为中心的方法侧重于数据方面,涉及伪标记(或引导),其中源数据集和目标数据集之间只共享少量的类(Abney,2007)。最后,基于混合的方法由以数据和模型为中心的模型构建。同样,NLP中的多任务学习也取得了很大进展,不同的NLP任务可以更好地表示文本。例如,基于卷积结构,Collobert等人(2011年)开发了SENNA系统,该系统在语言建模、词性标注、组块、命名实体识别、语义角色标注和语法分析任务中共享表示。SENNA在这些任务上接近或有时甚至超过了最先进的水平,但比传统预测方法更简单、更快。此外,学习单词嵌入可以与学习图像表示相结合,从而将文本和图像联系起来。

        用于NLP的其他表示学习。在NLP任务中,当一个问题变得更加复杂时,需要领域专家提供更多的知识来注释细粒度任务的训练实例,从而增加了数据标注的成本。因此,有时需要用(非常)少的标注数据就能有效地开发模型或系统。当每个类只有一个或几个标注的实例时,问题就变成了一个/几个学习问题。少数次学习问题来自于计算机视觉,最近在NLP中也有研究。例如,研究人员已经探索了几张照片的关系提取(Han等人,2018),其中每个关系有几个标记的实例,以及低资源机器翻译(Zoph等人,2016),其中平行语料库的规模是有限的。

你可能感兴趣的:(图神经网络基础,前沿和应用,神经网络,深度学习,人工智能,机器学习,图论)