自然语言处理(NLP)的发展历程,神经语言模型多任务学习介绍, ECM模型介绍等

1读前准备

读本篇论文之前我先调研了并理解了什么是自然语言处理(自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题–一个人根据接收到的信息,去猜测发话人要表达的意思)以及自然语言处理的发展历程,我举出了在电影中的例子来说明AI发展到一定阶段,自然语言处理带给人们的前景展望。
而自然语言处理的发展历程,在搜索大量资料后我选择综合了部分资料,了解到自然语言处理到现在目前经历了是个时期,分别是1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。

1.1自然语言处理发展历程

萌芽期
在1948年Shannon把马尔可夫过程的概率模型(实现快速精确的语音识别系统的最成功的方法)应用于描述语言的自动机。1956年,Chomsky乔姆斯基又提出了上下文无关文法(编译原理课程中讲过)并把它运用到自然语言处理中。
快速发展期(1957-1970)
快速发展期
从50年代中期开始到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究,60年代末又进行了形式逻辑系统(对于词项和命题形式的逻辑性质的研究、思维结构的研究与必然推出的研究,它提供检验有效的推理和非有效推理的标准)的研究。1959年宾夕法尼亚大学研制成功的TDAP系统,布朗美国英语语料库的建立等。1967年美国心理学家Neisser提出认知心理学的概念,直接把自然语言处理与人类的认知联系起来了。
低速的发展期
70年代,基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计方法在语音识别领域获得成功。80年代初,话语分析(Discourse Analysis)也取得了重大进展。之后,由于自然语言处理研究者对于过去的研究进行了反思,有限状态模型和经验主义研究方法也开始复苏。
复苏融合期
复苏融合期,复苏融合期所产生的思想与模型应该是现阶段我们研究自然语言处理所应用的主要知识基础比如 神经语言模型(2001),多任务学习(2008),Word嵌入和NLP的神经网络(2013), 序列到序列模型(2014年),注意力机制和基于记忆的神经网络(2015),预训练语言模型(2018)

1.2对其中的部分知识进行了简单了解

神经语言模型
神经语言模型解决的是在给定已出现词语的文本中,预测下一个单词的任务。这可以算是最简单的语言处理任务,第一个神经语言模型,前馈神经网络(feed-forward neuralnetwork),是 Bengio 等人于 2001 年提出的。以某词语之前出现的n个词语作为输入向量。今天,这样的向量被称为大家熟知的词嵌入(word embeddings)。这些单词嵌入被连接并馈入隐藏层,然后将其输出提供给softmax层。
多任务学习(Multi-tasklearning)
多任务学习是在多个任务下训练的模型之间共享参数的一般方法。在神经网络中,这可以通过绑定不同层的权重来轻松完成。Collobert在2008年首次将多任务学习应用于NLP的神经网络。在这一框架下,词嵌入矩阵被两个在不同任务下训练的模型共享.多任务学习现在用于各种NLP任务,并且利用现有或“人工”任务已成为NLP指令集中的有用工具。虽然通常预先定义参数的共享,但是在优化过程期间也可以学习不同的共享模式。随着模型越来越多地评估多项任务以评估其泛化能力,多任务学习越来越重要,最近又有提出了多任务学习的专用基准。
 词嵌入(Word embeddings)
词嵌入在2001年首次出现。2013年作出的主要创新——是通过删除隐藏层和近似目标来使这些单词嵌入的训练更有效。虽然这些变化本质上很简单,但它们与高效的word2vec(word to vector,用来产生词向量的相关模型)组合在一起,使得大规模的词嵌入模型训练成为可能。
 用于自然语言处理的神经网络(Neural networks for NLP)
2013年和2014年标志着神经网络模型开始在NLP中被采用的时间。三种主要类型的神经网络成为使用最广泛的:循环神经网络(recurrent neural networks)、卷积神经网络(convolutionalneural networks)和结构递归神经网络(recursive neural networks)。
递归神经网络(RNN)是处理NLP中普遍存在的动态输入序列的理想选择。Vanilla RNNs很快被经典的长期短期记忆网络(LSTM)所取代,后者证明其对消失和爆炸梯度问题更具弹性。
卷积神经网络(CNN)被主要用于计算机视觉,但它们也开始应用于语言它们比RNN更容易并行化,因为每个时间步的状态仅取决于本地环境(通过卷积运算)而不是像RNN中的所有过去状态。 CNN可以使用扩张的卷积扩展到更宽的感受域,以捕捉更广泛的背景。CNN和LSTM也可以组合和堆叠,并且可以使用卷积来加速LSTM。
序列到序列模型(Sequence-to-sequence models)
序列到序列学习一种使用神经网络将一个序列映射到另一个序列的通用框架。在该框架中,编码器神经网络逐符号地处理句子并将其压缩成矢量表示;然后,解码器神经网络基于编码器状态逐个预测输出符号,在每个步骤中将先前预测的符号作为预测下一个的输入.序列到序列学习甚至可以应用于NLP中常见的结构化预测任务,其中输出具有特定结构。为简单起见,输出是线性化的,用于序列和解码器的编码器通常基于RNN,但是可以使用其他模型类型。

2论文学习

2.1编码器 - 解码器框架

基于通用序列到序列(简称seq2seq)模型 的编码器 - 解码器框架它采用门控循环单元(GRU)实现把后序列x转化为隐藏层h。GRU 是标准循环神经网络(具有循环的网络,允许信息影响持续存在。)的改进版,GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络编码器将后序列x=(x1,x2,····xn)变换为隐藏表示h=(h1,h2,···,hn),其被定义为公式1,解码器将上下文矢量ct和先前解码字e(y1)的嵌入作为输入,以使用另一个GRU更新其状态st(

2.2ECM概述

这幅图告诉了我们ECM是如何工作的,比如说,这幅图中输入了一个POST(最糟糕的一天。由于交通,我来晚了)输入到ECM中(ECM嵌入情绪类别 和提要情感类别嵌入到解码器中。为了捕捉状态的 隐含变化并动态平衡语法状态和情绪状态之间的权重, ECM采用内部存储器模块。但也通过外部存储器模块 对通用(非情感)或情感词的明确选择来建模情感的 明确表达)在通过原来训练出的数据集来判断这句话是喜欢,快乐, 伤心,厌恶 ,愤怒。最后在给出相应的回答。
自然语言处理(NLP)的发展历程,神经语言模型多任务学习介绍, ECM模型介绍等_第1张图片
内部存储器
内部存储器用来捕获解码过程中的情绪动态。模拟表达情绪的过程如下:在解码过程开始之前,每个类别都有一个内部情绪状态;在每一步,情绪状态都会衰减一定量;一旦解码过程完成,情绪状态应衰减到零,表示情绪完全表达。他的解码器存在一个的数据流 。读门grt读取内部存储器Met并通过输M rt来更新解码器的状态,并且经过GRU和写门gtw更新为M et+1 带有事先准备好解码后的字e(yt−1)的字嵌入输入,前 一个状态向量为st-1,当前上下文矢量为ct。写入门g通过解码器的状态向量 st被计算

外部存储器
外部存储器在内部记忆模块中,内部情绪状态的变化与单词选择之间的相关性是隐含的,而不是直接可观察的。使用外部存储器模块可以通过为情感词和通用词分配不同的生成概率,明确地模拟情绪表达。外部存储器的解码器数据流。最后的解码概率在情感softmax和通用softmax之间进行加权,其中权重由类型选择器计算。情感softmax Pe(yt = we)和通用softmax Pg(yt = wg)是计算分别从外部记忆和通用词汇中读取的情绪词汇。类型选择器αt 控制发生器的权重

3实验分析

使用随机梯度下降(SGD)算法和小批量。批量大小和学习率分别设置为128和0.5。为了加速训练过程, 在STC数据集上训练了seq2seq模型,并使用预先训练 的单词嵌入。然后在ESTC数据集上训练我们的模型, 其参数由于训练的seq2seq模型的参数初始化。

3.1数据准备阶段

构建情感分类器在NLPCC数据集上训练了几个分类器,然后选择最佳分类器进行自动注释然后,我们将NLPCC数据集划分为训练,验证和测试集,比例为8:1:1。在过滤的数据集上训练了几个情绪分类器。训练结果如下:
利用情绪词汇注释STC通过注释得到了一个情感标记STC(ESTC)数据集由于,自动注释,数据集会产生误差,此数据集足以在实践中训练模型

3.2实验细节

基线
基线选择了两个合适的baselines:普通的seq2seq模型和情感类别嵌入模型(Emb),其中情感类别嵌入到向量中,并且该向量用作每个解码位置的输入,类似于用户嵌入的概念。由于情绪类别是情绪表达的高级抽象,因此这是我们模型的适当baselines
自动评估
在情绪水平上评估模型,采用情绪准确度作为预期情绪类别(作为模型的输入)与情绪分类器生成的响应的预测情绪类别之间的一致性
手动评估
更好地从内容和情感的角度理解生成的反应的质量

3.3实验结果

所有选项的ECM在两个指标 中都显著优于其他方法

对于Seq2Seq。这些表明ECM在内容和情感方面产生高 质量的反应更好。

4论文贡献

  1. 提出解决大规模会话生成中的情感因素。这是关于该主题的第一项研究工作。

  2. 它提出了一个端到端的框架(称为ECM),将情感影响纳入大规模的会话生成当中。 它有三种新颖的机制:情感类别嵌入,内部情感记忆和外部记忆。

  3. 它表明ECM可以产生比传统seq2seq模型更高得分的内容和情感响应。

你可能感兴趣的:(NLP,ECM,自然语言处理·,神经语言模型)