昨天给大家分享了ACL_2017分享会的session1和session2部分。今天继续给大家带来本次分享会最后两个部分的内容,Session 3: Sentiment/Information Extraction和session4:Social Media/Word Segmentatin/Question Answering。
Session 3: Sentiment/Information Extraction
11、Linguistically Regularized LSTM for Sentiment Classification
Authors: Qiao Qian, Minlie Huang and xiaoyan zhu
Main Content:情感分类是NLP里一个常见问题,简单来说就是对一个句子表达的说话者的观点,比如,二分,肯定(positive)或者否定(negative)。目前,常用的情感分类方法有两类:1、神经网络方法,比如CNN(Kim 2014)、RNN(Hochreiter and Schmidhuber 1997)或者Tree-LSTM方法(Tai et al 2015);2、基于语言学知识(Linguistic knowledge)的方法,比如情感词表(sentiment lexicon)、负消极词(negation word)等。能把两种方法结合起来最好,但是,神经网络不能充分利用语言学的知识,Tree-LSTM依赖于解析树(parsing tree),解析树的标注代价很高。因此,本论文提出了语言学正则化的LSTM来解决上述问题。论文提出了Non-sentiment regularizer、Sentiment regularizer、Negation regularizer和Intensity regularizer四中语言学约束算子,把这些算子融合到目标函数中来约束LSTM。
12、Prerequisite Relation Learning for Concepts in MOOCs
Authors: Liangming Pan, Chengjiang Li, Juanzi Li and Jie Tang
Main Content:MOOCS是Massive open online courses的简称。本论文所指必要关系(Prerequisite Relation)指两个概念之间存在的依赖关系,即一个概念依赖于另外一个概念。Prerequisite relation广泛存在于人们学习、组织、应用和生成知识过程中,比如一个人想要学习马尔卡夫随机场,那他必须先知道马尔科夫链。目前,慕课系统中存在上万的课程和上百万用于,靠人来为每个用户制订个性化学习计是不可行的。本论文旨在解决这一问题,在慕课系统中挖掘这种课程之间的必要关系,为用户构建合适学习计划。论文给出了Prerequisite relation问题的定义,分类采用的是传统的SVM,RandomForest等机器学习算法,都不算很有特色,比较有价值的感觉应该是特征集合的构建。特征主要分为三类:1、语义特征,即语义相关性;2、上下文特征,包括视频参考距离、句子参考距离和Wikipedia参考距离;3、结构特征,包括平均位置距离,分布式不对称距离和复杂度距离。论文给出了每个特征构建的细节。
13、Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
Authors: Bingfeng Luo, Yansong Feng, Zheng Wang, Zhanxing Zhu, Songfang Huang, Rui Yan and Dongyan Zhao
Main Content:关系抽取(relation extraction)是数据简化和构建知识图谱中广泛使用。进行关系抽取的关键问题之一就是关机抽取heavily relay on corpus,但用于抽取实体关系的corpus里面往往含有噪声:人工标注的误标或者自动构造数据集里面含有大量噪声。为了解决这个问题,本论文通过一个转移矩阵来对噪声进行建模,然后通过矩阵相乘的方法来消除噪声的影响,其实可以把动态转移矩阵看做是深度神经网络中的一个特殊的层。作者构造了两种转移矩阵:Dynamic transition matrix 和global transition matrix,并指出dynamic TM比Global TM要好。重点是如何构建动态转移矩阵:首先随机初始化一个矩阵T,然后根据输入中候选句子(包含同一实体关系的句子,可能一个,可能多个,多个里面只有一个是正确的,其他都是错误的:eg,特朗普出生于纽约(1)、特朗普正在去纽约开会(0)、特朗普非常喜欢纽约(0))中的每一条建立动态转移矩阵。动态矩阵建立有两种方法:one instance embeddding per relation和one instance one embedding;再细化,instance embedding的方法也有两种:Sentence embedding和bag embedding。具体怎么做,可以看论文。最后,模型通过一种curriculum learning的方法来进行训练,通过这种方法训练模型可以加入一些先验知识到模型中去。
14、Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
Authors: Suncong Zheng, Feng Wang and Hongyun Bao
Main Content:实体抽取现有方法分为命名实体识别(named entity recognize)和关系抽取(relation extraction)两步,但本文提出的方法不同,本论文提出了一种jointly的方法把两步串到一起:通过一种新的标注策略(tagging scheme)把抽取任务转换为标注任务,然后使用深度学习技术通过一个端到端的建模(end-to-end tagging model)来抽取出结果。
新的标注策略就是把词的位置关系(word position{B(begin),I(inside),E(end)..})、关系类型信息(relation type information{CF,CP,...})和关系角色信息(relation role information{1(entity 1),2(entity2)})放到句子的词后面,串到一起构成一个向量。
端到端的建模:把转换好的向量通过一个Bi-LSTM进行encoding,在通过一个LSTM进行decoding得到结果。
15、Automatically Labeled Data Generation for Large Scale Event Extraction
Authors: Yubo Chen, Kang Liu and Jun Zhao
Main Content:本论文提出了一种新的自动标注数据集的方法来抽取大规模的数据用于事件(event)抽取,通过实验证明抽取的大规模数据集与人工精心标注的数据集可以达到同等的效果。事件(event)有很多类型,比如事情的发生,状态的改变等,一个事件包含{event mention,event trigger,event argument,argument role}四个元素。事件抽取,就是从非结构化数据中抽取出结构化的event。本论文通过一些workd knowledge和linguistic knowledge来自动的找到一个事件的trigger word,然后对trigger word进行过滤和扩展,最后自动标注生成标注后的数据集。基于标注好的数据集采用DMCNN自动的进行事件的抽取。
Session 4: Social Media/Word Segmentatin/Question Answering
16、CANE: Context-Aware Network Embedding for Relation Modeling
Authors: Cunchao Tu, Han Liu, Zhiyuan Liu and Maosong Sun
Main Content:Network Embedding是指对社交网络中的每个顶点(vertex)进行low-dimensional的embedding,然后可以把这个embedding当做特征用于顶点分类和链接预测。现有的方法是一种上下文(context-free)无关的方法,忽略了顶点之间的转移(transition)关系,就是忽略了顶点与顶点之间的链接关系。因此,本论文提出了一种上下文相关的embedding方法:依据网络的Text信息,基于不同vertex之间关系进行Dynamic embedding,精确建立顶点(vertices)之间的关系。简要来说就是抽取互联vertex之间text-based信息,用一个神经网络来动态建立vertex的embedding。指出一种mutual attention关系,使得顶点之间关系更加清楚和可解释。
17、17、Generating Natural Answer by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning
Authors: Shizhu He, Kang Liu and Jun Zhao
Main Content:本论文提出一种端到端(end-to-end)方式的生成自然答案的一种方式,端到端的方式采用的是seq2seq的学习方式中encoder+decoder的模式,在encoder和decoder的过程中加入copying和retrieving的机制加入更多信息。这些信息可能来源于词表,或者从一个给定的答案中拷贝而来,或者从对应的知识库中得来,通过论文提出的encoding的机制把它们融合到模型中生成更加natural的答案。
18、18、Attention-over-Attention Neural Networks for Reading Comprehension
Authors: Yiming Cui, Zhipeng Chen, si wei, Shijin Wang, Ting Liu and Guoping Hu
Main Content:这里的阅读理解问题和我们读完一篇文章(document),再给你一个题目(query)和几个候选答案(answer)让你进行选择类似。作者所在的小组在这方面做了很多的研究,指出现有做阅读理解的方法有attentive reader、attentive sum reader、consensus attention reader和gated-attention reader。受到AS reader和CAS reader启发提出了attention-over-attention(AOA) Reader。进行机器阅读的时候输入包含两个部分,一个是document,一个是querry,实处就是一个相关与否或者相关性得分的标注,通过一个DNN来匹配他们的关系。所谓AOA就是在document和querry分别用一个attention计算权重得到输出后再加入attention把他们输出拼接起来的机制。原文已经放出来了,模型具体结构可以去论文中看。
19、19、Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-based Chatbots
Authors: Yu Wu, Wei Wu, Chen Xing, Ming Zhou and Zhoujun Li
Main Content:对话机器人分为retriveal-based和generation-based两种;前者是指从已有数据中寻找答案,后者则是根据上下文自己生成答案。机器对话的问题是如何做到个性化的多轮对话,而这其中重要的问题是如何获得上下文中重要的词,如何抽取上下文中事件之间的关系。现有的基于上下文生成答案的方法都没有充分对话上文的信息。本文为解决这个问题,提出了一个新的从上文多轮对话中获取信息来生成答案的多伦对话模型,提出了一个SMN的模型用于进行response选择,并且发布了一个大的人工标注的数据集用于学术研究。具体网络结构可以去论文中看。
更多深度学习在NLP方面应用的经典论文、实践经验和最新消息,欢迎关注微信公众号“深度学习与NLP”或“DeepLearning_NLP”或扫描二维码添加关注。