论文笔记-Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network

本周要分享的论文来自中国科学院大学、中国科学院的一篇论文,基于协作图网络的词汇知识在中文命名实体识别中的应用(Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network)
当前,将词信息整合到中文NER任务的三种主流方法:第一种是pipeline;第二种是联合学习CWS(中文分词)和NER;第三种是自动构建词典。词典通过大规模自动分割的文本预训练得到,词汇知识包括边界和语义信息,边界信息由词本身提供,语义信息由预先训练好的词嵌入提供。例如“希尔顿离开北京机场了”,“机场”为“机”的自匹配词汇,但是“离开”则不是“机”的自匹配词汇,因为“离开”不包含“机”。这样一来,就可以促进模型对中文进行NER识别。将词汇知识整合到句子中还面临着两个挑战:(1)整合自匹配词汇;(2)直接整合最近的上下文词汇,而不是仅仅通过之前的隐藏状态,隐式地整合最近上下文词汇的知识。为了解决这两个挑战,作者提出一种基于字符的协作图网络,该网络包含编码层、图层、融合层、解码层。图层包含C-graph、T-graph和L-graph。
第一个是包含图(C-graph),该图模拟了字符和自匹配词汇之间的联系,用于整合自匹配词汇。第二种是转换图(T-graph),它在字符和最近的上下文匹配词之间建立直接连接。L-graph通过多个跃点隐式地捕获自匹配词汇和最近的上下文词汇的部分信息。
论文笔记-Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network_第1张图片
左边为模型的整体结构,右边为基于词-字符交互图的图注意力网络(Graph Attention Network, GAT)的细节。

你可能感兴趣的:(论文笔记)