论文笔记《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》

Chinese Lexical Analysis with Deep Bi-GRU-CRF Network

百度自然语言处理部的一篇论文,提出了一个结合分词,词性标注和命名实体识别的工具。
论文指出百度已经开发了各种分词,词性标注,实体识别的工具,相互独立以便各个团队使用。这种方式有两个缺点:

  • 重复计算太多,严重拖慢了计算速度吗,浪费计算资源

  • 不同任务之间不能share一些特征,比如分词的时候可以用到一些词性标注的特征,来更好地优化分词。

笔者提到在使用百度AI平台实现一个词法分析系统时,对于不同的子任务,不仅要写各种复杂的逻辑结构来保证模型的性能,而且由于子任务的并行使得计算很慢。

由于词法分析三种任务都可以看做是序列化标注,所以作者想只用单个模型来解决这些问题。作者首先在平台上用query和news和title收到平行语料(pseudo-annotated 伪标注语料)(这里收集应该是使用百度原有的一些工具标注出来的)应该标注准确率不够高,再拿到一些人工标注的语料(质量较高)。合并为训练语料,使用Bi-GRU-CRF模型训练,并在训练过程中使用(oversampled)的方法确保标注的高质量语料对模型训练起更大的影响。

作者还使用训练好的标签转移来fine-tune微调crf的解码过程,感觉就是半监督的方法了,
因为原有数据质量并不高。

论文笔记《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》_第1张图片
模型的有点:完全的端到端,character-based embedding,没有任何人工特征组合。

论文使用IOB2-style decoration的标注体系,应该就是动作标签中包含分词,词性标注中的各种tag。能够一下就把三个任务都做完,在第三方语言学专家标注的500句新闻语料上得到的结果准确率是95%(应该是三种标签),速度也变的更快了。(样本有点小,具体效果得看下)

接下来作者把标签体系介绍了一些,接下来就介绍stacked Bi-GRU也就是多层双向GRU提高模型的表示能力,最后介绍CRF的解码过程。现阶段序列化标注高效的做法差不多就是如此。

判断正确率的方法
分词词性标注的准确率,当且仅当词边界正确以及词性标注也正确。
The word is consider “correct” if and only if its boundary and tag (including POS and NER tags) are both correct.
与此同时对于NER(命名实体是吧)还判断了准确率召回率,以及F1.论文笔记《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》_第2张图片

你可能感兴趣的:(自然语言处理,机器学习)