《Named Entity Recognition with Bidirectional LSTM-CNNs》阅读笔记

Collobert等提出一个有效的神经网络模型,只需要little feature engineering而不是在大量的unlabelled text中训练word embeddings。无监督的训练word embeddings(Collober,Mikolov等)

但是这些模型有缺点:1. 使用简单的前向神经网络,使用固定大小的窗口获取每个词的上下文,会丢弃掉单词之间长距离的关系。2. 只依赖word embeddings,不能开发字符一级的影响,例如前缀和后缀.

使用LSTM做NER,计算能力的有限并且受到word embedding质量的限制。 CNN可以获取字符级别的特征。 

本文最大的contribution就是使用双向LSTM和CNNs


模型:

《Named Entity Recognition with Bidirectional LSTM-CNNs》阅读笔记_第1张图片
《Named Entity Recognition with Bidirectional LSTM-CNNs》阅读笔记_第2张图片
《Named Entity Recognition with Bidirectional LSTM-CNNs》阅读笔记_第3张图片

1. Sequence-labelling with BiLSTM

2. 使用CNN提取字符特征


主要特征: word embeddings + character embeddings

其他word级别的特征:1. 大写 2. lexicons 词典


训练:最大化句子级别的对数似然, maximize the sentence level log-likelihood。

定义了tag-transition矩阵,Ai,j表示从tag i转移到tag j的分数。 A0,i是从tag i开始的分数。这个矩阵是经过学习。

整个句子的分数是tags的分数和转移矩阵分数的总和:

《Named Entity Recognition with Bidirectional LSTM-CNNs》阅读笔记_第4张图片

你可能感兴趣的:(《Named Entity Recognition with Bidirectional LSTM-CNNs》阅读笔记)