[NAACL2016]Neural Architectures for Named Entity Recognition

本文比较了两种方法:
1. BiLSTM-CRF
2. Stack-LSTM
两个方法的共同点:reasoning jointly
模型没有用 language-specific resources , 而仅仅使用了少量监督语料的特征以及未标注语料, 另外本文还使用了:
A. jointly: 对句子进行序列标注时,词之间的label不是独立的,而是考虑前面词的标签信息进而结合词的信息再标记当前词的tag
B. token-level evidence, 词怎样才会标记为Person等等
(1)orthographic evidence:词的构成形式
(2)distribution evidence: 词的语料中的上下文信息
针对第1个模型,在bilstm和crf层添加了一个隐层会大幅度提高性能

需要思考的两个问题:
1. 输出的标签间依存性强的话BiLSTM-CRF性能比较好,但是如果输出标签之间独立性强是不是加CRF层就没有多大的意义了呢?
2. 论文2.4 Tagging Schemes中提到表达力强的IOBES效果普遍强于IOB模式,但是针对本文的任务这个性能没有体现, 直观上IOB模式应该效果好于IOBES,因为分类越少应该强度越好,不知道为什么IOBES效果反而会更好呢?在什么语料什么任务中那个模式更好,待留意总结
第二个模型Stack-LSTM 借鉴与[Transition-based dependency parsing with stack long short-term memory], 模型包含两个stack(stack1: 用于保存输出, stack2:已解析出但还不完整的chunk)和一个buffer(一句话中尚未处理的词)

包含三个transition:
a: SHIFT transition:将词从buffer中转移到stack2中
b: OUT transition: 将解析完整的chunk从stack2中转移到stack1中
c: REDUCE(y) transition:

你可能感兴趣的:(PaperNotes)