标注数据少的方法 —— 词汇增强

参考链接:
【关于 中文领域 NER】 那些的你不知道的事
打开你的脑洞:NER如何进行数据增强 ?
标注样本少怎么办?「文本增强+半监督学习」总结(从PseudoLabel到UDA/FixMatch)

1. 中文NER的难点(和英文的区别)

和英文NER每个单词都使用空格分隔不同,中文 NER 是基于字的表示方法,所以一般会涉及到中文分词和中文NER技术,导致 中文 NER 技术容易受到中文分词的误差的影响。

那么常用的方法有哪些呢?

  • 词汇增强:在早期的中文NER技术中,基于字符的 NER 方法往往具有高于基于词汇(分词后)的方法,为了提高基于词汇方法的效果,一般会采取引入词汇信息(词汇增强)的方法;
  • 词汇/实体类型信息增强:使用特殊标记来识别句子中单词的边界,修改后的句子将由BERT直接编码。

2. 词汇增强

2.1 什么是词汇增强?

词汇增强:引入词汇信息(词汇增强)来增强 模型 识别 句子中实体的方法。

虽然基于字符的NER系统通常好于基于词汇(经过分词)的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用。

如何在基于字符的NER系统中引入词汇信息,是近年来NER的一个研究重点。本文将这种引入词汇的方法称之为「词汇增强」,以表达引入词汇信息可以增强NER性能。

从另一个角度看,由于NER标注数据资源的稀缺,BERT等预训练语言模型在一些NER任务上表现不佳。特别是在一些中文NER任务上,词汇增强的方法会好于或逼近BERT的性能。因此,关注「词汇增强」方法在中文NER任务很有必要。

词汇增强模型

Dynamic Architecture

  • Lattice LSTM
  • LR-CNN
  • FLAT

Adaptive Embedding 范式

  • WC-LSTM
  • Multi-digraph
  • Simple-Lexicon

词汇/实体类型信息增强

LEX-BERT

论文:
Lattice LSTM:Chinese NER Using Lattice LSTM(ACL2018)

FLAT: Chinese NER Using Flat-Lattice Transformer(ACL2020)

WC-LSTM: An Encoding Strategy Based Word-Character LSTM for Chinese NER Lattice LSTM(NAACL2019)

Multi-digraph: A Neural Multi-digraph Model for Chinese NER with Gazetteers(ACL2019)

Simple-Lexicon:Simplify the Usage of Lexicon in Chinese NER(ACL2020)

Lex-BERT: Enhancing BERT based NER with lexicons

COLING20:《An Analysis of Simple Data Augmentation for Named Entity Recognition》

EMNLP20:《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》

你可能感兴趣的:(NLP/ML/DL,词汇增强,标注数据)