中文分词、词类标注、命名实体识别对序列标注算法的应用差异

原文: http://www.shizhuolin.com/2018/05/30/2929.html

 

1 中文分词

目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时(HMM,MEMM均为局部归一, CRF是全局归一),同样的任务,标注类型适当增多可明显得到更优的效果,或许这是因为类型隐含更久远上下文依赖,但这样会增加对标记语料的数量需求。一般使用类型数量为4的BMES标注方法

BMES标注类型说明:

B: 多字成词开始
M: 多字成词中间
E: 多字成词结束
S: 单字成词

可参考 中文分词词性和序列标注之HMM 理解实际应用。

分词特征如用线性模型,则需要手工设置特征模版,只能靠反复尝试,而用bilstm-crf时,需要大量语料预训练word2vec向量, 但这实际上比设置模版扫描更容易实施。

关于分词规范 国家标准GB/T13715-92 《信息处理用现代汉语分词规范》 (从未看过)做语料标注工作需知晓。

在各种文章介绍中: BEMS分隔最为常见。

2 词类标注

中文词类/性标注请查看参考信息中提供的说明,在网上可公开下载的一般为 98年1月人民日报语料(大约8.8M左右,200万字)。

词类标注特征工程和中文分词不同,在分词时最小元素是字,而词类标注虽然是针对词语序列做标签,可是每个词语的组成成分可能对标签有所影响,特别是在训练语料中缺失某词语时更需要参考词语的组成元素,例如首字,尾字,大小写等。在BI-LSTM-CRF模型中,可将每个词语的字向量输入LSTM(每个词语单独的LSTM网络)然后把其隐层和词向量连接。再接双向lstm->投影层->crf进行序列标注。参考链接2中有示范案例。

关于词类具体数量,这个并不定,有些是规范中的26类,有些扩展到40多类,实际工程中以能找到的语料为准(例如人民日报语料)。

3 命名实体识别

NER任务目的是识别人名、地名、机构名、MISC;数字:钱、数字、序号、百分比;时间:日期,时间、持续序列、集合等实体。示意标注类型如下:

使用 BIO 三类型标注,B表示实体词开始,I表示实体词内部,O表示外部(不是实体词),在B,I的后接实体类型以区分不同的实体。例如:

三峡 旅行社 组织 小明 家人 三峡 旅游
B-ORG I-ORG O B-PER O O O O B-LOC O
组织名称开始 组织名称内部   人名         地名  

如识别数字、时间、货币等类似实体时,可能还需进一步规范标签。

参考:
[1] 现代汉语语料库加工规范 ——词语切分与词性标注 1999 年 3 月版 北京大学计算语言学研究所 http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdf
[2] sequence tagging with tensorflow: https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html

Artificial Intelligence Machine Learning Natural Language Processing

你可能感兴趣的:(---自然语言处理,大数据与自然语言处理)