自然语言处理学习笔记七(词性标注)

一.   词性标注概述

        1.1  什么是词性

        词性是单词的语法分类,同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用不同的词性标注集,一般含有形容词、动词、名词等常见词性。

        1.2  词性的用处

        词性的作用就是提供词语的抽象表示,词性支撑许多的高级应用,当下游应用遇到OOV时,可以通过OOV的词性猜测用法。

        1.3  词性标注

         它是指为句子中的每个单词预测一个词性标签的任务,是自然语言处理中一项重要的基础任务。

        1.4 词性标注模型

           由于词性标注的两个难点(一是一个单词多个词性,一个具体语境一定是唯一词性;二是OOV是自然语言处理的难题),为此使用序列标注模型解决这两个难点。

二.  词性标注语料库与标注集

        同中文分词一样,语言学界在标注规范上存在分歧,导致目前还没有一个被广泛接受的汉语词性划分标准。无论是词性划分的颗粒度,还是词性标签的不统一。故有了各种互不兼容的语料库。

        2.1  《人民日报》语料库与PKU标注集

        2.2   国家语委语料库与863标注集

        2.3  《诛仙》语料库与CTB标注集

三.   序列标注模型应用于词性标注

        3.1 基于隐马尔可夫模型的词性标注

        3.2 基于感知机的词性标注

        3.3 基于条件随机场的词性标注

        3.4 词性标注评测

四.   自定义词性

        在工程上,许多用户希望将特定的一些词语打上自定义的标签,称为自定义词性。

        4.1  朴素实现

        基于词典的规则系统,用户将自己关系的词语以及自定义词性以词典的形式挂载,从而在各种词法分析器中得到相应的词性。

        4.2  标注语料

        词性的确定是需要根据上下文语境,需要通过统计模型来进行,也是统计模型所擅长的。为了实现自定义词性,最佳实践就是标注一份语料库,然后训练一个统计模型。

  五.    总结

       词性标注所需的原料无非就是一些语料以及一份特征模板,根据语料库的规模、特征模板、机器学习模型的不同,词性标注的准确率也随之变化。

      总体而言,要提高词性标注器的准确率,无非就是标注更多语料、设计更复杂的特征模板、采用更复杂的机器学习模型。另外,为了实现自定义词性,依靠词典匹配虽然简单但是比较死板,只能用于一词一义的情况。如果涉及兼类词,标注一份领域语料才是正确做法。

 

            

你可能感兴趣的:(自然语言处理,人工智能,nlp)