词法分析与词性标注学习之笔记(二)----词性标注

词性标注

词性标注的概念

词性是词汇的基本语法属性,通常称为词类。
词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术
  词性标注可以由人工或特定算法完成,使用机器学习(machine learning)方法实现词性标注是自然语言处理(Natural Language Processing, NLP)的研究内容。
  常见的词性标注算法包括隐马尔可夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional random fields, CRFs)等 。
   词性标注主要被应用于文本挖掘(text mining)和NLP领域,是各类基于文本的机器学习任务,例如语义分析(semantic analysis)和指代消解(coreference resolution)的预处理步骤。
   自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
  自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

词性标注中的难点

词性标注遇到的最重要的问题就是词性兼类问题。
汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
造成词性兼类问题的原因主要有以下几点:
1.汉语缺乏词形态变化,无法通过词形变化判别词类;
2.汉语中,常用词兼类现象严重,比如:“这个人什么都好,就是好酗酒。”其中,第一个“好”读三声,是形容词,而第二个“好”读四声,是动词。
3.没有统一的汉语词类划分标准,有些语料划分很粗糙。
注意:《现代汉语八百词》收取的常用词中,兼类词所占的比例高达22.5%,而且发现越是常用的词,不同的用法越多。由于兼类使用程度高,兼类现象涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量巨大。

进行词性标注的原因

词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。

词性标注的方法

词性标注这里基本可以照搬分词的工作,在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。

主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:
1、基于最大熵的词性标注
2、基于统计最大概率输出词性
3、基于HMM的词性标注

词性标注的应用

1、句法分析预处理
2、词汇获取预处理
3、信息抽取预处理

汉语词性对照表

词法分析与词性标注学习之笔记(二)----词性标注_第1张图片
词法分析与词性标注学习之笔记(二)----词性标注_第2张图片
词法分析与词性标注学习之笔记(二)----词性标注_第3张图片
词性标注有小标注集和大标注集。
例如小标注集把代词都归为一类,大标注集可以把代词进一步分成三类。
人称代词:你、我、他、它、你们、我们、他们
疑问代词:哪里、什么、怎么
指示代词:这里、那里、这些、那些
采用小标注集比较容易实现,但是太小的标注集可能会导致类型区分度不够。、
举个例子:在黑白两色世界中,可以通过颜色的深浅来分辨出物体,但是通过七彩颜色可以分辨出更多的物体。
练习例子
示例一
词法分析与词性标注学习之笔记(二)----词性标注_第4张图片
示例二
词法分析与词性标注学习之笔记(二)----词性标注_第5张图片

你可能感兴趣的:(词法分析与词性标注学习之笔记(二)----词性标注)