词性标注(Part-of-speech Tagging, POS)

POS是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。
其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。

c词性标注就是在句子中的分词后加上词的性质如名词(n)、动词(v)、等等。

词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取“歌曲”的相关属性时,我们有一系列短语:

儿童歌曲
欢快歌曲
各种歌曲
悲伤歌曲
……

如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如

[形容词]歌曲
[名词]歌曲

而**[代词]歌曲**往往不是描述歌曲属性的模板。

词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确与否将会直接影响到后续的句法分析、语义分析,是中文信息处理的基础性课题之一。

常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。

NLTK词性标注英文简称及分类:

标注词表:

名词 NN,NNS,NNP,NNPS
代词 PRP,PRP$
形容词 JJ,JJR,JJS
数词 CD
动词 VB,VBD,VBG,VBN,,VBP,VBZ
副词 B,RBR,RB

你可能感兴趣的:(知识图谱,自然语言处理)