Python自然语言处理(十)------标注词汇与分类

词性标注:将词汇按照它们的词性分类并相应地对它们进行标注的过程。

标记集:用于特定任务标记的集合。

重点:利用标记和自动标注文本

词性标注器

词性标注器:处理一个词序列,为每个词附加一个词性标注。

例:

Python自然语言处理(十)------标注词汇与分类_第1张图片

 包括一些同形同音异义词(refuse,permit)

为什么要引入词汇类别(如名词)以及词性标记(NN)?

因为这些类别中很多都源于对文本中词语分布的浅层分析。

例:使用similar()方法找到某个词的所有上下文,然后找出所有出现在相同上下文中的其他词 

Python自然语言处理(十)------标注词汇与分类_第2张图片

搜索woman找到的是名词;搜索bought找到的大部分是动词;搜索over一般会找到介词;搜索the找到某些限定词。 

一个标注器能够正确识别句子上下文中这些词的标记,也可以对未知词的认识过程建模(根据词根猜测词性)。

标注语料库

标注语料库:表示已标注的标识符

按照NLTK的规定,已标注的标识符使用一个由标识符和标记组成的元组来表示。

 

读取已标注的语料库

 

 

自动标注

词的标记依赖于这个词和它在句子中的上下文。

默认标注器

默认标注器:给每个单独的词分配标记。为了得到最好的效果,我们用最有可能的标记标注每个词。事实上,这种方法不太可行,正确率过低。

默认标注器可以帮助我们提高语言系统的稳定性。

例:

Python自然语言处理(十)------标注词汇与分类_第3张图片

正则表达式标注器

正则表达式标注器:基于匹配模式分配标识给标识符。

查询标注器

查询标注器:找出100个最频繁的词,存储它们最有可能的标记,然后我们使用这个标记作为“查找标注器”的模型。

回退:先使用查找表,如果它不能指定标记就使用默认标注器。

例:

评估

使用黄金标准测试数据,这是一个手动标注并作为自动系统评估标准而被接受的语料库。当给定词猜测的标记与黄金标准标记相同,标注器被视为正确的。

 

如何确定一个词的分类?

  • 形态学线索(例:-ness与形容词结合形成名词,如happy-->happiness)
  • 句法线索(一个词可能出现的典型的上下文语境)
  • 语义线索
  • 新词

 

 

 

 

 

 

 

你可能感兴趣的:(Python自然语言处理)