斯坦福NLP笔记4 —— Word Normalization and Stemming

这节主要讲一些语言学的东西,一开始是lemmatization。

lemmatization:将词形变换转(inflections)为基本形式,看个例子:

  • am,are,is --> be

  • car,car's,cars --> car

  • the boy's cars are different colors -->the boy car be different color

然后介绍了morphology和morphemes,即构成词的要素,morphemes分为stems和affixes。

  • stems:词干,譬如discredit的credit

  • affixes:词缀,譬如discredit的dis

stemming:将一个词reduce得只剩下词干stem,譬如去掉词缀

最常用的英文stemming算法:Porter's Algorithm

斯坦福NLP笔记4 —— Word Normalization and Stemming_第1张图片

值得注意的是在去ing的时候有这样一个原则:

ing前面有元音时才去ing,否则不去,像sing这样前面没有元音的就不去ing。然后教授对此展开了具体的论述。譬如在有些时候这条规则是problematic的,如下:

斯坦福NLP笔记4 —— Word Normalization and Stemming_第2张图片

nothing、something都是前面有元音的词,但是他们的ing也不应该被去掉。

最后教授拿土耳其语举了个例子,来说明有些语言的morpheme segmentation相当复杂,因为土耳其语里面一个词格外长,几十个字母,其实就只是一个词。



你可能感兴趣的:(斯坦福NLP笔记4 —— Word Normalization and Stemming)