NLP Lemmatisation(词性还原) 和 Stemming(词干提取) NLTK pos_tag word_tokenize
词形还原(lemmatization),是把一个词汇还原为一般形式(能表达完整语义),方法较为复杂;而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义),方法较为简单。Stemming(词干提取):基于语言的规则。如英语中名词变复数形式规则。由于基于规则,可能出现规则外的情况。#PorterStemmer基于Porter词干提取算法fromnltk.stem.porte