關於英文預處理

分詞 tokenize

不要想當然使用split()進行分詞,這樣的分詞並不會去掉標點符號。
常用的分詞工具在nltk中就有。

  1. tokenizer
from nltk import word_tokenize
content = word_tokenize(html_doc.decode('utf8'))

但是這個就不能去除標點符號了

  1. RegexpTokenizer
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
content = tokenizer.tokenize(html_doc.decode('utf8'))

保留詞乾 Stemming

# cdoe for stemming
from nltk.stem.porter import PorterStemmer 
porter_stemmer = PorterStemmer()
porter_stemmer.stem(word.lower().decode('utf-8'))

你可能感兴趣的:(關於英文預處理)