NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。
这个分割器我多啰嗦几句,如果用英文表示的话,其实tokenizer可以是很多个意思,但是这个词不能翻译,一翻译这个词就完蛋了,就会丢失它原本具有的很多意思。你说它翻译成分词器,但是它也可以是分句器,分段器,所以干脆翻译成分割器得了。或者理解成刀,刀片,切割器也行。
单词分割器--分词器
句子分割器--分句器
段落分割器--分段器
章节分割器--分节器
以上都是叫 tokenizer,但是用中文表述的时候,可以有选择的表述,因此,后文不管是什么分X器,都是tokenizer。
TreebankWordTokenizer WordPunctTokenizer PunctWordTokenizer WhitespaceTokenizer
In Düsseldorf I took my hat off. But I can't put it back on.
分词结果
TreebankWordTokenizer (宾夕法尼亚州立大学 Treebank单词分割器)
In/ Düsseldorf/ I took/ my/ hat/ off/ ./ But/ I/ ca/ n't/ put/ it/ back/ on/ ./
In/ Düsseldorf/ I/ took/ my/ hat/ off/ ./ But/ I/ can/ '/ t/ put/ it/ back/ on/ ./
In/ Düsseldorf/ I/ took/ my/ hat/ off./ But/ I/ can/ 't/ put/ it/ back/ on./
In/ Düsseldorf/ I/ took/ my/ hat/ off./ But/ I/ can't/ put/ it/ back/ on./