NLTK（一）：英文分词分句

著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

一、NLTK 的安装
如果是python 2.x 的环境，安装命令如下：

sudo pip install nltk

如果是python 3.x 的环境，安装命令如下：

sudo pip3 install nltk

成功地执行了上述命令后，NLTK 的安装还没有彻底地完成，还需要在 python 中执行如下的代码：

import nltk
nltk.download()

代码执行后，会弹出如下的界面：

NLTKInstall.png

点击 “all” 这一行，然后点击 “Download” 按钮进行下载。“Download Directory” 一开始可以先随便设置，但文件夹的名字必须是 nltk_data，下载完成后可以先执行一段分词的代码（随后将会提到这段代码），代码会报错，错误提示说找不到相应的资源文件，并在这段错误提示中告诉我们应该把刚才下载下来的资源放到哪里。你可能会疑惑：为什么不在下载之前将 “Download Directory” 设置正确呢？这是因为我们一开始也不知道正确的 “Download Directory” 是什么，所以先随便设置了一个，然后通过错误提示再将下载好的资源放到正确的路径下面。
资源下载过程中可能会多次出现下载异常的情况，每次遇到这种情况后，关掉正在执行的代码，然后重新执行代码进行下载即可。

二、分词
1、分词方式
分词使用的方法是 word_tokenize()，分词的代码如下：

from nltk.tokenize import word_tokenize
 
data = "All work and no play makes jack a dull boy, all work and no play"
print(word_tokenize(data))

代码执行结果如下：

['All', 'work', 'and', 'no', 'play', 'makes', 'jack', 'a', 'dull', 'boy', ',', 'all', 'work', 'and', 'no', 'play']

注意：上述结果集中有一个 “逗号”，也被当做了一个词。
2、停用词
英文中的停用词如 “the”，“is”，“are” 等等。在自然语言处理（NLP）中没有通用的停用词列表，然而这里，在 NLTK 模块有其自带的停用词列表。
去停用词的代码如下：

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
 
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
stopWords = set(stopwords.words('english'))
words = word_tokenize(data)
wordsFiltered = []
 
for w in words:
    if w not in stopWords:
        wordsFiltered.append(w)
 
print(wordsFiltered)

提示：
1、如果我们想要修改 NLTK 的停用词列表，可以去我们一开始提到的下载的资源中去修改。具体位置是在 nltk_data --> corpora --> stopwords 文件夹中，进入这个文件夹后，我们会发现很多种语言的停用词列表，然后按照自己的需要进行修改即可。
2、NLTK 不支持对中文的分词，如果想要对中文进行分词，可以考虑使用结巴（jieba）分词，这里不再做过多阐述。

三、分句
分句使用的方法是 sent_tokenize()，分句的代码如下：

from nltk.tokenize import sent_tokenize
 
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
print(sent_tokenize(data))

代码执行结果如下：

['All work and no play makes jack dull boy.', 'All work and no play makes jack a dull boy.']

提示：和分词一样，NLTK 同样不支持对中文的分句。具体支持哪些语言的分句，可以参考 nltk_data --> tokenizers --> punkt，进入这个文件夹后就一目了然了。

多说一点：
NLTK 支持的分句方式不止这一种类型，但无论哪种类型，都是相对简单的。如果直接应用到工业中一般都会多少出现一些这样或那样的问题。因为在现实当中存在很多习惯性的非正式的缩写，同时一个词里面可能包含某些特殊符号等，这些因素都会导致分词的错误。目前的解决方案主要是通过自定义词典来弥补上述的不足。

NLTK（一）：英文分词分句

相关文档

你可能感兴趣的:(NLTK（一）：英文分词分句)