利用nltk提取词组

当然了,以下的前提是你已经安装好了nltk这个包!
按照注释改变相关参数就可以了!

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import nltk
from nltk import *
from nltk.corpus import PlaintextCorpusReader
def getcizu():
       corpus_root='/Users/noneback/protoncorpus'
       #这里设置自己的文件夹
       wordlists=PlaintextCorpusReader(corpus_root,'.*')
       x=nltk.Text(wordlists.words('合并好了.txt'))
       #自行修改自己所设置文件夹下txt的名字
       print  (x.collocations(20))
        #改动20可以设置提取词组的数目
getcizu()

你可能感兴趣的:(利用nltk提取词组)