nltk中文语料库使用总结



[BracketParseCorpusReader]

from nltk.corpus import BracketParseCorpusReader
corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义
file_pattern = r".*/.*\.txt"    #匹配corpus_root目录下的所有子目录下的txt文件
ptb = BracketParseCorpusReader(corpus_root, file_pattern)   #初始化读取器:语料库目录和要加载文件的格式,默认utf8格式的编码
ptb.fileids()   #至此,可以看到目录下的所有文件名,例如C000008/1001.txt,则成功了
ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致,则看到内容


[PlaintextCorpusReader]

from nltk.corpus import PlaintextCorpusReader
corpus_root = r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced"
file_pattern = r"1001\.txt"
wordlists = PlaintextCorpusReader(corpus_root, file_pattern)
wordlists.fileids()
wordlists.words("1001.txt")


保存成utf-8格式


http://blog.csdn.net/myproudcodelife/article/details/52624340






你可能感兴趣的:(nltk中文语料库使用总结)