python分词统计词频_-用python找出一篇文章中词频最高的20个单词

python统计一个大文件中很多小文件里面的词频

#!/usr/bin/env python3.6

from collections import Counter

from functools import reduce

from operator import add

from pathlib import Path

ps = Path().glob('*.txt')

c = reduce(add, [Counter(p.read_text().split()) for p in ps])

print(c.most_common())

如何用python对文章中文分词并统计词频

1、全局变量在函数中时加入global声明

2、获页内容存入文件时的编码ascii进行正则匹配时需要decode为GB2312,当匹配到的中文写入文件时需要encode成GB2312写入文件。

3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5] ',使用findall找到所有的中文字符存入分组

4、KEY,Value值可以使用dict存储,排序后可以使用list存储

5、字符串处理使用split分割,然后使用index截取字符串,判断哪些是名词和动词

6、命令行使用需要导入os,os.system(cmd)

请问如何用python提取出一个txt文件中词频最高的二十个词语并从大到小输出?

用python找出一篇文章中词频最高的20个单词

import re

from collections import Counter

from matplotlib.pyplot import pie,show

f = 't.txt'

c = Counter(re.findall(r'(\w{3,})',open(f).read().lower())).most_common(20)

pie([i[1] for i in c],labels=[i[0] for i in c])

show()

Python 如何对输出的词频结果按字母顺序排序(NLTK)

import nltk

file_b = open('a.txt', 'r')

tokens = nltk.word_tokenize(file_b)

fdist1 = nltk.FreqDist(tokens)

for key,val in sorted(fdist1.iteritems())[:5]:

print ("{1}: {0}".format(key, round(val / len(tokens), 2)))

版权声明:本站所有文章皆为原创,欢迎转载或转发,请保留网站地址和作者信息。

你可能感兴趣的:(python分词统计词频)