任一个英文的纯文本文件,统计其中的单词出现的个数。

任一个英文的纯文本文件,统计其中的单词出现的个数。

import re

fo = open('technology.txt', encoding='gb18030', errors='ignore')
# 把文本变成单个的单词放到list里面
def readFiles(file):
	arr = []
	lines = file.readlines()
	for line in lines:
		# 本文中只有, ; . 三个符号所以直接匹配这三个
		line = re.sub('[\n,;.]', '', line)
		line = line.strip()
		if line.strip() != '':
			arr.extend(line.split(' '))
	return arr
a = readFiles(fo)

def statistics(arr, maax):
	json = {}.fromkeys(arr)
	for i in json:
		json[i] = arr.count(i)
	if maax:
		jsn = []
		for key, val in json.items():
			if max(json.values()) == val:
				jsn.append((key, val))
		return json, jsn
	return json
print(statistics(a, True))

 

你可能感兴趣的:(任一个英文的纯文本文件,统计其中的单词出现的个数。)