一篇文章,先转为单词为元素的列表。
分解时遇到的第一个问题,就是如果去除各类标点符号。
import re
line='asdf fjdk;;;; s afred,,fjek.asdf, foo^ sdkk'
re.split(r'[;^,.\s]*',line) # 表示后面的字符串没有转义符。【这里面是要作为分隔的各类符号】,外面的*表示重复也算。
运算结果,['asdf', 'fjdk', 'afred', 'fjek', 'asdf', 'foo', 'sdkk']
在得到分解LIST后,就可以进行单词分析了。要用到Counter工具。
words = [
'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
'my', 'eyes', "you're", 'under'
]
from collections import Counter
word_counts = Counter(words)
top_three = word_counts.most_common(3)
print(top_three)
# Outputs [('eyes', 8), ('the', 5), ('look', 4)]