python3 Counter类(计数器)
Counter(计数器):用于追踪值的出现次数
Counter类继承dict类,所以它能使用dict类里面的方法
创建一个Counter类
import collections
obj = collections.Counter('aabbccc')
print(obj)
#输出:Counter({'c': 3, 'a': 2, 'b': 2})
elements()
复制代码
import collections
obj = collections.Counter('aabbccc')
print(sorted(obj.elements()))
#输出:['a', 'a', 'b', 'b', 'c', 'c', 'c']
for k in obj.elements(): #遍历打印obj所有元素
print(k)
复制代码
most_common(指定一个参数n,列出前n个元素,不指定参数,则列出所有)
import collections
obj = collections.Counter('aabbbcccc')
print(obj.most_common(2))
#输出:[('c', 4), ('b', 3)]
items(从dict类中继承的方法)
复制代码
import collections
obj = collections.Counter('aabbbcccc')
print(obj.items())
for k,v in obj.items():
print(k,v)
#输出:dict_items([('b', 3), ('c', 4), ('a', 2)])
# b 3
# c 4
# a 2
复制代码
update(增加元素)
import collections
obj = collections.Counter(['11','22'])
obj.update(['22','55'])
print(obj)
#输出:Counter({'22': 2, '11': 1, '55': 1})
subtract(原来的元素减去新传入的元素)
import collections
obj = collections.Counter(['11','22','33'])
obj.subtract(['22','55'])
print(obj)
#输出:Counter({'11': 1, '33': 1, '22': 0, '55': -1})
Python collections.Counter用法
什么是collections
Counter
Counter操作
例子
什么是collections
collections在python官方文档中的解释是High-performance container datatypes,直接的中文翻译解释高性能容量数据类型。
它总共包含五种数据类型:
其中Counter中文意思是计数器,也就是我们常用于统计的一种数据类型,在使用Counter之后可以让我们的代码更加简单易读。
Counter
我们先看一个简单的例子:
#统计词频
colors = ['red', 'blue', 'red', 'green', 'blue', 'blue']
result = {}
for color in colors:
if result.get(color)==None:
result[color]=1
else:
result[color]+=1
print (result)
#{'red': 2, 'blue': 3, 'green': 1}
下面我们看用Counter怎么实现:
from collections import Counter
colors = ['red', 'blue', 'red', 'green', 'blue', 'blue']
c = Counter(colors)
print (dict(c))
显然代码更加简单了,也更容易读和维护了。
Counter操作
可以创建一个空的Counter:
cnt = Counter()
1
之后在空的Counter上进行一些操作。
也可以创建的时候传进去一个迭代器(数组,字符串,字典等):
c = Counter('gallahad') # 传进字符串
c = Counter({'red': 4, 'blue': 2}) # 传进字典
c = Counter(cats=4, dogs=8) # 传进元组
判断是否包含某元素,可以转化为dict然后通过dict判断,Counter也带有函数可以判断:
c = Counter(['eggs', 'ham'])
c['bacon'] # 不存在就返回0
#0
删除元素:
c['sausage'] = 0 # counter entry with a zero count
del c['sausage']
获得所有元素:
c = Counter(a=4, b=2, c=0, d=-2)
list(c.elements())
#['a', 'a', 'a', 'a', 'b', 'b']
查看最常见出现的k个元素:
Counter('abracadabra').most_common(3)
#[('a', 5), ('r', 2), ('b', 2)]
Counter更新:
c = Counter(a=3, b=1)
d = Counter(a=1, b=2)
c + d # 相加
#Counter({'a': 4, 'b': 3})
c - d # 相减,如果小于等于0,删去
#Counter({'a': 2})
c & d # 求最小
#Counter({'a': 1, 'b': 1})
c | d # 求最大
#Counter({'a': 3, 'b': 2})
例子
例子:读文件统计词频并按照出现次数排序,文件是以空格隔开的单词的诸多句子:
from collections import Counter
lines = open("./data/input.txt","r").read().splitlines()
lines = [lines[i].split(" ") for i in range(len(lines))]
words = []
for line in lines:
words.extend(line)
result = Counter(words)
print (result.most_common(10))
当需要统计的文件比较大,使用read()一次读不完的情况:
from collections import Counter
result = Counter()
with open("./data/input.txt","r") as f:
while True:
lines = f.read(1024).splitlines()
if lines==[]:
break
lines = [lines[i].split(" ") for i in range(len(lines))]
words = []
for line in lines:
words.extend(line)
tmp = Counter(words)
result+=tmp
print (result.most_common(10))