Python中通过Key访问字典,当Key不存在时,会引发‘KeyError’异常。为了避免这种情况的发生,可以使用collections类中的defaultdict()方法来为字典提供默认值。
collections.defaultdict([default_factory[, …]])
该函数返回一个类似字典的对象。defaultdict是Python内建字典类(dict)的一个子类(见下文的背景补充),它重写了方法_missing_(key),增加了一个可写的实例变量default_factory,实例变量default_factory被missing()方法使用,如果该变量存在,则用以初始化构造器,如果没有,则为None。其它的功能和dict一样。
第一个参数为default_factory属性提供初始值,默认为None;其余参数包括关键字参数(keyword arguments)的用法,和dict构造器用法一样。
defaultdict属于内建函数dict的一个子类,调用工厂函数提供缺失的值。
什么是工厂函数?
Python 2.2 统一了类型和类, 所有的内建类型现在也都是类, 在这基础之上, 原来的 所谓内建转换函数象int(), type(), list() 等等, 现在都成了工厂函数。 也就是说虽然他 们看上去有点象函数, 实质上他们是类。当你调用它们时, 实际上是生成了该类型的一个实 例, 就象工厂生产货物一样。
下面这些大家熟悉的工厂函数在老的Python 版里被称为内建函数:
int(), long(), float(), complex()
str(), unicode(), basestring()
list(), tuple()
type()
以前没有工厂函数的其他类型,现在也都有了工厂函数。除此之外,那些支持新风格的类的全新的数据类型,也添加了相应的工厂函数。下面列出了这些工厂函数:
dict()
bool()
set(), frozenset()
object()
classmethod()
staticmethod()
super()
property()
file()
1、使用list作第一个参数,可以很容易将键-值对序列转换为列表字典。
代码如下:
In [6]: from collections import defaultdict
In [7]: s=[('yellow',1),('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
In [8]: d=defaultdict(list)
In [9]: for k, v in s:
...: d[k].append(v)
...: a=sorted(d.items())
...: print(a)
# 输出结果
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]
当字典中没有的键第一次出现时,default_factory自动为其返回一个空列表,list.append()会将值添加进新列表;再次遇到相同的键时,list.append()将其它值再添加进该列表。
这种方法比使用dict.setdefault()更为便捷,dict.setdefault()也可以实现相同的功能。
代码如下:
In [10]: s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
In [11]: d={}
In [12]: for k, v in s:
...: d.setdefault(k,[]).append(v)
...: print('\n',d)
...: a=sorted(d.items())
...: print('\n',a)
# 输出结果
{'yellow': [1, 3], 'blue': [2, 4], 'red': [1]}
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]
整合三者(defaultdict、setdefault和dict)可以看一下例子:
import collections
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
# defaultdict
d = collections.defaultdict(list)
for k, v in s:
d[k].append(v)
# Use dict and setdefault
g = {}
for k, v in s:
g.setdefault(k, []).append(v)
# Use dict
e = {}
for k, v in s:
e[k] = v
输出结果为:
list(d.items())
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]
>>> list(g.items())
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]
>>> list(e.items())
[('blue', 4), ('red', 1), ('yellow', 3)]
>>> d
defaultdict(<class 'list'>, {'blue': [2, 4], 'red': [1], 'yellow': [1, 3]})
>>> g
{'blue': [2, 4], 'red': [1], 'yellow': [1, 3]}
>>> e
{'blue': 4, 'red': 1, 'yellow': 3}
>>> d.items()
dict_items([('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])])
>>> d["blue"]
[2, 4]
>>> d.keys()
dict_keys(['blue', 'red', 'yellow'])
>>> d.default_factory
<class 'list'>
>>> d.values()
dict_values([[2, 4], [1], [1, 3]])
可以看出collections.defaultdict(list)使用起来效果和运用dict.setdefault()比较相似的。
2、defaultdict还可以被用来计数,将default_factory设为int即可。
代码如下:
In [13]: from collections import defaultdict
In [14]: s = 'mississippi'
In [15]: d = defaultdict(int)
In [16]: for k in s:
...: d[k] += 1
...: print('\n',d)
...: a=sorted(d.items())
...: print('\n',a)
# 输出结果
defaultdict(<class 'int'>, {'m': 1, 'i': 4, 's': 4, 'p': 2})
[('i', 4), ('m', 1), ('p', 2), ('s', 4)]
字符串中的字母第一次出现时,字典中没有该字母,default_factory函数调用int()为其提供一个默认值0,加法操作将计算出每个字母出现的次数。
函数int()是常值函数的一种特例,总是返回0。使用匿名函数(lambda function)可以更快、更灵活的创建常值函数,返回包括0在内的任意常数值。
代码:
In [17]: from collections import defaultdict
In [18]: def constant_factory(value):
...: return lambda: value
...: d = defaultdict(constant_factory('' ))
...: print('\n',d)
...: d.update(name='John', action='ran')
...: print('\n',d)
...: print('\n','%(name)s %(action)s to %(object)s' % d)
# 输出结果
defaultdict(<function constant_factory.<locals>.<lambda> at 0x7f94cb0ca7b8>, {})
defaultdict(<function constant_factory.<locals>.<lambda> at 0x7f94cb0ca7b8>, {'name': 'John', 'action': 'ran'})
John ran to <missing>
3、default_factory设为set时,可以用defaultdict建立集合字典(a dictionary of sets)。
代码:
In [19]: from collections import defaultdict
In [20]: s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
In [21]: d = defaultdict(set)
In [22]: for k, v in s:
...: d[k].add(v)
...: print('\n',d)
...: a=sorted(d.items())
...: print('\n',a)
defaultdict(<class 'set'>, {'red': {1, 3}, 'blue': {2, 4}})
[('blue', {2, 4}), ('red', {1, 3})]