注:对《流畅的python》第三章,用setdefault处理找不到的键,的解析
当字典 d[k] 不能找到正确的键的时候,Python 会抛出异常。
也许可以用d.get(k, default)
来代替 d[k],给找不到的键一个默认的返回值(这比处理 KeyError 要方便不少)。但是要更新某个键对应的值的时候,不管使用__getitem__
还是get
都会不自然,而且效率低。就像示例 3-2 中的还没有经过优化的代码所显示的那样,dict.get
并不是处理找不到的键的最好方法。
一般的解决方法
示例 3-2 这段程序从索引中获取单词出现的频率信
息,并把它们写进对应的列表里
#创建一个从单词到其出现情况的映射
import sys
import re
WORD_RE = re.compile(r'\w+')❶
index = {}
with open(sys.argv[1], encoding='utf-8') as fp:❷
for line_no, line in enumerate(fp, 1):❸
for match in WORD_RE.finditer(line):❹
word = match.group()❺
column_no = match.start() + 1❻
location = (line_no, column_no)#记录单词所在的行和列
# 这其实是一种很不好的实现,这样写只是为了证明论点
occurrences = index.get(word, [])
#通过get函数,获得字典里word对应的值,如果没找到word(还没有记录),则返回[]
occurrences.append(location) #将单词的位置加到位置list的后面
index[word] = occurrences #将字典中word对应的列表进行更新
# 以字母顺序打印出结果
for word in sorted(index, key=str.upper):
print(word, index[word])
示例 3-3 这里是示例3-2 的不完全输出,每一行的列表都代表一
个单词的出现情况,列表中的元素是一对值,第一个值表示出现的
行,第二个表示出现的列
$ python3 index0.py ../../data/zen.txt
a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
be [(15, 14), (16, 27), (20, 50)]
Beautiful [(3, 1)]
...
❶'\w+'正则表达式
正则表达式中的'\w+'
(1)对于Unicode(str类型)模式:匹配任何Unicode的单词字符,基本上所有语言的字符都可以匹配,当然也包括数字和下划线;如果开启了re.ASCII标志,就只匹配[a-zA-Z0-9]
(2)对于8位(bytes类型)模式:匹配ASCII中定义的字母数字,即[a-zA-Z0-9]
此处我觉得应该就是(2)
❷sys.argv
sys.argv
是传递给Python脚本的命令行参数列表。argv[0]是脚本名称(依赖于操作系统,无论这是否是完整路径名)。如果使用-c解释器的命令行选项执行命令,argv[0]则将其设置为字符串' -c'。如果没有脚本名称传递给Python解释器,argv[0]则为空字符串。
举例
$ python hello.py
>>> print(sys.agrv)
['hello.py']
$ python hello.py world
>>> print(sys.argv)
['hello.py', 'world']
$ python hello.py world hello
>>> print(sys.argv)
['hello.py', 'world', 'hello']
with open(sys.argv[1], encoding='utf-8') as fp
这句话就是以utf-8
文件模式打开sys.argv[1]
文件,将文件开头的位置传给fp
参数
❸enumerate()函数
enumerate()
函数用于将一个可遍历的数据对象(如字符串、元组、列表)组合成一个索引序列,同时列出数据下标和数据(一般用在for循环当中)
语法:enumerate(seq, [start =0])
seq:一个序列、迭代器或其他支持迭代对象
start:下标起始的位置(一般默认为0)
>>> number = ['one', 'two', 'three']
>>> list(enumerate(number))
[(0, 'one'), (1, 'two'), (2, 'three')]
>>> list(enumerate(number, start = 2))
[(2, 'one'), (3, 'two'), (4, 'three')]
#for 循环使用enumerate
>>> for i, element in enumerate(seq):
··· print i, element
···
0 one
1 two
2 three
❹finditer()函数
re.finditer(pattern, string, flags = 0)
在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回
import re
it = re.finditer(r"\d+", "123abc456def789")
for match in it:
print(match.group())
输出结果:
123
456
789
❺match.group()正则表达式
我们使用group(num)或groups()匹配对象函数来获取匹配表达式
group(num = 0):匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups():返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
❻正则表达式start()和end()
start([group])
方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为0;
end([group])
方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为0;
采用setdefault的更好的解决方法
示例 3-4 用dict.setdefault就解决了获取和更新单词的出现情况列表
#创建从一个单词到其出现情况的映射
import sys
import re
WORD_RE = re.compile(r'\w+')
index = {}
with open(sys.argv[1], encoding='utf-8') as fp:
for line_no, line in enumerate(fp, 1):
for match in WORD_RE.finditer(line):
word = match.group()
column_no = match.start()+1
location = (line_no, column_no)
index.setdefault(word, []).append(location) ➊
# 以字母顺序打印出结果
for word in sorted(index, key=str.upper):
print(word, index[word])
➊获取单词的出现情况列表,如果单词不存在,把单词和一个空列表放进映射,然后返回这个空列表,这样就能在不进行第二次查找的情况下更新列表了
也就是说,这样写
my_dict.setdefault(key, []).append(new_value)
与这样写
if key not in my_dict:
my_dict[key] = []
my_dict[key].append(new_value)
二者的效果是一样的,只不过后者至少要进行两次键查询——如果键不存在的话,就是三次,用setdefault只需要一次就可以完成整个操作。
(转载自https://blog.csdn.net/qq_43168521/article/details/103027871)