产生 \ufeff 问题的原因及解决办法

今天遇到以下问题:

name = []
with open('唐诗宋词.txt', 'r', encoding='utf-8') as f:
	for i in f:
		fen = i.split(':')
		print(fen[0], fen[1])
		if fen[0].strip() == '诗名':
			name.append(fen[1].strip())
		print(name)

结果为:

诗名 贼退示官吏并序
[]

这是为什么呢?后来发现:

print(fen)

结果为:

['\ufeff诗名', '贼退示官吏并序\n']

\ufeff 这是哪来的呢?网上搜索后发现原来是文本保存时包含了BOM(Byte Order Mark,字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码)导致的,解决方法是使用 utf-8-sig 编码

name = []
with open('唐诗宋词.txt', 'r', encoding='utf-8-sig') as f:
	for i in f:
		fen = i.split(':')
		print(fen)
		if fen[0].strip() == '诗名':
			name.append(fen[1].strip())
		print(name)

结果为:

['诗名', '贼退示官吏并序\n']
['贼退示官吏并序']

以后保存 txt 文件时一定要注意不要带有 bom,如果已经包含了 bom 则可使用 notepad++ 编辑器转换为无BOM格式的文本文件。

你可能感兴趣的:(Python)