Python多线程实战:多线程并行很快,但写文件要加锁

在用Python批量处理某些事务时,一个定式如下:

def do_sth(item):
	# 一些事务

for item in items:
	do_sth(item)

如果每一个item的处理是可以乱序执行的,我们可以多线程并行执行,起到加速效果:

from multiprocessing.pool import ThreadPool

def do_sth(item):
	# 一些事务

pool = ThreadPool(processes=32)
for item in items:
    pool.apply_async(func=do_sth, args=(item,))
pool.close()
pool.join()

有的时候do_sth涉及到写文件,这种时候需要在写文件的时候加锁,保证同时至多有一个线程访问该文件,从而保证正确性:

from multiprocessing.pool import ThreadPool
from threading import Lock

with open('test.txt', 'w') as f:

	def do_sth(item):
		# 一些事务
		with lock:
			f.write('something')
		# 一些事务
	
	pool = ThreadPool(processes=32)
	for item in items:
	    pool.apply_async(func=do_sth, args=(item,))
	pool.close()
	pool.join()

如果不加锁的话,可能会出现写入混乱,最终的文件中包含0xc4这样的乱码。在读取这样的写入结果文件时(使用open),会报形如以下的UnicodeDecodeError:

UnicodeDecodeError:‘utf-8‘codec can‘t decode byte 0xc4 in position 0: invalid continuation byte

一个补救方式是手动检查文件中的非Unicode字符并删掉。在vim里可以使用以下正则表达式来匹配非英文字符:

/[^a-zA-Z0-9{}": /_.,?'!#$%&*()-+-\\\;><=|~`\[\]^@]

你可能感兴趣的:(Python,python,数据库,后端)