多线程编程
多任务可以由多进程完成,也可以由一个进程内的多线程完成。
我们前面提到了进程是由若干线程组成的,一个进程至少有一个线程。
由于线程是操作系统直接支持的执行单元,因此,高级语言通常都内置多线程的支持,Python也不例外,并且,Python的线程是真正的Posix Thread,而不是模拟出来的线程。
Python的标准库提供了两个模块:_thread
和threading
,_thread
是低级模块,threading
是高级模块,对_thread
进行了封装。绝大多数情况下,我们只需要使用threading
这个高级模块。
(1)启动一个线程就是把一个函数传入并创建Thread
实例,然后调用start()
开始执行:
def loop(x):
print("%s start" % threading.current_thread().name)
for i in range(x):
time.sleep(1)
print("%s:%d" % (threading.current_thread().name, i))
print("%s stop" % threading.current_thread().name)
print("%s start" % threading.current_thread().name)
t1 = threading.Thread(target=loop, args=(6,))
t1.start()
print("%s stop" % threading.current_thread().name)
程序中为Thread类创建了一个实例t1,传入的参数是函数名loop以及loop函数的参数列表,利用threading.current_thread()返回当前运行的线程实例,程序运行的结果如下:
MainThread start
Thread-1 start
MainThread stop
Thread-1:0
Thread-1:1
Thread-1:2
Thread-1:3
Thread-1:4
Thread-1:5
Thread-1 stop
我们从运行结果看到,主线程MainThread先于子线程Thread-1退出
多线程运行过程如下图:
如果我们希望主线程等待子线程呢?下面看看join()方法的效果:
(2)join()
import threading
import time
def loop(x):
print("%s start" % threading.current_thread().name)
for i in range(x):
time.sleep(1)
print("%s:%d" % (threading.current_thread().name, i))
print("%s stop" % threading.current_thread().name)
print("%s start" % threading.current_thread().name)
t1 = threading.Thread(target=loop, args=(6,))
t1.start()
t1.join()
print("%s stop" % threading.current_thread().name)
我们在上面的代码段内加入了 t1.join() ,看看运行效果:
MainThread start
Thread-1 start
Thread-1:0
Thread-1:1
Thread-1:2
Thread-1:3
Thread-1:4
Thread-1:5
Thread-1 stop
MainThread stop
从上面的运行结果看,MainThread在join之后一直停在join的地方,等待子线程Thread-1退出后才继续执行下去。
假如我们希望主线程退出的时候,不管子线程运行到哪里,强行让子线程退出呢?我们有 setDaemon(True) 方法:
(3)setDaemon()
import threading
import time
def loop(x):
print("%s start" % threading.current_thread().name)
for i in range(x):
time.sleep(1)
print("%s:%d" % (threading.current_thread().name, i))
print("%s stop" % threading.current_thread().name)
print("%s start" % threading.current_thread().name)
t1 = threading.Thread(target=loop, args=(6,))
t1.setDaemon(True)
t1.start()
print("%s stop" % threading.current_thread().name)
程序运行结果:
1 MainThread start
2 Thread-1 start
3 MainThread stop
我们看到主线程一旦退出,子线程也停止了,需要注意的是 setDaemon(True) 在 start() 之前
(4)lock
多线程和多进程最大的不同在于,多进程中,同一个变量,各自有一份拷贝存在于每个进程中,互不影响,而多线程中,所有变量都由所有线程共享,所以,任何一个变量都可以被任何一个线程修改,因此,线程之间共享数据最大的危险在于多个线程同时改一个变量,把内容给改乱了。
来看看多个线程同时操作一个变量怎么把内容给改乱了:
import threading
deposit = 0 # 银行存款
def change_it(n):
global deposit
deposit = deposit + n # 存
deposit = deposit - n # 取
def loop(n):
for i in range(100000):
change_it(n)
t1 = threading.Thread(target=loop, args=(5,))
t2 = threading.Thread(target=loop, args=(8,))
t1.start()
t2.start()
t1.join()
t2.join()
print(deposit)
我们定义了一个共享变量deposit
,初始值为0
,并且启动两个线程,先存后取,理论上结果应该为0
,但是,由于线程的调度是由操作系统决定的,当t1、t2交替执行时,只要循环次数足够多,deposit
的结果就不一定是0
了(运行的结果不定,有时候是0,有时候是5,8,-8,-3等),deposit值的偏差随着loop里循环的次数增加。
原因是因为高级语言的一条语句在CPU执行时是若干条语句,即使一个简单的计算:
deposit = deposit + n
也分两步:
deposit + n
,存入临时变量中;上面的语句等价于:
temp = deposit + n
deposit = temp
(尝试将语句改为 deposit += n,发现结果总是0,说明 +=是一个原子操作)
由于temp是局部变量,两个线程各自都有自己的temp,当代码正常执行时:
# 正常运行过程:
# t1: temp1 = deposit + 5 # temp1 = 0 + 5 = 5
# t1: deposit = temp1 # deposit = 5
# t1: temp1 = deposit - 5 # temp1 = 5 - 5 = 0
# t1: deposit = temp1 # deposit = 0
# t2: temp2 = deposit + 8 # temp2 = 0 + 8 = 8
# t2: deposit = temp2 # deposit = 8
# t2: temp2 = deposit - 8 # temp2 = 8 - 8 = 0
# t2: deposit = temp2 # deposit = 0
但是t1和t2是交替运行的,如果操作系统以下面的顺序执行t1、t2:
# 多线程没有加锁可能的情况:
# t1: temp1 = deposit + 5 # temp1 = 0 + 5 = 5
# t2: temp2 = deposit + 8 # temp2 = 0 + 8 = 8
# t2: deposit = temp2 # deposit = 8
# t1: deposit = temp1 # deposit = 5
# t1: temp1 = deposit - 5 # temp1 = 5 - 5 = 0
# t1: deposit = temp1 # deposit = 0
# t2: temp2 = deposit - 8 # temp2 = 0 - 8 = -8
# t2: deposit = temp2 # deposit = -8
究其原因,是因为修改deposit
需要多条语句,而执行这几条语句时,线程可能中断,从而导致多个线程把同一个对象的内容改乱了。
两个线程同时一存一取,就可能导致余额不对,你肯定不希望你的银行存款莫名其妙地变成了负数,所以,我们必须确保一个线程在修改deposit
的时候,别的线程一定不能改。
如果我们要确保deposit
计算正确,就要给change_it()
上一把锁,当某个线程开始执行change_it()
时,我们说,该线程因为获得了锁,因此其他线程不能同时执行change_it()
,只能等待,直到锁被释放后,获得该锁以后才能改。由于锁只有一个,无论多少线程,同一时刻最多只有一个线程持有该锁,所以,不会造成修改的冲突。创建一个锁就是通过threading.Lock()
来实现:
import threading
deposit = 0 # 银行存款
lock_deposit = threading.Lock()
def change_it(n):
global deposit
deposit += deposit # 存
deposit -= deposit # 取
def loop(n):
for i in range(1000000):
lock_deposit.acquire() # 先获取锁
try:
change_it(n)
finally:
lock_deposit.release() # 确保释放锁
t1 = threading.Thread(target=loop, args=(5,))
t2 = threading.Thread(target=loop, args=(8,))
t1.start()
t2.start()
t1.join()
t2.join()
print(deposit)
当多个线程同时执行lock.acquire()
时,只有一个线程能成功地获取锁,然后继续执行代码,其他线程就继续等待直到获得锁为止。
获得锁的线程用完后一定要释放锁,否则那些苦苦等待锁的线程将永远等待下去,成为死线程。所以我们用try...finally
来确保锁一定会被释放。
锁的好处就是确保了某段关键代码只能由一个线程从头到尾完整地执行,坏处当然也很多,首先是阻止了多线程并发执行,包含锁的某段代码实际上只能以单线程模式执行,效率就大大地下降了。其次,由于可以存在多个锁,不同的线程持有不同的锁,并试图获取对方持有的锁时,可能会造成死锁,导致多个线程全部挂起,既不能执行,也无法结束,只能靠操作系统强制终止。
(5)全局解释器锁(Global Interpreter Lock):
如果你不幸拥有一个多核CPU,你肯定在想,多核应该可以同时执行多个线程。
如果写一个死循环的话,会出现什么情况呢?
打开Mac OS X的Activity Monitor,或者Windows的Task Manager,都可以监控某个进程的CPU使用率。
我们可以监控到一个死循环线程会100%占用一个CPU。
如果有两个死循环线程,在多核CPU中,可以监控到会占用200%的CPU,也就是占用两个CPU核心。
要想把N核CPU的核心全部跑满,就必须启动N个死循环线程。
试试用Python写个死循环,启动与CPU核心数量相同的N个线程,在4核CPU上可以监控到CPU占用率仅有102%,也就是仅使用了一核。
import multiprocessing
def loop():
x = 0
while True:
x = x ^ 1
for i in range(multiprocessing.cpu_count()):
t = threading.Thread(target=loop)
t.start()
但是用C、C++或Java来改写相同的死循环,直接可以把全部核心跑满,4核就跑到400%,8核就跑到800%,为什么Python不行呢?
因为Python的线程虽然是真正的线程,但解释器执行代码时,有一个GIL锁:Global Interpreter Lock,任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行。这个GIL全局锁实际上把所有线程的执行代码都给上了锁,所以,多线程在Python中只能交替执行,即使100个线程跑在100核CPU上,也只能用到1个核。
GIL是Python解释器设计的历史遗留问题,通常我们用的解释器是官方实现的CPython,要真正利用多核,除非重写一个不带GIL的解释器。
所以,在Python中,可以使用多线程,但不要指望能有效利用多核。如果一定要通过多线程利用多核,那只能通过C扩展来实现,不过这样就失去了Python简单易用的特点。
不过,也不用过于担心,Python虽然不能利用多线程实现多核任务,但可以通过多进程实现多核任务。多个Python进程有各自独立的GIL锁,互不影响。
SQLite
SQLite是一种嵌入式数据库,它的数据库就是一个文件。由于SQLite本身是C写的,而且体积很小,所以,经常被集成到各种应用程序中,甚至在iOS和Android的App中都可以集成。
Python就内置了SQLite3,所以,在Python中使用SQLite,不需要安装任何东西,直接使用。
表是数据库中存放关系数据的集合,一个数据库里面通常都包含多个表,比如学生的表,班级的表,学校的表,等等。表和表之间通过外键关联。
要操作关系数据库,首先需要连接到数据库,一个数据库连接称为Connection;
连接到数据库后,需要打开游标,称之为Cursor,通过Cursor执行SQL语句,然后,获得执行结果。
Python定义了一套操作数据库的API接口,任何数据库要连接到Python,只需要提供符合Python标准的数据库驱动即可。
由于SQLite的驱动内置在Python标准库中,所以我们可以直接来操作SQLite数据库。
我们创建一个表格并插入一行记录:
import sqlite3 # 导入SQLite驱动:
# 连接到SQLite数据库
# 数据库文件是test.db
# 如果文件不存在,会自动在当前目录创建,如果有将报错
conn = sqlite3.connect("test.db")
cursor = conn.cursor() # 创建一个Cursor,通过Cursor执行create insert select等sql语句
cursor.execute("Create table user(domain VARCHAR(20), ip VARCHAR(20))") # 执行一条SQL语句,创建user表
cursor.execute("INSERT INTO user (domain, ip) VALUES ('1.cp4', '10.1.0.0')") # 继续执行一条SQL语句,插入一条记录
print("row count:", cursor.rowcount) # 通过rowcount获得插入的行数
cursor.close() # 关闭Cursor
conn.commit() # 提交事物
conn.close() # 关闭连接
我们试试查询记录:
conn = sqlite3.connect("test.db") # 连接到SQLite数据库, 数据库文件是test.db
cursor = conn.cursor() # 创建一个Cursor,通过Cursor执行create insert select等sql语句
cursor.execute("SELECT * FROM user WHERE domain=? ", ("1.cp4",)) # 执行一条SQL语句,查询结果
value = cursor.fetchall() # fetchall() 获得查询结果集
print(value)
cursor.close()
conn.close()
使用Python的DB-API时,只要搞清楚Connection和Cursor对象,打开后一定记得关闭,就可以放心地使用。
使用Cursor对象执行insert
,update
,delete
语句时,执行结果由rowcount
返回影响的行数,就可以拿到执行结果。
使用Cursor对象执行select
语句时,通过featchall()
可以拿到结果集。结果集是一个list,每个元素都是一个tuple,对应一行记录。
如果SQL语句带有参数,那么需要把参数按照位置传递给execute()
方法,有几个?
占位符就必须对应几个参数,例如:
1 cursor.execute("SELECT * FROM user WHERE domain=? ", ("1.cp4",))
SQLite支持常见的标准SQL语句以及几种常见的数据类型。具体文档请参阅SQLite官方网站。
在Python中操作数据库时,要先导入数据库对应的驱动,然后,通过Connection对象和Cursor对象操作数据。
要确保打开的Connection对象和Cursor对象都正确地被关闭,否则,资源就会泄露。
如何才能确保出错的情况下也关闭掉Connection对象和Cursor对象呢?请回忆try:...except:...finally:...
的用法。