最近有个新需求导致原来的接口时间消耗很长,所以对现有的接口进行了一个优化。
问题:时间消耗在单个线程多次调用网络
问题出现的原因很简单,原来的接口在I/O的处理上是并发的,利用协程来处理各个接口的调用。但是由于yield from 的使用,导致接口函数内部的函数调用,有变成了同步执行。
@asyncio.coroutine
def update(self,params):
all_vins = yield from self.vehicle.get_all_vins()
for vin_data in all_vins:
# 网络调用获取数据
net_data = yield from self.get_data_by_url()
# 写入数据库
yield from self.insert_db()
这可以看出,时间消耗主要由网络调用和写入数据库产生的。数据库的时间消耗不在暂时不做考虑。现在由于yield from,将协程里面的任务挂起,使得当这个任务完成后才能执行下面的任务。设网络调用的时间消耗为0.2s,那么现在的消耗的时间是0.2*len(all_vins),这样就很耗时间了。
解决:添加多线程
针对这个上述问题光是利用协程的特性是不能解决的(暂时未找到好的方法)。而且原先的网络调用函数,扔到协程的线程池中,这样再利用就很不方便。于是个人将这个网络调用从线程池中拿出来,不添加asycio标记。这样我就可以使用threading来启动多线程了。
代码如下:
@asyncio.coroutine
def update(self,params):
all_vins = yield from self.vehicle.get_all_vins()
threads = []
for vin_data in all_vins:
# 网络调用获取数据
t = threading.Thread(target=self.get_data_by_url,arge=())
t.start()
threads.append[t]
# 写入数据库
yield from self.insert_db()
for i in rang(len(all_vins)):
threads[i].join()
这样利用多线程来将网络I/O并发操作,实际的时间消耗是这些线程里消耗时间最长的那个线程时间。
但是项目中的程序并没有这么简单,网络调用要获取json数据,这样上面的写法如果在for循环中这样还是会在写入数据的时候将时间消耗增加,这是我将这个for拆解成两个。
RESULT = []
@asyncio.coroutine
def update(self,params):
all_vins = yield from self.vehicle.get_all_vins()
threads = []
for vin_data in all_vins:
# 网络调用获取数据
t = threading.Thread(target=self.get_data_by_url,arge=())
t.start()
threads.append[t]
for i in rang(len(all_vins)):
threads[i].join()
for vin_data in all_vins:
# 写入数据库
yield from self.insert_db()
这样就达到上面的理想效果。返货的结果放在全局变量RESULT中。
在实际的测试中,时间消耗的主要来源于数据的库的写入,网络的时间消耗已经减少到一个网络调用的时间。
善后
如果直接这样写会造成在特定时间内造成大量线程的增加,这样如果这个接口访问量过多,那么服务器的压力将会在短时间内暴增。所以必须消耗一定的时间来做优化。
RESULT = []
@asyncio.coroutine
def update(self,params):
all_vins = yield from self.vehicle.get_all_vins()
threads = []
for_times = all_vins / 200
remain_time = all_vins % 200
if for_times == 0:
threads = []
for vin_data in all_vins:
# 网络调用获取数据
t = threading.Thread(target=self.get_data_by_url,arge=())
t.start()
threads.append[t]
for i in rang(len(all_vins)):
threads[i].join()
else:
for i in for_times:
threads = []
for i in rang(0, 200):
# 网络调用获取数据
t = threading.Thread(target=self.get_data_by_url,arge=())
t.start()
threads.append[t]
for i in rang(0,200)
threads[i].join()
threads = []
for i in rang(0,remain_time ):
# 网络调用获取数据
t = threading.Thread(target=self.get_data_by_url,arge=())
t.start()
threads.append[t]
for i in rang(0,remain_time ):
threads[i].join()
for vin_data in all_vins:
# 写入数据库
yield from self.insert_db()
把线程数最大设置成200,这样避免因为过大的线程数导致服务器崩溃。
补充
协程
通常,函数运行时要使用单一的一组输入参数,但是,函数也可以编写成一个任务程序,用来处理发送给它的一系列输入。这类函数被称为协程。(摘自《python 参考手册》--David M.Beazley)
协程可以通过@asynico.coroutine来生成异步I/O操作。从而处理高并发的接口调用。
多线程
python中的多线程这里我采用处理threading模块来实现。当然还有thread,queue模块。当然threading模块对线程的处理有比较强大的控制。保证重要的子线程在进程退出前结束。上述例子中没有用到锁的概念,因为整个函数是一个协程,利用threading相当于在这个线程下,创建多个子线程。而我需要的结果是要将所有的数据获得后再写入,且所有返回结果都放在一个不规则数组中,数据的输出不需要分前后,并不担心数据出现混乱的问题。
总结
其实这个优化很简单,只是在优化的时候顺道去复习一下协程和多线程。