1.场景和需求:
有一个接口,里面做了获取数据和更新的操作,非常耗时,一条数据需要花费1秒钟
检查updateJiakeGejieData这个接口,里面有一段for循环操作,需要一条一条读取数据并更新
再检查getAccountInfo这个接口,发现里面请求了4条url,耗时操作就发生在这里
2.解决办法
现网的代码是python2.7的,用线程池来解决此问题
下面展示一些 代码片
。
for datatmp in responsetmp:
# 只取一条数据
data["account"] = datatmp.setdefault(u"宽带号码", "")
retArr = self.getAccountInfo(data["account"],beginKey,endKey)
if retArr :
self.updateDataStatus(data["account"], beginKey, endKey, retArr,fileName )
print(retArr)
把这个代码块,放到线程池里
3.线程池代码
导包
// An highlighted block
import multiprocessing
查询运行的服务器核数:
cpu_count = multiprocessing.cpu_count()
启动线程池
pool = multiprocessing.Pool(processes=cpu_count)
调用apply_async方法
cpu_count = multiprocessing.cpu_count()
pool = multiprocessing.Pool(processes=cpu_count)
time1 = time.time()
result = []
for datatmp in responsetmp:
result.append(pool.apply_async(run, args=(datatmp, data)))
pool.close()
pool.join()
说明:apply_async里的几个参数,第一个run是我想用线程池运行的函数名,
args里面放入run方法里面想要用的参数,最后不要忘记close()和join()
然后run方法里,是对之前getAccountInfo接口和updateDataStatus接口的调用,直接封装到了run里,这里如果打印result列表,会发现里面都是一条条的ApplyResul对象
如果不用关心过程,那么线程池的介绍到此就结束了,因为我们没有改动原来的代码,只是在原来的代码块外面加了个线程池,实测也确实提高了运行速度,之前查找更新114条数据花费了110多秒,现在只需要20多秒就能完成
4.其他需求
但是有时候想要获取线程池里的结果怎么办呢,因为我们上面的代码的updateDataStatus的接口,是一条条的更新的,现在想获取完了,存到列表里,最后一起更新,这种就需要对线程池里的对象做回调操作了.
可以使用 线程池对象.get() ,获取线程池里return的结果。
cpu_count = multiprocessing.cpu_count()
pool = multiprocessing.Pool(processes=cpu_count)
time1 = time.time()
result = []
for datatmp in responsetmp:
result.append(pool.apply_async(run, args=(datatmp, data)))
pool.close()
pool.join()
time2 = time.time()
l = len(result)
i = 0
for datatmp in responsetmp:
data["account"] = datatmp.setdefault(u"宽带号码", "")
if i < l:
# 获取线程池里的每条线程的参数
a = result[i].get()
print a
retArr2 = updateDataStatus1(data["account"])
i += 1
print("time consume {}".format(time2 - time1))
更新和获取的接口做了简化,实际上很复杂,就不展示了
5.总结
线程池用法本身不难,就是传参的地方要小心,
对线程池对象的回调,使用get()就好
6.遇到的坑:
用django启动工程后,如果中间报错,按ctrl+c后,可能会产生一大堆python的进程出来,差不多好几百个端口被占用了,猜测是上面开的那个线程池的原因,我遇到过两次了,不知道咋解决,只能先写了个shell脚本,把占用的端口号复制出来,然后kill -9 端口号
最后再运行shell脚本杀死这些占用