python-线程池的使用

1.场景和需求:
有一个接口,里面做了获取数据和更新的操作,非常耗时,一条数据需要花费1秒钟
python-线程池的使用_第1张图片
检查updateJiakeGejieData这个接口,里面有一段for循环操作,需要一条一条读取数据并更新
python-线程池的使用_第2张图片
再检查getAccountInfo这个接口,发现里面请求了4条url,耗时操作就发生在这里

2.解决办法
现网的代码是python2.7的,用线程池来解决此问题
下面展示一些 代码片

            for datatmp in responsetmp:
                # 只取一条数据
                data["account"] = datatmp.setdefault(u"宽带号码", "")
                retArr = self.getAccountInfo(data["account"],beginKey,endKey)
                if retArr :
                    self.updateDataStatus(data["account"], beginKey, endKey, retArr,fileName )
                print(retArr)

把这个代码块,放到线程池里

3.线程池代码
导包

// An highlighted block
import multiprocessing

查询运行的服务器核数:

cpu_count = multiprocessing.cpu_count()

启动线程池

pool = multiprocessing.Pool(processes=cpu_count)

调用apply_async方法

    cpu_count = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes=cpu_count)
    time1 = time.time()
    result = []
    for datatmp in responsetmp:
        result.append(pool.apply_async(run, args=(datatmp, data)))

    pool.close()
    pool.join()

说明:apply_async里的几个参数,第一个run是我想用线程池运行的函数名,
args里面放入run方法里面想要用的参数,最后不要忘记close()和join()
python-线程池的使用_第3张图片

然后run方法里,是对之前getAccountInfo接口和updateDataStatus接口的调用,直接封装到了run里,这里如果打印result列表,会发现里面都是一条条的ApplyResul对象python-线程池的使用_第4张图片
如果不用关心过程,那么线程池的介绍到此就结束了,因为我们没有改动原来的代码,只是在原来的代码块外面加了个线程池,实测也确实提高了运行速度,之前查找更新114条数据花费了110多秒,现在只需要20多秒就能完成

4.其他需求
但是有时候想要获取线程池里的结果怎么办呢,因为我们上面的代码的updateDataStatus的接口,是一条条的更新的,现在想获取完了,存到列表里,最后一起更新,这种就需要对线程池里的对象做回调操作了.
可以使用 线程池对象.get() ,获取线程池里return的结果。

    cpu_count = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes=cpu_count)
    time1 = time.time()
    result = []
    for datatmp in responsetmp:
        result.append(pool.apply_async(run, args=(datatmp, data)))

    pool.close()
    pool.join()

    time2 = time.time()
    l = len(result)
    i = 0
    for datatmp in responsetmp:
        data["account"] = datatmp.setdefault(u"宽带号码", "")

        if i < l:
        # 获取线程池里的每条线程的参数
            a = result[i].get()
            print a
            retArr2 = updateDataStatus1(data["account"])
            i += 1
    print("time consume {}".format(time2 - time1))

更新和获取的接口做了简化,实际上很复杂,就不展示了
python-线程池的使用_第5张图片
5.总结
线程池用法本身不难,就是传参的地方要小心,
对线程池对象的回调,使用get()就好

6.遇到的坑:
用django启动工程后,如果中间报错,按ctrl+c后,可能会产生一大堆python的进程出来,差不多好几百个端口被占用了,猜测是上面开的那个线程池的原因,我遇到过两次了,不知道咋解决,只能先写了个shell脚本,把占用的端口号复制出来,然后kill -9 端口号
最后再运行shell脚本杀死这些占用

大批量端口号被占用:
python-线程池的使用_第6张图片
写个shell一起杀掉
python-线程池的使用_第7张图片

你可能感兴趣的:(python,python,多线程,线程池)