接口时间优化实践(协程下的多线程)

最近有个新需求导致原来的接口时间消耗很长,所以对现有的接口进行了一个优化。

问题:时间消耗在单个线程多次调用网络

问题出现的原因很简单,原来的接口在I/O的处理上是并发的,利用协程来处理各个接口的调用。但是由于yield from 的使用,导致接口函数内部的函数调用,有变成了同步执行。

@asyncio.coroutine
def update(self,params):
  all_vins = yield from self.vehicle.get_all_vins()
  for vin_data in all_vins:
      # 网络调用获取数据
      net_data = yield from self.get_data_by_url()
      # 写入数据库
      yield from self.insert_db()

这可以看出,时间消耗主要由网络调用和写入数据库产生的。数据库的时间消耗不在暂时不做考虑。现在由于yield from,将协程里面的任务挂起,使得当这个任务完成后才能执行下面的任务。设网络调用的时间消耗为0.2s,那么现在的消耗的时间是0.2*len(all_vins),这样就很耗时间了。

解决:添加多线程

针对这个上述问题光是利用协程的特性是不能解决的(暂时未找到好的方法)。而且原先的网络调用函数,扔到协程的线程池中,这样再利用就很不方便。于是个人将这个网络调用从线程池中拿出来,不添加asycio标记。这样我就可以使用threading来启动多线程了。
代码如下:

@asyncio.coroutine
def update(self,params):
  all_vins = yield from self.vehicle.get_all_vins()
  threads = []
  for vin_data in all_vins:
      # 网络调用获取数据
      t = threading.Thread(target=self.get_data_by_url,arge=())
      t.start()
      threads.append[t]
      # 写入数据库
      yield from self.insert_db()
  for i in rang(len(all_vins)):
      threads[i].join()

这样利用多线程来将网络I/O并发操作,实际的时间消耗是这些线程里消耗时间最长的那个线程时间。
但是项目中的程序并没有这么简单,网络调用要获取json数据,这样上面的写法如果在for循环中这样还是会在写入数据的时候将时间消耗增加,这是我将这个for拆解成两个。

RESULT = []
@asyncio.coroutine
def update(self,params):
  all_vins = yield from self.vehicle.get_all_vins()
  threads = []
  for vin_data in all_vins:
      # 网络调用获取数据
      t = threading.Thread(target=self.get_data_by_url,arge=())
      t.start()
      threads.append[t]
    
  for i in rang(len(all_vins)):
      threads[i].join()

  for vin_data in all_vins:
      # 写入数据库
      yield from self.insert_db()

这样就达到上面的理想效果。返货的结果放在全局变量RESULT中。
在实际的测试中,时间消耗的主要来源于数据的库的写入,网络的时间消耗已经减少到一个网络调用的时间。

善后

如果直接这样写会造成在特定时间内造成大量线程的增加,这样如果这个接口访问量过多,那么服务器的压力将会在短时间内暴增。所以必须消耗一定的时间来做优化。

RESULT = []
@asyncio.coroutine
def update(self,params):
  all_vins = yield from self.vehicle.get_all_vins()
  threads = []
  for_times = all_vins / 200
  remain_time = all_vins % 200
  if for_times == 0:
      threads = []
      for vin_data in all_vins:
          # 网络调用获取数据
          t = threading.Thread(target=self.get_data_by_url,arge=())
          t.start()
          threads.append[t]
      
      for i in rang(len(all_vins)):
          threads[i].join()
  else:
      for i in for_times:
          threads = []
          for i in rang(0, 200):
              # 网络调用获取数据
              t = threading.Thread(target=self.get_data_by_url,arge=())
              t.start()
              threads.append[t]
          for i in rang(0,200)
              threads[i].join()
      threads = []
      for i in rang(0,remain_time ):
             # 网络调用获取数据
              t = threading.Thread(target=self.get_data_by_url,arge=())
              t.start()
              threads.append[t]
      for i in rang(0,remain_time ):
             threads[i].join()

  for vin_data in all_vins:
      # 写入数据库
      yield from self.insert_db()

把线程数最大设置成200,这样避免因为过大的线程数导致服务器崩溃。

补充

协程

通常,函数运行时要使用单一的一组输入参数,但是,函数也可以编写成一个任务程序,用来处理发送给它的一系列输入。这类函数被称为协程。(摘自《python 参考手册》--David M.Beazley)
协程可以通过@asynico.coroutine来生成异步I/O操作。从而处理高并发的接口调用。

多线程

python中的多线程这里我采用处理threading模块来实现。当然还有thread,queue模块。当然threading模块对线程的处理有比较强大的控制。保证重要的子线程在进程退出前结束。上述例子中没有用到锁的概念,因为整个函数是一个协程,利用threading相当于在这个线程下,创建多个子线程。而我需要的结果是要将所有的数据获得后再写入,且所有返回结果都放在一个不规则数组中,数据的输出不需要分前后,并不担心数据出现混乱的问题。

总结

其实这个优化很简单,只是在优化的时候顺道去复习一下协程和多线程。

你可能感兴趣的:(接口时间优化实践(协程下的多线程))