摇滚吧!多进程!

摇滚吧!多进程

由于cpython GIL的特性,在单核下是完美的,但是面对多核,老爹的推荐是开启多进程,所以要发挥多核最好利用多进程

什么是进程

进程是程序执行中资源分配的基本单元。程序执行说明了他是动态的,就会有等待和执行,僵尸等状态。而资源分配就是指的堆栈,数据段,信号等。

进程的创建

from multiprocessing import Process

def f(name):
    print 'hello', name

if __name__ == '__main__':
    p = Process(target=f, args=('bob',)) # 获得句柄
    p.start() # 运行进程
    p.join() # 等待子进程退出

当调用Process的时候,实际并没有创建子进程,只是创建了一个关联句柄,这个句柄包含当前环境的进程ID,就是父进程iD,子进程的标识,子进程启动之后的任务,还有参数传递。

当你调用start函数执行的时候,就会调用fork创建子进程,而子进程就会执行“_bootstrap”函数,并最终调用"run"方法,如果run方法不是循环,那么执行完成就会退出了。run方法默认是执行你之前填入的target方法和参数的,target(*args, **kwargs)。

join实际上是父进程等待子进程完成退出的意思。子进程的默认计数是从1开始的。

第二种创建进程的方法

 from multiprocessing import Process

  class Worker(Process):
      def __init__(self, *args, **kwargs):
          """可定制参数"""
          super(Worker, self).__init__(*args, **kwargs)

      def run(self):
          """可重写,比如不通过输入参数来指定,可以通过队列来获取数据"""
          print("I am rocking")
          super(Worker, self).run()

  def f(name):
      print(" hello world!:", name)

  if __name__ == "__main__":
      w = Worker(target=f, args=("Bomb",) )
      w.start()
      w.join()

为什么我一般不用pool而采用process,如果只是简单类似于map计算,是可以使用map的,但是面对复杂的业务,我会选择process,因为自己根据业务控制行为。

常用属性

p.run# 主要用于overrite的方法
p.start() # 创建子进程
p.join() # 父进程等待子进程完成
p.name # 子进程的名字
p.is_alive() # 查看子进程是否存活
p.pid# 子进程起来之后,才有值
p.terminate() #杀死子进程

进程的通讯

进程间的通讯基本都是共享内存,只是形式不一样,Queue都是基于pipe实现的。甚至于有的加了锁机制,保证数据同步,比如queue就是线程或者进程安全的

Pipe

返回两个可连接对象

from multiprocessing import Process, Pipe

def f(conn):
    conn.send([42, None, 'hello'])
    conn.close()

if __name__ == '__main__':
    parent_conn, child_conn = Pipe()
    p = Process(target=f, args=(child_conn,))
    p.start()
    print parent_conn.recv()   # prints "[42, None, 'hello']"
    p.join()

Queue

from multiprocessing import Process, Queue

def f(q):
    q.put([42, None, 'hello'])

if __name__ == '__main__':
    q = Queue()
    p = Process(target=f, args=(q,))
    p.start()
    print q.get()    # prints "[42, None, 'hello']"
    p.join()

共享状态Value,Array,Copy对象

https://docs.python.org/2/library/ctypes.html#module-ctypes

from multiprocessing import Process, Lock
from multiprocessing.sharedctypes import Value, Array
from ctypes import Structure, c_double

class Point(Structure):
    _fields_ = [('x', c_double), ('y', c_double)]

def modify(n, x, s, A):
    n.value **= 2
    x.value **= 2
    s.value = s.value.upper()
    for a in A:
        a.x **= 2
        a.y **= 2

if __name__ == '__main__':
    lock = Lock()

    n = Value('i', 7)
    x = Value(c_double, 1.0/3.0, lock=False)
    s = Array('c', 'hello world', lock=lock) # lock在于多个并发写时,保证数据的一致性
    A = Array(Point, [(1.875,-6.25), (-5.75,2.0), (2.375,9.5)], lock=lock)

    p = Process(target=modify, args=(n, x, s, A))
    p.start()
    p.join()

    print n.value
    print x.value
    print s.value
    print [(a.x, a.y) for a in A]

共享状态Managers

managers是一个管理资源的进程,支持的类型 dict, Namespace, Lock, RLock, Semaphore, BoundedSemaphore, Condition, Event, Queue, Value and [Array](https://docs.python.org/2/library/multiprocessing.html#multiprocessing.Array,算是一个代理,其他进程通过这个服务进程获取数据。优势就是支持多种类型的资源,缺点就是得开个进程,如果这个进程挂了,就完蛋了。

from multiprocessing import Process, Lock
from multiprocessing.sharedctypes import Value, Array
from ctypes import Structure, c_double

class Point(Structure):
    _fields_ = [('x', c_double), ('y', c_double)]

def modify(n, x, s, A):
    n.value **= 2
    x.value **= 2
    s.value = s.value.upper()
    for a in A:
        a.x **= 2
        a.y **= 2

if __name__ == '__main__':
    lock = Lock()

    n = Value('i', 7)
    x = Value(c_double, 1.0/3.0, lock=False)
    s = Array('c', 'hello world', lock=lock) # lock在于多个并发写时,保证数据的一致性
    A = Array(Point, [(1.875,-6.25), (-5.75,2.0), (2.375,9.5)], lock=lock)

    p = Process(target=modify, args=(n, x, s, A))
    p.start()
    p.join()

    print n.value
    print x.value
    print s.value
    print [(a.x, a.y) for a in A]

你可能感兴趣的:(摇滚吧!多进程!)