Python3分布式

分布式进程在python3中要用到multiprocessing 模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理。

创建分布式进程需要分为六个步骤

  • 建立队列Queue ,用来进行进程间通信。服务进程创建任务队列task_queue 用来作为传递任务给任务进程的通道;服务进程创建结果队列result_queue ,作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下,必须由Queuemanager获得Queue 接口来添加任务
  • 把第一步中建立的队列在网络上注册,暴露给其他进程(主机),注册后获得网络队列,相当于本地队列的映像
  • 建立一个对象(Queuemanager(BaseManager))实例manager,绑定端口和验证口令
  • 启动第三步中建立的实例,即启动管理manager,监管信息通道
  • 通过管理实例的方法获得通过网络访问的Queue对象,即再把网络队列实体化成可以使用的本地队列
  • 创建任务到 “本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理

接下来通过程序实现上面的列子(window版),首先编写的是服务进程

from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support, Queue

# 任务个数
task_number = 10

# 收发队列
task_que = Queue(task_number)
result_queue = Queue(task_number)

def get_task():
    return task_que

def get_result():
    return result_queue

# 创建类似的queueManager
class QueueManager(BaseManager):
    pass

def win_run():
    # 注册在网络上,callable 关联了Queue 对象
    # 将Queue对象在网络中暴露
    # window下绑定调用接口不能直接使用lambda,所以只能先定义函数再绑定
    QueueManager.register('get_task_queue', callable=get_task)
    QueueManager.register('get_result_queue', callable=get_result)
    # 绑定端口和设置验证口令
    manager = QueueManager(address=('127.0.0.1', 8001), authkey=b'qiye')

    # 启动管理,监听信息通道
    manager.start()

    try:
        # 通过网络获取任务队列和结果队列
        task = manager.get_task_queue()
        result = manager.get_result_queue()

        # 添加任务
        for url in ["ImageUrl_" + str(i) for i in range(10)]:
            print('url is %s' % url)
            task.put(url)

        print('try get result')
        for i in range(10):
            print('result is %s' % result.get(timeout=10))

    except Exception as e:
        print('Manager error:', e)
    finally:
        manager.shutdown()

if __name__ == '__main__':
    # window下多进程可能有问题,添加这句话缓解
    freeze_support()
    win_run()

此时开启服务端:

image.png

接下来任务进程创建四步骤:

  • 使用QueueManager注册用于获取Queue的方法名称,任务进程只能通过名称来网络获取Queue
  • 连接服务器,端口和验证口令注意保持与服务器进程中完全一致
  • 从网络获取Queue,进行本地化
  • 从task队列获取任务,并且把结果写入result队列
import time
from multiprocessing.managers import BaseManager

# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass

# 实现第一步:使用QueueManager注册获取Queue的方法名称
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 实现第二步:连接到服务器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证口令注意保持与服务进程设置的完全一致:
m = QueueManager(address=(server_addr, 8001), authkey=b'qiye')
# 从网络连接:
m.connect()
# 实现第三步:获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 实现第四步:从task队列取任务,并把结果写入result队列:
while not task.empty():
    image_url = task.get(True, timeout=5)
    print('run task download %s...' % image_url)
    time.sleep(1)
    result.put('%s--->success' % image_url)
# 处理结束:
print('worker exit.')

开启任务端:

image.png

同时服务端的情况:

image.png

queue.get():


image.png

你可能感兴趣的:(Python3分布式)