多进程运行含有任意参数的函数、为什么multiprosessing会进行多次初始化

目录

多进程运行含有任意个参数的函数,以map_async为例

为什么multiprocessing 的了进程会多次初始化?


多进程运行含有任意个参数的函数,以map_async为例

        使用偏函数:偏函数有点像数学中的偏导数,可以让我们只关注其中的某一个变量而不考虑其他变量的影响。

如以下代码中,我们要将set_seq、tokenizer和model作为变量传入“Seq_to_vec”函数中。particial函数中,“Seq_to_vec”是一个函数,tokenizer和model是不变的量,“map_async”中particial_func为偏函数,set_seq为可迭代对象。

#########################
####### 多进程
#########################
particial_func = partial(Seq_to_vec,tokenizer = tokenizer, model = model)
torch.multiprocessing.set_start_method('spawn', force=True)
pool = multiprocessing.Pool(2)
print(f'~~~~~~~~~~~~~~~~~~')
seq_embeddings_list = pool.map_async(particial_func, seq_set).get()
seq_embeddings = {}

a = time.time()
for i in seq_embeddings_list:
    seq_embeddings.update(i)
b = time.time()
print(f'处理的时间{b-a}')
print(f'----------------')
pool.close()
pool.join()

 

为什么multiprocessing 的了进程会多次初始化?

        在使用multiprocessing模块创建子进程时,子进程在初始化的过程中确实会执行次。这是因为子进程是通过fork或spawn 的方式创建的,而fork 会复制父进程的有资源,包括代码段、数据段、堆栈等。因此,子进程会执行一次父进程的初始化代码。
        在某些情况下,你可能会看到子进程多次初始化的现象。这可能是因为在某些情况下主模块 (包含你的代码的那个文件)被多次导入。当子进程启动时,它会执行主模块的代码,如果主模块中有全局变量、函数定义等,这些代码会被重新执行。
        为了避免多次初始化,可以在主程序中添加如下的保护代码:

if __name__ == '__main__':

        这样的话,当子进程启动时,它会检查"__name__"变量,确保只有在主程序中才执行相关的初始化代码。这是因为在 Windows 上,每个子进程都会从头执行一次脚本,而在类 Unix 系统上,它们通过 fork 创建,然后从父进程中继承代码和数据段
        使用这个保护条件可以确保在子进程中只执行主程序的初始化代码,而不是执行整个脚本。这通常能够解决多次初始化的问题。

参考

Python:多进程运行含有任意个参数的函数

多进程multiprocessing——apply、map

你可能感兴趣的:(Python,python)