当我们使用use_multiprocessing=True时,其实还要说,同时自定义了generator进行训练,则会造成多线程锁死问题 dead lock
训练任务的表现就是卡死,并没有任何报错,GPU启动不起来,或者说启动了,但是几轮epoch之后就锁死了,任务就没有新的日志产出了
teacher.fit_generator(gen_input, epochs=epochs, verbose=2, steps_per_epoch=65, callbacks=[callback], workers=8,
use_multiprocessing=True)
其根本原因还是keras与tensorflow数据交互时候,多线程不能完美兼容,现在要解决这个问题的方法包括
1)适当降低generator的整体数据规模量,目前实验200万时肯定没问题的
2)降低度并行,work设置小于4或者直接关闭use_multiprocessing
3)使用fit模型,当然你既然用了fit_generator就代表了你是在做大规模数据任务,当数据量不足以撑爆内存时 not OOM,你可以选择fit模型
teacher.fit(inputs_new[:, :, :-1],
[inputs_new[:, -1, -1], inputs_new[:, -pre_len:, 1]],
epochs=epochs,
batch_size=64, validation_split=0.1, verbose=2, callbacks=[callback])
有的文档说高版本tf没有问题,个人实验2.4仍然没有解决这个dead lock问题
关于方法使用可参考Keras fit_generator中的max_queue_size, workers, use_multiprocessing设置_mishidemudong的博客-CSDN博客_use_multiprocessing
python - How to define max_queue_size, workers and use_multiprocessing in keras fit_generator()? - Stack Overflowhttps://stackoverflow.com/questions/55531427/how-to-define-max-queue-size-workers-and-use-multiprocessing-in-keras-fit-gener