记录下跑深度学习遇到的问题:模型跑的很慢,GPU利用率低

在kaggle上跑,模型仿照CLIP(ResNet50+transfomer),框架用的pytorch,加速器用的GPU P100,半精度训练,batchsize = 300

数据集:100+类别,每类900个样本,每个样本长度2048,int64,csv格式

跑的过程中,一个epoch 20m 左右

        第一个epoch:CPU使用率40%左右,RAM在90%,GPU波动很大一会爆满一会是0

        第二个epoch:CPU使用率80%左右,RAM在90%,GPU波动也很大,但是爆满时间比例

                                变的更大了

        第三个epoch:CPU使用率90%左右,RAM在90%,GPU同二

        后面几个epoch:和第三个epoch一样

现在还在等着模型跑完

考虑到以下几点原因:

        1. 数据读取花费时间过长

        2. 预处理没有放到GPU上

        3. batchsize还是太小

看见有大佬写的,可以减少日志IO操作频率,或者使用pin_memory和num_workers,待会试试

(微调CLIP的时候用的图片集只有几百张,那时候速度也还能接受,这次数据应该是太大了,还是继续优化吧,先把GPU利用率提高起来)

萌新第一次正经跑模型,记录些遇到的问题,如果有大佬能指点一二,不胜感激

你可能感兴趣的:(人工智能,python,开发语言,深度学习)