darknet 版本yolov4训练问题记录

一、小目标训练

配置文件:yolov4.cfg

1、根据数据集中目标尺度生成anchor参数。

darknet detector calc_anchors data/obj.data -num_of_clusters 9 -width 832 -height 832 -show

-num_of_clusters: 9 - number of anchors
-width 832 -height 832 :- input network size

2、为检测大量目标在 yolo 层中添加 max=200,检测目标数量设定为200个

for training with a large number of objects in each image, add the parameter max=200 or higher value in the last [yolo]-layer

3、但是官方github说明:

darknet 版本yolov4训练问题记录_第1张图片

需要尝试具体使用哪种anchor设定。

二、大目标小目标同时检测问题:

https://github.com/AlexeyAB/darknet/issues/2310

https://www.ccoderun.ca/programming/2020-01-04_neural_network_training/

三、yolov4训练问题

1、联合训练两个数据集,出现nan情况。

训练两个数据集,其中一个数据集中目标较小。迭代100次左右,训练出现nan。

解决方法:

(1)确认数据集标签无误,且两个数据集标签类型统一。

(2)调整学习率:根据github中说明,学习率从0.001降低。尝试降级至0.0001、0.00002、0.00005。(未解决)

(3)调整输入图片尺度:从416曾至608、640.(未解决)

(4)用一个数据集训练后,在另一个数据集resume

(5)多GPU训练,需要先用单GPU迭代1000个iter,后在多GPU中resume。

darknet 版本yolov4训练问题记录_第2张图片

 注意,需要根据GPU情况调整learning_rate和burn_in参数。

2、出现nan的解决方式:

https://github.com/AlexeyAB/darknet/issues/5257

https://github.com/AlexeyAB/darknet/issues/5395

Set stopbackward = 2000

Exploding gradients(backward) / features(forward): https://machinelearningmastery.com/exploding-gradients-in-neural-networks/

To solve this:

  • reduce learning_rate=
  • reduce batch=
  • increase burn_in=
  • increase decay=
  • use max_delta=3 in [yolo] layers
  • use stopbackward=2000 and train_only_bn=1 at the last backbone layer
  • use less layers
  • fix your dataset
  • use another model
  • use gradinent clipping

你可能感兴趣的:(目标检测,python)