miracleo_

【论文阅读】YOLOv4：最佳速度和准确性の目标检测（YOLOv4: Optimal Speed and Accuracy of Object Detection）

文章目录

摘要：
一、本文工作

（1）本文添加的功能
（2）本文对比方法

二、相关工作

（1）目标检测模型

1）backbone
2）neck

1. 附加块
2. 路径聚合块

3）Head

1. 有锚
2. 无锚

（2）稀疏预测（两阶段）

（3）数据增强
（4）IoU
（5）扩大接受域的模块
（6）注意力模块

1）channel-wise attention
2）point-wise attention

（7）特征集成
（8）激活函数
（9）后处理

三、方法

（1）架构选择
（2）BoF和BoS的选择
（3）其他的改进
（4）YOLOv4

四、实验

（1）实验装置
（2）不同特征对分类器训练的影响
（3）不同特征对探测器训练的影响
（4）不同骨干和预训练权重对检测器训练的影响
（5）不同的 mini-batch size 对检测器训练的影响

五、结果
六、结论
参考

yolov4论文地址
yolov4 GitHub链接

摘要：

有许多功能可以提高卷积神经网络（CNN）的准确性。需要在大型数据集上对这些特征的组合进行实际测试，并在理论上证明结果的正确性。某些功能仅在某些模型上运行，并且仅在某些问题上运行，或者仅在小型数据集上运行；而某些功能（例如批归一化和残差连接）适用于大多数模型，任务和数据集。我们假设此类通用功能包括加权残差连接（WRC），跨阶段部分连接（CSP），跨小批量标准化（CmBN），自对抗训练（SAT）和Mish激活。我们使用以下新功能：WRC，CSP，CmBN，SAT，Mish激活，马赛克数据增强，DropBlock正则化和CIoU loss，并结合使用其中的一些功能以实现最新的结果：43.5％的AP(65.7% AP50)。在Tesla V100上，MS COCO数据集的实时速度约为65 FPS。源代码位于https://github.com/AlexeyAB/darknet。

一、本文工作

开发了一种有效而强大的对象检测模型。它使每个人都可以使用1080 Ti或2080 Ti GPU训练超快速和准确的物体检测器。
验证了在探测器训练过程中最新的 Bag-of-Freebies 和 Bag-of-Specials 检测方法的影响。
修改了最先进的方法，使它们更有效，更适合单GPU训练，包括CBN [89]，PAN [49]，SAM [85]等。

CBN

Zhuliang Yao, Yue Cao, Shuxin Zheng, Gao Huang, andStephen Lin. Cross-iteration batch normalization.arXivpreprint arXiv:2002.05712, 2020.

PAN

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia.Path aggregation network for instance segmentation. InProceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), pages 8759–8768, 2018.

SAM

Sanghyun Woo, Jongchan Park, Joon-Young Lee, and InSo Kweon. CBAM: Convolutional block attention module.InProceedings of the European Conference on ComputerVision (ECCV), pages 3–19, 2018.

（1）本文添加的功能

加权残差连接（WRC）

跨阶段部分连接（CSP）

跨小批量标准化（CmBN）

自对抗训练（SAT）

Mish激活

马赛克数据增强

DropBlock正则化

（2）本文对比方法

EfficientDet

Mingxing Tan, Ruoming Pang, and Quoc V Le. Efficient-Det: Scalable and efficient object detection. InProceedingsof the IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2020.

ASFF

Songtao Liu, Di Huang, and Yunhong Wang. Learning spa-tial fusion for single-shot object detection.arXiv preprintarXiv:1911.09516, 2019.

YOLOv3

Joseph Redmon and Ali Farhadi. YOLOv3: An incrementalimprovement.arXiv preprint arXiv:1804.02767, 2018.

ATSS

Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, andStan Z Li. Bridging the gap between anchor-based andanchor-free detection via adaptive training sample selec-tion. InProceedings of the IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2020.

CenterMask

Youngwan Lee and Jongyoul Park. CenterMask: Real-timeanchor-free instance segmentation. InProceedings of theIEEE Conference on Computer Vision and Pattern Recog-nition (CVPR), 2020.

二、相关工作

现代检测器通常由两部分组成，一个是在ImageNet上经过预训练的骨架(backbone)，另一个是用来预测物体的类别和边界框的头部(head)。对于在GPU平台上运行的那些检测器，其主干可能是VGG ，ResNet ，ResNeXt 或DenseNet 。对于在CPU平台上运行的那些检测器，其主干可以是SqueezeNet ，MobileNet 或ShufﬂeNet 。至于头部，通常分为两类，即一级目标检测器和二级目标检测器。最有代表性的两级对象检测器是R-CNN 系列，包括fast R-CNN ，faster R-CNN ，R-FCN 和Libra R-CNN 。使二级对象检测器成为无锚对象检测器也是可以的，例如RepPoints 。对于一级目标检测器，最具代表性的模型是YOLO ，SSD 和RetinaNet 。近年来，开发了无锚的一级物体检测器。这种检测器是CenterNet ，CornerNet ，FCOS 等。近年来开发的目标检测器通常在骨架和头部之间插入一些层，这些层通常用于收集不同阶段的特征图。我们可以称其为对象检测器的颈部。通常，颈部由几个自下而上的路径和几个自上而下的路径组成。配备此机制的网络包括功能金字塔网络（FPN），路径聚合网络（PAN），BiFPN 和NAS-FPN 。

（1）目标检测模型

1）backbone

VGG

Karen Simonyan and Andrew Zisserman. Very deep convo-lutional networks for large-scale image recognition.arXivpreprint arXiv:1409.1556, 2014.

Resnet-50

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016.

ResNetXt-101

Saining Xie, Ross Girshick, Piotr Doll ́ar, Zhuowen Tu, andKaiming He. Aggregated residual transformations for deepneural networks. InProceedings of the IEEE Conference onComputer Vision and Pattern Recognition (CVPR), pages1492–1500, 2017.

Darknet53，YOLOv3

Joseph Redmon and Ali Farhadi. YOLOv3: An incrementalimprovement.arXiv preprint arXiv:1804.02767, 2018.

SpineNet

Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi,Mingxing Tan, Yin Cui, Quoc V Le, and Xiaodan Song.SpineNet: Learning scale-permuted backbone for recog-nition and localization.arXiv preprint arXiv:1912.05027,2019.

EfficientNet-B0 / B7

Mingxing Tan and Quoc V Le. EfficientNet: Rethinkingmodel scaling for convolutional neural networks. InPro-ceedings of International Conference on Machine Learning(ICML), 2019.

CSPResNeXt50

Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu,Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. CSPNet:A new backbone that can enhance learning capability ofcnn.Proceedings of the IEEE Conference on Computer Vi-sion and Pattern Recognition Workshop (CVPR Workshop),2020.

2）neck

1. 附加块

SPP

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Spatial pyramid pooling in deep convolutional networks forvisual recognition.IEEE Transactions on Pattern Analy-sis and Machine Intelligence (TPAMI), 37(9):1904–1916,2015.

ASPP

Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Yuille. DeepLab: Semantic im-age segmentation with deep convolutional nets, atrous con-volution, and fully connected CRFs.IEEE Transactionson Pattern Analysis and Machine Intelligence (TPAMI),40(4):834–848, 2017.

RFB

Songtao Liu, Di Huang, et al. Receptive field block net foraccurate and fast object detection. InProceedings of theEuropean Conference on Computer Vision (ECCV), pages385–400, 2018.

SAM

Sanghyun Woo, Jongchan Park, Joon-Young Lee, and InSo Kweon. CBAM: Convolutional block attention module.InProceedings of the European Conference on ComputerVision (ECCV), pages 3–19, 2018.

2. 路径聚合块

FPN

Tsung-Yi Lin, Piotr Doll ́ar, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie. Feature pyramidnetworks for object detection. InProceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR), pages 2117–2125, 2017.

PANet

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia.Path aggregation network for instance segmentation. InProceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), pages 8759–8768, 2018.

Bi-FPN

Mingxing Tan, Ruoming Pang, and Quoc V Le. Efficient-Det: Scalable and efficient object detection. InProceedingsof the IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2020.

NAS-FPN

Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. NAS-FPN:Learning scalable feature pyramid architecture for objectdetection. InProceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR), pages 7036–7045, 2019.

全连接FPN，BiFPN

Mingxing Tan, Ruoming Pang, and Quoc V Le. Efficient-Det: Scalable and efficient object detection. InProceedingsof the IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2020.

ASFF

Songtao Liu, Di Huang, and Yunhong Wang. Learning spa-tial fusion for single-shot object detection.arXiv preprintarXiv:1911.09516, 2019.

SFAM

Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, YingChen, Ling Cai, and Haibin Ling. M2det: A single-shotobject detector based on multi-level feature pyramid net-work. InProceedings of the AAAI Conference on ArtificialIntelligence (AAAI), volume 33, pages 9259–9266, 2019.

3）Head

1. 有锚

RPN

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster R-CNN: Towards real-time object detection with re-gion proposal networks. InAdvances in Neural InformationProcessing Systems (NIPS), pages 91–99, 2015.

YOLO123

Joseph Redmon, Santosh Divvala, Ross Girshick, and AliFarhadi. You only look once: Unified, real-time object de-tection. InProceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR), pages 779–788, 2016.
Joseph Redmon and Ali Farhadi. YOLO9000: better, faster,stronger. InProceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR), pages 7263–7271, 2017.
Joseph Redmon and Ali Farhadi. YOLOv3: An incrementalimprovement.arXiv preprint arXiv:1804.02767, 2018.

SSD

Wei Liu, Dragomir Anguelov, Dumitru Erhan, ChristianSzegedy, Scott Reed, Cheng-Yang Fu, and Alexander CBerg. SSD: Single shot multibox detector. InProceedingsof the European Conference on Computer Vision (ECCV),pages 21–37, 2016.

RetinaNet

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He,and Piotr Doll ́ar. Focal loss for dense object detection. InProceedings of the IEEE International Conference on Com-puter Vision (ICCV), pages 2980–2988, 2017.

2. 无锚

CornerNet

Hei Law and Jia Deng. CornerNet: Detecting objects aspaired keypoints. InProceedings of the European Confer-ence on Computer Vision (ECCV), pages 734–750, 2018

CenterNet

Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qing-ming Huang, and Qi Tian. CenterNet: Keypoint triplets forobject detection. InProceedings of the IEEE InternationalConference on Computer Vision (ICCV), pages 6569–6578,2019.

MatrixNet

Abdullah Rashwan, Agastya Kalra, and Pascal Poupart.Matrix Nets: A new deep architecture for object detection.InProceedings of the IEEE International Conference onComputer Vision Workshop (ICCV Workshop), pages 0–0,2019.

FCOS

Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS:Fully convolutional one-stage object detection. InProceed-ings of the IEEE International Conference on Computer Vi-sion (ICCV), pages 9627–9636, 2019.

（2）稀疏预测（两阶段）

Faster R-CNN

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster R-CNN: Towards real-time object detection with re-gion proposal networks. InAdvances in Neural InformationProcessing Systems (NIPS), pages 91–99, 2015.

R-FCN

Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-FCN:Object detection via region-based fully convolutional net-works. InAdvances in Neural Information Processing Sys-tems (NIPS), pages 379–387, 2016.

Mask RCNN（基于锚）

Kaiming He, Georgia Gkioxari, Piotr Doll ́ar, and Ross Gir-shick. Mask R-CNN. InProceedings of the IEEE In-ternational Conference on Computer Vision (ICCV), pages2961–2969, 2017.

RepPoints（无锚）

Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, and StephenLin. RepPoints: Point set representation for object detec-tion. InProceedings of the IEEE International Conferenceon Computer Vision (ICCV), pages 9657–9666, 2019.

Usually, a conventional object detector is trained offline. Therefore, researchers always like to take this advantage and develop better training methods which can make the object detector receive better accuracy without increasing the inference cost. We call these methods that only change the training strategy or only increase the training cost as “bag of freebies.”

（3）数据增强

目的是增加输入图像的可变性，从而使设计的物体检测模型对从不同环境获得的图像具有更高的鲁棒性。例如，光度畸变和几何畸变是两种常用的数据增强方法，它们无疑有益于物体检测任务。在处理光度失真时，我们会调整图像的亮度，对比度，色相，饱和度和噪点。对于几何变形，我们添加了随机缩放，裁剪，翻转和旋转。

（4）IoU

IoU loss
Jiahui Yu, Yuning Jiang, Zhangyang Wang, Zhimin Cao,and Thomas Huang. UnitBox: An advanced object detec-tion network. InProceedings of the 24th ACM internationalconference on Multimedia, pages 516–520, 2016
它考虑了 predicted BBox 区域和 ground truth BBox 区域的覆盖范围。 IoU损失计算过程将通过使用ground truth 执行 IoU，然后将生成的结果连接到整个代码中，从而触发BBox的四个坐标点的计算。它可以解决传统方法计算{x，y，w，h)的L1和L2损耗时，损耗会随比例增大的问题。
GIoU loss
Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, AmirSadeghian, Ian Reid, and Silvio Savarese. Generalized in-tersection over union: A metric and a loss for boundingbox regression. InProceedings of the IEEE Conference onComputer Vision and Pattern Recognition (CVPR), pages658–666, 2019.
GioU损失除了覆盖区域外还包括对象的形状和方向。他们提出了寻找可以同时覆盖 predicted BBox 和 ground truth BBox 的最小面积的BBox，并使用此BBox作为分母来代替最初用于IoU损失的分母。
DIoU loss
Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, RongguangYe, and Dongwei Ren. Distance-IoU Loss: Faster and bet-ter learning for bounding box regression. InProceedingsof the AAAI Conference on Artificial Intelligence (AAAI),2020.
它还考虑了对象中心的距离
CIoUloss
另一方面，它同时考虑了重叠区域，中心点之间的距离和纵横比。在BBox回归问题上，CIoU可以实现更好的收敛速度和准确性。

For those plugin modules and post-processing methodsthat only increase the inference cost by a small amount but can significantly improve the accuracy of object detec-tion, we call them “bag of specials”.

（5）扩大接受域的模块

SPP
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Spatial pyramid pooling in deep convolutional networks forvisual recognition.IEEE Transactions on Pattern Analy-sis and Machine Intelligence (TPAMI), 37(9):1904–1916,2015.
SPP将SPM集成到CNN中，并使用最大池化操作而不是bag-of-word操作。
SPP模块源于 Spatial Pyramid Matching：
Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Be-yond bags of features: Spatial pyramid matching for recog-nizing natural scene categories. InProceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR), volume 2, pages 2169–2178. IEEE, 2006.
SPM的原始方法是将特征图分割成几个dxd不等的块，其中 d 可以为{1,2,3，…}，从而形成空间金字塔，然后提取词袋特征。
ASPP
Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Yuille. DeepLab: Semantic im-age segmentation with deep convolutional nets, atrous con-volution, and fully connected CRFs.IEEE Transactionson Pattern Analysis and Machine Intelligence (TPAMI),40(4):834–848, 2017.
ASPP模块和改进的SPP模块之间的操作差异主要在于在膨胀卷积运算中原始k×k内核大小，步幅的最大池等于1到几个3×3内核大小，膨胀比等于k，步幅等于1 。
RFB
Songtao Liu, Di Huang, et al. Receptive field block net foraccurate and fast object detection. InProceedings of theEuropean Conference on Computer Vision (ECCV), pages385–400, 2018.
RFB仅需额外花费7％的推断时间即可将MS COCO上SSD的AP50提高5.7％

（6）注意力模块

1）channel-wise attention

Squeeze-and-Excitation(SE)
Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitationnetworks. InProceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition (CVPR), pages 7132–7141, 2018.
尽管SE模块可以以仅将计算工作量增加2％的代价将ImNet.NetNet图像分类任务中的ResNet50的功能提高1％的top-1准确性，但是在GPU上通常会增加大约10％的推理时间，因此更适合在移动设备中使用。

2）point-wise attention

Spatial Attention Module(SAM)
Sanghyun Woo, Jongchan Park, Joon-Young Lee, and InSo Kweon. CBAM: Convolutional block attention module.InProceedings of the European Conference on ComputerVision (ECCV), pages 3–19, 2018.
对于SAM，它只需要支付0.1％的额外计算费用，就可以将ResNet50-SE在ImageNet图像分类任务上提高0.5％的top-1准确性。最棒的是，它根本不影响GPU上的推理速度。

（7）特征集成

在特征集成方面，早期的实践是使用跳过连接（skip connection）或超列(hyper-column)将低层物理特征集成到高层语义特征。
skip connection
Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fullyconvolutional networks for semantic segmentation. InPro-ceedings of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), pages 3431–3440, 2015. 4[52] Ilya Loshchilov and Frank Hutter.SGDR: Stochas-tic gradient descent with warm restarts.arXiv preprintarXiv:1608.03983, 2016.
hyper-column
Bharath Hariharan, Pablo Arbel ́aez, Ross Girshick, andJitendra Malik.Hypercolumns for object segmentationand fine-grained localization. InProceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR), pages 447–456, 2015.
由于诸如FPN的多尺度预测方法已变得流行，因此提出了许多集成了不同特征金字塔的轻量级模块。此类模块包括SFAM ，ASFF 和BiFPN。 SFAM的主要思想是使用SE模块对多尺度级联的特征图执行通道级的重新加权。对于ASFF，它使用softmax作为逐点级别重新加权，然后添加不同比例的特征图。在BiFPN中，提出了多输入加权残差连接以执行按比例级别重新加权，然后添加不同的规模。
SFAM
Qijie Zhao, Tao Sheng, Yongtao Wang, Zhi Tang, YingChen, Ling Cai, and Haibin Ling. M2det: A single-shotobject detector based on multi-level feature pyramid net-work. InProceedings of the AAAI Conference on ArtificialIntelligence (AAAI), volume 33, pages 9259–9266, 2019.
ASFF
Songtao Liu, Di Huang, and Yunhong Wang. Learning spa-tial fusion for single-shot object detection.arXiv preprintarXiv:1911.09516, 2019.
BiFPN
Mingxing Tan, Ruoming Pang, and Quoc V Le. Efficient-Det: Scalable and efficient object detection. InProceedingsof the IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2020

（8）激活函数

在2010年，Nair和Hin-ton提出了ReLU，以基本上解决传统tanh和S形激活函数中经常遇到的梯度消失问题。
Vinod Nair and Geoffrey E Hinton. Rectified linear unitsimprove restricted boltzmann machines. InProceedingsof International Conference on Machine Learning (ICML),pages 807–814, 2010
其他激活函数
LReLU和PReLU的主要目的是解决当输出小于零时ReLU的梯度为零的问题。至于ReLU6和hard-Swish，它们是专门为量化网络设计的。为了对神经网络进行自归一化，提出了SELU激活函数来满足这一目标。要注意的一件事是，Swish和Mish都具有连续可区分的激活功能。
LReLU
Andrew L Maas, Awni Y Hannun, and Andrew Y Ng. Rec-tifier nonlinearities improve neural network acoustic mod-els. InProceedings of International Conference on Ma-chine Learning (ICML), volume 30, page 3, 2013
PReLU
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Delving deep into rectifiers: Surpassing human-level per-formance on ImageNet classification. InProceedings ofthe IEEE International Conference on Computer Vision(ICCV), pages 1026–1034, 2015.
ReLU6
Andrew G Howard, Menglong Zhu, Bo Chen, DmitryKalenichenko, Weijun Wang, Tobias Weyand, Marco An-dreetto, and Hartwig Adam. MobileNets: Efficient con-volutional neural networks for mobile vision applications.arXiv preprint arXiv:1704.04861, 2017.
Scaled ExponentialLinear Unit (SELU)
G ̈unter Klambauer, Thomas Unterthiner, Andreas Mayr,and Sepp Hochreiter. Self-normalizing neural networks.InAdvances in Neural Information Processing Systems(NIPS), pages 971–980, 2017
Swish
Prajit Ramachandran, Barret Zoph, and Quoc V Le.Searching for activation functions.arXiv preprintarXiv:1710.05941, 2017.
hard-Swish
Andrew Howard, Mark Sandler, Grace Chu, Liang-ChiehChen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu,Ruoming Pang, Vijay Vasudevan, et al. Searching for Mo-bileNetV3. InProceedings of the IEEE International Con-ference on Computer Vision (ICCV), 2019.
Mish
Diganta Misra.Mish:A self regularized non-monotonic neural activation function.arXiv preprintarXiv:1908.08681, 2019.

（9）后处理

NMS（非极大抑制）
在基于深度学习的对象检测中通常使用的后处理方法是NMS，它可以用于过滤那些无法预测相同对象的BBox，并仅保留响应速度更快的候选BBox。NMS尝试改进的方法与优化目标函数的方法一致。 NMS提出的原始方法没有考虑上下文信息。
在R-CNN中添加分类置信度作为参考，并根据置信度分数的顺序，按从高分到低分的顺序执行贪婪的NMS。
Ross Girshick, Jeff Donahue, Trevor Darrell, and JitendraMalik.Rich feature hierarchies for accurate object de-tection and semantic segmentation. InProceedings of theIEEE Conference on Computer Vision and Pattern Recog-nition (CVPR), pages 580–587, 2014.
soft NMS
Navaneeth Bodla, Bharat Singh, Rama Chellappa, andLarry S Davis. Soft-NMS–improving object detection withone line of code. InProceedings of the IEEE InternationalConference on Computer Vision (ICCV), pages 5561–5569,2017.
它考虑了一个问题，即物体的遮挡可能会导致带有IoU分数的贪婪NMS中置信度得分的下降。
DIoU NMS
Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, RongguangYe, and Dongwei Ren. Distance-IoU Loss: Faster and bet-ter learning for bounding box regression. InProceedingsof the AAAI Conference on Artificial Intelligence (AAAI),2020.
DIoU NMS [99]开发人员的思维方式是在soft NMS的基础上将中心点距离的信息添加到BBox筛选过程中。
值得一提的是，由于上述后处理方法都没有直接涉及捕获的图像特征，因此在随后的无锚定方法开发中不再需要后处理。

三、方法

对于GPU，使用少量的（1-8）组卷积层：CSPResNeXt50 / CSPDarknet53
对于VPU ，使用分组卷积，但是不再使用 Squeeze-and-excitemen（SE）模块 - 它包括以下模型：EfficientNet-lite / MixNet / GhostNet / MobileNetV3
MixNet
Mingxing Tan and Quoc V Le. MixNet: Mixed depthwiseconvolutional kernels. InProceedings of the British Ma-chine Vision Conference (BMVC), 2019
GhostNet
Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, ChunjingXu, and Chang Xu. GhostNet: More features from cheapoperations. InProceedings of the IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2020.

（1）架构选择

我们的目标是在输入网络分辨率，卷积层数，参数数（ $filter\_size^2 * 过滤器 * 通道 / 组$ ）和层输出（过滤器）数目之间找到最佳平衡。例如，大量研究表明，在ILSVRC2012（ImageNet）数据集上的对象分类方面，CSPResNext50比CSPDarknet53更好。但是，相反，在检测MS COCO数据集上的对象方面，CSPDarknet53比CSPResNext50更好。
ILSVRC2012 (ImageNet) dataset
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. ImageNet: A large-scale hierarchical im-age database. InProceedings of the IEEE Conference onComputer Vision and Pattern Recognition (CVPR), pages248–255, 2009.
MS COCO dataset
Tsung-Yi Lin, Michael Maire, Serge Belongie, JamesHays, Pietro Perona, Deva Ramanan, Piotr Doll ́ar, andC Lawrence Zitnick. Microsoft COCO: Common objectsin context. InProceedings of the European Conference onComputer Vision (ECCV), pages 740–755, 2014.

下一个目标是为不同的检测器级别从不同的主干级别中选择其他块以增加接收场和参数聚集的最佳方法。例如：FPN，PAN，ASFF，BiFPN。

对于分类而言最佳的参考模型对于检测器而言并不总是最佳的。与分类器相比，检测器需要满足以下要求：

更高的输入网络大小（分辨率）–用于检测多个小型物体
层数更多 – 更高的接收域可以覆盖增加的输入网络规模
更多参数–具有更大的模型容量，可在单个图像中检测不同大小的多个对象

假设来说，我们可以假设应该选择一个具有更大的接收域大小（具有更多的卷积层3×3）和更多的参数的模型作为主干。表1显示了CSPResNeXt50，CSPDarknet53和Effi-cientNet B3的信息。 CSPResNext50仅包含16个卷积层3×3，a425×425接收域和20.6M参数，而CSPDarknet53包含29个卷积层3×3，a725×725接收域和27.6M参数。这种理论上的论证，再加上我们的大量实验，表明CSPDarknet53神经网络是两者作为检测器骨干的最佳模型。

不同大小的接收域的影响总结如下：

取决于物体尺寸 - 允许查看整个对象
取决于网络规模 - 允许查看对象周围的上下文
超出网络规模 - 增加图像点和最终激活之间的连接数

作者在CSPDarknet53上添加了SPP块，因为它显着增加了接收域，分离出了最重要的上下文特征，并且几乎没有降低网络运行速度。作者使用PANet作为来自不同主干级别，针对不同检测器级别的参数聚合方法，而不是YOLOv3中使用的FPN。

作者选择CSPDarknet53骨干网，SPP附加模块，PANet路径聚合颈部和YOLOv3（基于锚）头作为YOLOv4的体系结构。将来，作者计划大幅扩展探测器的Bag of Freebies（BoF）的内容，从理论上讲，它可以解决一些问题并提高探测器的准确性，并以实验方式依次检查每个功能的影响

（2）BoF和BoS的选择

为了改进目标检测训练，CNN通常使用以下方法
- 激活函数： ReLU, leaky-ReLU, parametric-ReLU,ReLU6, SELU, Swish, or Mish
- 边界框回归损失（bbox）：MSE, IoU, GIoU,CIoU, DIoU
- 资料扩充： CutOut, MixUp, CutMix
- 正则化方法： DropOut, DropPath, Spatial DropOut, or DropBlock
  DropPath
  GustavLarsson,MichaelMaire,andGregoryShakhnarovich.FractalNet:Ultra-deep neural net-works without residuals.arXiv preprint arXiv:1605.07648,2016.
  Spatial DropOut
  Jonathan Tompson, Ross Goroshin, Arjun Jain, Yann Le-Cun, and Christoph Bregler. Efficient object localizationusing convolutional networks. InProceedings of the IEEEConference on Computer Vision and Pattern Recognition(CVPR), pages 648–656, 2015.
- 通过均值和方差对网络激活进行归一化： 批归一化（BN）[32]，跨GPU批归一化（CGBN或SyncBN）[93]，过滤器响应归一化（FRN）[70]或跨迭代批归一化（CBN））[89]
- 跳过连接： 残余连接，加权残余连接，多输入加权残余连接或跨阶段部分连接（CSP）
训练激活功能
由于PReLU和SELU更难以训练，并且ReLU6是专门为量化网络设计的，因此我们从候选列表中删除了上述激活功能。在重新格式化方法中，发布DropBlock的人将自己的方法与其他方法进行了详细的比较，而他们的正则化方法赢得了很多。因此，我们毫不犹豫地选择了DropBlock作为我们的正则化方法。 至于标准化方法的选择，由于我们专注于仅使用一个GPU的训练策略，因此不考虑syncBN。

（3）其他的改进

为了使设计的检测器更适合在单个GPU上进行训练，我们进行了以下附加设计和改进：

介绍了一种新的数据增强Mosaic和自我专业训练（SAT）方法。
在应用遗传算法时选择最佳超参数。
作者修改了一些现有方法以使我们的设计适合进行有效的训练和检测 - modified SAM，modified PAN和交叉小批量标准化（CmBN）。
Mosaic 代表了一种新的数据增强方法，该方法混合了4个训练图像。因此，有4种不同的环境混合，而CutMix仅混合2个输入图像。这允许检测对象超出其正常上下文。此外，批量归一化还根据每层上的4张不同图像计算激活统计信息。这大大减少了对大的 mini-batch size 的需求。
自我专业训练（SAT） 也代表了一种新的数据增强技术，该技术可在2个前向和后向阶段中进行操作。在第一阶段，神经网络会更改原始图像，而不是网络权重。这样，神经网络会对其自身执行对抗性攻击，从而更改原始图像以产生一种欺骗，即图像上没有所需的对象。在第二阶段，训练神经网络以正常方式检测该修改图像上的物体。
CmBN表示CBN修改版本，如图4所示，定义为 Cross mini-Batch Normalization（CmBN）。这仅收集单个批次中的mini-batche之间的统计信息。
作者将SAM从spatial-wise attention 改为point-wise attention，并将PAN的快捷连接替换为串联，分别如图5和图6所示。

（4）YOLOv4

在本节中，我们将详细介绍YOLOv4.
- Backbone: CSPDarknet53 [81]
- Neck: SPP [25], PAN [49]
- Head: YOLOv3
YOLOv4使用：
- 支持主干的 Bag of Freebies（BoF）：CutMix和Mosaic数据增强，DropBlock正则化，类标签平滑
- 专为骨干网设计的 Bag of Specials（BoS）：Mish激活，跨阶段部分连接（CSP），多输入加权剩余连接（MiWRC）
- 用于检测器的 Bag of Freebies（BoF）：CIoU损失，CmBN，DropBlock正则化，镶嵌数据增强，自我专家训练，消除网格敏感性，对单个地面使用多个锚，余弦退火调度器[52]，最佳超参数，随机训练形状
- 用于检测器的 Bag of Specials（BoS）：灭碟激活，SPP块，SAM块，PAN路径聚集块，DIoU-NMS

四、实验

我们测试了不同训练改进技术对ImageNet（ILSVRC 2012 val）数据集上分类器准确性的影响，然后对MS COCO（test-dev 2017）数据集上检测器的准确性进行了影响。

（1）实验装置

在ImageNet图像分类实验中，默认的超参数如下：训练步骤为8,000,000；batch size 和 mini-batch size 分别为128和32；采用多项式衰减学习速率调度策略，初始学习速率为0.1；预热步骤为1000；动量和权重偏差分别设置为 0.9 和 0.005 。我们所有的BoS实验都使用与默认设置相同的超参数，并且在BoF实验中，我们添加了额外的50％训练步骤。在BoF实验中，我们验证了MixUp，CutMix，Mosaic，模糊数据增强和标签平滑正则化方法。 在BoS实验中，我们比较了LReLU，Swish和Mishactivation功能的效果。 所有实验均使用1080Ti或2080 Ti GPU进行培训。
在MS COCO对象检测实验中，默认的超参数如下：训练步骤为500,500；采用步阶衰减学习率调度策略，初始学习率为0.01，分别在400,000步和450,000步处乘以0.1。动量和重量衰减分别设置为0.9和0.0005。所有架构都使用单个GPU以64的批处理大小执行多尺度训练，而最小批处理大小为8或4，具体取决于架构和GPU内存限制。动量和重量衰减分别设置为0.9和0.0005。所有架构都使用single GPU以64的批处理大小执行多尺度训练，而 mini-batch size 为8或4则取决于架构和GPU内存限制。除了使用遗传算法进行超参数搜索实验外，所有其他实验均使用默认设置。遗传算法使用YOLOv3-SPP训练GIoU损失，并搜索300个epochs的最小值5k集。对于遗传算法实验，我们采用搜索学习率0.00261，动量0.949，IoU阈值分配地面实况0.213，损失归一化器0.07。
我们已经验证了许多BoF，包括消除网格敏感性，mosaic数据增强，IoU阈值，遗传算法，类标签平滑，交叉小批量标准化，自对抗训练，余弦退火调度程序，动态小批量大小，DropBlock ，优化的锚点，不同类型的IoU损失。
We have verified a largenumber of BoF, including grid sensitivity elimination, mosaic data augmentation, IoU threshold, genetic algorithm,class label smoothing, cross mini-batch normalization, self-adversarial training, cosine annealing scheduler, dynamicmini-batch size, DropBlock, Optimized Anchors, differentkind of IoU losses.
我们还对各种BoS进行了实验，包括Mish，SPP，SAM，RFB，BiFPN和高斯YOLO [8]。对于所有实验，我们仅使用一个GPU进行训练，因此未使用可优化多个GPU的诸如syncBN之类的技术。

（2）不同特征对分类器训练的影响

首先，我们研究不同特征对分类器训练的影响；具体来说，如图9所示，类标签平滑的影响，不同数据增强技术的影响，双边模糊，MixUp，CutMix和Mosaic的影响（如图7所示）以及诸如Leaky-ReLU（默认情况下）之类的不同激活的影响，Swish和Mish。
在我们的实验中，如表2所示，通过引入以下功能提高了分类器的准确性：CutMix和Mosaic数据增强，Class label平滑和Mish激活。结果，我们用于分类器训练的BoF-backbone（(Bag of Freebies）包括以下内容：CutMix 和 Mosaic 数据增强和类标签平滑。此外，我们使用Mish激活作为补充选项，如表2和表3所示：

（3）不同特征对探测器训练的影响

进一步的研究涉及到不同的Bag-of-Freebies（BoF-detector）对探测器训练精度的影响，如表4所示。

我们通过研究在不影响FPS的情况下提高探测器准确性的各种功能，大大扩展了BoF列表：

S: 消除网格敏感性，YOLOv3使用方程 $b_x = σ(t_x) + c_x，b_y = \sigma(t_y) + c_y$ ，其中 $c_x$ 和 $c_y$ 始终是整数来评估对象坐标，因此，对于接近 $c_x 或 c_x + 1$ 值的 $b_x$ 值，需要非常高的 $t_x$ 绝对值。我们通过将sigmoid乘以超过1.0的因子来解决此问题，从而消除了无法检测到物体的网格的影响。
M:Mosaic data augmentation 马赛克数据增强 - 在训练过程中使用4图像马赛克代替单个图像
IT:IoU threshold IoU阈值 - 将多个锚点用于ground truth IoU（truth，anchor）> IoU_threshold
GA:Genetic algorithms 遗传算法 - 使用遗传算法在前10％的时间段进行网络训练期间选择最佳超参数
LS:Class label smoothing 类标签平滑 - 使用类标签平滑进行sigmoid激活
CBN:CmBN - 使用交叉微型批处理规范化来收集整个批处理中的统计信息，而不是在单个微型批处理中收集统计信息
CA:Cosine annealing scheduler 余弦退火调度器 - 在正弦曲线训练中改变学习率
DM: Dynamic mini-batch size 动态mini-batch size - 通过使用随机训练形状在小分辨率训练期间自动增加 mini-batch 大小
OA: Optimized Anchors 优化的锚点 - 使用优化的锚点以 512x512 网络分辨率进行训练
GIoU, CIoU, DIoU, MSE - 使用不同的损失算法进行边界框回归

进一步的研究涉及不同的 Bag-of-Specials （BoS-detector）对探测器训练准确性的影响，包括PAN，RFB，SAM，高斯YOLO（G）和ASFF，如表5所示。在我们的实验中，使用SPP，PAN和SAM时，检测器可获得最佳性能。

（4）不同骨干和预训练权重对检测器训练的影响

进一步，我们研究了不同骨干模型对检测器精度的影响，如表6所示。请注意，具有最佳分类精度的模型在检测器精度方面并不总是最佳的

首先，尽管与CSPDarknet53模型相比，经过不同功能训练的CSPResNeXt-50模型的分类准确性更高，但CSPDarknet53模型在对象检测方面显示出更高的准确性。

其次，使用BoF和Mish进行CSPResNeXt50分类器训练会提高其分类准确性，但是将这些预先训练的权重进一步应用于检测器训练会降低检测器准确性。然而，将BoF和Mish用于CSPDarknet53分类器训练可以提高分类器和使用该分类器预训练加权的检测器的准确性。 最终结果是，与CSPResNeXt50相比，主干CSPDarknet53更适合于检测器。

我们观察到，由于各种改进，CSPDarknet53模型具有更大的能力来提高检测器精度。

（5）不同的 mini-batch size 对检测器训练的影响

最后，我们分析了使用不同 mini-batch sizes 训练的模型获得的结果，结果显示在表7中。从表7中显示的结果中，我们发现在添加BoF和BoS训练策略之后，mini-batch size 几乎没有影响在检测器的性能上。该结果表明，在引入BoF和BoS之后，不再需要使用昂贵的GPU进行训练。换句话说，任何人都只能使用传统的GPU来训练出色的探测器。

五、结果

图8显示了与其他最新对象探测器获得的结果的比较.我们的YOLOv4位于Pareto 最优曲线上，在速度和准确性方面均优于最快，最准确的探测器。

由于不同的方法使用不同架构的GPU进行推理时间验证，因此我们在Maxwell，Pascal和Volta architectures常用的GPU上运行YOLOv4，并将它们与其他最新方法进行比较。 表8列出了使用Maxwell GPU的帧速率比较结果，可以是GTX Titan X（Maxwell）或 Tesla M40 GPU。 表9列出了使用Pascal GPU的帧率比较结果，可以是Titan X（Pascal），Titan Xp，GTX 1080 Ti或Tesla P100 GPU。 至于表10，它列出了使用Volta GPU的帧率比较结果，可以是Titan Volta或Tesla V100 GPU。

六、结论

我们提供最先进的检测器，其速度（FPS）和准确度（ $MS COCO AP_{50 ... 95}和AP_{50}$ ）比所有可用的替代检测器都高。所描述的检测器可以在具有8-16GB-VRAM的常规GPU上进行训练和使用，这使得它的广泛使用成为可能。一阶段基于锚的探测器的原始概念已证明其可行性。我们已经验证了许多功能，并选择使用这些功能以提高分类器和检测器的准确性。这些功能可以用作将来研究和开发的最佳实践。

参考

深度学习-目标检测评估指标P-R曲线、AP、mAP

你可能感兴趣的:(论文阅读,深度学习,神经网络,机器学习,算法,计算机视觉)

视频管理平台：应急安全生产的坚实护盾智联视频超融合平台音视频安全人工智能视频编解码网络协议
在应急安全生产中，视频管理平台作为现代科技的重要组成部分，发挥着不可替代的作用。它不仅能够实时监测生产环境，还能在事故发生时提供关键信息，帮助企业快速响应、降低损失。以下是视频管理平台在应急安全生产中的具体作用：一、实时监控与风险预警1、全方位监控：通过部署高清摄像头，覆盖生产车间、仓库、设备区等关键区域，实现无死角监控，确保安全隐患无处遁形。2、智能分析：结合AI算法，自动识别异常行为（如人员违
算法-枚举 Java版蜡笔小新算法算法
信息在计算机之间的演示计算机的电路由逻辑门电路组成。一个逻辑门电路可以看成一个开关，每个开关的状态是“开"(高电位)或“关”(低电位)，即对应于或0二进制数的一位，取值只能是0或1，称为一个“比特”(bit)，简写:b八个二进制位称为一个“字节”(byte),简写:B1024(2的10次方)字节称为1KB，1024KB称作1MB(1兆)，1024MB称作1GB，1024GB0和1足以表示和传播各种
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
不会用AI大模型的程序员，5年后必将被淘汰？真相远比你想的更残酷！小城哇哇人工智能语言模型 AI大模型 DeepSeek OpenAI agi 程序员
前言在技术飞速发展的今天，AI大模型已经成为程序员技能库中的“标配”。如果你还认为AI只是“锦上添花”的工具，那么5年后，你可能真的会被时代无情淘汰。这不是危言耸听，而是技术变革的必然趋势。AI大模型：程序员的“效率革命”AI大模型如DeepSeek等工具，正在彻底改变程序员的开发模式。它们不仅能自动生成代码、优化算法，还能快速解决复杂的技术问题。过去需要几天甚至几周才能完成的任务，现在可能只需要
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
区跨链密码学 NO如果密码学
1.哈希算法（Hash）❓1.1什么是哈希算法？区块链中为什么需要哈希？哈希算法是一种不可逆的、确定性的、固定长度的散列函数，用于将输入数据映射成固定长度的字符串。在区块链中的作用：数据完整性：确保区块内容未被篡改（MerkleTree）。唯一标识：区块哈希值用于唯一标识区块。密码学安全性：哈希值难以逆推，保证安全性。常见哈希算法：SHA-256（比特币）：固定256位输出，抗碰撞强。Keccak
凌晨三点的代码和引擎轰鸣声前端后端程序员
凌晨三点，我盯着屏幕上第37次报错的算法，随手抓起桌角已经冷透的咖啡猛灌一口。显示器蓝光里，同事阿杰突然弹出一条消息："哥们儿，苏州有个车展能撸代码，去不去？"我对着这句话愣了三秒。车展？在我的认知里，那应该是西装革履的销售围着超模拍宣传片的场合，和我们这种格子衫生物有什么关系？直到阿杰甩来一张海报——黑底荧光绿字刺破视网膜："CISHOWGTSHOW，程序员特别通道，票免费送。"01被编译器耽误
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
211 本硕研三，已拿 C++ 桌面应用研发 offer，计划转音视频或嵌入式如何规划学习路线？程序员yt c++音视频学习
今天给大家分享的是一位粉丝的提问，211本硕研三，已拿C++桌面应用研发offer，计划转音视频或嵌入式如何规划学习路线？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：前辈您好，我是211本硕，目前研三，秋招拿到C++桌面应用研发的offer，但计划的这个岗位最多干3-4年左右，后续企业规划上想往音视频开发或嵌入式上转；个人感觉C++八股，算法
动态规划算法求解背包问题的全面剖析 15号外媒算法
摘要本文深入剖析动态规划算法在求解背包问题中的应用，详细阐述动态规划算法的基本原理、核心要素与解题步骤。通过对0-1背包问题和完全背包问题的具体分析，展示动态规划算法在解决背包问题上的高效性与独特优势。同时，结合实际案例进行算法实现与结果分析，并探讨算法的优化策略与拓展应用，旨在帮助读者全面掌握动态规划算法求解背包问题的方法与技巧。一、引言背包问题作为组合优化领域的经典问题，在资源分配、投资决策、
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
二分查找算法在有序数组中的解题分析与优化带给我一点小幸运算法
摘要本文深入剖析二分查找算法在有序数组中的应用，详细阐述其基本原理、实现步骤与时间复杂度，通过实际案例展示其解题过程，并针对算法在实际应用中的常见问题提出优化策略，旨在帮助读者全面掌握二分查找算法，提升解决相关问题的能力。一、引言在计算机科学领域，查找算法是解决众多问题的基础。二分查找算法作为一种高效的查找方法，在有序数组的查找场景中具有显著优势。随着数据规模的不断增大，二分查找算法相较于其他查找
图论：以二维数组表示的连通图/树应如何表示？leetcode1042.不邻接种花坠金技术面算法图论算法 leetcode
1042.不邻接植花-力扣（LeetCode）容器在这道题中输入类似[[1,2],[3,4]]，这意味着花园1连通了花园2，花园3连通了花园4。那么该怎么根据这个输入，获取一个方便后面算法的表示呢？我们通常管这种存放邻居的数据格式叫做：邻接表通常我的思路是使用下列容器作为邻接表：哈希表，key就是花园i，value是与花园i接壤的其他所有花园。二维数组，第i个数组中的元素是与花园i接壤的其他所有花
基础算法高精度运算 #大数加法旧物有情基础算法算法高精度加法
文章目录题目链接题目解读完整代码参考题目链接题目解读题目描述输入两个正整数a,b，输出a+b的值。输入格式两行，第一行a，第二行b。a和b的长度均小于1000位。输出格式一行，a+b的值。完整代码#includeusingnamespacestd;vectoradd(vectora,vectorb){vectorres;intt=0;intsize=max(a.size(),b.size());f
图论——Prim算法水代码的程序猿力扣算法图论数据结构
53.寻宝（第七期模拟笔试）题目描述在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。输入描述第一行包
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
数组模拟邻接表 #图论旧物有情数据结构图论数据结构
文章目录为什么要用数组来模拟邻接表存储思路遍历思路树是特殊的图，因此邻接表可以存储图和树两种数据结构。为什么要用数组来模拟邻接表在算法设计当中，利用数组来代替结构体模拟各种数据结构会更加简单。存储思路给定如下数据,我们可以构造如下的一个邻接表请看代码/**idx:索引,代表数组哪个位置,是否连续不重要,因为我们的存储是链式的。h[idx]:顶点表,下标idx代表是哪个顶点,初始值全部为-1,代表没
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL