baidu_36557924

EfficientDet_ResneSt_YOLOV4

EfficientDet(2019/11/20) ResneSt(2020/4/19) YOLOV4(2020/4/23)

1、 EfficientDet

论文：（https://arxiv.org/pdf/1911.09070.pdf）

代码：（https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch）

什么检测器能够兼顾准确率和模型效率？如何才能实现？谷歌大脑 Mingxing Tan、Ruoming Pang 和 Quoc V. Le 提出新架构 EfficientDet，结合 EfficientNet（同样来自该团队）和新提出的 BiFPN，实现新的 SOTA 结果。

在计算机视觉领域，模型效率的重要性越来越高。近日，谷歌大脑团队 Quoc V. Le 等人系统研究了多种目标检测神经网络架构设计，提出了能够提升模型效率的两项关键优化。

1、提出加权双向特征金字塔网络（weighted bi-directional feature pyramid network，BiFPN），从而轻松、快速地实现多尺度特征融合；

2、提出一种复合缩放（compound scaling）方法，同时对所有主干网络、特征网络和边界框/类别预测网络的分辨率、深度和宽度执行统一缩放。

这个工作可以看做是EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks的扩展，从分类任务扩展到检测任务（Object Detection）。众所周知，神经网络的速度和精度之间存在权衡，而 EfficientDet 是一个总称，可以分为 EfficientDet D1 ~ EfficientDet D7，速度逐渐变慢，但是精度也逐渐提高。

如图，EfficientDet实现了最新的53.7％COCO AP，其参数量和FLOP比以前的目标检测方案要少得多

接下来主要从三个方面介绍EfficientDet:

1、网络基础结构EfficientNet；

2、复合缩放（compound scaling）

3、BiFPN(weighted bi-directional feature pyramid network);

1.1 EfficientNet

ResNet可以增加层数从ResNet18扩展到ResNet200。而EfficientNet，就是一种标准化的模型扩展结果，通过下面的图，我们可以直观的体会到EfficientNet b0-b7在ImageNet上的效果：对于ImageNet历史上的各种网络而言，可以说EfficientNet在效果上实现了碾压：

我们在扩展网络的时候，一般通过调整输入图像的大小、网络的深度和宽度（卷积通道数，也就是channel数）进行。在EfficientNet之前，研究工作只是针对这三个维度中的某一个维度进行调整，因为有限的计算能力，很少有研究对这三个维度进行综合调整的。

1.1.1 EfficientNet复合缩放方法（compound scaling method）

EfficientNet的设想就是能否设计一个标准化的卷积网络扩展方法，既可以实现较高的准确率，又可以充分的节省算力资源。因而问题可以描述成，如何平衡分辨率、深度和宽度这三个维度，来实现网络在效率和准确率上的优化。

实验一：

分辨率、深度和宽度这三个维度之间有内在联系，比如更高分辨率的图片就需要更深的网络来增大感受野捕捉特征。因此作者做了两个实验(实际应该多得多)来验证，第一个实验，对三个维度固定两个，只放大其中一个，得到结果如下：

w、d、r 分别是网络宽度，网络高度，分辨率的倍率。

图中从左至右分别是只放大网络宽度(width, w 为放大倍率)、网络深度(depth, d 为放大倍率)、图像分辨率(resolution, r 为放大倍率) 的结果，可以观察到单个维度的放大最高精度只在 80 左右。本次实验作者得出一个观点：三个维度中任一维度的放大都可以带来精度的提升，但随着倍率越来越大，提升却越来越小。

实验二：

尝试在不同的 d, r 组合下变动 w

从实验结果可以看出最高精度比之前已经有所提升，且不同的组合效果还不一样，最高可以到 82 左右。作者又得到一个观点，得到更高的精度以及效率的关键是平衡网络宽度，网络深度，图像分辨率三个维度的放缩倍率(d, r, w)

因此，作者提出了一种混合维度放大法(compound scaling method)，该方法使用一个混合系数Φ来决定三个维度的放大倍率

其中，α、β、γ均为常数(不是无限大的因为三者对应了计算量)，可通过网格搜索获得。混合系数Φ可以人工调节。考虑到如果网络深度翻番那么对应计算量会翻番，而网络宽度或者图像分辨率翻番对应计算量会翻 4 番，即卷积操作的计算量(FLOPS) 与d、w2、r2 成正比，因此上图中的约束条件中有两个平方项。在该约束条件下，指定混合系数Φ之后，网络的计算量大概会是之前的2Φ倍。

1.1.2 EfficientNet基础网络结构

EfficientNet使用了MobileNet V2中的MBCConv作为模型的主干网络，同时也是用了SENet中的squeeze and excitation方法对网络结构进行了优化。

有了初代的网络结构之后，放大就分为下面两步：

第一步，首先固定Φ为 1，即设定计算量为原来的 2 倍，在这样一个小模型上做网格搜索(grid search)，得到了最佳系数为α=1.2、β=1.1、γ=1.15。
第二步，固定α=1.2、β=1.1、γ=1.15，使用不同的混合系数Φ来放大初代网络得到 EfficientNet-B1 ～ EfficientNet-B7。

作者选择只在小模型上进行网络搜索，大大减少了计算量。因为在大模型上进行网格搜索的成本实在是太高了。

1.2、BiFPN（有效的双向跨尺度连接和加权特征融合）

CVPR 2017 的FPN指出了不同层之间特征融合的重要性，并且以一种比较简单，启发式的方法把底层的特征乘两倍和浅层相加融合。之后人们也试了各种别的融合方法，比如 PANet先从底向上连，再自顶向下连回去；M2Det 在连的时候加入 skip-connection；Libra-RCNN先把所有feature 都汇聚到中间层，然后再 refine。

总之上述都是一些人工连连看的设计，包含 Conv，Sum，Concatenate，Resize，Skip Connection 等候选操作。很明显使用哪些操作、操作之间的顺序是可以用 NAS 搜的。进入 Auto ML 时代之后，NAS-FPN 珠玉在前，搜到了一个更好的 neck 部分的结构。

本文的作者基于下面的观察结果/假设，进一步进行了优化：

1.作者观察到PANet的效果比FPN，NAS-FPN要好，就是计算量更大；

2.作者从PANet出发，移除掉了只有一个输入的节点。这样做是假设只有一个输入的节点相对不太重要。这样把PANet简化，得到了上图 (e) Simplified PANet 的结果；

3.作者在相同 level 的输入和输出节点之间连了一条边，假设是能融合更多特征，有点 skip-connection 的意味，得到了上图 (f) 的结果；

4.将每个双向（自上而下和自下而上）路径视为一个要素网络层，并重复同一层多次以启用更多高级要素融合。这样就得到了下图的结果（看中间的 BiFPN Layer 部分）。如何确定重复几次呢，这是一个速度和精度之间的权衡，会在下面的Compound Scaling 部分介绍。

1.3 复合缩放（Compound Scaling）

Backbone网络:

直接采用EfficientNet-B0 to B6中的复合系数，并采用 EfficientNet作为backbone。

BiFPN 网络：（对于BiFPN network中width和depth的设置）

(1)

Box/class 预测网络:（Box/class prediction network中的depth的设置）

(2)

输入图像的分辨率（必须是 27=128的倍数）（对于Input image resolution的设置）

(3)

如表所示，根据具有不同φ的方程1,2,3，我们开发了EfficientDet-D0（φ= 0）至D7（φ= 7），其中D7与D6相同，但分辨率更高。值得注意的是，我们的缩放是基于启发式的，可能不是最优的，但是我们证明，这种简单的缩放方法比其他一维缩放方法可以显着提高效率。

2、ResneSt

论文：（https://hangzhang.org/files/resnest.pdf）

代码：（https://github.com/zhanghang1989/ResNeSt）

先说几组数据：

ResNeSt-50 在 ImageNet 上实现了81.13％ top-1 准确率

简单地用ResNeSt-50替换ResNet-50，可以将MS-COCO上的Faster R-CNN的mAP从39.25％提高到42.33％！

简单地用ResNeSt-50替换ResNet-50，可以将ADE20K上的DeeplabV3的mIoU从42.1％提高到45.1％！

性能显著提升，参数量并没有显著增加，部分实验结果如下图所示。轻松超越ResNeXt、SENet等前辈（巨人）们。

ResNeSt优于所有现有的ResNet变体，并且具有相同的计算效率，甚至比通过神经结构搜索（NAS）生成的最新的CNN模型更好地实现了速度与精度的平衡，具体表现如下表

ResNeSt 的全称是：Split-Attention Networks，也就是特别引入了Split-Attention模块。，ResNeSt 的S就是 Split。ResNeSt 实际上是站在巨人们上的"集大成者"，特别借鉴了：Multi-path和Feature-map Attention思想。

其中：

GoogleNet：采用了Multi-path机制，其中每个网络块均由不同的卷积kernels组成。

ResNeXt：在ResNet bottle模块中采用组卷积，将multi-path结构转换为统一操作。

SE-Net：通过自适应地重新校准通道特征响应来引入通道注意力（channel-attention）机制。

SK-Net：通过两个网络分支引入特征图注意力（feature-map attention）。

ResNeSt 和 SE-Net、SK-Net 的对应图示如下：

其中上图中都包含的 Split Attention模块如下图所示：

这项工作提出了具有新颖的Split-Attention块的ResNeSt体系结构，该块普遍提高了学习到的特征表示，从而提高了图像分类，对象检测，实例分割和语义分割的性能。在后面的下游任务中，通过简单地将骨干网络切换到我们的ResNeSt所产生的经验改进明显优于应用于标准骨干（例如ResNet）的特定于任务的修改。Split-Attention块易于使用且计算效率高，因此应在视觉任务中广泛应用。

3、YOLOV4

论文：（https://arxiv.org/pdf/2004.10934.pdf）

代码：（https://github.com/rrddcc/YOLOv4_tensorflow）

3.1 介绍

Yolo-V4的主要目的在于设计一个能够应用于实际工作环境中的快速目标检测系统，且能够被并行优化，并没有很刻意的去追求理论上的低计算量（BFLOP）。同时，Yolo-V4的作者希望算法能够很轻易的被训练，也就是说拥有一块常规了GTX-2080ti或者Titan-XP GPU就能够训练Yolo-V4, 同时能够得到一个较好的结果（Yolo-V4 结果如上图）。整个介绍可以总结为以下几点：

a:研究设计了一个简单且高效的目标检测算法，该算法降低了训练门槛，使得普通人员在拥有一块1080TI或者2080TI的情况下就能够训练一个又快又准确的目标检测器；

b:在训练过程中验证了最新的Bag-of-Freebies(不增加训练成本的技巧)和Bag-of-Specials

(增加训练成本的技巧)对Yolo-V4的影响；

c:简化以及优化了一些最新提出的算法，包括（CBN，PAN，SAM），从而使Yolo-V4能够在一块GPU上就可以训练起来。

3.1.1 目标检测算法的发展总结

现代检测器通常由两部分组成，一个是在ImageNet数据上经过预训练的骨干网络，另一个是用来预测物体的类别和边界框的头部。对于在GPU平台上运行的那些检测器，其主干可能是VGG，ResNet，ResNeXt或DenseNet。对于在CPU平台上运行的那些检测器，其主干可以是SqueezeNet，MobileNet 或ShuffleNet。至于头部，通常分为两类，即one-stage目标检测器和two-stage目标检测器。最有代表性的两级对象检测器是R-CNN系列，包括Fast R-CNN，Faster R-CNN，R-FCN和Libra R-CNN。也有可能使two-stage检测器成为无锚对象（anchor-free）检测器，例如RepPoints。对于one-stage目标检测器，最具代表性的模型是YOLO，SSD和RetinaNet。近年来，开发了无锚的one-stage检测器。这种检测器是CenterNet ，CornerNet，FCOS等。近年来开发的对象检测器通常在骨架和头部之间插入一些层，这些层通常用于收集特征图。从不同的阶段。我们可以称其为对象检测器的颈部。通常，颈部由几个自下而上的路径和几个自上而下的路径组成。配备此机制的网络包括特征金字塔（Feature Pyramid Network)[44]， Path Aggregation Network (PAN），BiFPN和NAS-FPN。除上述模型外，一些研究人员将重点放在直接构建用于对象检测的新主干（DetNet，DetNAS）或新的整个模型（SpineNet，HitDetector）上。

首先解释一下相关的名词：

Input：算法的输入，包括整个图像，一个patch，或者是image pyramid

Backbone：可以理解为是提取图像特征的部分，由于图像中的浅层特征（low-level）是比较类似的，例如提取边缘，颜色，纹理这些。因此这部分可以很好的借鉴一些设计好并且已经训练好的网络，例如（VGG16,19，ResNet-50, ResNeXt-101, Darknet53）, 同时还有一些轻量级的backbone（MobilenetV1,2,3 ShuffleNet1,2）。

Neck：这部分我的理解是特征增强模块，前面的backbone已经提取到了一些相关的浅层特征，由这部分对backbone提取到的浅层特征（low-level feature）进行加工，增强，从而使得模型学到的特征是我想要的特征。这部分典型的有（SPP，ASPP in deeplabV3+，RFB，SAM），还有一些（FPN, PAN, NAS-FPN, BiFPN, ASFF, SFAM）。

Head：检测头。这部分就到了算法最关键的部分，就是来输出你想要的结果，例如想得到一个heatmap，（如在centernet中），那就增加一些反卷积层来一层一层反卷积回去。如果想直接得到bbox，那就可以接conv来输出结果，例如Yolo，ssd这些。亦或是想输出多任务（mask-RCNN）那就输出三个head：classification，regression，segmentation（就是mask那部分）。

因此，一个检测算法可以理解为：Object Detection = Backbone + Neck + Head。

3.2 YOLOV4

基于大量的实验与调研YOLOV4结构如下：

• Backbone: CSPDarknet53

CSPNet 将密集模块的输入特征图分为了两部分。第一部分 x_₀会绕过密集模块，成为下个过渡层的输入的一部分。第二部分 x_₀则会通过密集模块，如下图所示。

YOLOv4 使用了上面的 CSP 与Darknet-53 作为特征提取的骨干。相比于基于 ResNet 的设计，CSPDarknet53 模型的目标检测准确度更高，不过 ResNet 的分类性能更好一些。但是，借助后边的 Mish激活函数和其它技术，CSPDarknet53 的分类准确度可以得到提升。因此，YOLOv4 最终选择了 CSPDarknet53。

• Neck: SPP , PAN

SPP显著特点

1) 不管输入尺寸是怎样，SPP 可以产生固定大小的输出

2) 使用多个窗口(pooling window)

3) SPP 可以使用同一图像不同尺寸(scale)作为输入, 得到同样长度的池化特征。

其它特点

1) 由于对输入图像的不同纵横比和不同尺寸，SPP同样可以处理，所以提高了图像的尺度不变(scale-invariance)和降低了过拟合(over-fitting)

2) 实验表明训练图像尺寸的多样性比单一尺寸的训练图像更容易使得网络收敛(convergence)

3) SPP 对于特定的CNN网络设计和结构是独立的。(也就是说，只要把SPP放在最后一层卷积层后面，对网络的结构是没有影响的，它只是替换了原来的pooling层)

4) 不仅可以用于图像分类而且可以用来目标检测

• Head: YOLOv3

YOLO v4 使用的技巧

Bag of Freebies(不增加训练成本的技巧)for backbone：

a.CutMix和Mosaic数据增强；

b.DropBlock正则化：相邻的位置可能高度相关。所以即使丢弃一些像素，仍然可以检测出空间信息。DropBlock 正则化基于类似的概念，但适用于卷积层。不过 DropBlock 丢弃的不是各个像素，而是大小为 block_size × block_size 的一个像素块。

c.类标签平滑: 每当你觉得自己完全正确时，你可能只是想错了。如果一个预测结果的置信度为 100%，可能只是说明模型记忆了这个数据，而非学习了什么东西。标签平滑化将预测结果的目标上界调整至了一个更低的值，比如0.9。然后在计算损失时，模型会以这个值为目标，而不是1.0。这一方法可缓解过拟合问题

Bag of Specials (增加训练成本的技巧) for backbone：

a.Mish activation；Tensorflow：x = x *tf.math.tanh(F.softplus(x))

b.Cross-stage partial connections (CSP) 交叉阶段部分连接；

c.Multiinput weighted residual connections (MiWRC)，多输入加权的残差连接

Bag of Freebies (BoF) for detector：

a.CIoU-loss；

一个好的 bbox 回归损失应该考虑三个重要的集合度量：重叠面积、中心点距离和高宽比。

ｄ和 c 分别代表检测框和真实框的中心点，且 d代表的是计算两个中心点之间的欧氏距离，c 则代表 GIoU 中提到的 smallest convex shapes 的对角线距离，v 用来衡量高宽比的一致性，α 是一个 positive trade-off parameter, 是不参与求导的。

b.CmBN；

c.DropBlock regularization；

d.Mosaic data augmentation；

e.Self-Adversarial Training；

f.Eliminate grid sensitivity；

g.Using multiple anchors for a single ground truth；

h.Cosine annealing scheduler：余弦调度会根据一个余弦函数来调整学习率。首先，较大的学习率会以较慢的速度减小。然后在中途时，学习的减小速度会变快，最后学习率的减小速度又会变得很慢。

i.Optimal hyperparameters：进化算法是一种有根据的猜测方法。其遵循「适者生存」的概念。举个例子，如果我们随机选择 100 组超参数。然后使用它们训练 100 个模型。之后，我们从中选出表现最好的 10 个模型。对于每个被选中的模型，都根据原始版本创建 10 个超参数略有不同的变体版本。再使用这些新的超参数重新训练模型，再次选出其中表现最好的。随着我们不断迭代，我们应该可以找到超参数的最佳集合

j.Random training shapes：许多单阶段目标检测器都是用固定的输入图像形状进行训练的。为了提升泛化能力，我们可以使用不同的图像大小训练模型

Bag of Specials (BoS) for detector：

Mish activation, SPP-block；

SAM-block；

PAN path-aggregation block；

DIoU-NMS。

3.3 本文独有的改进

为了使设计的检测器更适合在单个GPU上进行训练，进行了以下附加设计和改进：

1、一种新的数据增强Mosaic, and Self-Adversarial Training (SAT)方法

2、用遗传算法的同时选择了最佳超参数

3、改了一些现有方法，使我们的设计适合进行有效的训练和检测-改进的SAM，改进的PAN和Cross mini-Batch Normalization（CmBN）

3.3.1 Mosaic

Mosaic表示一种新的数据增强方法，该方法混合了4个训练图像。因此，有4种不同的上下文混合，而CutMix仅混合2个输入图像。这样可以检测正常上下文之外的对象。此外，批量归一化从每层上的4张不同图像计算激活统计信息。这大大减少了对大批量生产的需求

Self-Adversarial Training (SAT)也代表了一项新的数据增强技术，该技术可在2个向前和向后的阶段进行操作。在第一阶段，神经网络会更改原始图像，而不是网络权重。以这种方式，神经网络对其自身执行对抗攻击，从而改变原始图像以产生对图像上没有期望物体的欺骗。在第二阶段，训练神经网络以正常方式检测此修改图像上的对象。

3.3.2 改进SAM，改进PAN，CmBN

注意力已经在深度学习设计中得到了广泛的应用。SAM（空间注意力模块）会为输入特征图分别应用最大池化和平均池化，从而得到两个特征图集合。其结果会被送入一个卷积层，之后再由一个 sigmoid 函数创建出空间注意力。

SAM从空间注意改为点注意，并将PAN的快捷连接替换为串联，分别如下图所示：

CmBN表示CBN修改版本，如图所示，定义为交叉微型批处理规范化（CmBN）。这仅收集单个批次中的迷你批次之间的统计信息。

总结一句话速度差不多的精度碾压，速度差不多的精度碾压。

基于opencv消除图片马赛克小苗爸爸 opencv 人工智能计算机视觉
以下是一个基于Python的图片马赛克消除函数实现，结合了图像处理和深度学习方法。由于马赛克消除涉及复杂的图像重建任务，建议根据实际需求选择合适的方法：importcv2importnumpyasnpfromPILimportImagedefremove_mosaic(image_path,output_path,method='traditional',block_size=10,scale_f
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
赋能农业数字化转型用DeepSeek大模型开启智慧农业新纪元 jingwang-cs 人工智能人工智能后端
赋能农业数字化转型用DeepSeek大模型开启智慧农业新纪元当农业遇见DeepSeek大模型：从经验驱动到数据智能的跨越传统农业依赖“看天吃饭”，而「智慧农业」平台依托公司自主研发的农业大模型，深度融合DeepSeek前沿AI技术，构建“数据-模型-决策”全链路智能服务体系。通过深度学习历史种植数据、气象信息、土壤墒情等多维农业要素，平台可精准预测病虫害风险、产量波动及市场趋势，为农户提供科学种植
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
深度学习代码分析——自用肆—— 深度学习人工智能笔记
代码来自：https://github.com/ChuHan89/WSSS-Tissue?tab=readme-ov-file借助了一些人工智能1_train_stage1.py代码功能总览该代码是弱监督语义分割（WSSS）流程的Stage1训练与测试脚本，核心任务是通过多标签分类模型生成图像级标签，为后续生成伪掩码（Pseudo-Masks）提供基础。代码分为train_phase和test_p
Python | Pytorch | Tensor知识点总结漂亮_大男孩 Python拾遗 python pytorch 深度学习人工智能
如是我闻：Tensor是我们接触Pytorch了解到的第一个概念，这里是一个关于PyTorchTensor主题的知识点总结，涵盖了Tensor的基本概念、创建方式、运算操作、梯度计算和GPU加速等内容。1.Tensor基本概念Tensor是PyTorch的核心数据结构，类似于NumPy的ndarray，但支持GPU加速和自动求导。PyTorch的Tensor具有动态计算图，可用于深度学习模型的前向
一文讲清楚自我学习和深度学习平凡而伟大(心之所向) 人工智能人工智能深度学习机器学习
自我学习（Self-Learning）和深度学习（DeepLearning）是两个不同的概念，但它们在某些应用场景中可以有交集。下面我们将分别介绍这两个概念，并探讨如何将它们结合起来用于自我学习系统。自我学习（Self-Learning）自我学习是指个体或系统通过自主探索、实践和反思来获取知识和技能的过程。它强调的是无需外部直接指导的学习方式，通常包括以下几个方面：自主性：学习者根据自己的兴趣、需
深度学习数据集封装-----目标检测篇科研小天才深度学习目标检测人工智能
前言在上篇文章中，我们深入探讨了图像分类数据集的制作流程。图像分类作为计算机视觉领域的一个基础任务，通常被认为是最为简单直接的子任务之一。然而，当我们转向目标检测任务时，复杂度便显著提升，尤其是在标注框的处理环节。不同的模型架构往往对标注框的处理方式有着各自独特的要求。以YOLO系列为例，它自有一套成熟且高效的方法来应对这一挑战。鉴于篇幅有限，本文暂不深入展开YOLO的相关内容，感兴趣的读者可以查
深入理解 Transformer：用途、原理和示例范吉民(DY Young) 简单AI学习 transformer 深度学习人工智能
深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed”中惊艳登场。它打破了传统循环神经网络（RNN）按顺序处理序列、难以并行计算以及卷积神经网络（CNN）在捕捉长距离依赖关系上的局限，另辟蹊径地采用多头注意力机制
深度学习算法模型：从原理到未来 YDH_AlwaysRunning 深度学习
近年来，人工智能（AI）技术以前所未有的速度改变着人类生活，而深度学习的崛起无疑是这场技术革命的核心驱动力。从手机中的语音助手到医学影像的智能诊断，从自动驾驶汽车到生成式AI创作的诗歌和画作，深度学习算法模型正逐渐渗透到社会的每个角落。本文将从基本原理出发，解析典型模型的运作机制，探讨其应用现状与发展趋势，带您全面认识这一改变世界的技术。一、深度学习的基本原理：让机器学会"思考"1.1神经网络的生
大模型推理速度测评的实战代码 herosunly 大模型推理速度人工智能实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助
微调（Fine-tuning）路野yue 人工智能深度学习
微调（Fine-tuning）是自然语言处理（NLP）和深度学习中的一种常见技术，用于将预训练模型（Pre-trainedModel）适配到特定任务上。它的核心思想是：在预训练模型的基础上，通过少量任务相关的数据进一步训练模型，使其更好地适应目标任务。1.微调的核心思想预训练模型：像BERT、GPT这样的模型，已经在大量通用文本数据上进行了预训练，学习到了丰富的语言知识（如语法、语义、上下文关系等
软件设计和软件架构之间的区别前网易架构师-高司机软件架构软件设计系统架构
作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业，消防等领域的工业化产品），合
基于PyTorch的深度学习2——Numpy与Tensor Wis4e 深度学习 pytorch numpy
Tensor自称为神经网络界的Numpy，它与Numpy相似，二者可以共享内存，且之间的转换非常方便和高效。不过它们也有不同之处，最大的区别就是Numpy会把ndarray放在CPU中进行加速运算，而由Torch产生的Tensor会放在GPU中进行加速运算。1.创建创建Tensor的方法有很多，可以从列表或ndarray等类型进行构建，也可根据指定的形状构建。importtorch#根据list数
【北上广深杭大厂AI算法面试题】深度学习篇...Squeeze Excitation（SE）网络结构详解，附代码。（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习神经网络 cnn
【北上广深杭大厂AI算法面试题】深度学习篇…SqueezeExcitation（SE）网络结构详解，附代码。（二）【北上广深杭大厂AI算法面试题】深度学习篇…SqueezeExcitation（SE）网络结构详解，附代码。（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...SqueezeExcitation（SE）网络结构详解，附代码。（二）SqueezeExcitation（SE）网络
GPU与CPU：架构对比与技术应用解析 Hello.Reader 运维其他架构
1.引言1.1为什么探讨GPU与CPU的对比？随着计算技术的不断发展，GPU（图形处理单元）和CPU（中央处理单元）已经成为现代计算机系统中最重要的两个组成部分。然而，随着应用场景的多样化和对性能需求的提高，这两种处理器的角色正在逐渐发生变化。GPU以其强大的并行计算能力，在深度学习、图像处理和科学计算等领域迅速崛起，而CPU则在通用计算任务中保持其核心地位。了解GPU与CPU的设计差异和适用场景
AI人工智能代理工作流AI Agent WorkFlow：搭建可拓展的AI代理工作流架构 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能代理工作流AIAgentWorkFlow：搭建可拓展的AI代理工作流架构1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，特别是机器学习和深度学习技术的广泛应用，构建高度智能且自动化的代理系统成为了一个迫切的需求。这些代理系统能够自主地进行决策、执行任务并适应不断变化的环境。然而，现有的代理系统往往在面对复杂任务时缺乏灵活性和可扩展性，这限制了它们在实际应用中的广泛部署和大规模应
Java 中 VO、POJO、DTO 的区别详解 ♢.＊ java 开发语言
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在Java开发的广阔领域中，准确理解和
树莓集团现状最新进展：宜宾园区业务再添新篇树莓集团百度人工智能科技大数据媒体
树莓集团在不断发展的进程中，宜宾园区传来了最新进展，业务再添新篇。近期，树莓集团宜宾园区在人工智能领域取得了重大突破。园区内的研发团队成功研发出一款适用于工业检测的人工智能视觉系统。该系统利用深度学习算法，能够快速、准确地检测出工业产品表面的细微缺陷，检测精度比传统检测方法提高了30%。这一成果不仅提升了宜宾园区在智能制造领域的竞争力，还为当地的制造业企业提供了更先进的质量检测手段。目前，已有多家
python数据分析入门与实战王静_Keras快速上手：基于Python的深度学习实战 weixin_39724362
1准备深度学习的环境11.1硬件环境的搭建和配置选择.........................11.1.1通用图形处理单元..........................31.1.2你需要什么样的GPU加速卡....................61.1.3你的GPU需要多少内存.......................61.1.4是否应该用多个GPU..............
PyTorch RuntimeError: 张量 a 的大小必须与张量 b 的大小在非单例维度上匹配 PzBlockchain pytorch 人工智能 python 机器学习-深度学习
在使用PyTorch进行深度学习模型开发时，经常会遇到各种错误和异常。其中一个常见的错误是RuntimeError。这篇文章将详细介绍其中一个特定的RuntimeError，即“Thesizeoftensoramustmatchthesizeoftensorbatnon-singletondimension”错误。我们将讨论这个错误的原因，并提供一些解决方案。错误信息解读：错误信息“Thesize
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
大模型算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
介绍：大模型算法工程师是指在开发和部署复杂的机器学习模型、深度学习模型或其他大规模模型的专业人员。他们的主要职责和技能要求包括：职责：设计、开发和优化大规模机器学习或深度学习模型，解决复杂的业务问题。负责整个模型开发生命周期，包括数据清洗、特征工程、模型选择、训练和部署。与数据科学家、工程团队和产品团队合作，理解业务需求并将算法转化为实际产品。对模型性能进行评估和优化，确保模型的准确性、效率和可扩
图像算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
01.图像算法图像算法工程师的技术图谱和学习路径涵盖了多个技术领域，从基础知识到高级算法，涉及计算机视觉、深度学习、图像处理、数学和编程等多个方面。以下是图像算法工程师的技术图谱和学习路径的详细总结。1.基础数学与编程数学基础：线性代数：矩阵运算、特征值、特征向量、奇异值分解（SVD）等概率论与统计：概率分布、贝叶斯定理、最大似然估计（MLE）、假设检验等微积分：导数、梯度、最优化方法（梯度下降、
【深度学习】Hopfield网络：模拟联想记忆 T-I-M 深度学习人工智能
Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。然而，随着模型规模的不断增大和任务复杂性的提升，Transformer的计算成本和内存需求也随之激增。为了解决这一问题，研究者们提出了多种优化方法，其中稀疏注意力（SparseAttention）是一种备
深度学习pytorch之4种归一化方法（Normalization）原理公式解析和参数使用 @Mr_LiuYang 计算机视觉基础归一化正则化 Normlization BatchNorm LayerNorm InstanceNrom GroupNorm
深度学习pytorch之22种损失函数数学公式和代码定义深度学习pytorch之19种优化算法（optimizer）解析深度学习pytorch之4种归一化方法（Normalization）原理公式解析和参数使用摘要归一化（Normalization）是提升模型性能、加速训练的重要技巧。归一化方法可以帮助减少梯度消失或爆炸的问题，提升模型的收敛速度，且对最终模型的性能有显著影响。本文将以PyTorc
【2025年超全汇总】大模型常见面试题及详细答案解析（非常详细）收藏这一篇就够了！ Cc不爱吃洋葱人工智能大语言模型语言模型 LLM 大模型大模型面试大模型算法
大模型相关的面试问题通常涉及模型的原理、应用、优化以及面试者对于该领域的理解和经验。以下是一些常见的大模型面试问题以及建议的回答方式：请简述什么是大模型，以及它与传统模型的主要区别是什么？回答：大模型通常指的是参数数量巨大的深度学习模型，如GPT系列。它们与传统模型的主要区别在于规模：大模型拥有更多的参数和更复杂的结构，从而能够处理更复杂、更广泛的任务。此外，大模型通常需要更多的数据和计算资源进行
【深度学习·命运-27】NAS四部曲end-NASNet 华东算法王深度学习·命运深度学习人工智能
NASNet（NeuralArchitectureSearchNetwork）是由GoogleBrain团队提出的另一种神经架构搜索（NAS）方法，它通过自动化搜索神经网络的结构，找到了具有竞争力的神经网络架构，尤其在计算机视觉任务（如图像分类）中表现非常优秀。NASNet是基于进化算法的架构搜索方法，与其他NAS方法相比，它具有更高的效率，并且能够生成更加优化的网络架构。1.NASNet的背景与
DeepSeek 1.5B 蒸馏模型的征程 6 部署（Llama 方式）自动驾驶算法
前言DeepSeek是一款基于人工智能的搜索引擎，旨在提升用户的搜索体验。它利用先进的自然语言处理技术，通过理解查询的上下文和意图，为用户提供更精确、相关的搜索结果。与传统的搜索引擎不同，DeepSeek不仅仅依赖于关键词匹配，还能通过深度学习分析用户的需求，呈现更加智能化的搜索结果。此外，DeepSeek还具备语义理解能力，能够处理复杂的查询，并在短时间内给出最符合用户需求的答案。DeepSee
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16]root@192.168.11.10:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

EfficientDet_ResneSt_YOLOV4

1、 EfficientDet

2、ResneSt

3、YOLOV4

你可能感兴趣的:(深度学习)