满船清梦压星河HK

【YOLOV5-5.x 源码解读】common.py

前言
0、导入需要的包和基本配置
1、基本组件
- 1.1、autopad
- 1.2、Conv
- 1.3、Focus
- 1.4、Bottleneck
- 1.5、BottleneckCSP
- 1.6、C3
- 1.7、SPP
- 1.8、Concat
- 1.9、Contract、Expand
2、注意力模块
- 2.1、transformer自注意力模块
- 2.2、SE注意力模块
- 2.3、CBAM注意力模块
- 2.4、CA注意力模块
3、模型扩展模块
- 3.1、NMS
- 3.2、AutoShape
- 3.3、Detections
- 3.4、Classify
总结
Reference

前言

源码： YOLOv5源码.
导航: 【YOLOV5-5.x 源码讲解】整体项目文件导航.
注释版全部项目文件已上传至GitHub: yolov5-5.x-annotations.

这个模块存放着yolov5网络搭建常见Common模块。

yolov5s网络结构图：

0、导入需要的包和基本配置

import math                # 数学函数模块
from copy import copy      # 数据拷贝模块 分浅拷贝和深拷贝
from pathlib import Path   # Path将str转换为Path对象 使字符串路径易于操作的模块

import numpy as np         # numpy数组操作模块
import pandas as pd        # panda数组操作模块
import requests            # Python的HTTP客户端库
import torch               # pytorch深度学习框架
import torch.nn as nn      # 专门为神经网络设计的模块化接口
from PIL import Image      # 图像基础操作模块
from torch.cuda import amp # 混合精度训练模块

from utils.datasets import letterbox
from utils.general import non_max_suppression, make_divisible, scale_coords, increment_path, xyxy2xywh, save_one_box
from utils.plots import colors, plot_one_box
from utils.torch_utils import time_synchronized

1、基本组件

$\qquad$ 从上面的yolov5s的结构图可以看出，下面的这些组件就是组成yolov5s的一些基本组件。

1.1、autopad

$\qquad$ 这个模块可以根据输入的卷积核计算该卷积模块所需的pad值。将会用于下面会讲到的Conv函数和Classify函数中。

autopad模块代码：

def autopad(k, p=None):
    """用于Conv函数和Classify函数中
    为same卷积或same池化作自动扩充（0填充）  Pad to 'same'
    :params k: 卷积核的kernel_size
    :return p: 自动计算的需要pad值（0填充）
    """
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # 自动计算pad数
    return p

1.2、Conv

$\qquad$ 这个函数是整个网络中最基础的组件，由卷积层 + BN层 + 激活函数组成，具体结构如下图：

$\qquad$ 既然是基础的组件，那么肯定会在很多的模块中被调用，如Focus、Bottleneck、BottleneckCSP、C3、SPP、DWConv、TransformerBlock等。

Conv模块代码：

class Conv(nn.Module):
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        """在Focus、Bottleneck、BottleneckCSP、C3、SPP、DWConv、TransformerBloc等模块中调用
        Standard convolution  conv+BN+act
        :params c1: 输入的channel值
        :params c2: 输出的channel值
        :params k: 卷积的kernel_size
        :params s: 卷积的stride
        :params p: 卷积的padding  一般是None  可以通过autopad自行计算需要pad的padding数
        :params g: 卷积的groups数  =1就是普通的卷积  >1就是深度可分离卷积
        :params act: 激活函数类型   True就是SiLU()/Swish   False就是不使用激活函数
                     类型是nn.Module就使用传进来的激活函数类型
        """
        super(Conv, self).__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)  # conv
        self.bn = nn.BatchNorm2d(c2)  # bn
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())  # activation

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def fuseforward(self, x):
        """用于Model类的fuse函数
        融合conv+bn 加速推理 一般用于测试/验证阶段
        """
        return self.act(self.conv(x))

$\qquad$ 另外这个类中还有一个特殊函数 fuseforward ，这是一个前向加速推理模块，在前向传播过程中，通过融合conv + bn层，达到加速推理的作用，一般用于测试或验证阶段。

1.3、Focus

$\qquad$ 这个模块是yolov5作者自己设计的一个模块，用在了模型的一开始，将输入图像先 slice 成4份，再做concat。结构如下所示：

$\qquad$ 设计思路：理论上从高分辨率图像中，周期性的抽出像素点重构到低分辨率图像中，即将图像相邻的四个位置进行堆叠，聚焦wh维度信息到c通道空，提高每个点感受野，并减少原始信息的丢失。这个组件并不是为了增加网络的精度的，而是为了减少计算量，增加速度。

Focus模块代码：

class Focus(nn.Module):
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        """在yolo.py的parse_model函数中被调用
        理论：从高分辨率图像中，周期性的抽出像素点重构到低分辨率图像中，即将图像相邻的四个位置进行堆叠，
            聚焦wh维度信息到c通道空，提高每个点感受野，并减少原始信息的丢失，该模块的设计主要是减少计算量加快速度。
        Focus wh information into c-space 把宽度w和高度h的信息整合到c空间中
        先做4个slice 再concat 最后再做Conv
        slice后 (b,c1,w,h) -> 分成4个slice 每个slice(b,c1,w/2,h/2)
        concat(dim=1)后 4个slice(b,c1,w/2,h/2)) -> (b,4c1,w/2,h/2)
        conv后 (b,4c1,w/2,h/2) -> (b,c2,w/2,h/2)
        :params c1: slice后的channel
        :params c2: Focus最终输出的channel
        :params k: 最后卷积的kernel
        :params s: 最后卷积的stride
        :params p: 最后卷积的padding
        :params g: 最后卷积的分组情况  =1普通卷积  >1深度可分离卷积
        :params act: bool激活函数类型  默认True:SiLU()/Swish  False:不用激活函数
        """
        super(Focus, self).__init__()
        self.conv = Conv(c1 * 4, c2, k, s, p, g, act)  # concat后的卷积（最后的卷积）
        # self.contract = Contract(gain=2)  # 也可以调用Contract函数实现slice操作

    def forward(self, x):

        # x(b,c,w,h) -> y(b,4c,w/2,h/2)  有点像做了个下采样
        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))
        # return self.conv(self.contract(x))

1.4、Bottleneck

$\qquad$ 这个模式是一个标准的 bottleneck 模块，非常简单，就是由一些 1x1conv、3x3conv、残差块组成，具体的结构如下所示：

Bottleneck模块代码：

class Bottleneck(nn.Module):
    def __init__(self, c1, c2, shortcut=True, g=1, e=0.5):
        """在BottleneckCSP和yolo.py的parse_model中调用
        Standard bottleneck  Conv+Conv+shortcut
        :params c1: 第一个卷积的输入channel
        :params c2: 第二个卷积的输出channel
        :params shortcut: bool 是否有shortcut连接 默认是True
        :params g: 卷积分组的个数  =1就是普通卷积  >1就是深度可分离卷积
        :params e: expansion ratio  e*c2就是第一个卷积的输出channel=第二个卷积的输入channel
        """
        super(Bottleneck, self).__init__()
        c_ = int(c2 * e)                    # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)       # 1x1
        self.cv2 = Conv(c_, c2, 3, 1, g=g)  # 3x3
        self.add = shortcut and c1 == c2    # shortcut=True and c1 == c2 才能做shortcut

    def forward(self, x):
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))

1.5、BottleneckCSP

$\qquad$ 这个模块是由Bottleneck模块和CSP结构组成。CSP结构来源于2019年发表的一篇论文：CSPNet: A New Backbone that can Enhance Learning Capability of CNN.如果不是很清楚这个结构或者想了解这篇论文的，可以看看我的另一篇博客：【论文复现】CSPNet（2019）.

$\qquad$ 这个模块和上面yolov5s中的C3模块等效，如果要用的话直接在yolov5s.yaml文件中讲C3改成BottleneckCSP即可，但是一般来说不用改，因为C3更好。

BottleneckCSP模块具体的结构如下所示：

BottleneckCSP模块代码：

class BottleneckCSP(nn.Module):
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
        """在C3模块和yolo.py的parse_model模块调用
        CSP Bottleneck https://github.com/WongKinYiu/CrossStagePartialNetworks
        :params c1: 整个BottleneckCSP的输入channel
        :params c2: 整个BottleneckCSP的输出channel
        :params n: 有n个Bottleneck
        :params shortcut: bool Bottleneck中是否有shortcut，默认True
        :params g: Bottleneck中的3x3卷积类型  =1普通卷积  >1深度可分离卷积
        :params e: expansion ratio c2xe=中间其他所有层的卷积核个数/中间所有层的输入输出channel数
        """
        # ch_in, ch_out, number, shortcut, groups, expansion
        super(BottleneckCSP, self).__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = nn.Conv2d(c1, c_, 1, 1, bias=False)
        self.cv3 = nn.Conv2d(c_, c_, 1, 1, bias=False)
        self.cv4 = Conv(2 * c_, c2, 1, 1)
        self.bn = nn.BatchNorm2d(2 * c_)  # applied to cat(cv2, cv3)  2*c_
        self.act = nn.LeakyReLU(0.1, inplace=True)
        # 叠加n次Bottleneck
        self.m = nn.Sequential(*[Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)])

    def forward(self, x):
        y1 = self.cv3(self.m(self.cv1(x)))
        y2 = self.cv2(x)
        return self.cv4(self.act(self.bn(torch.cat((y1, y2), dim=1))))

1.6、C3

$\qquad$ 这个模块是一种简化版的BottleneckCSP，因为除了Bottleneck部分只有3个卷积，可以减少参数，所以取名C3。而作者之所以用C3来带代替BottleneckCSP也是有原因的，作者原话：

C3() is an improved version of CSPBottleneck(). It is simpler, faster and and lighter with similar performance and better fuse characteristics.

C3模块具体的结构如下所示：

C3模块代码：

class C3(nn.Module):
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
        """在C3TR模块和yolo.py的parse_model模块调用
        CSP Bottleneck with 3 convolutions
        :params c1: 整个BottleneckCSP的输入channel
        :params c2: 整个BottleneckCSP的输出channel
        :params n: 有n个Bottleneck
        :params shortcut: bool Bottleneck中是否有shortcut，默认True
        :params g: Bottleneck中的3x3卷积类型  =1普通卷积  >1深度可分离卷积
        :params e: expansion ratio c2xe=中间其他所有层的卷积核个数/中间所有层的输入输出channel数
        """
        super(C3, self).__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.cv3 = Conv(2 * c_, c2, 1)  # act=FReLU(c2)
        self.m = nn.Sequential(*[Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)])
        # 实验性 CrossConv
        # self.m = nn.Sequential(*[CrossConv(c_, c_, 3, 1, g, 1.0, shortcut) for _ in range(n)])

    def forward(self, x):
        return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), dim=1))

1.7、SPP

$\qquad$ 这个模块的主要目的是为了将更多不同分辨率的特征进行融合，得到更多的信息。

SPP模块具体的结构如下所示：

SPP模块代码：

class SPP(nn.Module):
    def __init__(self, c1, c2, k=(5, 9, 13)):
        """在yolo.py的parse_model模块调用
        空间金字塔池化 Spatial pyramid pooling layer used in YOLOv3-SPP
        :params c1: SPP模块的输入channel
        :params c2: SPP模块的输出channel
        :params k: 保存着三个maxpool的卷积核大小 默认是(5, 9, 13)
        """
        super(SPP, self).__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)  # 第一层卷积
        self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)  # 最后一层卷积  +1是因为有len(k)+1个输入
        self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])

    def forward(self, x):
        x = self.cv1(x)
        return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))

1.8、Concat

$\qquad$ 这个函数是讲自身（a list of tensors）按照某个维度进行concat，常用来合并前后两个feature map，也就是上面yolov5s结构图中的Concat。

class Concat(nn.Module):
    def __init__(self, dimension=1):
        """在yolo.py的parse_model模块调用
        Concatenate a list of tensors along dimension
        :params dimension: 沿着哪个维度进行concat
        """
        super(Concat, self).__init__()
        self.d = dimension

    def forward(self, x):
        # x: a list of tensors
        return torch.cat(x, self.d)

1.9、Contract、Expand

$\qquad$ 这两个函数是用于改变feature map的维度，并不是很常用。Contract函数改变输入特征的shape，将feature map的w和h维度(缩小)的数据收缩到channel维度上(放大)。如：x(1,64,80,80) to x(1,256,40,40)。Expand函数也是改变输入特征的shape，不过与Contract的相反，是将channel维度(变小)的数据扩展到W和H维度(变大)。如：x(1,64,80,80) to x(1,16,160,160)。

代码：

class Contract(nn.Module):
    """用在yolo.py的parse_model模块 用的不多
    改变输入特征的shape 将w和h维度(缩小)的数据收缩到channel维度上(放大)
    Contract width-height into channels, i.e. x(1,64,80,80) to x(1,256,40,40)
    """
    def __init__(self, gain=2):
        super().__init__()
        self.gain = gain

    def forward(self, x):
        N, C, H, W = x.size()  # 1 64 80 80
        s = self.gain  # 2
        x = x.view(N, C, H // s, s, W // s, s)  # x(1,64,40,2,40,2)
        # permute: 改变tensor的维度顺序
        x = x.permute(0, 3, 5, 1, 2, 4).contiguous()  # x(1,2,2,64,40,40)
        # .view: 改变tensor的维度
        return x.view(N, C * s * s, H // s, W // s)  # x(1,256,40,40)

class Expand(nn.Module):
    """用在yolo.py的parse_model模块  用的不多
    改变输入特征的shape 将channel维度(变小)的数据扩展到W和H维度(变大)
    Expand channels into width-height, i.e. x(1,64,80,80) to x(1,16,160,160)
    """
    def __init__(self, gain=2):
        super().__init__()
        self.gain = gain

    def forward(self, x):
        N, C, H, W = x.size()  # 1 64 80 80
        s = self.gain  # 2
        x = x.view(N, s, s, C // s ** 2, H, W)  # x(1,2,2,16,80,80)
        x = x.permute(0, 3, 4, 1, 5, 2).contiguous()  # x(1,16,80,2,80,2)
        return x.view(N, C // s ** 2, H * s, W * s)  # x(1,16,160,160)

会用在yolo.py的parse_model模块（用的不多）：

2、注意力模块

$\qquad$ 注意力机制一直是比较火热的研究方向。注意力机制主要是告诉模型那里更重要，什么更重要，并赋予其一个更大权重，而那些不重要的区域就赋予一个较小的权重，让模型更关注于重要的区域；同时也会起到一个结合全局信息的作用。

关于注意力机制使用的一些个人看法，不一定正确：

在上采样+concat之后接一个注意力机制可能会更好？
channel-wise比spatial-wise更好用？
backbone结尾使用一个注意力机制？
每个block（如residual block）结尾使用比每个Conv里使用更好？

这些只是我总结的一些注意力机制使用的常见模式，不一定适用全部的模型或者数据集，还是需要多多实验。

2.1、transformer自注意力模块

$\qquad$ 这个部分是作者根据论文： Attention is all you need 和（ViT）An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale两篇论文中提出的Transformer自注意力机制，稍加改编而来的。

$\qquad$ 关于transformer的论文我看的比较少，笔记都是记在ipad上，我是跟着 Transformer从零详细解读(可能是你见过最通俗易懂的讲解). 和李宏毅老师视频. 这两个视频入的门。后面再看论文和源码。不过学的还是比较浅，就不多说了，如果想进一步了解的可以按照这个路线进行学习。

如下图是整个transformer的结构，我们这里代码部分只用了左边的Encoding部分：

transformer自注意力模块代码：

# transformer
class TransformerLayer(nn.Module):
    """
     Transformer layer https://arxiv.org/abs/2010.11929 (LayerNorm layers removed for better performance)
     视频: https://www.bilibili.com/video/BV1Di4y1c7Zm?p=5&spm_id_from=pageDriver
          https://www.bilibili.com/video/BV1v3411r78R?from=search&seid=12070149695619006113
     这部分相当于原论文中的单个Encoder部分(只移除了两个Norm部分, 其他结构和原文中的Encoding一模一样)
    """
    def __init__(self, c, num_heads):
        super().__init__()
        self.q = nn.Linear(c, c, bias=False)
        self.k = nn.Linear(c, c, bias=False)
        self.v = nn.Linear(c, c, bias=False)
        # 输入: query、key、value
        # 输出: 0 attn_output 即通过self-attention之后，从每一个词语位置输出来的attention 和输入的query它们形状一样的
        #      1 attn_output_weights 即attention weights 每一个单词和任意另一个单词之间都会产生一个weight
        self.ma = nn.MultiheadAttention(embed_dim=c, num_heads=num_heads)
        self.fc1 = nn.Linear(c, c, bias=False)
        self.fc2 = nn.Linear(c, c, bias=False)

    def forward(self, x):
        # 多头注意力机制 + 残差(这里移除了LayerNorm for better performance)
        x = self.ma(self.q(x), self.k(x), self.v(x))[0] + x
        # feed forward 前馈神经网络 + 残差(这里移除了LayerNorm for better performance)
        x = self.fc2(self.fc1(x)) + x
        return x
class TransformerBlock(nn.Module):
    """
    Vision Transformer https://arxiv.org/abs/2010.11929
    视频: https://www.bilibili.com/video/BV1Di4y1c7Zm?p=5&spm_id_from=pageDriver
         https://www.bilibili.com/video/BV1v3411r78R?from=search&seid=12070149695619006113
    这部分相当于原论文中的Encoders部分 只替换了一些编码方式和最后Encoders出来数据处理方式
    """
    def __init__(self, c1, c2, num_heads, num_layers):
        super().__init__()
        self.conv = None
        if c1 != c2:
            self.conv = Conv(c1, c2)
        self.linear = nn.Linear(c2, c2)  # learnable position embedding 位置编码
        self.tr = nn.Sequential(*[TransformerLayer(c2, num_heads) for _ in range(num_layers)]) # encoder * n
        self.c2 = c2  # 输出channel

    def forward(self, x):
        if self.conv is not None:  # embedding
            x = self.conv(x)
        b, _, w, h = x.shape
        p = x.flatten(2)
        p = p.unsqueeze(0)
        p = p.transpose(0, 3)
        p = p.squeeze(3)
        e = self.linear(p)         # positional encoding
        x = p + e                  # 残差

        x = self.tr(x)             # encode * n
        x = x.unsqueeze(3)         # encoders结束 维度处理
        x = x.transpose(0, 3)
        x = x.reshape(b, self.c2, w, h)
        return x
class C3TR(C3):
    """
    这部分是根据上面的C3结构改编而来的, 将原先的Bottleneck替换为调用TransformerBlock模块 
    """
    # C3 module with TransformerBlock()
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
        super().__init__(c1, c2, n, shortcut, g, e)
        c_ = int(c2 * e)
        self.m = TransformerBlock(c_, c_, 4, n)

使用方式：
1、修改yolov5s.yaml的backbone部分：

# YOLOv5 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Focus, [64, 3]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 9, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 1, SPP, [1024, [5, 9, 13]]],
   [-1, 3, C3TR, [1024, False]],  # 9  <-------- C3TR() Transformer module
  ]

2、yolo.py中的parse_model函数调用C3TR函数：

2.2、SE注意力模块

$\qquad$ 这个模块是自己写的实验性模块，SELayer来自论文： Squeeze-and-Excitation Networks。相关的理论请看：【论文复现】SENet（2019）。

SELayer模块代码：

class SELayer(nn.Module):
    # SE注意力机制模块
    # https://arxiv.org/abs/1709.01507
    def __init__(self, c1, r=16):
        super(SELayer, self).__init__()
        self.avgpool = nn.AdaptiveAvgPool2d(1)
        self.l1 = nn.Linear(c1, c1 // r, bias=False)
        self.relu = nn.ReLU(inplace=True)
        self.l2 = nn.Linear(c1 // r, c1, bias=False)
        self.sig = nn.Sigmoid()

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avgpool(x).view(b, c)
        y = self.l1(y)
        y = self.relu(y)
        y = self.l2(y)
        y = self.sig(y)
        y = y.view(b, c, 1, 1)
        return x * y.expand_as(x)

如何添加注意力机制？这里提供其中一个改动方法，大家也可以尝试自己的方法，效果可能都不同。

# YOLOv5 backbone
backbone:
  # [from, number, module, args]
  [
    [-1, 1, Focus, [64, 3]], # 0-P1/2                 #1
    [-1, 1, Conv, [128, 3, 2]], # 1-P2/4              #2
    [-1, 3, C3, [128]], #3
    [-1, 1, Conv, [256, 3, 2]], # 3-P3/8              #4
    [-1, 9, C3, [256]], #5
    [-1, 1, Conv, [512, 3, 2]], # 5-P4/16             #6
    [-1, 9, C3, [512]], #7
    [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32            #8
    [-1, 1, SPP, [1024, [5, 9, 13]]], #9
    [-1, 3, C3, [1024, False]], # 9                   #10
    [-1, 1, SELayer, [1024, 4]], #10
  ]

yolo.py:

2.3、CBAM注意力模块

$\qquad$ 这个模块是自己写的实验性模块，CBAM来自论文： CBAM。相关的理论请看：【论文复现】CBAM（2018）。

通道注意力模块（CAM）:

空间注意力模块（SAM）:

CBAM：

CBAM模块所有代码:

# CBAM
class CBAM(nn.Module):
    def __init__(self, c1,c2):
        super(CBAM, self).__init__()
        self.channel_attention = ChannelAttention(c1)
        self.spatial_attention = SpatialAttention()

    def forward(self, x):
        out = self.channel_attention(x) * x
        out = self.spatial_attention(out) * out
        return out
class ChannelAttention(nn.Module):
    def __init__(self, in_planes, ratio=16):
        """
        :params: in_planes 输入模块的feature map的channel
        :params: ratio 降维/升维因子
        通道注意力则是将一个通道内的信息直接进行全局处理，容易忽略通道内的信息交互
        """
        super(ChannelAttention, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)  # 平均池化，是取整个channel所有元素的均值 [3,5,5] => [3,1,1]
        self.max_pool = nn.AdaptiveMaxPool2d(1)  # 最大池化，是取整个channel所有元素的最大值[3,5,5] => [3,1,1]

        # shared MLP
        self.fc1 = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False)
        self.relu1 = nn.ReLU()
        self.fc2 = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False)

        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
        max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
        out = avg_out + max_out
        return self.sigmoid(out)
class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        """对空间注意力来说，由于将每个通道中的特征都做同等处理，容易忽略通道间的信息交互"""
        super(SpatialAttention, self).__init__()

        # 这里要保持卷积后的feature尺度不变，必须要padding=kernel_size//2
        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=kernel_size // 2, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):                               # 输入x = [b, c, 56, 56]
        avg_out = torch.mean(x, dim=1, keepdim=True)    # avg_out = [b, 1, 56, 56]  求x的每个像素在所有channel相同位置上的平均值
        max_out, _ = torch.max(x, dim=1, keepdim=True)  # max_out = [b, 1, 56, 56]  求x的每个像素在所有channel相同位置上的最大值
        x = torch.cat([avg_out, max_out], dim=1)        # x = [b, 2, 56, 56]  concat操作
        x = self.conv1(x)                               # x = [b, 1, 56, 56]  卷积操作，融合avg和max的信息，全方面考虑
        return self.sigmoid(x)

如何添加注意力机制？这里提供其中一个改动方法，大家也可以尝试自己的方法，效果可能都不同。

yolov5s-cbam.yaml

# parameters
nc: 80  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

# anchors
anchors:
  #- [5,6, 7,9, 12,10]      # P2/4
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 backbone
backbone:
  # [from, number, module, args]               # [c=channels,module,kernlsize,strides]-  1代表来自上一层输出
  [[-1, 1, Focus, [64, 3]],  # 0-P1/2           [c=3,64*0.5=32,3]  举例，输出通道数*width_multiple:=64*0.5
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 3, CBAM, [128]],                   # 举例，3*width_multiple:=3*0.33=1
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 9, C3, [256]],
   [-1, 3, CBAM, [256]] ,
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 3, CBAM, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 1, SPP, [1024, [5, 9, 13]]],
   [-1, 3, C3, [1024, False]],  # 9
   [-1, 3, CBAM, [1024]], #13

  ]

# YOLOv5 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 7], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 19 (P3/8-small)
   [-1, 3, CBAM, [256]],
   #[-1, 3, C3, [256]],

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 18], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 23 (P4/16-medium)       [256, 256, 1, False]
   [-1, 3, CBAM, [512]],
   #[-1, 3, C3, [512]],

   [-1, 1, Conv, [512, 3, 2]],                           #[256, 256, 3, 2]
   [[-1, 14], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 27 (P5/32-large)       [512, 512, 1, False]
   [-1, 3, CBAM, [1024]],
   #[-1, 3, C3, [1024]],

   [[22, 26, 30], 1, ASFF_Detect, [nc, anchors,0.5,True]],  # ASFF_Detect(P3, P4, P5,mult,rfb)
  ]

yolo.py:

2.4、CA注意力模块

$\qquad$ CA（Coordinate Attention）协同注意力机制。来自于CVPR2021的一份最新论文中： https://arxiv.org/abs/2103.02907. 论文源码： https://github.com/Andrew-Qibin/CoordAttention/blob/main/coordatt.py.

如下图（左边SE，中间CBAM，右边CA）：

CA注意力代码：

class CoorAttention(nn.Module):
    """
    CA Coordinate Attention 协同注意力机制
    论文 CVPR2021: https://arxiv.org/abs/2103.02907
    源码: https://github.com/Andrew-Qibin/CoordAttention/blob/main/coordatt.py
    CA注意力机制是一个Spatial Attention 相比于SAM的7x7卷积, CA建立了远程依赖
    可以考虑把SE + CA合起来用试试？
    """
    def __init__(self, inp, oup, reduction=32):
        super(CoorAttention, self).__init__()
        # [B, C, H, W] -> [B, C, H, 1]
        self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
        # [B, C, H, W] -> [B, C, 1, W]
        self.pool_w = nn.AdaptiveAvgPool2d((1, None))

        mip = max(8, inp // reduction)   # 对中间层channel做一个限制 不得少于8

        # 将x轴信息和y轴信息融合在一起
        self.conv1 = nn.Conv2d(inp, mip, kernel_size=1, stride=1, padding=0)
        self.bn1 = nn.BatchNorm2d(mip)
        self.act = Hardswish()  # 这里自己可以实验什么激活函数最佳 论文里是hard-swish

        self.conv_h = nn.Conv2d(mip, oup, kernel_size=1, stride=1, padding=0)
        self.conv_w = nn.Conv2d(mip, oup, kernel_size=1, stride=1, padding=0)

    def forward(self, x):
        identity = x

        n, c, h, w = x.size()
        # [B, C, H, W] -> [B, C, H, 1]
        x_h = self.pool_h(x)   # h avg pool
        # [B, C, H, W] -> [B, C, 1, W] -> [B, C, W, 1]
        x_w = self.pool_w(x).permute(0, 1, 3, 2)  # w avg pool

        y = torch.cat([x_h, x_w], dim=2)  # [B, C, H+W, 1]
        y = self.conv1(y)
        y = self.bn1(y)
        y = self.act(y)

        # split  x_h: [B, C, H, 1]  x_w: [B, C, W, 1]
        x_h, x_w = torch.split(y, [h, w], dim=2)
        # [B, C, W, 1] -> [B, C, 1, W]
        x_w = x_w.permute(0, 1, 3, 2)

        a_h = self.conv_h(x_h).sigmoid()
        a_w = self.conv_w(x_w).sigmoid()

        # 基于W和H方向做注意力机制 建立远程依赖关系
        out = identity * a_w * a_h

        return out

整个模块没做过什么实验，有条件的朋友可以做做消融实验，不同位置或者SE+CA结合等等。

3、模型扩展模块

$\qquad$ 下面的几个函数都是属于模型的扩展模块。yolov5的作者将搭建模型的函数功能写的很齐全。不光包含搭建模型部分，还考虑到了各个方面其他的功能，比如给模型搭载nms功能、给模型封装成包含前处理、推理、后处理的模块(预处理 + 推理 + nms)、二次分类等等功能。如下图（功能齐全）：

3.1、NMS

$\qquad$ 这个模块是给模型搭载nms功能，直接调用的general.py文件的non_max_suppression函数，但是我们一般不会用，一般是在前向推理结束后再调用non_max_suppression函数。

NMS模块代码：

class NMS(nn.Module):
    """在yolo.py中Model类的nms函数中使用
    NMS非极大值抑制 Non-Maximum Suppression (NMS) module
    给模型model封装nms  增加模型的扩展功能  但是我们一般不用 一般是在前向推理结束后再调用non_max_suppression函数
    """
    conf = 0.25     # 置信度阈值              confidence threshold
    iou = 0.45      # iou阈值                IoU threshold
    classes = None  # 是否nms后只保留特定的类别 (optional list) filter by class
    max_det = 1000  # 每张图片的最大目标个数    maximum number of detections per image

    def __init__(self):
        super(NMS, self).__init__()

    def forward(self, x):
        """
        :params x[0]: [batch, num_anchors(3个yolo预测层), (x+y+w+h+1+num_classes)]
        直接调用的是general.py中的non_max_suppression函数给model扩展nms功能
        """
        return non_max_suppression(x[0], self.conf, iou_thres=self.iou, classes=self.classes, max_det=self.max_det)

在yolo.py中Model类的nms函数中调用：

3.2、AutoShape

$\qquad$ 这个模块是一个模型扩展模块，给模型封装成包含前处理、推理、后处理的模块(预处理 + 推理 + nms)，用的不多。

AutoShape模块代码：

class AutoShape(nn.Module):
    """在yolo.py中Model类的autoshape函数中使用
    将model封装成包含前处理、推理、后处理的模块(预处理 + 推理 + nms)  也是一个扩展模型功能的模块
    autoshape模块在train中不会被调用，当模型训练结束后，会通过这个模块对图片进行重塑，来方便模型的预测
    自动调整shape，我们输入的图像可能不一样，可能来自cv2/np/PIL/torch 对输入进行预处理 调整其shape，
    调整shape在datasets.py文件中,这个实在预测阶段使用的,model.eval(),模型就已经无法训练进入预测模式了
    input-robust model wrapper for passing cv2/np/PIL/torch inputs. Includes preprocessing, inference and NMS
    """
    conf = 0.25     # 置信度阈值 NMS confidence threshold
    iou = 0.45      # NMS IoU threshold
    classes = None  # 是否nms后只保留特定的类别 (optional list) filter by class
    max_det = 1000  # maximum number of detections per image

    def __init__(self, model):
        super(AutoShape, self).__init__()
        # 开启验证模式
        self.model = model.eval()

    def autoshape(self):
        print('AutoShape already enabled, skipping... ')  # model already converted to model.autoshape()
        return self

    @torch.no_grad()
    def forward(self, imgs, size=640, augment=False, profile=False):
        # 这里的imgs针对不同的方法读入，官方也给了具体的方法，size是图片的尺寸，就比如最上面图片里面的输入608*608*3
        # Inference from various sources. For height=640, width=1280, RGB images example inputs are:
        #   filename:   imgs = 'data/images/zidane.jpg'
        #   URI:             = 'https://github.com/ultralytics/yolov5/releases/download/v1.0/zidane.jpg'
        #   OpenCV:          = cv2.imread('image.jpg')[:,:,::-1]  # HWC BGR to RGB x(640,1280,3)
        #   PIL:             = Image.open('image.jpg')  # HWC x(640,1280,3)
        #   numpy:           = np.zeros((640,1280,3))  # HWC
        #   torch:           = torch.zeros(16,3,320,640)  # BCHW (scaled to size=640, 0-1 values)
        #   multiple:        = [Image.open('image1.jpg'), Image.open('image2.jpg'), ...]  # list of images
        t = [time_synchronized()]
        p = next(self.model.parameters())  # for device and type

        # 图片如果是tensor格式 说明是预处理过的, 直接正常进行前向推理即可 nms在推理结束进行(函数外写)
        if isinstance(imgs, torch.Tensor):  # torch
            with amp.autocast(enabled=p.device.type != 'cpu'):
                return self.model(imgs.to(p.device).type_as(p), augment, profile)  # inference

        # 图片不是tensor格式 就先对图片进行预处理  Pre-process
        n, imgs = (len(imgs), imgs) if isinstance(imgs, list) else (1, [imgs])  # number of images, list of images
        shape0, shape1, files = [], [], []  # image and inference shapes, filenames
        for i, im in enumerate(imgs):
            f = f'image{i}'  # filename
            if isinstance(im, str):  # filename or uri
                im, f = np.asarray(Image.open(requests.get(im, stream=True).raw if im.startswith('http') else im)), im
            elif isinstance(im, Image.Image):  # PIL Image
                im, f = np.asarray(im), getattr(im, 'filename', f) or f
            files.append(Path(f).with_suffix('.jpg').name)
            if im.shape[0] < 5:  # image in CHW
                im = im.transpose((1, 2, 0))  # reverse dataloader .transpose(2, 0, 1)
            im = im[:, :, :3] if im.ndim == 3 else np.tile(im[:, :, None], 3)  # enforce 3ch input
            s = im.shape[:2]  # HWC
            shape0.append(s)  # image shape
            g = (size / max(s))  # gain
            shape1.append([y * g for y in s])
            imgs[i] = im if im.data.contiguous else np.ascontiguousarray(im)  # update
        shape1 = [make_divisible(x, int(self.stride.max())) for x in np.stack(shape1, 0).max(0)]  # inference shape
        x = [letterbox(im, new_shape=shape1, auto=False)[0] for im in imgs]  # pad image
        x = np.stack(x, 0) if n > 1 else x[0][None]  # stack image
        x = np.ascontiguousarray(x.transpose((0, 3, 1, 2)))  # BHWC to BCHW
        x = torch.from_numpy(x).to(p.device).type_as(p) / 255.  # uint8 to fp16/32
        t.append(time_synchronized())

        with amp.autocast(enabled=p.device.type != 'cpu'):
            # 预处理结束再进行前向推理  Inference
            y = self.model(x, augment, profile)[0]  # forward 前向推理
            t.append(time_synchronized())

            # 前向推理结束后 进行后处理Post-process  nms
            y = non_max_suppression(y, self.conf, iou_thres=self.iou, classes=self.classes, max_det=self.max_det)  # NMS
            for i in range(n):
                scale_coords(shape1, y[i][:, :4], shape0[i])  # 将nms后的预测结果映射回原图尺寸
            t.append(time_synchronized())

            return Detections(imgs, y, files, t, self.names, x.shape)

在yolo.py中Model类的autoshape函数中使用：

3.3、Detections

$\qquad$ 对推理结果进行一些处理，用的真的不多，整个yolov5只在上面的AutoShape函数结尾调用了一下，感兴趣的可以看看，偷下懒，我就不看了。

class Detections:
    """用在AutoShape函数结尾
    detections class for YOLOv5 inference results
    """
    def __init__(self, imgs, pred, files, times=None, names=None, shape=None):
        super(Detections, self).__init__()
        d = pred[0].device  # device
        gn = [torch.tensor([*[im.shape[i] for i in [1, 0, 1, 0]], 1., 1.], device=d) for im in imgs]  # normalizations
        self.imgs = imgs  # list of images as numpy arrays
        self.pred = pred  # list of tensors pred[0] = (xyxy, conf, cls)
        self.names = names  # class names
        self.files = files  # image filenames
        self.xyxy = pred  # xyxy pixels
        self.xywh = [xyxy2xywh(x) for x in pred]  # xywh pixels
        self.xyxyn = [x / g for x, g in zip(self.xyxy, gn)]  # xyxy normalized
        self.xywhn = [x / g for x, g in zip(self.xywh, gn)]  # xywh normalized
        self.n = len(self.pred)  # number of images (batch size)
        self.t = tuple((times[i + 1] - times[i]) * 1000 / self.n for i in range(3))  # timestamps (ms)
        self.s = shape  # inference BCHW shape

    def display(self, pprint=False, show=False, save=False, crop=False, render=False, save_dir=Path('')):
        for i, (im, pred) in enumerate(zip(self.imgs, self.pred)):
            str = f'image {i + 1}/{len(self.pred)}: {im.shape[0]}x{im.shape[1]} '
            if pred is not None:
                for c in pred[:, -1].unique():
                    n = (pred[:, -1] == c).sum()  # detections per class
                    str += f"{n} {self.names[int(c)]}{'s' * (n > 1)}, "  # add to string
                if show or save or render or crop:
                    for *box, conf, cls in pred:  # xyxy, confidence, class
                        label = f'{self.names[int(cls)]} {conf:.2f}'
                        if crop:
                            save_one_box(box, im, file=save_dir / 'crops' / self.names[int(cls)] / self.files[i])
                        else:  # all others
                            plot_one_box(box, im, label=label, color=colors(cls))

            im = Image.fromarray(im.astype(np.uint8)) if isinstance(im, np.ndarray) else im  # from np
            if pprint:
                print(str.rstrip(', '))
            if show:
                im.show(self.files[i])  # show
            if save:
                f = self.files[i]
                im.save(save_dir / f)  # save
                print(f"{'Saved' * (i == 0)} {f}", end=',' if i < self.n - 1 else f' to {save_dir}\n')
            if render:
                self.imgs[i] = np.asarray(im)

    def print(self):
        self.display(pprint=True)  # print results
        print(f'Speed: %.1fms pre-process, %.1fms inference, %.1fms NMS per image at shape {tuple(self.s)}' % self.t)

    def show(self):
        self.display(show=True)  # show results

    def save(self, save_dir='runs/hub/exp'):
        save_dir = increment_path(save_dir, exist_ok=save_dir != 'runs/hub/exp', mkdir=True)  # increment save_dir
        self.display(save=True, save_dir=save_dir)  # save results

    def crop(self, save_dir='runs/hub/exp'):
        save_dir = increment_path(save_dir, exist_ok=save_dir != 'runs/hub/exp', mkdir=True)  # increment save_dir
        self.display(crop=True, save_dir=save_dir)  # crop results
        print(f'Saved results to {save_dir}\n')

    def render(self):
        self.display(render=True)  # render results
        return self.imgs

    def pandas(self):
        # return detections as pandas DataFrames, i.e. print(results.pandas().xyxy[0])
        new = copy(self)  # return copy
        ca = 'xmin', 'ymin', 'xmax', 'ymax', 'confidence', 'class', 'name'  # xyxy columns
        cb = 'xcenter', 'ycenter', 'width', 'height', 'confidence', 'class', 'name'  # xywh columns
        for k, c in zip(['xyxy', 'xyxyn', 'xywh', 'xywhn'], [ca, ca, cb, cb]):
            a = [[x[:5] + [int(x[5]), self.names[int(x[5])]] for x in x.tolist()] for x in getattr(self, k)]  # update
            setattr(new, k, [pd.DataFrame(x, columns=c) for x in a])
        return new

    def tolist(self):
        # return a list of Detections objects, i.e. 'for result in results.tolist():'
        x = [Detections([self.imgs[i]], [self.pred[i]], self.names, self.s) for i in range(self.n)]
        for d in x:
            for k in ['imgs', 'pred', 'xyxy', 'xyxyn', 'xywh', 'xywhn']:
                setattr(d, k, getattr(d, k)[0])  # pop out of list
        return x

    def __len__(self):
        return self.n

3.4、Classify

$\qquad$ 这是一个二级分类模块，什么是二级分类模块？比如做车牌的识别，先识别出车牌，如果想对车牌上的字进行识别，就需要二级分类进一步检测。如果对模型输出的分类再进行分类，就可以用这个模块。不过这里这个类写的比较简单，若进行复杂的二级分类，可以根据自己的实际任务可以改写，这里代码不唯一。这里的功能和torch_utils.py中的load_classifier函数功能相似，不过我们这里是给模型自定义的，可以直接加载在模型上。用的不多的。

Classify模块代码：

class Classify(nn.Module):
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1):
        """
        这是一个二级分类模块, 什么是二级分类模块? 比如做车牌的识别, 先识别出车牌, 如果想对车牌上的字进行识别, 就需要二级分类进一步检测.
        如果对模型输出的分类再进行分类, 就可以用这个模块. 不过这里这个类写的比较简单, 若进行复杂的二级分类, 可以根据自己的实际任务可以改写, 这里代码不唯一.
        Classification head, i.e. x(b,c1,20,20) to x(b,c2)
        用于第二级分类   可以根据自己的任务自己改写，比较简单
        比如车牌识别 检测到车牌之后还需要检测车牌在哪里，如果检测到侧拍后还想对车牌上的字再做识别的话就要进行二级分类
        """
        # ch_in, ch_out, kernel, stride, padding, groups
        super(Classify, self).__init__()
        self.aap = nn.AdaptiveAvgPool2d(1)  # to x(b,c1,1,1)  自适应平均池化操作
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g)  # to x(b,c2,1,1)
        self.flat = nn.Flatten()  # 展平

    def forward(self, x):
        # 先自适应平均池化操作， 然后拼接
        z = torch.cat([self.aap(y) for y in (x if isinstance(x, list) else [x])], 1)  # cat if list
        # 对z进行展平操作
        return self.flat(self.conv(z))  # flatten to x(b,c2)

总结

$\qquad$ 由于yolov5是函数式的编程，所以yolov5把每个模块写成了一个个的函数形式，这个文件的代码是整个网络搭建的基石，所以一定要牢牢掌握。第一部分的基本组件除了1.9的2个函数其他的8个函数都很重要；第二部分是包括yolov5作者自己探索的自注意力和我这阵子学习的一些注意力机制，我都加了进来，大家看了一尽情的尝试；第三部分的内容并不是很重要的，只是对模型功能进行了一系列的扩展，可看可不看。

–2021.08.24 10:24

Reference

CSDN XiaoGShou: yolov5 代码解读 --common.py

CSDN weixin_45483906: YoloV5系列(2)-model解析

你可能感兴趣的:(YOLOV5-5.x,源码讲解,yolov5-5.x,源码解读,common.py,基础组件)

【题单】3.二分法零零时算法数据结构 c++经验分享笔记学习开发语言
二分法二分法算法讲解usingnamespacestd;intn,m;intnums[1000005],num[100005];intmain(){cin>>n>>m;for(inti=0;i>nums[i];}for(inti=0;i>num[i];}for(inti=0;i=num[i]){if(nums[mid]==num[i]){ans=mid+1;}r=mid-1;}elseif(num
Python 条件判断：全面掌握 if、else、elif 语句的用法敲代码不忘补水一起学 Python python 开发语言
Python条件判断：全面掌握if、else、elif语句的用法文章目录Python条件判断：全面掌握if、else、elif语句的用法一if如果二if-else如果否则三判断条件四文字之间的判断五andornot判断六if-elif-else七完整代码示例八源码地址在Python编程中，条件判断语句是控制程序执行流程的重要工具。本文将带你深入了解Python中的if、if-else、和if-el
Spring Boot 基础开发：实现 RESTful API 开发 YY...yy SpringBoot框架学习 spring boot restful 后端
前言在现代Web开发中，RESTfulAPI已经成为前后端分离架构的核心。SpringBoot提供了强大的支持，使得RESTfulAPI的开发变得高效且简洁。本文将从以下几个方面详细讲解如何在SpringBoot中实现RESTfulAPI开发：@RestController设计API：简化Controller的编写HTTP状态码与响应封装：了解常见状态码及其使用场景Swagger3集成：生成接口文
java web + mysql 实现图书管理系统鱼弦【练习两年半】程序基础【HOT】技术热谈 mysql 数据库
鱼弦：CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）要使用JavaWeb和MySQL实现图书管理系统，你可以按照以下步骤进行操作：数据库设计：创建一个MySQL数据库，并命名为图书管理系统。设计数据库表，例如：图书表（Book）、用户表（User）等。
毕设开源 python大数据旅游数据分析可视化系统(源码分享) bee_dc 毕业设计毕设大数据
文章目录0前言1课题背景2数据处理3数据可视化工具3.1django框架介绍3.2ECharts4Django使用echarts进行可视化展示（mysql数据库）4.1修改setting.py连接mysql数据库4.2导入数据4.3使用echarts可视化展示5实现效果5.1前端展示5.2后端展示6最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到
2025蛇年喜庆HTML5代码学习&实践爱好者 HTML5与CSS3 JavaScrip技术编程实践系列 html5 前端 html
2025蛇年喜庆HTML5代码以下是一个简单的HTML5+CSS+JavaScript代码示例，用于庆祝2025年蛇年。先看效果图：源码如下：2025年蛇年快乐！body{font-family:'Arial',sans-serif;background-color:#0a0a23;/*深蓝色背景*/color:#ffffff;/*白色文字*/text-align:center;margin:0;
2025年蛇年新版运势系统源码网友阿贵源码 phpstorm vscode php vue html css3
八字精批、事业财运、姓名分析、宝宝起名、公司测名、姓名配对、综合详批、姻缘测算、生肖运势、PC版测算、八字合婚、紫微斗数、流年运程、月老姻缘、许愿祈福、号码解析、塔罗运势、脱单占卜、感情继续、脱单占卜、塔罗爱情、心理有你、能否复合、暗恋对象、是否分手、爱着别人、大师服务（包含多项功能）共计30余项功能，全网功能全，完善的版本。演示图：新版运势测算源码：下载此处内容作者设置了回复可见原文链接：202
前k个高频元素扶我起来我还能再做一题 leetcode每日一题算法
摘要：欢迎又来到leetcode每日一题系列，今天我们为大家讲解的是有关于leetcode347.前k个高频元素的讲解（又名topk），大家在看完我的讲解之后也可以点开链接自己做一下。一、题目简介给你一个整数数组nums和一个整数k，请你返回其中出现频率前k高的元素。你可以按任意顺序返回答案。示例1:输入:nums=[1,1,1,2,2,3],k=2输出:[1,2]示例2:输入:nums=[1],
探索人脸识别的奥秘：基于OpenCV和Python的开源项目推荐杭劲钰Majestic
探索人脸识别的奥秘：基于OpenCV和Python的开源项目推荐【下载地址】毕业设计-基于OpenCV和Python的人脸识别本项目源码是针对毕业生设计的一套完整的人脸识别系统，利用先进的OpenCV库结合Python编程语言实现。该项目旨在提供一个易于理解、便于修改和移植的基础框架，非常适合计算机科学及相关专业的学生作为毕业设计或课程项目使用。系统不仅涵盖了基本的人脸检测与识别功能，其简洁的代码
基于Python的二手房数据分析与可视化系统（附源码+可远程部署安装） AI博士小张大数据分析毕业设计 python 数据分析开发语言
基于Python的二手房数据分析与可视化系统文章目录摘要第一部分研究背景第二部分国内外现状第三部分所用技术1.Requests库2.BeautifulSoup库3.Pandas库4.Matplotlib库5.Seaborn库6.Folium库第四部分系统设计与实现1.数据爬取模块2.数据处理与分析模块3.数据可视化模块系统设计与实现步骤1.设计系统架构2.数据爬取3.数据处理与分析4.数据可视化5
python tkinter计算器实例_可能是最有颜值的Python Tkinter计算器 weixin_39611043 python tkinter计算器实例
上机实践课程开始了,嗯，老师来了之后念了下PPT，然后说:开始做吧.........然后就开始了Python的GUI之路，以前没接触过PYthon的可视化界面(虽然这样很不明智)但是现在做起来感觉写小工具还挺方便的，当时搜到的第一个库便是Tkinter就直接开始写了后来发现QT很不错的样子，下个实验就用QT吧.然后关于Tkinter(python3.6)计算器源码ennn.....有的命名不规范.
Autogen_core源码：_agent_instantiation.py ZHOU_WUYI autogen agent 人工智能
目录_agent_instantiation.py代码代码解释代码示例示例1：使用`populate_context`正确设置上下文示例2：尝试在上下文之外调用`current_runtime`和`current_agent_id`示例3：模拟AgentRuntime使用`AgentInstantiationContext`_agent_instantiation.py代码fromcontextl
【架构师基础（二）】Java 架构设计的基本原则架构学院 Java成神之路-架构师进阶 java 开发语言架构设计模式
Java架构设计的基本原则：构建稳健、可维护和可扩展的系统在Java开发领域，架构设计是构建高质量软件系统的关键环节。良好的架构不仅能保证系统在当前的正常运行，还能确保其在未来的扩展、维护和优化过程中保持高效和可靠。本文将深入探讨Java架构设计的一些基本原则，包括SOLID原则、设计模式以及代码重构对可维护性的影响，并通过实际的源码示例来详细阐述它们的实现原理、性能考量和应用场景。无套路、关注即
PCL 计算多边形的面积【2025最新版】点云侠 PCL学习计算机视觉几何学 3d c++
目录一、算法原理1、概述2、主要函数3、函数源码二、代码实现三、结果展示博客长期更新，本文最近更新时间为：2025年1月17日。一、算法原理1、概述根据给定的多边形的点云计算多边形的面积Area=12∑
python中name is not defined怎么解决_python name 'file' is not defined的解决办法 weixin_39900582 python中name is not defined怎么解决
python版本3.11源码：poem='''\ProgrammingisfunWhentheworkisdoneifyouwannamakeyourworkalsofun:usePython!'''f=file('poem.txt','w')#openfor'w'ritingf.write(poem)#writetexttofilef.close()#closethefilef=file('po
lighttpd 1.4.71 默认启用HTTP/2，如何修改配置使用HTTP/1.1,步骤讲解 safari
在Lighttpd1.4.71中，HTTP/2是默认启用的，但你可以通过修改配置来强制使用HTTP/1.1。要禁用HTTP/2并使用HTTP/1.1，按以下步骤操作：编辑Lighttpd配置文件（通常是/etc/lighttpd/lighttpd.conf或/etc/lighttpd/conf-enabled/中的一个配置文件，具体路径取决于你的系统设置）。禁用HTTP/2：找到类似于server
Golang中的格式化输入输出 whhom Golang golang 开发语言后端 go语言 go
Golang中的格式化输入输出打印输出在Go语言中有多种输出方式，不同的输出适用场景不同。归纳起来有三种，每种还分为3种方式(原内容、原内容+ln、原内容+f)PrintXX()FprintXX()SprintXX()FprintXXFprintXX在GoWeb中使用比较多，把内容写到响应流中。以Fprintln()为例，源码如下：//Fprintlnformatsusingthedefaultf
Python学习-九大数据类型整合，详细讲解小伙儿. Python python 开发语言学习
目录1.int(整型)2.float(浮点型)3.Bool(布尔类型)4.Str(字符串类型)5.None(空值)6.List(列表)7.Tuple(元组)8.Dict(字典)9.Set(集合)（字典，列表，元组，字符串知识点可能不全，可以参考本人之前发的博客进行学习，加油。）1.int(整型)特点和用途：1.可以表示正整数、负整数和零，没有小数部分。2.取值范围取决于您所使用的Python版本和
python中的九种数据类型的简单介绍 yaohappy10801 python 开发语言
目录一、基本数据类型：1.Int2.Float3.Bool二、复合型数据类型：2.1.Str2.2.List2.3.Tuple2.4.Dict2.5.Set三、None今天我来讲解一下python中的九种数据类型：在python中可以分为两类：基本数据类型和复合数据类型。在基本数据类型中包括：数字（int，float，bool）和字符串两种在复合数据类型种包括：字典（dict），元组（tuple）
Android源码中添加高斯模糊背景-毛玻璃 Rom_Fisher Rom开发中的难点总结 Android系统高斯模糊背景
不积跬步无以至千里由于系统中多处使用了高斯模糊处理的背景效果,这里感觉也算一个有b格的设计,因此把实现记录下来,而且多数的处理是基于上层的添加方式,这里说一下源码下的整个流程.1.配置Android.mk配置其中所需要的库,以及RenderScript所依赖的环境LOCAL_STATIC_JAVA_LIBRARIES+=android-support-v8-renderscriptLOCAL_RE
Ubuntu20.4编译vlc、vlc-qt 小逍遥雪 Ubuntu vlc qt
1.安装Qt软件，文章中安装的Qt版本：5.11.3Qt官方下载链接：Indexof/new_archive/qt2.下载vlc源码，文章中vlc源码版本：vlc-3.0.8因为系统是linxu系统，所以下载时选择：vlc-3.0.8.tar.xzvlc官方源码下载链接：Indexof/vlc/3.下载vlc_qt源码vlc_qt官方源码下载链接：https://vlc-qt.tano.si/
云服务器wsl2,在Windows 10中启动WSL2 并安装Linux（ Ubuntu 为例）并运行docker FromNowToNow 云服务器wsl2
本文内容：了解WSL和WSL2；案例：在Windows10上开启WSL2并安装Ubuntu；案例：体验在WSL2中的Ubuntu安装Docker并运行nginx；视频讲解：图文讲解：什么是WSL？WindowsSubsystemforLinux，适用于Linux的Windows子系统可让开发人员按原样运行GNU/Linux环境-包括大多数命令行工具、实用工具和应用程序-且不会产生虚拟机开销。在WS
讯飞绘镜（ai生成视频）技术浅析（三）：自然语言处理（NLP）爱研究的小牛 AIGC—视频 AIGC—自然语言处理自然语言处理人工智能自然语言处理 AIGC 深度学习
1.技术架构概述讯飞绘镜的NLP技术架构可以分为以下几个核心模块：语义分析：理解用户输入的文本，提取关键信息（如实体、事件、情感等）。情节理解：分析文本中的故事情节，识别事件序列和逻辑关系。人物关系建模：识别文本中的人物及其关系，构建人物关系图。场景生成：根据情节和人物关系生成场景描述。每个模块都依赖于先进的深度学习模型和算法，以下将逐一详细讲解。2.语义分析语义分析的目标是从用户输入的文本中提取
21. Ubuntu 交叉编译工具链安装 lljss2020 Linux
交叉编译器安装ARM裸机、Uboot移植、Linux移植这些都需要在Ubuntu下进行编译，编译就需要编译器，我们在第三章“LinuxC编程入门”里面已经讲解了如何在Liux进行C语言开发，里面使用GCC编译器进行代码编译，但是Ubuntu自带的gcc编译器是针对X86架构的！而我们现在要编译的是ARM架构的代码，所以我们需要一个在X86架构的PC上运行，可以编译ARM架构代码的GCC编译器，这个
2025美赛赛前准备笔记（论文手）咒法师无翅鱼美赛相关算法
赛前模拟反思杂记全程电话联系：论文手注意记录选择模型的过程&解决问题的考虑过程（比如观察出数据有什么样的特点，这个模型有什么优势，如果有影响可以离开，需要时再来）人不在的时候及时共享进度（资料共享）模型确定后：推荐学习资料最后反馈给论文手的结果不是“讲解模型的过程”，而是“解决题目问题的过程”：问题分析-解决问题的思路-模型选择的理由-（线上讲解）拿到资料以后第一时间确认可用，有问题第一时间反馈难
cesium 源码修改支持ArcGIS 服务属性过滤 yanasdf789 cesium javascript
@[TOC]#前言功能效果：在cesium中加载arcgis矢量服务，使其通过字段定义过滤图形，如objectid>100,在ArcGISforjs中可以有现成的定义参数definitionExpression，ceisumz必须修改源码#一、比对URLarcgisapiforjs请求：http://localhost:6080/arcgis/rest/services/02_01_2019_ot
CSS中的响应式布局初识匹马夕阳 css集锦 css 前端
响应式布局是一种Web设计方法，使网站能够在各种设备（如台式电脑、平板电脑、手机等）上有良好的显示效果。响应式布局通常使用CSS媒体查询来调整页面布局以适应不同的屏幕尺寸和分辨率。下面我将通过一个简单的示例来讲解如何实现响应式布局。示例场景假设我们要创建一个简单的Web页面，它包含一个标题和两个并排的内容区域。在较大的屏幕上，内容区域将并排显示；在较小的屏幕上，内容区域将堆叠显示。HTML代码首先
Python 语法基础：字符串的查找、判断与修改详解 Selina .a python教程 python java linux
在Python编程中，字符串（string）是一种非常重要的数据类型，它用于表示文本数据。Python提供了丰富的字符串操作方法，使得对字符串进行查找、判断和修改变得简单而高效。本文将详细讲解Python中字符串的查找、判断与修改操作。一、字符串的查找在Python中，字符串的查找操作主要用于确定某个子串或字符在字符串中的位置，或者检查某个子串或字符是否存在于字符串中。1.使用find()方法fi
Android OkHttp使用和源码详解 2401_85729264 android okhttp
本文使用的OkHttp的版本为3.14.2,不是不会接入高版本，主要是4.0.x版本已经全部由java替换到了Kotlin，Kotlin不太熟怕理解错了，误导人民群众。dependencies{//本文使用implementation‘com.squareup.okio:okio:1.15.0’implementation‘com.squareup.okhttp3:okhttp:3.14.2’//
揭秘C语言中的堆：构建与管理艺术就爱学编程新星杯 c语言数据结构
大家好，这里是小编的博客频道小编的博客：就爱学编程很高兴在CSDN这个大家庭与大家相识，希望能在这里与大家共同进步，共同收获更好的自己！！！本文目录正文一、堆的基本概念二、堆的存储表示三、堆的基本操作1.插入元素（Insert）2.删除最大/最小值（ExtractMax/Min）3.构建堆（BuildHeap）四、源码（1）heap.h（2）heap.c（3）Test.c五、堆的应用1.优先队列2
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&