沙夜

第四周：卷积神经网络 part3

代码练习
- 1.1 HybridSN模型的思考
- 1.2 HybridSN的SENet改进
视频学习
- 2.1 语义分割中的自注意力机制和低秩重重建
  - 2.1.1 Fully Convolutional Networks for Semantic Segmentation
  - 2.1.2 Rethinking Atrous Convolution for Semantic Image Segmentation
  - 2.1.3 Non-local Neural Networks
- 2.2 图像语义分割前沿进展
  - 2.2.1 Res2Net
  - 2.2.2 Strip Pooling
论文阅读
- 3.1 Selective Kernel Networks
- 3.2 Strip Pooling: Rethinking Spatial Pooling for Scene Parsing
- 3.3 HRNet：Deep High-Resolution Representation Learning for Human Pose Estimation

内容

代码练习

1.1 HybridSN模型的思考

对之前的HybridSN模型，在训练过后，多次进行测试，会发现每一次测试的准确率都不一致，之前测试的代码如下

count = 0
# 模型测试
for inputs, _ in test_loader:
    inputs = inputs.to(device)
    outputs = net(inputs)
    outputs = np.argmax(outputs.detach().cpu().numpy(), axis=1)
    if count == 0:
        y_pred_test =  outputs
        count = 1
    else:
        y_pred_test = np.concatenate( (y_pred_test, outputs) )

# 生成分类报告
classification = classification_report(ytest, y_pred_test, digits=4)
print(classification)

测试结果的不确定性是由于dropout层引起的，该层用于减少过拟合现象，通常加在全连接层之后。对于dropout和batch normalization，在测试之前要使用

net.eval()

来将他们固定住，否则就算不进行训练，也会更改参数。

更改后的代码如下

count = 0
# 模型测试
for inputs, _ in test_loader:
    net.eval()
    inputs = inputs.to(device)
    outputs = net(inputs)
    outputs = np.argmax(outputs.detach().cpu().numpy(), axis=1)
    if count == 0:
        y_pred_test =  outputs
        count = 1
    else:
        y_pred_test = np.concatenate( (y_pred_test, outputs) )

1.2 HybridSN的SENet改进

SENet全称Squeeze-and-Excitation Networks，是对不同通道的输入分配不同权重的一种机制，为的是根据输入来重视某些通道，忽视某些通道。其网络整体结构为

首先对输入 $X_{W^{'} \times H^{'} \times C^{'}}$ 进行卷积 $\bold{F}_{tr}$ ,该卷积定义为

\[\bold{u}_c=\bold{v}_c*\bold{X}=\sum_{s=1}^{C^{'}}\bold{v}_c^s*\bold{x}^s \]

其中，$U=[\bold{u}_1,\bold{u}_2,...,\bold{u}_c]$ ，$V=[\bold{v}_1,\bold{v}_2,...,\bold{v}_c]$为卷积核，经过该常规卷积将 $X_{W^{'} \times H^{'} \times C^{'}}$ 变换为 $U_{W \times H \times C}$，而后进行 $\bold{F}_{sq}$ 操作（即Squeeze操作），具体的做法是使用全剧平均池化对输入 $U$ 进行缩小，该操作定义为

\[z_c=\bold{F}_{sq}(\bold{u}_c)=\frac{1}{H\times W}\sum_{i=1}^H\sum_{j=1}^Wu_c(i,j) \]

也就是对每个通道的二维图像 $\bold{u}_{H\times W}$ 进行平均，之后得到一个 $1\times 1\times C$ 的输出，而后，使用（excitation操作）

\[s=\bold{F}_{ex}(\bold{z},\bold{W})=\sigma(g(\bold{z},\bold{W}))=\sigma(\bold{W}_2\delta(\bold{W}_1\bold{z})) \]

得到注意力权值，其中 $\sigma$ 为sigmoid函数，$\bold{W_1} \in \mathbb{R}^{\frac{C}{r}\times C}$ ，$\bold{W_2} \in \mathbb{R}^{C\times \frac{C}{r}}$ ，这两个矩阵变换的引入是为了降低参数量，最后

\[\widetilde{x}_c=\bold{F}_{scale}(\bold{u}_c,s_c)=s_c\bold{u}_c \]

即对最开始卷积后的结果进行倍乘即可

以上是SENet模型的基本模型，其引入了注意力机制，可以看到，将SENet基本思想添加到已有模型中是可行的

更改后的HybridSN如下

class HybridSN(nn.Module):
    def __init__(self, classes=16):
        super(HybridSN,self).__init__()
        self.conv3d1 = nn.Conv3d(1,8,(7,3,3))
        self.conv3d2 = nn.Conv3d(8,16,(5,3,3))
        self.conv3d3 = nn.Conv3d(16,32,(3,3,3))
        self.conv2d1 = nn.Conv2d(576,64,(3,3))
        self.relu = nn.ReLU()
        self.dense1 = nn.Linear(18496,256)
        self.dense2 = nn.Linear(256,128)
        self.drop = nn.Dropout(p=0.4)
        self.fc = nn.Linear(128,classes)
        self.softmax = nn.Softmax(dim=1)
        
        #se操作
        self.gap = nn.AdaptiveAvgPool2d(1)  # 全局平均池化 sq操作
        self.SEfc = nn.Sequential(  # 两个全连接层，ex操作
            nn.Linear(64, 64//16, bias=False),  # 从 c -> c/r
            nn.ReLU(inplace=True),
            nn.Linear(64//16, 64, bias=False), # 从 c/r  -> c
            nn.Sigmoid()
        )

    def forward(self,x):
        x = self.conv3d1(x)
        x = self.relu(x)
        x = self.conv3d2(x)
        x = self.relu(x)
        x = self.conv3d3(x)
        x = self.relu(x)
        b,c,d,h,w = x.size()
        x = x.view(b,c*d,h,w)
        x = self.conv2d1(x)
        x = self.relu(x)
        
        b, c, h, w = x.size() 
        y = self.gap(x).view(b,c) # sq 
        y = self.SEfc(y).view(b,c,1,1) # ex
        x = x*y
        
        x = x.reshape(b,-1)
        x = self.dense1(x)
        x = self.drop(x)
        x = self.dense2(x)
        x = self.drop(x)
        x = self.fc(x)
        return x

加入SE结构(lr=0.001,both batchsize=128)

              precision    recall  f1-score   support

         0.0     0.9500    0.9268    0.9383        41
         1.0     0.9808    0.9518    0.9660      1285
         2.0     0.9867    0.9960    0.9913       747
         3.0     0.9726    1.0000    0.9861       213
         4.0     0.9977    1.0000    0.9989       435
         5.0     0.9909    0.9909    0.9909       657
         6.0     1.0000    1.0000    1.0000        25
         7.0     0.9885    1.0000    0.9942       430
         8.0     0.9444    0.9444    0.9444        18
         9.0     0.9853    0.9977    0.9915       875
        10.0     0.9789    0.9864    0.9826      2210
        11.0     0.9774    0.9719    0.9746       534
        12.0     1.0000    1.0000    1.0000       185
        13.0     0.9939    0.9965    0.9952      1139
        14.0     0.9971    0.9971    0.9971       347
        15.0     0.9737    0.8810    0.9250        84

    accuracy                         0.9851      9225
   macro avg     0.9824    0.9775    0.9798      9225
weighted avg     0.9851    0.9851    0.9851      9225

视频学习
- 2.1 语义分割中的自注意力机制和低秩重重建
  - 该视频讲解稍显简略，完全理解需要研究所给论文，但由于所给论文过多，只做了部分工作。
  - 语义分割就是对输入的图像进行分割，使得不同物体属于不同的类别，具体做法是，对于输入 $\bold{X}_{H\times W\times C}$，输出一个矩阵
    
    $\bold{Y}_{H\times W\times C^{'}}, \bold{Y}_{i,j,k}\in[0,1]$ ，其中其中 $C$ 为图中物体的个数，也就是类别标记
  - 2.1.1 Fully Convolutional Networks for Semantic Segmentation
    - 该论文采用了FCN（fully convolutional networks）来进行语义分割，这样做的主要原因是传统的网络最后往往会产生一个 $1\times 1$ 的特征图，这不利于语义分割，所以将全部的网络层次都转化为卷积层，也就是将最后几层 $1\times 1$ 的层也改变为卷积层，即
    - 使用了上采样处理（或者反卷积deconvolution），重叠处使用相加进行处理
    - 多层叠加结构，即使用不同层的池化结果优化最后的池化输出，在后面的池化结果进行上采样的同时和前面的池化结果融合
  - 2.1.2 Rethinking Atrous Convolution for Semantic Image Segmentation
    - Atrous Convolution为一种提高感受野的方法，可以在算力有限时增加感受野的大小，便于图像分割，即
      
      其中rate表示两个方块距离的大小（例如123，1到3的距离为2）
    - Atrous Convolution的定义为
      
      \[\boldsymbol{y}[\boldsymbol{i}]=\sum_\boldsymbol{k}\boldsymbol{x}[\boldsymbol{i}+r\ ·\ \boldsymbol{k}]\boldsymbol{w}[\boldsymbol{k}] \]
      其中 $\boldsymbol{y}[\boldsymbol{i}]$ 为输出中指标为 $\boldsymbol{i}$ 对应的元素（注意 $\boldsymbol{i}$ 为向量，在二维中代表 $(x,y)$
      
      $\boldsymbol{x}$ 为输入，$r$ 为rate，$\boldsymbol{k}$ 也是一个向量，以上图为例，分别代表$(-1,-1),(-1,0),(-1,1),...,(1,-1),(1,0),(1,1)$ 9个元组（若核为3×3）
    - 以串行方式连接Atrous Convolution
      
      以并行连接
  - 2.1.3 Non-local Neural Networks
    典型的工作还有Nonlocal Neural Networks，主要思想是建立各个点之间的关系，使用如下公式进行度量
    
    下公式进行度量
    
    \[\bold{y}_i=\frac{1}{\mathcal{C(\bold{x})}}\sum_{\forall j}f(\bold{x}_i,\bold{x}_j)g(\bold{x}_j) \]
    其中f用以度量两点之间的相似度，g用以做变换
    
    nonlocal networks与卷积层和fc层不同，它考虑到了全部点与当前点的关联，相比之下，卷积层只考虑核大小有关的范围，而fc层则是不考虑任意两点之间的关联，仅是由所有的输入点产生输出
    
    在实验过程中可以看到f，g两个函数的选定对结果影响不大，所以是nonlocal这个行为造成了对结果性能的提升
    
    可以考虑多种f，g函数的策略，在运用中，论文中对g只考虑了线性的情况，即
    
    \[g(\bold{x}_j)=\bold{W}_g\bold{x}_j \]
    其中g往往使用1×1或者1×1×1的卷积核
    
    第一种策略，可以考虑Gaussian策略
    
    \[f(\bold{x}_i,\bold{x}_j)=e^{\bold{x}_i^T\bold{x}_j} \\ \mathcal C(\bold{x})=\sum_{\forall j}f(\bold{x}_i,\bold{x}_j) \]
    第二种策略，可以考虑embedded gaussian
    
    \[f(\bold{x}_i,\bold{x}_j)=e^{\theta(\bold{x}_i)^T\phi(\bold{x}_j)} \\ \mathcal C(\bold{x})=\sum_{\forall j}f(\bold{x}_i,\bold{x}_j) \]
    其中
    
    \[\theta(\bold{x}_i)=W_\theta\bold{x}_i \\ \phi(\bold{x}_j)=W_\phi \bold{x}_j \]
    第三种，可以考虑dot product
    
    \[f(\bold{x}_i,\bold{x}_j)=\theta(\bold{x}_i)^T\phi(\bold{x}_j) \\ \mathcal C(\bold{x})=N \]
    N是x位置的个数
    
    第四种，可以考虑Concatenation
    
    \[f(\bold{x}_i,\bold{x}_j)=ReLU(\bold{w}_f^T[\theta(\bold{x}_i),\phi(\bold{x}_j)]) \\ \mathcal C(\bold{x})=N \]
    N的含义同上
    
    根据上面的分析，可以定义Non-local Block如下
    
    \[\bold{z}_i=W_z\bold{y}_i+\bold{x}_i \]
    其中 $\bold{y_i}$ 在上面已经给定，$+\bold{x}_i$ 则是引入了残差连接的形式
    
    网络单元结构为
    
    这是在三维情况下的输入（比如视频等），输入 $\bold x$ 经由三个1×1×1卷积分别计算出 $\theta,\phi,g$ 而后使用矩阵乘法对 $\theta,\phi$ 进行运算，后经过softmax函数后与 $g$ 使用矩阵乘法进行运算，最后经由1×1×1卷积产生输出，最
    后使用残差连接与原始输入进行加法运算得到最终输出 $\bold z$
    
    其中1024代表通道数
    
    其中f用以度量两点之间的相似度，g用以做变换
- 2.2 图像语义分割前沿进展
  - 报告中主要讲解了两个工作，分别是Res2Net和Strip Pooling
  - 2.2.1 Res2Net
    - 该论文对原始的bottleneck结构进行了改进，进行了分组后多次重组以获得更多尺度的信息，增大了感受野的范围，主要结构如下
      
      新模块具备更强的多规模特征提取能力，但计算负载量与左侧架构类似。具体而言，新模块用一个较小的3×3过滤器取代了过滤器组，同时可以将不同的过滤器组以层级残差式风格连接。
  - 2.2.2 Strip Pooling
    - Strip Pooling是将二维池化核和水平和垂直两个方向的池化核进行串接，以获得更多大尺度信息和细节信息。首先，传统的池化操作为
      
      \[y_{i_o,j_o}=\frac{1}{h\times w}\sum_{0\le i
      其中 $0\le i_o，我们可以看出，这种操作实际上就是对原始大小的二位输入按照 \(h,w$ 分块，输出即是 $W_o\times H_o$ 大小，输出每个像素的大小都是由输入的 $w\times h$ 小方格进行平均得到的
      
      引入strip pooling需要引入两个池化操作，分别为
      
      \[y_i^h=\frac{1}{W}\sum_{0\le j
      第一个式子也就是将某列所有横向的像素相加求平均，得到数据，对所有行进行这样的操作，即得到一列输出数据。第二个式子就是对所有竖向的像素相加求平均，最后得到一行这样的数据。
      
      模型的整体结构为
      
      这里的sigmoid函数是为了将输入的值转化为输出值为（0，1）的情况，在下一个模型中，使用softmax函数是为了归一化概率
      首先使用strip pooling对输入进行池化，而后经过核大小为3的一维卷积，而后对数据进行一个融合，具体策略为
      
      \[y_{c,i,j}=y_{c,i}^h+y_{c,j}^v \]
      其中 $c$ 表示为某个特定的通道，也就是说输出的二维矩阵的第 $i$ 行第 $j$ 列为 $y^h$ 的第 $i$ 行，$y^v$ 的第 $j$ 列相加的结果，其含义正好为图中所示，先将条状池化结果进行复制在行和列上分别扩容，然后对应像素相加得到输出。然后经过 $1\times 1$ 的卷积和sigmoid的函数。最后将结果和最开始的图像进行融合，经过 $1\times 1$ 卷积核，然后通过sigmoid函数，最后融合的策略为
      
      \[\bold{z}=Scale(\bold{x}, \sigma(f(\bold{y}))) \]
      其中，$\bold{z}$ 为最终输出，Scale函数为像素级别上的乘法，$\sigma$ 为sigmoid函数，$f(\bold{x})$ 为核大小为 $1\times 1$的卷积操作
      
      可以看出，结果的一个像素点（在结构中由黑色框表示）将会含有输入时的一行和一列的信息（在结构中由红色框表示），当然，这种表示对左上（↖），左下（↙），右上（↗），右下（↘）的信息表示能力不够好，所以接下来引入多尺度的常规池化来弥补该缺点
      
      以上操作称为SPM
    - MPM由SPM和多个尺度的常规池化卷积核组成，结构如下
论文阅读
- 3.1 Selective Kernel Networks
  - 该模型的总体结构为
    
    对于输入 $\bold{X}_{H^{'}\times W^{'}\times C^{'}}$ ，使用 $3\times 3$ 与 $5\times 5$ 两种不同的卷积核进行卷积而后经过BN层与ReLU函数，得到 $\widetilde{\bold{U}}_{H\times W\times C},\hat{\bold{U}}_{H\times W\times C}$ 两个不同的特征图，而后对两个特征图使用element-wise summation进行融合（即对应元素逐个相加），即为
    
    \[\bold{U}=\widetilde{\bold{U}}+\hat{\bold{U}} \]
    之后经过全局平均池化对 $\bold{U}$ 进行操作，即为
    
    \[s_c=\mathcal{F}_{gp}(\bold{U}_c)=\frac{1}{H\times W}\sum_{i=1}^H\sum_{j=1}^W\bold{U}_c(i,j) \]
    也就是二维所有像素相加后取平均
    
    而后经过全连接层 $W_{d\times C}$ 得到 $\bold{z}$ ，即为
    
    \[\bold{z}=\mathcal{F}_{fc}(\bold{s})=\delta(\mathcal{B}(\bold{Ws})) \]
    其中 $\delta$ 为ReLU函数，$\mathcal{B}$ 为batch normalization，$d$ 为了减少维度而增加，为
    
    \[d=max(C/r,L) \]
    其中 $L$ 常取32
    
    之后经过升维和softmax层，得到注意力向量
    
    \[a_c=\frac{e^{\bold{A}_c\bold{z}}}{e^{\bold{A}_c\bold{z}}+e^{\bold{B}_c\bold{z}}} \\ b_c=\frac{e^{\bold{B}_c\bold{z}}}{e^{\bold{A}_c\bold{z}}+e^{\bold{B}_c\bold{z}}} \]
    其中 $A,B\in \mathbb{R}_{C\times d}$，也就是升维矩阵
    
    最后将两者融合，使用对应元素相乘的方法，即为
    
    \[\bold{V}_c=a_c\widetilde{\bold{U}}+b_c\hat{\bold{U}},a_c+b_c=1 \]
    这即是SK convolution，相加等于1的原因是因为经过了softmax函数
- 3.2 Strip Pooling: Rethinking Spatial Pooling for Scene Parsing
  
  对该论文的思考请参阅2.2部分第三条
- 3.3 HRNet：Deep High-Resolution Representation Learning for Human Pose Estimation
  - 传统网络的典型设计结构为以下四种
    
    都没有在全局保留最高分辨率的情况，不可避免地造成了数据的丢失，所以本文引进了
    
    一致保留了原始分辨率信息，而后在下几层与上面层次进行连接以获得更丰富的信息

为AI聊天工具添加一个知识系统之33 通用项目文档模板：语言无关/实现无关/符号无关的纯粹的符号学原型一水鉴天人工语言软件智能智能制造人工智能 cocoa
本文要点要点提取本项目文档的三个部分（Part1公理化&个性化，Part2形式化&结构化，Part3自动化&智能化）应该给出三种限界上下文--分别确定了语言自由交流用户与访问上下文（语言）、敏捷开发上下文（程序）和稳固核心上下文（数据）。限界上下文是解决边缘模糊的对策--通过分界。它不同于为计算机分类和人类理解两个目的而分别设计的上下文映射和通用语言。但即使是这个扩大了的范围仍然是领域驱动设计DD
YOLOv8改进，YOLOv8检测头融合DiverseBranchBlock，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要一种卷积神经网络（ConvNet）的通用构建模块，以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块（DiverseBranchBlock，DBB），通过结合不同尺度和复杂度的多样分支来丰富特征空间，包括卷积序列、多尺度卷积和平均池化，从而增强单个卷积的表示能力。在训练后，DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同，DBB在保持宏观架构的
OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线
公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集SentimentandEmotionAnalysisDataset情感情绪分析数据集4个教程：一键部署Phi-4Docling：文档解析神器一键部署QVQ-72B-preview铅笔素描风格文生图
OpenBayes 一周速览丨ShowUI专注GUI自动化，可解析屏幕截图和用户指令；U-MATH数据集上线
公共资源速递5个数据集：U-MATH数学推理数据集AlMedicalChatbot医学对话数据集Tecnalia电子设备废物高光谱数据集WaterlooExploration大规模图像质量评估数据库WasteClassification可回收物及生活垃圾分类数据集3个教程：一键部署QwQ-32B-PreviewHunyuanVideo腾讯混元文生视频DemoShowUl：专注GUI自动化的视觉-语
BOE（京东方）"向新2025”年终媒体智享会落地深圳 "屏”实力赋能产业创新发展数据库
12月27日，BOE（京东方）“向新2025”年终媒体智享会的收官之站在创新之都深圳圆满举行，为这场为期两周、横跨三地的年度科技盛会画上了完美句号。活动期间，全面回顾了BOE（京东方）2024年在多个关键领域取得的卓越成绩，深入剖析其在六大维度构建的“向新”发展格局，精彩呈现了以“屏”为核心搭建起的技术引领、伙伴赋能以及绿色发展等平台，全方位赋能全球生态合作伙伴，充分彰显BOE（京东方）作为全球领
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码) YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
OpenBayes 一周速览｜一键部署Qwen2.5-Coder，0编程经验实现代码生成自由！
公共资源速递5个数据集：Coil-100图像数据集Muharaf手写阿拉伯文数据集CollectiveActivity集体活动视频数据集MultimodalSpectroscopic化学多模光谱数据集CDFSOD-benchmark跨域小样本对象检测基准数据集3个教程：一键部署Qwen2.5-CoderInkSight将手写文字数字化DemoGLM-4-Voice端到端中英语音对话模型访问官网立即
2024年美国App Store下载榜单：AI代码生成器助力Temu蝉联冠军背后的秘密前端
2024年美国区AppStore下载榜单揭晓，Temu再次蝉联免费应用下载榜冠军，这已经是它连续两年取得的辉煌成就！紧随其后的是Threads和TikTok，而ChatGPT更是以黑马之姿超越Google，位列第四。这份榜单不仅反映了美国用户的应用偏好，更折射出2024年移动应用市场的几大关键趋势。本文将深入分析Temu、Threads、ChatGPT等热门应用的成功秘诀，并探讨未来AppStor
叮！OpenBayes 半价礼包已送达，算力资源低至 1.15 元/小时
新春将至，我们距离蛇年仅一步之遥，为了感谢大家这一年的支持，小贝也为大家准备了沉甸甸的年货----算力资源半价大礼包！！你没有看错！即日起-2025年2月10日12:00(UTC+8)，OpenBayes平台单卡RTX4090、单卡A6000包日、包周限时半价，价格低至1.15元/小时。1活动详情单卡RTX4090包日原价58元，折后29元（约1.21元/小时）包周原价386元，折后193元（约1
OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线
公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集SentimentandEmotionAnalysisDataset情感情绪分析数据集4个教程：一键部署Phi-4Docling：文档解析神器一键部署QVQ-72B-preview铅笔素描风格文生图
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
YOLOv9改进，YOLOv9检测头融合，适合目标检测、分割任务挂科边缘 YOLOv9改进目标检测人工智能计算机视觉 YOLO
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
YOLOv8改进，YOLOv8检测头融合RFAConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
YOLOv10改进，YOLOv10检测头融合RepConv卷积，添加小目标检测层（四头检测）+CA注意机制，全网首发挂科边缘 YOLOv10改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
脚本工具：使用TCL方式进行modelsim 仿真 Major_pro modelsim仿真 fpga开发
第一步，设置modelsim的工作路径，选择存放仿真相关do文件的文件夹下#设置工作库路径setwork_library"work"第二步编写指令do文件vlibworkdodo/compile_rtl.dododo/compile_sim.do第三步编写编译do文件vlibwork##vcom-workwork../RTL/*.vhdvlog-workwork../RTL/*.v第四步，编写仿真
隐语安装部署 HZGame. 大数据数据库架构
主讲老师：周爱辉讲课链接：第4讲（上）：隐语安装部署-理论篇丨隐私计算实训营第2期_哔哩哔哩_bilibili主讲老师：王祖利讲课链接：第4讲（下）：SecretFlow与Secretnote的安装部署—实操篇丨隐私计算实训营第2期_哔哩哔哩_bilibili一、SecretFlow运行要求：1、环境要求Python>=3.8操作系统：•CentOS7•Anolis8•Ubuntu18.04/20
YOLOv11改进，YOLOv11检测头融合RepConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等任务挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
iOS开发——NSURLSession初步学习（下载、待完善）吉吉有梦想 iOS开发
文章目录一、前文二、NSURLSession与NSURLConnection区别2.1使用现状2.2普通任务、上传和下载2.3下载任务方式2.4请求方法的控制2.5断点续传的方式2.6配置信息三、NSURLSession的优势四、代码部分4.1Xcode不支持http访问的解决办法4.2手动缓存（繁琐）4.3自动缓存四、demo一、前文写这篇文章，是为了总结一周内的学到的关于NSURLSessio
揭秘 Fluss 架构组件 java
这是Fluss系列的第四篇文章了，我们先回顾一下前面三篇文章主要说了哪些内容。Fluss部署，带领大家部署Fluss环境，体验一下Fluss的功能Fluss整合数据湖的操作，体验Fluss与数据湖的结合讲解了Fluss、Kafka、Paimon之间的区别和联系前面三篇文章可以让大家上手玩起来Fluss这个框架，并说明了它与Kafka、Paimon数据湖的关系，接下来的文章就深入Fluss细节来说一
Linux 怎么在储存设备上创建文件系统？ linux
简介Linux中的mkfs命令用于在存储设备（例如分区、逻辑卷或整个磁盘）上创建文件系统。它代表makefilesystem（创建文件系统），是磁盘格式化的基本命令。语法mkfs[options]：目标设备，例如：/dev/sda1,/dev/sdb,/dev/loop0[options]：定制文件系统的选项支持的文件系统ext2/3/4：第二、第三和第四个扩展文件系统（mkfs.ext2、mkf
嵌入式驱动开发详解视频教程 acp小鸡炖蘑菇嵌入式linux 驱动开发嵌入式视频
第一章+Linux设备驱动模型第二章Linux内核模块第三章Linux内核编程API第四章Linux字符设备驱动第五章Linux块设备驱动第六章Linuxplatform驱动第七章Linux触摸屏设备驱动第八章LinuxLCD设备驱动第九章LinuxALSA设备驱动第十章LinuxI2C和SPI设备驱动第十一章Linux网络设备驱动第十二章Linux内核调试第十三章ARM开发板LinuxBSP构建
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
php链接oracle乱码，尝试把一个php的项目转成java， slm311 java
最近有个新需求，OA上的考勤信息确认，开始的时候搞了个php的版本，莫名其妙的数据库会乱码（oracle）(等有时间再写一篇php链接oracle数据库）折腾了将近一个周，乱码莫名其妙的出现，代码啥也不动，多请求两遍又正常了。准备搞个java来替换php，在gpt的协助下，搞成了。上代码连接数据库：privatestaticfinalStringDB_URL="jdbc:oracle:thin:@
嵌入式硬件篇---代码控制硬件 Ronin-Lotus 嵌入式硬件篇嵌入式硬件学习程序人生开发语言硬件工程驱动开发 linux
文章目录前言第一部分：软件控制硬件1.操作系统与硬件的联系2.驱动程序3.软件通过系统调用控制硬件4.硬件响应5.中断与轮询：6.数据传输7.额外小知识第二部分：三极管第三部分：MOS管第四部分：GPIO1.GPIO输出模式(1)推挽输出(2)开漏输出第五部分：上拉电阻总结前言本文仅仅简单介绍了软件控制硬件、三极管、MOS管、GPIO输出等知识第一部分：软件控制硬件软件控制硬件:涉及到操作系统、驱
上位机操作篇---Linux常用命令 Ronin-Lotus 上位机操作篇网络 linux ubuntu 程序员创富运维服务器
第二章Linux常用命令（简介）常用命令及其简介第二章Linux常用命令（简介）前言第一部分：基础命令一、pwd二、ls或者ls[选项][目录名]三、cd四、clear或者crtl+l第二部分：文件操作一、touch二、mkdir三、cp四、mv五、rm第三部分：文本操作一、cat二、grep三、find第四部分：权限操作一、chmod二、chown三、sudo第五部分：用户管理操作一、addus
es java match_ElasticSearch查询第四篇：匹配查询（Match）哈哈哈哈哈哈哈哈鸽 es java match
《ElasticSearch查询》目录导航：匹配(Match)查询属于全文(Fulltext)查询，不同于词条查询，ElasticSearch引擎在处理全文搜索时，首先分析(analyze)查询字符串，然后根据分词构建查询，最终返回查询结果。匹配查询共有三种类型，分别是布尔(boolean)、短语(phrase)和短语前缀(phrase_prefix)，默认的匹配查询是布尔类型，这意味着，Elas
NVIDIA Hopper解说白总Server redis 数据库缓存 rust mongodb 大数据数据仓库
NVIDIAHopper架构是NVIDIA推出的面向高性能计算（HPC）和人工智能（AI）的最新一代GPU架构。它代表了NVIDIA在加速计算领域的最新进展，旨在为AI训练和推理、HPC应用提供前所未有的性能提升。NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息：NVIDIAHopper架构技术特点：第四代TensorCore：Hopper架构引入了第四代TensorCore
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

第四周：卷积神经网络 part3

你可能感兴趣的:(第四周：卷积神经网络 part3)