practical_sharp

2021-3-13论文学习——SENet，StairNet，Generalized Focal Loss，R3Det，CARAFE

[1]Squeeze-and-Excitation Networks

论文地址：https://arxiv.org/abs/1709.01507

代码地址：https://github.com/moskomule/senet.pytorch/blob/master/senet

论文发表于CVPR 2018，同时提交于IEEE TPAMI 2019

结构图

一个全局avg pooling得到11C的向量，然后通过一个MLP感知机得到进行线性变换的11C
向量。再通过一个Sigmod函数进行激活。

各种SE block的变体

实验结果证明了SE net的有效性。

我认为其作用就是它对于通道施加了注意力机制，能够提取更加有用的信息。

Pytorch代码

import torch
from torch import nn

class SELayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SELayer, self).__init__()
        ## 定义全局平均池化层
        self.avg_pool = nn.AdaptiveAvgPool2d(output_size=1)
        ## 定义一个MLP感知机
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )
 
    def forward(self, x):   # exsample x.size() = [8,128,256,256]
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)    ## [8,128]
        print(y.size())
        y = self.fc(y).view(b, c, 1, 1)     # [8,128,1,1]
        print(y.size())
        return x * y.expand_as(x)    # [8,128,256,256]
"""
x = torch.Tensor(8,128,256,256)
print(x.size())
se = SELayer(128,16)
print(se(x).size())
"""

[2]StairNet: Top-Down Semantic Aggregation for Accurate One Shot Detection

论文地址：https://arxiv.org/pdf/1709.05788.pdf

论文发表于 2018 IEEE Winter Conference on Applications of Computer Vision（WACV）

针对于单阶段目标检测算法对于小目标检测难的问题，提出了一种自上而下的语义增强方式，设计的算法成为StairNet，在VOC数据集上改进了SSD算法，性能超过了其他单阶段目标检测SOTA算法。

总结：改进版本的FPN+一些小trick

创新之处：

上采样模块使用反卷积自主学习而不是使用临近插值什么的；
在FPN中1X1和3X3 的卷积处加入relu和BN层组合成高效卷积；
针对于VOC数据集进行了聚类得到先验的anchor纵横比，除了SSD原有的{2，3}加入了一个1.6的纵横比。

代码在哪里？找呢，这是个问题；

StairNet的代码实验：以后补上

[3]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文地址：https://arxiv.org/pdf/2006.04388.pdf

暂未发表，还是预印版

这篇论文全是公式，我还是辅助了知乎进行理解的，推荐：

https://zhuanlan.zhihu.com/p/147691786

用于单阶段目标检测算法的广义 focal loss

[4]R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

论文地址：https://arxiv.org/pdf/1908.05612.pdf

论文收录于 Thirty-Five AAAI Conference on Artificial Intelligence (AAAI 2021)

pytorch代码地址：https://github.com/SJTU-Thinklab-Det/r3det-on-mmdetection

旋转目标检测是一项有挑战性的任务，因为难以定位多角度物体并且与背景准确和快速的分离。虽然已经取得了长足的进步，但在实际设置中，对于大宽高比，密集分布和类别不平衡的旋转目标检测仍然存在困难。

在这篇论文中，提出了一种快速，准确且端到端的的旋转目标检测器。考虑到现有精炼单级检测器的特征未对齐的缺点，这篇论文设计了一个特征精炼模块来获取更准确的特征以提高旋转目标检测性能。

特征精炼模块的关键思想是通过特征插值将当前精炼的边界框位置信息重新编码为对应的特征点，以实现特征重构和对齐。

在DOTA，HRSC2016和ICDAR2015数据集上进行的广泛实验显证明了这种算法的有效性。目前这篇论文的代码已开源。

遥感检测领域和文本检测领域面临的挑战：

大尺度的长宽比：比如舰船，桥梁，港口等；
密集排列的物体，比如飞机场的飞机，港口的轮船等；
类别极不平衡，比如DOTA数据集中的15个类别物体的数量分布非常不平衡；

主要创新点：

为了提高大尺度高宽比的定位精度，采用refine的单阶段目标检测算法；
作者发现水平框能得到更大的召回率，旋转框能得到更精确的定位，作者使用两种定位框相结合的方法进行回归，首先在第一阶段使用水平框提高召回率，在refine阶段使用旋转框提高定位精确率；
作者认为双阶段目标检测算法不管使用ROI pooling还是ROI align都实现了对于定位特征的对齐，但是在单阶段目标检测算法中这一问题很难解决，存在着严重的特征不对齐问题，极大的限制了分类和精炼阶段回归的可靠性。作者设计了一个特征精炼模块(FRM)，该模块使用特征插值来获取精炼Anchor的位置信息并重建特征图实现特征对齐。FRM还可以在第一阶段之后减少精炼边界框的数量，从而加速模型；
作者将上述技术结合在一起，成为R3Det，在三个旋转目标公开数据集DOTA，HRSC2016，ICDRA2015数据集上实现了SOTA性能。

The Proposed Method

3.1. Rotation RetinaNet

介绍旋转RetinaNet。

这一点需要在RetinaNet的基础上，进行代码层面的掌握，还得实验，以后做了实验挂在这里。

作者受SCRDet的启发，我们提出了一个可推导的近似的Skew IOU损失

3.2. Refined Rotation RetinaNet

refine检测器的总的损失函数的定义：由多个阶段的损失加权求和。

特征refine模块，实现和双阶段目标检测算法一样的ROI align的功能：特征对齐

实验结果

实验结果表格看论文比较清楚。

结论

这篇论文针对航空和文本数据集中常常出现的大长宽比，密集分布和类别极度不平衡的旋转目标提出一种端到端的精炼旋转目标检测器。

考虑到当前单级精炼检测器中有特征未对齐的缺点，本文设计了一个特征精炼模块(FRM)来提高检测性能，这在长尾数据集中特别有效。

FRM的主要思想是通过特征插值将当前精炼的边界框位置信息重新编码到对应的特征点上，以实现特征重构和对齐。

论文在DOTA，HRSC2016和ICDAR2015数据集上的进行了丰富的消融实验和对比实验，证明了本方法可以高效的实现SOTA的检测精度。论文已经开源，感兴趣的同学可以结合源码进一步理解此算法。

代码实现，以后补上关于代码实验的博客

知乎解说：https://zhuanlan.zhihu.com/p/108255937

有点难度。
推荐一个网站：https://paperswithcode.com/task/object-detection-in-aerial-images

[5]CARAFE: Content-Aware ReAssembly of FEatures

论文地址：https://arxiv.org/pdf/1905.02188.pdf

论文发表于ICCV 2019

代码开源：https://github.com/myownskyW7/CARAFE

作者提出了一个轻量级的通用上采样算子 CARAFE，相对最近邻和双线性等上采样算子，在不同任务中都取得了显著的提升，同时只引入很少的参数量和计算代价。

上采样方法大总结：

基于线性插值的上采样
基于deep learning的上采样
unpooling的上采样

基于线性插值的上采样

比如最邻近采样，双线性插值，双三次插值，这些都是本科数字图像处理上面的算法，非常简单。不再赘述。

基于深度学习的上采样

反卷积，deconv(“Learning deconvolution network for semantic segmentation” ICCV 2015)
pixelshuffle(CVPR 2016提出pixelshuffle进行视频超分辨,CVPR2018有一篇STDN也是采用的这个进行上采样并取名为Scale Transfer layer)
Dupsampling(“Decoders Matter for Semantic Segmentation: Data-Dependent Decoding Enables Flexible Feature Aggregation” CVPR 2019)
Meta-Upscale(“Meta-SR: A Magnifification-Arbitrary Network for Super-Resolution” CVPR 2019）
CAPAFE(ICCV 2019,也就是这篇论文)

其中Dupsampling，Meta-Upscale这两篇顶会论文我还没学习过，下周学习了再附上学习博客的链接。

Motivation

最近邻或者双线性上采样仅通过像素点的空间位置来决定上采样核，并没有利用到特征图的语义信息，可以看作是一种“均匀”的上采样，而且感知域通常都很小（最近邻1x1，双线性 2x2）。Deconvolution算子的上采样核并不是通过像素间的距离计算，而是通过网络学出来的，但对于特征图每个位置都是应用相同的上采样核，不能捕捉到特征图内容的信息，另外引入了大量参数和计算量，尤其是当上采样核尺寸较大的时候。Dynamic filter 对于特征图每个位置都会预测一组不同的上采样核，但是参数量和计算量更加爆炸，而且公认比较难学习。

所希望的上采样算子应该具备以下几个特性：

Large receptive field：需要具有较大的感受野，这样才能更好地利用周围的信息。
Content-aware：上采样核应该和特征图的语义信息相关，基于输入内容进行上采样。
Lightweight：不能引入过多的参数和计算量，需要保持轻量化。

To demonstrate the universal effectiveness of CARAFE ,we conduct comprehensive evaluations across a wide range of dense prediction tasks, i.e., object detection, instance segmentation, semantic segmentation, image inpainting, with mainstream architectures. CARAFE can boost the performance of Faster RCNN [30] by 1.2% AP in object detection and Mask RCNN [8] by 1.3% AP in instance segmentation on MS COCO [19] test-dev 2018.

方法描述

在目标检测上的实验结果

Pytorch代码

这是github非官方实现的代码，我进行了测试。完美运行，并理解注释。

import torch
from torch import nn
from torch.nn import functional as F
from collections import OrderedDict

# 这一部分 完成的是上采样核预测模块， 即论文图中的kernel prediction module
class KernelPredictionModule(nn.Module):
 
    def __init__(self, input_channel, channel_cm=64, kernel_up=5, kernel_encoder=3, enlarge_rate=2):
        super(KernelPredictionModule,self).__init__()
        self.input_channel = input_channel
        self.channel_cm = channel_cm
        self.kernel_up = kernel_up
        self.kernel_encoder = kernel_encoder
        self.enlarge_rate = enlarge_rate
        self.channel_compressor = nn.Sequential(   # 通道压缩，channel压缩到Cm的卷积核大小为1
            OrderedDict([
                ("compressor_conv" , nn.Conv2d(self.input_channel, self.channel_cm,1)),
                ("compressor_bn"   , nn.BatchNorm2d(self.channel_cm)),
                ("compressor_relu" , nn.ReLU(inplace=True))
            ])
        )
        self.context_encoder = nn.Sequential(  # 通道拓宽的卷积核 建议为kernel_size = 5 即kernel_up = 5
            OrderedDict([
                ("encoder_conv"    , nn.Conv2d(self.channel_cm,    # 输入通道数为Cm
                                          self.enlarge_rate*self.enlarge_rate*self.kernel_up*self.kernel_up,# 输出通道数为rate^2*kup^2   ，enlarge_rate是上采样倍数，kernel_up是通道拓宽部分的卷积核
                                          self.kernel_encoder,padding=int((self.kernel_encoder-1)/2))),   # padding通过输入输出的尺度进行计算
                ("encoder_bn"      , nn.BatchNorm2d(self.enlarge_rate*self.enlarge_rate*self.kernel_up*self.kernel_up)),
                ("encoder_relu"    , nn.ReLU(inplace=True))
            ])
        )
        self.kernel_normalizer = nn.Softmax(dim=-1)   # 图中的kernel_normalizer  即softmax归一化
    def forward(self, x):
        b,c,w,h = x.shape
        x = self.channel_compressor(x)   # 首先利用1*1的卷积进行通道压缩
        x = self.context_encoder(x)     # 然后利用5*5的卷积进行通道拓宽
        x = x.view(b,self.kernel_up*self.kernel_up,self.enlarge_rate*w,self.enlarge_rate*h)# batch*(kup^2)*(rate*w)*(rate*h)   # 然后将通道维度在空间维度展开
        x = self.kernel_normalizer(x)   # 最后进行softmax归一化
        return x

# CARAFE 上采样 类
class Carafe(nn.Module):
    def __init__(self, input_channel, channel_cm=64, kernel_up=5, kernel_encoder=3, enlarge_rate=2):
        """
        The Carafe upsample model(unoffical)
        :param input_channel: The channel of input  输入特征图的channel
        :param channel_cm:    The channel of Cm, paper give this parameter 64   首先进行通道压缩之后的 通道数Cm
        :param kernel_up:     The kernel up, paper give this parameter 5     通道拓宽
        :param kernel_encoder:The kernel encoder, paper suggest it kernel_up-2, so 3 here
        :param enlarge_rate:  The enlarge rate , your rate for upsample (2x usually)   上采样倍数，一般2倍上采样
        """
        super(Carafe, self).__init__()
        self.kernel_up = kernel_up
        self.enlarge_rate = enlarge_rate
        self.KPModule = KernelPredictionModule(input_channel,channel_cm,kernel_up,kernel_encoder,enlarge_rate)
 
    def forward(self, x):
 
        # KernelPredeictionModule : cost 0.7175s
        kpresult = self.KPModule(x) # (b,kup*kup,e_w,e_h)
 
 
        ############Context-aware Reassembly Module########################
        ######## Step1 formal_pic deal : cost 0.1164s  # 对于输出特征图中的每个位置，我们将其映射回输入特征图
        x_mat = self.generate_kup_mat(x)
 
        ######## Step2 kernel deal : cost 0.001s
        channel = x.shape[1]
        w_mat = self.repeat_kernel(kpresult,channel)  # 取出以之为中心的kup*kup的区域，
 
        ######## Step3 kernel mul : cost 0.0009s
        output = torch.mul(x_mat,w_mat)   # 取出以之为中心的kup*kup的区域，和预测出的该点的上采样核作点积，得到输出值
 
        ######## Step4 sum the kup dim : cost 0.0002s
        output = torch.sum(output, dim=2)
        return output
    # 对于输出特征图中的每个位置，我们将其映射回输入特征图
    def generate_kup_mat(self,x):
        """
        generate the mat matrix, make a new dim kup for mul
        :param x:(batch,channel,w,h)
        :return: (batch,channel,kup*kup,enlarged_w,enlarged_h)
        """
        batch, channel, w ,h = x.shape
        # stride to sample
        r = int(self.kernel_up / 2)
        # pad the x to stride
        pad = F.pad(x, (r, r, r, r))
        # x_mat = torch.zeros((batch, channel, self.kernel_up**2 , w, h)).cuda()
        x_mat = torch.zeros((batch, channel, self.kernel_up**2 , w, h))
        for i in range(w):
            for j in range(h):
                pad_x = i + r
                pad_y = j + r
                x_mat[:, :, :, i, j] = pad[:, :, pad_x - r:pad_x + r + 1, pad_y - r:pad_y + r + 1]\
                    .reshape(batch, channel, -1)
        x_mat = x_mat.repeat(1, 1, 1, self.enlarge_rate, self.enlarge_rate)
        # each part of the stride part the same!
        return x_mat
    # # 取出以之为中心的kup*kup的区域，相同位置的不同通道共享同一个上采样核。
    def repeat_kernel(self,weight,channel):
        """
        Generate the channel dim for the weight
        repeat the Kernel Prediction Module output for channel times,
        and it can be mul just like the depth-width conv (The repeat on the batch dim)
        :param weight:  (batch,kup*kup,enlarged_w,enlarged_h)
        :param channel: the channel num to repeat
        :return: (batch,channel,kup*kup,enlarged_w,enlarged_h)
        """
        batch, kup_2, w, h = weight.shape
        # copy the channel in batch
        w_mat = torch.stack([i.expand(channel, kup_2, w, h) for i in weight])
        # each channel in batch is the same!
        # print(torch.equal(w_mat[0, 0, ...], w_mat[0, 1, ...]))
        return w_mat
 
"""
if __name__ == '__main__':
    import os
    # os.environ["CUDA_VISIBLE_DEVICES"] = '0'
    x = torch.rand((1,2,26,26))
    model = Carafe(input_channel=2,channel_cm=64)
    
    print(x)
    out = model(x)
    print(out.size())
    print(out)
"""

知乎推荐： https://zhuanlan.zhihu.com/p/76063768?utm_source=qq

github推荐：https://github.com/open-mmlab/mmdetection

Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
基于YOLOv8深度学习架构的智能农业巡检小车系统—面向农作物与杂草实时精准识别的创新实践
1.科技赋能智慧农业随着全球人口的持续增长和农业生产面临的挑战，精准农业已成为现代农业发展的必然趋势。其中，农作物与杂草的精准识别是实现自动化、智能化管理的关键一环。传统的人工除草效率低下，化学除草则可能带来环境问题。因此，开发高效、精准、环保的智能农业系统迫在眉睫。本文将深入探讨一款基于深度学习和智能硬件集成的农田作业智能小车系统。我们将重点聚焦于其硬件系统设计、软件系统架构、核心算法创新(特别
YOLOv11模型轻量化挑战的技术黑客飓风 YOLO 目标跟踪人工智能
YOLOv11模型轻量化挑战的技术文章大纲背景与意义YOLOv11在目标检测领域的地位与优势轻量化需求的实际应用场景（移动端、嵌入式设备等）轻量化面临的挑战：精度与速度的权衡YOLOv11模型结构分析整体架构设计特点（如主干网络、特征融合模块等）参数量与计算量分布的关键瓶颈现有轻量化改进的局限性轻量化技术路线网络结构优化深度可分离卷积替代传统卷积注意力机制的高效嵌入设计冗余模块的剪枝与删除量化与压
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
生成式人工智能实战 | 条件生成对抗网络（conditional Generative Adversarial Network, cGAN）盼小辉丶生成对抗网络神经网络深度学习生成式人工智能 pytorch
生成式人工智能实战|条件生成对抗网络0.前言1.条件生成对抗网络1.1GAN基础回顾1.2cGAN核心思想2.cGAN网络架构2.1数学原理2.2网络架构3.实现cGAN3.1环境准备与数据加载3.2模型构建3.3模型训练0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)是近年来深度学习领域最具突破性的技术之一，能够生成逼真的图像、音频甚至文本。然而，传统的G
动手学深度学习13.7. 单发多框检测（SSD）-笔记&练习（PyTorch） scdifsn 深度学习笔记 pytorch ssd 单发多框检测（SSD）目标检测 mAP评价
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：45SSD实现【动手学深度学习v2】_哔哩哔哩_bilibili本节教材地址：13.7.单发多框检测（SSD）—动手学深度学习2.0.0documentation本节开源代码：…>d2l-zh>pytorch>chapter_optimization>ssd.ipynb单发多框
动手学深度学习3.3线性回归的简洁实现-笔记&练习（PyTorch） scdifsn 深度学习线性回归笔记 pytorch
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：线性回归的简洁实现_哔哩哔哩_bilibili本节教材地址：3.3.线性回归的简洁实现—动手学深度学习2.0.0documentation(d2l.ai)本节开源代码：...>d2l-zh>pytorch>chapter_linear-networks>linear-regre
【PyTorch】PyTorch中torch.nn模块的卷积层
PyTorch深度学习总结第七章PyTorch中torch.nn模块的卷积层文章目录PyTorch深度学习总结前言一、torch.nn模块1.模块的基本组成部分1.1层（Layers）1.2损失函数（LossFunctions）1.3激活函数（ActivationFunctions）2.自定义神经网络模型3.模块的优势二、torch.nn模块的卷积层1.卷积的定义2.常见的卷积层3.卷积层的重要参
【PyTorch】PyTorch中torch.nn模块的循环层
PyTorch深度学习总结第九章PyTorch中torch.nn模块的循环层文章目录PyTorch深度学习总结前言一、循环层1.简单循环层（RNN）2.长短期记忆网络（LSTM）3.门控循环单元（GRU）4.双向循环层二、循环层参数1.输入维度相关参数2.隐藏层相关参数3.其他参数三、函数总结前言上文介绍了PyTorch中介绍了池化和torch.nn模块中的池化层函数，本文将进一步介绍torch.
【PyTorch】PyTorch中torch.nn模块的池化层咸鱼鲸 PyTorch pytorch 人工智能 python
PyTorch深度学习总结第八章PyTorch中torch.nn模块的池化层文章目录PyTorch深度学习总结前言一、池化1.定义2.目的3.常见类型4.实际效果二、池化层1.常用的池化层2.池化层的参数2.1最大池化层（MaxPooling）和平均池化层（AveragePooling）2.2自适应最大池化层（AdaptiveMaxPooling）和自适应平均池化层（AdaptiveAverage
鸟类识别与分类相关数据集 Bryan Ding 分类数据挖掘人工智能
随着深度学习技术的快速发展，其在图像识别、语音识别等领域取得了显著的成果。鸟类识别作为生态学研究的重要内容，对于物种多样性保护、生态环境监测等领域具有深远的影响。将深度学习技术应用于鸟类识别，有望提高识别的准确性和效率，为鸟类学研究提供有力支持。本文综述了近年来深度学习在鸟类识别中的应用进展，包括基于图像和声音的鸟类识别系统，分析了其技术框架、实现方法以及在实际应用中的效果。通过对相关文献的梳理，
未来已来：美颜SDK如何通过深度学习实现个性化美颜形象？美狐美颜SDK开放平台美颜sdk 直播美颜sdk 视频美颜sdk 深度学习人工智能直播美颜sdk 美颜sdk 美颜api 视频美颜sdk 直播美颜工具
你有没有这样的时刻：打开相机滤镜，调了半天，依旧找不到最适合自己的美颜效果？或是刷短视频时，惊艳于博主的“自然”颜值，却又发现自己的滤镜总显得太“假”？这背后，其实藏着一个越来越热门的技术关键词——个性化美颜，而它的核心驱动力，正是深度学习。从“千人一脸”到“千人千面”，美颜SDK走进了一个真正智能的时代。一、美颜SDK，从滤镜到AI的技术跃迁美颜SDK是一类集成在App中，用于图像实时处理和优化
2024最新动物识别数据集（12-02已更新) 数据猎手小k 机器学习自然语言处理人工智能
动物识别数据集是用于训练和评估动物识别模型的集合，这些数据集通常包含多种动物的图像或视频，以及对应的标签信息。它们在生物多样性监测、生态研究、农业和城市安全管理等领域发挥着重要作用。随着深度学习技术的发展，动物识别数据集的处理方式、算法逻辑和模型搭建与训练流程也在不断进步，以提高识别的准确性和效率。一、背景意义动物识别技术的发展对于生物多样性保护、生态学研究、农业和野生动物保护等多个领域具有重要意
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

2021-3-13论文学习——SENet，StairNet，Generalized Focal Loss，R3Det，CARAFE

[1]Squeeze-and-Excitation Networks

论文地址：https://arxiv.org/abs/1709.01507

代码地址：https://github.com/moskomule/senet.pytorch/blob/master/senet

论文发表于CVPR 2018，同时提交于IEEE TPAMI 2019

结构图

各种SE block的变体

Pytorch代码

[2]StairNet: Top-Down Semantic Aggregation for Accurate One Shot Detection

论文地址：https://arxiv.org/pdf/1709.05788.pdf

论文发表于 2018 IEEE Winter Conference on Applications of Computer Vision（WACV）

总结：改进版本的FPN+一些小trick

创新之处：

代码在哪里？找呢，这是个问题；

StairNet的代码实验：以后补上

[3]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文地址：https://arxiv.org/pdf/2006.04388.pdf

暂未发表，还是预印版

这篇论文全是公式，我还是辅助了知乎进行理解的，推荐：

[4]R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

论文地址：https://arxiv.org/pdf/1908.05612.pdf

论文收录于 Thirty-Five AAAI Conference on Artificial Intelligence (AAAI 2021)

pytorch代码地址：https://github.com/SJTU-Thinklab-Det/r3det-on-mmdetection

遥感检测领域和文本检测领域面临的挑战：

主要创新点：

相关工作：

旋转目标检测器

refine目标检测算法

The Proposed Method

3.1. Rotation RetinaNet

3.2. Refined Rotation RetinaNet

实验结果

结论

代码实现，以后补上关于代码实验的博客

知乎解说：https://zhuanlan.zhihu.com/p/108255937

[5]CARAFE: Content-Aware ReAssembly of FEatures

论文地址：https://arxiv.org/pdf/1905.02188.pdf

论文发表于ICCV 2019

代码开源：https://github.com/myownskyW7/CARAFE

上采样方法大总结：

基于线性插值的上采样

基于深度学习的上采样

Motivation

方法描述

在目标检测上的实验结果

Pytorch代码

知乎推荐： https://zhuanlan.zhihu.com/p/76063768?utm_source=qq

github推荐：https://github.com/open-mmlab/mmdetection

你可能感兴趣的:(深度学习,目标检测,计算机视觉,深度学习)