AIHGF

Focal Loss 论文理解及公式推导

原文：Focal Loss 论文理解及公式推导 - AIUAI

题目: Focal Loss for Dense Object Detection - ICCV2017

作者: Tsung-Yi, Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar

团队: FAIR

精度最高的目标检测器往往基于 RCNN 的 two-stage 方法，对候选目标位置再采用分类器处理. 而，one-stage 目标检测器是对所有可能的目标位置进行规则的(regular)、密集采样，更快速简单，但是精度还在追赶 two-stage 检测器. <论文所关注的问题于此.>

论文发现，密集检测器训练过程中，所遇到的极端前景背景类别不均衡(extreme foreground-background class imbalance)是核心原因.

对此，提出了 Focal Loss，通过修改标准的交叉熵损失函数，降低对能够很好分类样本的权重(down-weights the loss assigned to well-classified examples)，解决类别不均衡问题.

Focal Loss 关注于在 hard samples 的稀疏子集进行训练，并避免在训练过程中大量的简单负样本淹没检测器.

Focal Loss 是动态缩放的交叉熵损失函数，随着对正确分类的置信增加，缩放因子(scaling factor) 衰退到 0. 如图：

Focal Loss 的缩放因子能够动态的调整训练过程中简单样本的权重，并让模型快速关注于困难样本(hard samples).

基于 Focal Loss 的 RetinaNet 的目标检测器表现.

1. Focal Loss

Focal Loss 旨在解决 one-stage 目标检测器在训练过程中出现的极端前景背景类不均衡的问题(如，前景：背景 = 1:1000).

首先基于二值分类的交叉熵(cross entropy, CE) 引入 Focal Loss：
$\begin{cases} -log(p) &\text{if } y=1 \\ -log(1-p) &\text{otherwise } \end{cases}$
其中， $\in \lbrace +1 -1 \rbrace$ 为 groundtruth 类别； $\in [0, 1]$ 是模型对于类别 $y = 1$ 所得到的预测概率.

符号简介起见，定义 $p_t$ ：
$p_t = \begin{cases} p &\text{if } y=1 \\ 1-p &\text{otherwise } \end{cases}$
则， $CE(p, y) = CE(p_t) = -log(p_t)$ .

CE Loss 如图 Figure 1 中的上面的蓝色曲线所示. 其一个显著特点是，对于简单易分的样本( $p_t \gg 0.5$ )，其 loss 也是一致对待. 当累加了大量简单样本的 loss 后，具有很小 loss 值的可能淹没稀少的类(rare class).

1.1 均衡交叉熵 Blanced CE

解决类别不均衡的一种常用方法是，对类别 +1 引入权重因子 $\alpha \in [0, 1]$ ，对于类别 -1 引入权重 $\alpha$ .

符号简介起见，定义 $\alpha _t$ ：
$\alpha_t = \begin{cases} \alpha &\text{if } y=1 \\ 1-\alpha &\text{otherwise } \end{cases}$
则， $\alpha$ -balanced CE loss 为：

$CE(p_t) = -\alpha _t log(p_t)$

1.2 Focal Loss 定义

虽然 $\alpha$ 能够平衡 positive/negative 样本的重要性，但不能区分 easy/had 样本.

对此，Focal Loss 提出将损失函数降低 easy 样本的权重，并关注于对 hard negatives 样本的训练.

添加调制因子(modulating factor) $p_t)^{\gamma}$ 到 CE loss，其中 $\gamma \ge 0$ 为可调的 focusing 参数.

Focal Loss 定义为：

$FL(p_t) = -(1 - p_t)^{\gamma} log(p_t)$

如图 Figure 1，给出了 $\gamma \in [0, 5]$ 中几个值的可视化.

Focal Loss 的两个属性：

[1] - 当样本被误分，且 $p_t$ 值很小时，调制因子接近于 1，loss 不受影响. 随着 $p_t \rightarrow 1$ ，则调制因子接近于 0，则容易分类的样本的损失函数被降低权重.
[2] - focusing 参数 $\gamma$ 平滑地调整哪些 easy 样本会被降低权重的比率(rate). 当 $\gamma=0$ ，FL=CE；随着 $\gamma $ 增加，调制因子的影响也会随之增加(实验中发现 $\gamma = 2$ 效果最佳.)

直观上，调制因子能够减少 easy 样本对于损失函数的贡献，并延伸了loss 值比较地的样本范围.

例如， $\gamma = 0.2$ 时，被分类为 $p_t=0.9$ 的样本，与 CE 相比，会减少 100x 倍；而且，被分类为 $p_t \approx 0.968 $ 的样本，与 CE 相比，会有少于 1000x 倍的 loss 值. 这就自然增加了将难分类样本的重要性(如 $\gamma= 2$ 且 $p_t \leq 0.5$ 时，难分类样本的 loss 值会增加 4x 倍.)

实际上，论文采用了 Focal Loss 的 $\alpha$ -balanced 变形：

$FL(p_t) = -\alpha _t (1 - p_t)^{\gamma} log(p_t)$

1.3. Focal Loss 例示

Focal Loss 并不局限于具体的形式. 这里给出另一种例示.

假设 $\sigma(x) = \frac{1}{1 + e^{-x}}$ ，

定义 $p_t$ 为(类似于前面对于 $p_t$ 的定义)：
$p_t = \begin{cases} p &\text{if } y=1 \\ 1-p &\text{otherwise } \end{cases}$
定义： $x_t = yx$ ，其中， $\in \lbrace +1, -1 \rbrace$ 是 groundtruth 类别.

则： $p_t = \sigma(x_t) = \frac{1}{1 + e^{yx}}$

当 $x_t > 0$ 时，样本被正确分类，此时 $p_t > 0.5$ .

有：
$\frac{d p_t}{d x} = \frac{-1}{(1 + e^{yx})^2} * y * e^{yx} = y * p_t * (1 - p_t) = -y * p_t * (p_t - 1)$
对于交叉熵损失函数 $CE(p_t) = -log(p_t)$ ，由 $\frac{d lnx}{d x} = \frac{1}{x}$ ，
$\frac{d CE(p_t)}{d x} = \frac{d CE(p_t)}{d p_t} * \frac{d p_t}{d x} = (- \frac{1}{p_t}) * (-y*p_t*(p_t - 1)) = y*(p_t - 1)$
对于 Focal Loss $FL(p_t) = -(1 - p_t)^{\gamma} log(p_t)$ ，其中 $\gamma$ 为常数.
$\frac{d FL(p_t)}{d x} = \frac{d (1-p_t)^{\gamma}}{d x} * (-log(p_t)) + (1-p_t)^{\gamma}*\frac{d CE(p_t)}{d x}$

$\frac{d FL(p_t)}{d x} = (\gamma * (1-p_t)^{\gamma-1}*\frac{d (1-p_t)}{d p_t})*\frac{d p_t}{d x} * (-log(p_t)) + (1-p_t)^{\gamma}*y*(p_t -1)$

$\frac{d FL(p_t)}{d x} = (\gamma *(1- p_t)^{\gamma -1} * (-1))*(-y * p_t*(p_t -1))*(-log(p_t)) + y*(1-p_t)^{\gamma}*(p_t -1)$

$\frac{d FL(p_t)}{d x} = \gamma *(1-p_t)^{\gamma}*y*p_t*log(p_t) + y*(1-p_t)^{\gamma}*(p_t - 1)$

$\frac{d FL(p_t)}{d x} = y*(1-p_t)^{\gamma}*(\gamma * p_t *log(p_t) + (p_t - 1))$

再者，假设 $p_t^* = \sigma (\gamma x_t + \beta)$ ，则 $FL^*(p_t^{*}) = -log(p_t^*)/ \gamma$ ，其中 $\gamma$ 为常数.
$\frac{d FL^*(p_t^*)}{d x} = -\frac{1}{p_t^*}*\frac{1}{\gamma}*\frac{d p_t^*}{d (\gamma x_t + \beta)} * \frac{d( \gamma x_t + \beta)}{d x}$

$\frac{d FL^*(p_t^*)}{d x} = -\frac{1}{p_t^*} * \frac{1}{\gamma} * (-y * p_t^* * (p_t^* - 1)*\gamma) = y*(p_t^* - 1)$

则， $FL^*$ 包含两个参数 $\gamma$ 和 $\beta$ ，控制着 loss 曲线的陡度(steepness) 和移动(shift). 如 Figure 5.

1.4. Focal Loss 求导

$C E$ 关于 $x$ 的求导：

$\frac{d CE}{ dx} = y(p_t - 1)$

$F L$ 关于 $x$ 的求导：

$\frac{d FL}{d x} = y(1-p_t)^{\gamma} (\gamma p_t log(p_t) + p_t - 1)$

$FL^*$ 关于 $x$ 的求导：

$\frac{d FL^*}{d x} = y(p_t^* - 1)$

如图 Figure 6. 三种 loss 函数，对于high-confidence 的预测结果，其导数都趋近于 -1 或 0.

但，与 $C E$ 不同的是， $F L$ 和 $FL^*$ 的有效设置时，只要 $x_t > 0$ ，二者的导数都是很小的.

2. SoftmaxFocalLoss 求导

Focal Loss 损失函数：
$FL(p_t) = - \alpha (1 - p_t)^{\gamma} log(p_t)$
其中：
$p_t = \begin{cases} p &\text{if } y=1 \\ 1-p &\text{otherwise } \end{cases}$
Softmax 函数：
$p_i = \frac{e^{x_i}}{\sum _{k=1}^K e^{x_k}}$

其中， $K$ 为类别数， $x$ 是网络全连接层等的输出向量， $x_i$ 是向量的第 $i$ 个元素值.

则 $F L$ 关于 $x$ 求导：
$\frac{d FL}{d x_i} = \frac{d FL}{d p_i} * \frac{d p_i}{d x_i}$

而，
$\frac{d FL}{d p_t} = - \alpha (\frac{d (1-p_t)^{\gamma}}{d p_t} * log(p_t) + (1-p_t)^{\gamma} * \frac{d (log(p_t))}{d p_t})$

$\frac{d FL}{d p_t} = - \alpha (- \gamma * (1-p_t)^{\gamma - 1} * log(p_t) + (1-p_t)^{\gamma} * \frac{1}{p_t})$

Softmax 函数关于 x 的求导为：
$\frac{d p_i}{d x_i} = \frac{d \frac{e^{x_i}}{\sum _{k=1}^K e^{x_k}}}{d x_i}$

$\frac{d p_i}{d x_i} = \frac{\frac{d(e^{x_i})}{d x_i}*\sum _{k=1}^K e^{x_k} - e^{x_i}*\frac{d(\sum _{k=1}^K e^{x_k})}{dx_i}}{(\sum _{k=1}^K e^{x_k})^2}$

当 $i = j$ 时，
$\frac{d p_i}{d x_i} = \frac{e^{x_i}*\sum _{k=1}^K e^{x_k} - e^{x_i}*e^{x_i}}{(\sum _{k=1}^K e^{x_k})^2}$

$\frac{d p_i}{d x_i} = \frac{e^{x_i}}{\sum _{k=1}^K e^{x_k}} - \frac{e^{x_i}}{\sum _{k=1}^K e^{x_k}}* \frac{e^{x_i}}{\sum _{k=1}^K e^{x_k}}$

$\frac{d p_i}{d x_i} = p_i - p_i * p_i = p_i(1 - p_i)$

当 $\neq j$ 时，
$\frac{d p_i}{d x_i} = \frac{0 - e^{x_i}*e^{x_j}}{(\sum _{k=1}^K e^{x_k})^2}$

$\frac{d p_i}{d x_i} = - \frac{e^{x_i}}{\sum _{k=1}^K e^{x_k}}* \frac{e^{x_j}}{\sum _{k=1}^K e^{x_k}}$

$\frac{d p_i}{d x_i} = -p_i * p_j$

Softmax 的函数求导即为：
$\frac{d p_i}{d x_i} = \begin{cases} p_i(1-p_i) &\text{if } i=j \\ -p_i*p_j &\text{if } i \neq j \end{cases}$

故：
$$
\frac{d FL}{d x_i} = \begin{cases}

\alpha (- \gamma * (1-p_i)^{\gamma - 1} * log(p_i) + (1-p_i)^{\gamma} * \frac{1}{p_i}) * p_i(1-p_i) &\text{if } i=j \
\alpha (- \gamma * (1-p_i)^{\gamma - 1} * log(p_i) + (1-p_i)^{\gamma} * \frac{1}{p_i}) * (-p_i*p_j) &\text{if } i \neq j
\end{cases}
$$

$\frac{d FL}{d x_i} = \begin{cases} \alpha (- \gamma * (1-p_i)^{\gamma - 1} * log(p_i)p_i + (1-p_i)^{\gamma}) * (p_i-1) &\text{if } i=j \\ \alpha (- \gamma * (1-p_i)^{\gamma - 1} * log(p_i)p_i + (1-p_i)^{\gamma}) * p_j &\text{if } i \neq j \end{cases}$

3. Pytorch 实现

FocalLoss-PyTorch

import torch
import torch.nn as nn
import torch.nn.functional as F

class FocalLoss(nn.Module):
    def __init__(self, alpha=0.25, gamma=2, size_average=True):
        super(FocalLoss, self).__init__()
        self.alpha = alpha
        self.gamma = torch.Tensor([gamma])
        self.size_average = size_average
        if isinstance(alpha, (float, int, long)):
            if self.alpha > 1:
                raise ValueError('Not supported value, alpha should be small than 1.0')
            else:
                self.alpha = torch.Tensor([alpha, 1.0 - alpha])
        if isinstance(alpha, list): self.alpha = torch.Tensor(alpha)
        self.alpha /= torch.sum(self.alpha)

    def forward(self, input, target):
        if input.dim() > 2:
            input = input.view(input.size(0), input.size(1), -1)  # [N,C,H,W]->[N,C,H*W] ([N,C,D,H,W]->[N,C,D*H*W])
        # target
        # [N,1,D,H,W] ->[N*D*H*W,1]
        if self.alpha.device != input.device:
            self.alpha = torch.tensor(self.alpha, device=input.device)
        target = target.view(-1, 1)
        logpt = torch.log(input + 1e-10)
        logpt = logpt.gather(1, target)
        logpt = logpt.view(-1, 1)
        pt = torch.exp(logpt)
        alpha = self.alpha.gather(0, target.view(-1))

        gamma = self.gamma

        if not self.gamma.device == input.device:
            gamma = torch.tensor(self.gamma, device=input.device)

        loss = -1 * alpha * torch.pow((1 - pt), gamma) * logpt
        if self.size_average:
            loss = loss.mean()
        else:
            loss = loss.sum()
        return loss

4. Keras 实现

keras-focal-loss

基于 Keras 和 TensorFlow 后端实现的 Binary Focal Loss 和 Categorical/Multiclass Focal Loss.

主要设计两个参数：alpha 和 gamma.

用法：

model.compile(optimizer='adam', loss=categorical_focal_loss(gamma=2.0, alpha=0.25), metrics=['accuracy'])

实现：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Oct 19 08:20:58 2018

@OS: Ubuntu 18.04
@IDE: Spyder3
@author: Aldi Faizal Dimara (Steam ID: phenomos)
"""

import keras.backend as K
import tensorflow as tf

def categorical_focal_loss(gamma=2.0, alpha=0.25):
    """
    Implementation of Focal Loss from the paper in multiclass classification
    Formula:
        loss = -alpha*((1-p)^gamma)*log(p)
    Parameters:
        alpha -- the same as wighting factor in balanced cross entropy
        gamma -- focusing parameter for modulating factor (1-p)
    Default value:
        gamma -- 2.0 as mentioned in the paper
        alpha -- 0.25 as mentioned in the paper
    """
    def focal_loss(y_true, y_pred):
        # Define epsilon so that the backpropagation will not result in NaN
        # for 0 divisor case
        epsilon = K.epsilon()
        # Add the epsilon to prediction value
        #y_pred = y_pred + epsilon
        # Clip the prediction value
        y_pred = K.clip(y_pred, epsilon, 1.0-epsilon)
        # Calculate cross entropy
        cross_entropy = -y_true*K.log(y_pred)
        # Calculate weight that consists of  modulating factor and weighting factor
        weight = alpha * y_true * K.pow((1-y_pred), gamma)
        # Calculate focal loss
        loss = weight * cross_entropy
        # Sum the losses in mini_batch
        loss = K.sum(loss, axis=1)
        return loss
    
    return focal_loss

def binary_focal_loss(gamma=2.0, alpha=0.25):
    """
    Implementation of Focal Loss from the paper in multiclass classification
    Formula:
        loss = -alpha_t*((1-p_t)^gamma)*log(p_t)
        
        p_t = y_pred, if y_true = 1
        p_t = 1-y_pred, otherwise
        
        alpha_t = alpha, if y_true=1
        alpha_t = 1-alpha, otherwise
        
        cross_entropy = -log(p_t)
    Parameters:
        alpha -- the same as wighting factor in balanced cross entropy
        gamma -- focusing parameter for modulating factor (1-p)
    Default value:
        gamma -- 2.0 as mentioned in the paper
        alpha -- 0.25 as mentioned in the paper
    """
    def focal_loss(y_true, y_pred):
        # Define epsilon so that the backpropagation will not result in NaN
        # for 0 divisor case
        epsilon = K.epsilon()
        # Add the epsilon to prediction value
        #y_pred = y_pred + epsilon
        # Clip the prediciton value
        y_pred = K.clip(y_pred, epsilon, 1.0-epsilon)
        # Calculate p_t
        p_t = tf.where(K.equal(y_true, 1), y_pred, 1-y_pred)
        # Calculate alpha_t
        alpha_factor = K.ones_like(y_true)*alpha
        alpha_t = tf.where(K.equal(y_true, 1), alpha_factor, 1-alpha_factor)
        # Calculate cross entropy
        cross_entropy = -K.log(p_t)
        weight = alpha_t * K.pow((1-p_t), gamma)
        # Calculate focal loss
        loss = weight * cross_entropy
        # Sum the losses in mini_batch
        loss = K.sum(loss, axis=1)
        return loss
    
    return focal_loss

[1] - Focal Loss 的前向与后向公式推导

tensorflow keras 报错：No gradients provided for any variable 原因与解决办法研志必有功 tensorflow报错 tensorflow 深度学习机器学习神经网络自然语言处理
错误分析Nogradientsprovidedforanyvariable这个意思是没有梯度给已知的所有函数，为什么会出现这个错误呢，因为在深度学习中，梯度的更新是由于反向传播算法的实现的，如果损失函数没有与已知的任何（除输入）层关联，那么，损失函数就无法求出关于各个函数的梯度，导致错误解决办法例如损失函数defcontrastive_loss_layer(left_inputs,right_in
TensorFlow的基本框架和理解-初学者通过这一篇文章就够了无人不智能，机器不学习 TensorFlow TensorFlow 基本框架 python
tensorflow的理解Tensorflow是一种机器学习框架，如果我们有大量的数据，我们可以利用他协助医生检查糖尿病性视网膜病变来预防患者失明等应用新版本中一个有趣的功能是eagerexecution，允许用户在不创建图形的情况下运行tensorflow代码，一种动态图机制它是一个命令式、由运行定义的接口，一旦从Python被调用，其操作立即被执行。这使得入门TensorFlow变的更简单，也
基于Flask和VUE的YOLOv5目标检测模型部署薄泳蕙Howard
基于Flask和VUE的YOLOv5目标检测模型部署基于Flask和VUE的YOLOv5目标检测模型部署本资源文件提供了一个基于Flask开发后端、VUE开发前端框架的完整项目，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcode.com/open-source-toolkit/20e
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测咎尉裕Lilah
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测【下载地址】Yolov5-Flask-VUE基于Flask和VUE的YOLOv5目标检测模型部署本项目提供了一个基于Flask开发后端、VUE开发前端的框架，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcod
（Pytorch）动手学深度学习：基础内容（持续更新）孔表表uuu 神经网络深度学习 pytorch 人工智能
深度学习前言环境安装(Windows)安装anaconda使用conda或miniconda创建环境下载所需的包下载代码并执行(课件代码)关于线性代数内积(数量积、点乘)外积关于数据操作X.sum(0,keepdim=True)和X.sum(1,keepdim=True)广播机制(broadcast)Softmax函数和交叉熵损失函数Softmax函数交叉熵损失函数感知机多层感知机前言之前看吴恩达
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶凡人的AI工具箱深度学习 pytorch 学习人工智能 python AI编程
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶在深度学习处理序列数据时，循环神经网络(RNN)家族的模型扮演着至关重要的角色。今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。目录BiLSTM的双向信息流机制LSTM回顾BiLSTM架构解析时序特征融合策略BiLSTM实现与案例注意力机制原理
Qwen1.5-7B-实现RAG应用详细步骤大数据追光猿大模型数据库 AI编程语言模型人工智能深度学习
1.准备工作1.1安装依赖确保你的环境中安装了以下工具和库：Python：建议使用Python3.8或更高版本。PyTorch：用于运行深度学习模型。Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。安装命令运行以下命令安装所需的Python包：pipinstalltorc
Opacus库快速上手！使用Opacus库在Mnist数据集实现差分隐私还不秃顶的计科生快捷操作编程技巧 pycharm
第一部分：代码实现（1）基础配置python:3.8,opacus1.1.1，torch1.12.1pipinstallopacus==1.1.1具体实现方式是参考opacus官网以及（4）的参考文献。opacus官网为：GitHub-pytorch/opacus：使用差分隐私训练PyTorch模型（2）完整代码#-*-coding:utf-8-*-#Step1:导入必要的库和模块importto
Python 在 AI 领域的应用：从零构建你的第一个 AI 模型嵌入式Jerry Python python 人工智能开发语言嵌入式硬件 windows ubuntu
引言人工智能（AI）已经成为现代科技的核心，而Python是AI领域最受欢迎的编程语言之一。其强大的库和框架，如TensorFlow、PyTorch、scikit-learn，使AI开发变得更加简单高效。本文将带你深入理解Python在AI中的应用，并通过机器学习（MachineLearning）和深度学习（DeepLearning）的实际示例，讲解如何构建一个AI模型。1.Python为什么适合
深度学习篇---Opencv中的机器学习和深度学习 Ronin-Lotus 深度学习篇图像处理篇深度学习 opencv 机器学习 python
文章目录前言一、OpenCV中的机器学习1.概述2.使用步骤步骤1：准备数据步骤2：创建模型步骤3：训练模型步骤4：预测3.优点简单易用轻量级实时性4.缺点特征依赖性能有限二、OpenCV中的深度学习1.概述图像分类（如ResNet、MobileNet）目标检测（如YOLO、SSD）语义分割（如DeepLab）人脸检测（如OpenFace）2.使用步骤步骤1：加载模型步骤2：准备输入数据步骤3：推
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
pytorch安装记录 cy010124 pytorch 人工智能 python
在conda中创建环境(condacreate-npytorch1python=3.12)，接着进入pytorch1环境（condaactivatepytorch1）。使用官网命令安装pytorch，第一次安装显示python版本过高，torchaudio和torchvision不支持3.12，python3.10可以同时满足，于是准备换成3.10。删除环境，首先切换到base环境（condaac
YOLOv12改进策略【注意力机制篇】| 引入MobileNetv4中的Mobile MQA，轻量化注意力模块提高模型效率（二次改进A2C2f） Limiiiing YOLOv12改进专栏 YOLOv12 计算机视觉深度学习目标检测
一、本文介绍本文记录的是基于MobileMQA模块的YOLOv12目标检测改进方法研究。MobileNetv4中的MobileMQA模块是用于模型加速，减少内存访问的模块，相比其他全局的自注意力，其不仅加强了模型对全局信息的关注，同时也显著提高了模型效率。文章目录一、本文介绍二、MobileMQA注意力原理三、MobileMQA的实现代码四、创新模块4.1改进点⭐五、添加步骤5.1修改一5.2修改
介绍 TensorFlow 的基本概念和使用场景。大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
TensorFlow是一个由谷歌开发的开源机器学习框架，广泛应用于深度学习领域。它提供了一个灵活的平台，可以用于构建各种机器学习模型，包括神经网络。TensorFlow的基本概念和使用场景如下：张量（Tensor）：TensorFlow中的基本数据结构就是张量，可以简单理解为多维数组。张量可以是标量（0维张量）、向量（1维张量）、矩阵（2维张量）等。在TensorFlow中，所有数据都以张量的形式
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
PyTorch 深度学习快速入门教程有人给我介绍对象吗 AI论文写作深度学习 pytorch 人工智能
PyTorch深度学习快速入门教程PyTorch是一个灵活且易用的深度学习框架，支持动态图计算，广泛用于学术研究和工业应用。本教程将带你快速掌握PyTorch的基本用法，涵盖张量（Tensor）操作、自动求导（Autograd）、构建神经网络以及模型训练。1.安装PyTorch在终端或命令行中运行以下命令安装PyTorch：pipinstalltorchtorchvisiontorchaudio安
【YOLOv12改进trick】StarBlock引入YOLOv12，创新涨点优化，含创新点Python代码，方便发论文 zy_destiny YOLOv12及改进优化创新人工智能深度学习机器学习 YOLO 神经网络开发语言 python
改进模块：StarBlock解决问题：采用StarBlock将输入数据映射到一个极高维的非线性特征空间,生成丰富的特征表示，使得模型在处理复杂数据时更加有效。改进优势：简单粗暴的星型乘法涨点却很明显适用场景：目标检测、语义分割、自然语言处理等多种场景高效紧凑的模型，不适用于大模型思路来源：CVPR2024《RewritetheStars》目录1.设计动机2.启发来源3.将StarBlock引入YO
基于YOLOv5深度学习的田间杂草检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
引言随着农业科技的进步，智能化农业越来越受到重视，尤其是通过计算机视觉技术对作物进行监测和管理。在农业生产中，杂草的生长对作物的生长产生了负面影响，因此准确地检测和识别田间杂草至关重要。本文将详细介绍如何构建一个基于深度学习的田间杂草检测系统，使用YOLOv5模型进行目标检测，并提供一个用户友好的界面。我们将分步骤进行，包括环境配置、数据集准备、模型训练、实时杂草检测系统的实现等内容。目录引言目录
深度学习主流经典框架PyTorch（day2） inquisitor.dom 深度学习 pytorch 人工智能
五、Tensor数据转换5.1张量转numpy浅拷贝调用numpy()方法可以把Tensor转换为Numpy，此时内存是共享的。#张量转numpydata_tensor=torch.tensor([[1,2,3],[4,5,6]])data_numpy=data_tensor.numpy()print(type(data_tensor),type(data_numpy))#他们内存是共享的data
【AI学习从零至壹】pytorch基础 flyyyya AI 算法人工智能学习 pytorch
pytorch基础pytorch基础张量（Tensor）张量的属性张量的索引和切⽚：张量的拼接张量的算数运算单元素张量In-place操作与numpy之间的转换张量到numpy数组计算图静态计算图动态计算图pytorch计算图可视化pytorch基础PyTorch是⼀个开源的深度学习框架，由Facebook的⼈⼯智能研究团队开发和维护，在学术界和⼯业界都得到了⼴泛应⽤。张量（Tensor）张量（T
深度学习 -- 逻辑回归 PyTorch实现逻辑回归冲鸭嘟嘟可深度学习逻辑回归 python 人工智能
前言线性回归解决的是回归问题，而逻辑回归解决的是分类问题，这两种问题的区别是前者的目标属性是连续的数值类型，而后者的目标属性是离散的标称类型。可以将逻辑回归视为神经网络的一个神经元，因此学习逻辑回归能帮助理解神经网络的工作原理。什么是逻辑回归？逻辑回归是一种广义的线性回归分析模型，是监督学习的一种重要方法，主要用于二分类问题，但也可以用于多分类问题。逻辑回归的主要思想是，对于一个二分类问题，先根据
庐山派k230使用串口通信发送数据驱动四个轮子并且实现摄像头画面识别目标检测功能晨兆 python 开发语言
我使用的是UART1frommachineimportUART,FPIOA,Pinimportosimportujsonimportaicubefrommedia.sensorimport*frommedia.displayimport*frommedia.mediaimport*fromtimeimport*importnncase_runtimeasnnimportulab.numpyasnp
PCB 目标检测数据集晨兆目标检测
###**PCB目标检测数据集介绍****关键词**：工业质检、PCB缺陷检测、目标定位、智能制造---####**数据集概览**本数据集聚焦**印刷电路板（PCB）缺陷检测**任务，专为工业质检场景设计，提供高精度标注的PCB图像及缺陷目标信息，支持目标检测、缺陷分类、自动化质检等研究方向。---####**核心特性**1.**丰富的缺陷类别**包含多种PCB缺陷类型，如：-**missing_
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
【yolov8】模型导出----pytorch导出为onnx模型栗子风暴 YOLO pytorch 人工智能深度学习
【yolov8】模型导出一、为什么要使用yolo的导出模式二、确保安装必要的库：三、yolov8模型导出3.1不同格式配置参数3.2导出格式四、导出模型性能优化4.1使用TensorRT导出模型有什么好处？4.2导出YOLOv8模型时，如何启用INT8量化？4.3为什么输出模型时动态输入尺寸很重要？4.4优化模型性能需要考虑哪些关键的导出参数？五、问题六、疑问训练模型的最终目标是将其部署到实际应用
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
win11编译pytorch cuda128版本流程 System_sleep pytorch 人工智能 python 编译 windows cuda
Geforce50xx系显卡最低支持cuda128，torchcu128release版本目前还没有释放，所以自己基于2.6.0源码自己编译wheel包。1.前置条件1.使用visualstudioinstaller安装visualstudio2022，工作负荷选择【使用c++的桌面开发】,安装完成后将“VC\Tools\MSVC\\bin\Hostx64\x64”对应的路径加入环境变量；2.访问
目标检测——玉米叶感染数据集 Bryan Ding 人工智能
一、重要性首先，玉米作为世界上重要的粮食作物之一，其生长状况直接影响到粮食产量和粮食安全。玉米叶感染是玉米生长过程中常见的病害之一，会导致玉米叶片出现肿胀、皱缩、扭曲变形等症状，严重时甚至可能形成瘤状物。因此，及早检测玉米叶感染对于保障玉米的健康生长和提高产量具有重要意义。其次，通过玉米叶感染检测，农民和农业科研人员可以及时发现并采取有效的防治措施，防止病害的扩散和加重。这不仅可以减少因病害导致的
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，Django@Python2.x 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f