图波列夫

Caffe 中的 LRNLayer

Caffe 中的 LRNLayer 支持两种模式：

CrossChannel：为人们所熟知的局部响应归一化，在 AlexNet 中提出，并在一些早期网络中使用；
WithinChannel： Caffe 中独有的实现，未见网络中应用。本文略过。

ReLU 具有不需要输入归一化以防止其饱和的理想特性。但 AlexNet 论文中发现 LRN 有助于提高泛化性。LRN CrossChannel 模式公式如下：
$b_{x,y}^{i} = \frac{a_{x,y}^{i}}{(k+\frac{\alpha}{n} \sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^{i})^{2})^{\beta}}$

其中， $a_{x,y}^{i}$ 表示在第 $i$ 个卷积核输出的 $(x, y)$ 位置施加 ReLU 非线性计算得到的神经元活动。在相同空间位置上的 $n$ 个"相邻"通道上求和， $N$ 为该层通道的总数。常数 $k$ 、 $n$ 、 $\alpha$ 和 $\beta$ 。是超参数。 $b_{x,y}^{i}$ 为响应归一化的激活。

Caffe 的 LRNLayer 在 CPU 和 GPU 中均采用滑窗方式实现。不同特征图位置间并行，在通道方向上循环处理。层中前向缓存公式中的 $k+\frac{\alpha}{n} \sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^{i})^{2}$ 供给后向求导时使用。

LRNLayer::CrossChannelForward_cpu

scale_为前向和后向共享的变量。初始化为什么不使用拷贝而使用赋值？
padded_square在前后填充size_ - 1个通道。
alpha_over_size为 $\frac{\alpha}{n}$ 。

template <typename Dtype>
void LRNLayer<Dtype>::CrossChannelForward_cpu(
    const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) {
  const Dtype* bottom_data = bottom[0]->cpu_data();
  Dtype* top_data = top[0]->mutable_cpu_data();
  Dtype* scale_data = scale_.mutable_cpu_data();
  // start with the constant value
  for (int i = 0; i < scale_.count(); ++i) {
    scale_data[i] = k_;
  }
  Blob<Dtype> padded_square(1, channels_ + size_ - 1, height_, width_);
  Dtype* padded_square_data = padded_square.mutable_cpu_data();
  caffe_set(padded_square.count(), Dtype(0), padded_square_data);
  Dtype alpha_over_size = alpha_ / size_;

每个 image 是独立的。
caffe_sqr 计算平方。
padded_square_data跳过前面的pre_pad_个通道，计算 $a_{x,y}^{i})^{2}$ 。

  // go through the images
  for (int n = 0; n < num_; ++n) {
    // compute the padded square
    caffe_sqr(channels_ * height_ * width_,
        bottom_data + bottom[0]->offset(n),
        padded_square_data + padded_square.offset(0, pre_pad_));

caffe_axpy 功能为 $Y=\alpha X+Y$
输出地址不变，累加size_个通道的 $\frac{\alpha}{n}(a_{x,y}^{i})^{2}$ ，计算出第一个通道的 $N$ 。

    // Create the first channel scale
    for (int c = 0; c < size_; ++c) {
      caffe_axpy<Dtype>(height_ * width_, alpha_over_size,
          padded_square_data + padded_square.offset(0, c),
          scale_data + scale_.offset(n, 0));
    }

后续通道基于第一个通道的 $N$ 计算，加上后面的通道，减去前面通道的值。
scale_data为 $\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}\frac{\alpha}{n}(a_{x,y}^{i})^{2}$ 。

    for (int c = 1; c < channels_; ++c) {
      // copy previous scale
      caffe_copy<Dtype>(height_ * width_,
          scale_data + scale_.offset(n, c - 1),
          scale_data + scale_.offset(n, c));
      // add head
      caffe_axpy<Dtype>(height_ * width_, alpha_over_size,
          padded_square_data + padded_square.offset(0, c + size_ - 1),
          scale_data + scale_.offset(n, c));
      // subtract tail
      caffe_axpy<Dtype>(height_ * width_, -alpha_over_size,
          padded_square_data + padded_square.offset(0, c - 1),
          scale_data + scale_.offset(n, c));
    }
  }

计算 $\frac{x} {N^{\beta}}$

  // In the end, compute output
  caffe_powx<Dtype>(scale_.count(), scale_data, -beta_, top_data);
  caffe_mul<Dtype>(scale_.count(), top_data, bottom_data, top_data);
}

LRNLayer::CrossChannelForward_gpu

LRNFillScale

LRNComputeOutput

LRNFillScale 函数计算 $\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}\frac{\alpha}{n}(a_{x,y}^{i})^{2}$ 。每个线程处理一个元素。
CAFFE_GET_BLOCKS 根据线程数计算 block 数。

template <typename Dtype>
void LRNLayer<Dtype>::CrossChannelForward_gpu(
    const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) {
  // First, compute scale
  const Dtype* bottom_data = bottom[0]->gpu_data();
  Dtype* top_data = top[0]->mutable_gpu_data();
  Dtype* scale_data = scale_.mutable_gpu_data();
  // We will launch one kernel for each pixel location, and have the kernel
  // go through all the channels.
  int n_threads = num_ * height_ * width_;
  // NOLINT_NEXT_LINE(whitespace/operators)
  LRNFillScale<<<CAFFE_GET_BLOCKS(n_threads), CAFFE_CUDA_NUM_THREADS>>>(
      n_threads, bottom_data, num_, channels_, height_, width_, size_,
      alpha_ / size_, k_, scale_data);
  CUDA_POST_KERNEL_CHECK;

LRNComputeOutput 函数计算 $\frac{x} {N^{\beta}}$ ，每个线程处理一个输出。

  n_threads = bottom[0]->count();
  // NOLINT_NEXT_LINE(whitespace/operators)
  LRNComputeOutput<<<CAFFE_GET_BLOCKS(n_threads), CAFFE_CUDA_NUM_THREADS>>>(
      n_threads, bottom_data, scale_data, -beta_, top_data);
  CUDA_POST_KERNEL_CHECK;
}

LRNFillScale

$\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}\frac{\alpha}{n}(a_{x,y}^{i})^{2}$
根据一维index推算出空间位置。

  CUDA_KERNEL_LOOP(index, nthreads) {
    // find out the local offset
    const int w = index % width;
    const int h = (index / width) % height;
    const int n = index / width / height;
    const int offset = (n * channels * height + h) * width + w;
    const int step = height * width;
    const Dtype* const in_off = in + offset;
    Dtype* const scale_off = scale + offset;

仍然是滑窗方式。
首先计算post_pad个元素的平方和。

    int head = 0;
    const int pre_pad = (size - 1) / 2;
    const int post_pad = size - pre_pad - 1;
    Dtype accum_scale = 0;
    // fill the scale at [n, :, h, w]
    // accumulate values
    while (head < post_pad && head < channels) {
      accum_scale += in_off[head * step] * in_off[head * step];
      ++head;
    }

维持一个宽度为size的滑动窗口，计算窗口内元素的平方和。
得到head - post_pad个通道的 scale 值。

    // both add and subtract
    while (head < channels) {
      accum_scale += in_off[head * step] * in_off[head * step];
      if (head - size >= 0) {
        accum_scale -= in_off[(head - size) * step]
                       * in_off[(head - size) * step];
      }
      scale_off[(head - post_pad) * step] = k + accum_scale * alpha_over_size;
      ++head;
    }

计算末尾post_pad个通道的 scale 值。

    // subtract only
    while (head < channels + post_pad) {
      if (head - size >= 0) {
        accum_scale -= in_off[(head - size) * step]
                       * in_off[(head - size) * step];
      }
      scale_off[(head - post_pad) * step] = k + accum_scale * alpha_over_size;
      ++head;
    }
  }

LRNComputeOutput

$\frac{x} {N^{\beta}}$

  CUDA_KERNEL_LOOP(index, nthreads) {
    out[index] = in[index] * pow(scale[index], negative_beta);
  }

LRNLayer::CrossChannelBackward_cpu

$\begin{aligned} \frac{dy_i}{dx_i} &= \frac{N^\beta - x_i\beta\cdot N^{\beta-1}\cdot 2\alpha x_i}{N^{2\beta}}\\ &= \frac{1 - 2\alpha\beta N^{-1}\cdot x_i x_i}{N^{\beta}}\\ \frac{dy_i}{dx_j} &= \frac{ - x_i\beta \cdot N^{\beta-1}\cdot 2\alpha x_j}{N^{2\beta}}\\ &= \frac{ - 2\alpha\beta \cdot N^{-1}\cdot x_i x_j}{N^{\beta}} \end{aligned}$
scale_为前向过程中求出的 $\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}\frac{\alpha}{n}(a_{x,y}^{i})^{2}$
padded_ratio和accum_ratio为临时空间。padded_ratio为填充通道后的单个特征图大小，accum_ratio为特征图的通道求和。
cache_ratio_value为 $\frac{2\alpha\beta}{n}$ 。

template <typename Dtype>
void LRNLayer<Dtype>::CrossChannelBackward_cpu(
    const vector<Blob<Dtype>*>& top, const vector<bool>& propagate_down,
    const vector<Blob<Dtype>*>& bottom) {
  const Dtype* top_diff = top[0]->cpu_diff();
  const Dtype* top_data = top[0]->cpu_data();
  const Dtype* bottom_data = bottom[0]->cpu_data();
  const Dtype* scale_data = scale_.cpu_data();
  Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();
  Blob<Dtype> padded_ratio(1, channels_ + size_ - 1, height_, width_);
  Blob<Dtype> accum_ratio(1, 1, height_, width_);
  Dtype* padded_ratio_data = padded_ratio.mutable_cpu_data();
  Dtype* accum_ratio_data = accum_ratio.mutable_cpu_data();
  // We hack a little bit by using the diff() to store an additional result
  Dtype* accum_ratio_times_bottom = accum_ratio.mutable_cpu_diff();
  caffe_set(padded_ratio.count(), Dtype(0), padded_ratio_data);
  Dtype cache_ratio_value = 2. * alpha_ * beta_ / size_;

bottom_diff为 $N^{-\beta} \frac{\partial E}{\partial y}$ 。

  caffe_powx<Dtype>(scale_.count(), scale_data, -beta_, bottom_diff);
  caffe_mul<Dtype>(scale_.count(), top_diff, bottom_diff, bottom_diff);

inverse_pre_pad即反向计算中前填充通道数。
每个批量单独计算。
padded_ratio为 $N^{-1} y\frac{\partial E}{\partial y}$

  // go through individual data
  int inverse_pre_pad = size_ - (size_ + 1) / 2;
  for (int n = 0; n < num_; ++n) {
    int block_offset = scale_.offset(n);
    // first, compute diff_i * y_i / s_i
    caffe_mul<Dtype>(channels_ * height_ * width_,
        top_diff + block_offset, top_data + block_offset,
        padded_ratio_data + padded_ratio.offset(0, inverse_pre_pad));
    caffe_div<Dtype>(channels_ * height_ * width_,
        padded_ratio_data + padded_ratio.offset(0, inverse_pre_pad),
        scale_data + block_offset,
        padded_ratio_data + padded_ratio.offset(0, inverse_pre_pad));

累加padded_ratio中的size_-1个局部通道得到前缀通道结果accum_ratio。

    // Now, compute the accumulated ratios and the bottom diff
    caffe_set(accum_ratio.count(), Dtype(0), accum_ratio_data);
    for (int c = 0; c < size_ - 1; ++c) {
      caffe_axpy<Dtype>(height_ * width_, 1.,
          padded_ratio_data + padded_ratio.offset(0, c), accum_ratio_data);
    }

padded_ratio前后有填充，所以c + size_ - 1对应的是c通道的最后一个局部输入通道。
accum_ratio为 $\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y\frac{\partial E}{\partial y}$ 。
对于每个通道，accum_ratio前减后加。
accum_ratio_times_bottom为 $x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y\frac{\partial E}{\partial y}$ 。
由于 $y_i = N^{-{\beta}}\cdot x_j$
因此，
$\begin{aligned} \frac{\partial E}{\partial x} &= \frac{\partial E}{\partial y} \frac{\partial y}{\partial x} \\ &=\frac{\partial E}{\partial y} \left(\frac{1-\frac{2\alpha\beta}{n} x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} \cdot x_j}{N^{\beta}}\right) \\ &=\frac{\partial E}{\partial y} (N^{-{\beta}} - \frac{2\alpha\beta}{n} x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y) \\ &=\frac{\partial E}{\partial y} N^{-{\beta}} - \frac{2\alpha\beta}{n} x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y\frac{\partial E}{\partial y} \end{aligned}$

    for (int c = 0; c < channels_; ++c) {
      caffe_axpy<Dtype>(height_ * width_, 1.,
          padded_ratio_data + padded_ratio.offset(0, c + size_ - 1),
          accum_ratio_data);
      // compute bottom diff
      caffe_mul<Dtype>(height_ * width_,
          bottom_data + top[0]->offset(n, c),
          accum_ratio_data, accum_ratio_times_bottom);
      caffe_axpy<Dtype>(height_ * width_, -cache_ratio_value,
          accum_ratio_times_bottom, bottom_diff + top[0]->offset(n, c));
      caffe_axpy<Dtype>(height_ * width_, -1.,
          padded_ratio_data + padded_ratio.offset(0, c), accum_ratio_data);
    }
  }
}

LRNLayer::CrossChannelBackward_gpu

LRNComputeDiff

将 NHW 维度合并，并行处理特征图位置上的元素。
网络后面的层由于特征图小而通道宽，导致并行程度低，效率下降。

template <typename Dtype>
void LRNLayer<Dtype>::CrossChannelBackward_gpu(
    const vector<Blob<Dtype>*>& top, const vector<bool>& propagate_down,
    const vector<Blob<Dtype>*>& bottom) {
  int n_threads = num_ * height_ * width_;
  // NOLINT_NEXT_LINE(whitespace/operators)
  LRNComputeDiff<<<CAFFE_GET_BLOCKS(n_threads), CAFFE_CUDA_NUM_THREADS>>>(
      n_threads, bottom[0]->gpu_data(), top[0]->gpu_data(),
      scale_.gpu_data(), top[0]->gpu_diff(), num_, channels_, height_, width_,
      size_, -beta_, Dtype(2. * alpha_ * beta_ / size_),
      bottom[0]->mutable_gpu_diff());
}

LRNComputeDiff

CUDA_KERNEL_LOOP 循环执行 grid。
根据一维index推算出位置偏移。

template <typename Dtype>
__global__ void LRNComputeDiff(const int nthreads,
    const Dtype* const bottom_data, const Dtype* const top_data,
    const Dtype* const scale, const Dtype* const top_diff,
    const int num, const int channels, const int height,
    const int width, const int size, const Dtype negative_beta,
    const Dtype cache_ratio, Dtype* const bottom_diff) {
  CUDA_KERNEL_LOOP(index, nthreads) {
    // find out the local offset
    const int w = index % width;
    const int h = (index / width) % height;
    const int n = index / width / height;
    const int offset = (n * channels * height + h) * width + w;
    const int step = height * width;
    const Dtype* const bottom_off = bottom_data + offset;
    const Dtype* const top_off = top_data + offset;
    const Dtype* const scale_off = scale + offset;
    const Dtype* const top_diff_off = top_diff + offset;
    Dtype* const bottom_diff_off = bottom_diff + offset;

head为通道上中心值的索引。
pre_pad为包含中心值，比post_pad长。
累加属于第一个输出的post_pad个 $N^{-1} y\frac{\partial E}{\partial y}$

    int head = 0;
    const int pre_pad = size - (size + 1) / 2;
    const int post_pad = size - pre_pad - 1;
    Dtype accum_ratio = 0;
    // accumulate values
    while (head < post_pad && head < channels) {
      accum_ratio += top_diff_off[head * step] * top_off[head * step] /
          scale_off[head * step];
      ++head;
    }

循环处理channels次，得到channels-post_pad个通道的 $ \frac{\partial E}{\partial x}$。
accum_ratio为 $\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y\frac{\partial E}{\partial y}$ 。
没有缓冲区存储每个位置上的 $N^{-1} y\frac{\partial E}{\partial y}$ ，因此加减过程中需要计算两次。
cache_ratio为 $\frac{2\alpha\beta}{n}$ 。
$\begin{aligned} \frac{\partial E}{\partial x} &= \frac{\partial E}{\partial y} \frac{\partial y}{\partial x} \\ &=\frac{\partial E}{\partial y} \left(\frac{1-\frac{2\alpha\beta}{n} x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} \cdot x_j}{N^{\beta}}\right) \\ &=\frac{\partial E}{\partial y} (N^{-{\beta}} - \frac{2\alpha\beta}{n} x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y) \\ &=\frac{\partial E}{\partial y} N^{-{\beta}} - \frac{2\alpha\beta}{n} x\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)} N^{-1} y\frac{\partial E}{\partial y} \end{aligned}$

$y_j = N^{-{\beta}}\cdot x_j$ 。

    // both add and subtract
    while (head < channels) {
      accum_ratio += top_diff_off[head * step] * top_off[head * step] /
          scale_off[head * step];
      if (head - size >= 0) {
        accum_ratio -= top_diff_off[(head - size) * step] *
            top_off[(head - size) * step] / scale_off[(head - size) * step];
      }
      bottom_diff_off[(head - post_pad) * step] =
          top_diff_off[(head - post_pad) * step]
            * pow(scale_off[(head - post_pad) * step], negative_beta)
          - cache_ratio * bottom_off[(head - post_pad) * step] * accum_ratio;
      ++head;
    }

计算最后的post_pad个通道。

    // subtract only
    while (head < channels + post_pad) {
      if (head - size >= 0) {
        accum_ratio -= top_diff_off[(head - size) * step] *
            top_off[(head - size) * step] / scale_off[(head - size) * step];
      }
      bottom_diff_off[(head - post_pad) * step] =
          top_diff_off[(head - post_pad) * step]
            * pow(scale_off[(head - post_pad) * step], negative_beta)
          - cache_ratio * bottom_off[(head - post_pad) * step] * accum_ratio;
      ++head;
    }
  }
}

参考资料：

Caffe源码（一）：math_functions 分析
Caffe中的底层数学计算函数
滑动窗口技术（Sliding windows technique)

【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
【Java架构师的未来与趋势】架构学院 Java成神之路-架构师进阶 java 开发语言
Java架构师的未来与趋势引言Java作为企业级应用开发的主力军，已经走过了25年的历程。在这四分之一个世纪中，Java生态系统经历了从Applet到企业级应用，从单体架构到微服务，从本地部署到云原生的巨大转变。今天，Java架构师正站在新一轮技术变革的十字路口——人工智能、云计算、低代码、边缘计算等新兴技术正深刻重塑软件架构的形态和架构师的角色。据JetBrains《2023Java开发者调查》
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
最全2025年AI开发工具深度对比分析：程序员的智能编程助手全指南最新功能、定价策略、使用体验和适用场景 Cursor、GitHub Copilot、Claude 4、Claude Code wei佳人工智能 ai AI编程 webstorm idea vscode
2025年AI开发工具深度对比分析：程序员的智能编程助手全指南引言(不想看文字可直接看后面图表对比）随着人工智能技术的飞速发展，AI编程助手已经从概念走向现实，成为现代软件开发不可或缺的工具。2025年上半年，AI编程工具市场迎来了前所未有的变革，各大厂商纷纷推出革命性功能，从简单的代码补全演进为能够理解完整项目上下文的智能编程代理。据最新市场研究显示，全球AI代码工具市场在2024年达到67亿美
基于cnn和resnet和mobilenet对比实现驾驶员分心检测深度学习乐园 cnn 人工智能神经网络
演示效果及获取项目源码点击文末名片本项目旨在通过深度学习技术，结合卷积神经网络（CNN）模型、ResNet模型和MobileNet模型，实现对驾驶员分心行为的自动检测。我们通过训练这些模型来识别不同的驾驶员分心行为，包括如发短信、通话、喝水等行为。使用的数据集包含驾驶员行为的图片，并且针对每个行为标注了相应的标签（例如"正常驾驶"、"右手发短信"等）。MobileNetV2是Google于2018
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

Caffe 中的 LRNLayer

LRNLayer::CrossChannelForward_cpu

LRNLayer::CrossChannelForward_gpu

LRNFillScale

LRNComputeOutput

LRNLayer::CrossChannelBackward_cpu

LRNLayer::CrossChannelBackward_gpu

LRNComputeDiff

参考资料：

你可能感兴趣的:(Caffe,DeepLearning,caffe,深度学习,人工智能)