爱听歌的周童鞋

八. 实战：CUDA-BEVFusion部署分析-学习spconv的优化方案(Explicit GEMM conv)

- 前言
- 0. 简述
- 1. 什么是Explicit GEMM Conv
- 2. im2col
- 3. spconv是如何使用Explicit GEMM Conv的
- 4. 使用Explicit GEMM Conv处理spconv的优缺点
- 5. 拓展-conv加速
- - 5.1 Introduction
  - 5.2 im2col
  - 5.3 Forward graph
  - 5.4 Backward graph
  - 5.5 Python example for forward propagation
  - 5.6 Python example for backward propagation
  - 5.7 Im2col and Col2im sources in python
  - 5.8 Smaller example
- 总结
- 下载链接
- 参考

前言

自动驾驶之心推出的《CUDA与TensorRT部署实战课程》，链接。记录下个人学习笔记，仅供自己参考

本次课程我们来学习下课程第八章——实战：CUDA-BEVFusion部署分析，一起来学习 spconv 的优化方案（Explicit GEMM conv）

Note：之前在学习杜老师的课程中有简单记录过 Sparse Convolution 的一些基础知识，感兴趣的可以看下：复杂onnx解决方案（以sparseconv为例）

课程大纲可以看下面的思维导图

0. 简述

本小节目标：理解 im2col，Explicit GEMM conv 是什么，以及理解 spconv 中使用 Gather 和 ScatterAdd 做优化的用意是什么

这节给大家讲解第八章节第 4 小节，学习 spconv 的优化方案，那这一小节我们从 Explicit GEMM Conv 显式 GEMM Conv 方式去看 spconv 是怎么优化的

1. 什么是Explicit GEMM Conv

在学 spconv 优化方案之前我们得先去理解 Explicit GEMM Conv 是什么，那要去理解 Explicit GEMM Conv 之前我们得先去理解 im2col 是什么，一层一层递进，

首先我们看一下 GEMM 是什么，GEMM 全称是 GEneral Matrix Multiplication 通用矩阵乘法，我们在第二章 CUDA 中也有涉及到，那 Explicit GEMM Conv 就是显式矩阵乘法卷积，通常指把 conv 计算的输入输出通过 im2col 的方式转换成 matrix 来进行矩阵乘法，可以高效的实现卷积（CUDA 中常用的方法，因为 CUDA 非常擅长 MxN=P 的矩阵乘法）

Conv 卷积操作过程中有权重，有输入输出维度，且维度可以是多维。我们在 CUDA、cuDNN、cuTLASS 去做卷积的时候，内部实际的计算其实是一个叫 im2col 的方式

我们可以把卷积的 input 输入铺平成一个二维的 Matrix 矩阵，这是因为任何维度的东西可以按照某一个方向，某一个顺序展开成一个二维的。比如三维的 CxHxW 可以变成二维的，四维的 NxCxHxW 也可以变成二维的

那同理 conv 的权重也是可以铺平成二维矩阵的，卷积的 weight 维度一般是 C_outxC_inxK_hxK_w，其中 Kh 和 Kw 为 Kernel 的高和宽，四个维度如果我们按照一定的方式去展开的话也是可以变成一个二维的

那所以说我们通过 im2col 可以把 conv 的输入和权重都变成二维的 Matrix，那变成二维之后，这个其实就是开始变成 CUDA 比较擅长的领域，也就是矩阵乘法

那矩阵乘法我们在第二章中讲过可以使用 shared memory 等多种优化方式，那所以就意味着我们最终需要做的是什么呢，就是把 tensor 级别上的卷积转换成 MxN=P 这么一个矩阵乘法去做计算，那这个其实就是 Explicit GEMM Conv

下面是来自 ChatGPT 关于 Explicit GEMM Conv 的解释：

卷积操作在本质上是一种多维数组的加权求和操作，然而，卷积操作本身在计算上可能并不高效，特别是在计算机硬件上执行时。为了克服这一问题，卷积操作可以被重新构造为矩阵乘法操作，这一方法在效率上可以得到很大的提升

因此，Explicit GEMM Conv 就是指通过将输入数据和卷积核重排成适合矩阵乘法的形式，然后利用 GEMM 算法来执行卷积操作

2. im2col

im2col 字面的意思是 image to column 即将图像转换为列，这个过程涉及将输入图像数据转换为列矩阵的形式，以便可以通过通用矩阵乘法（GEMM）来实现卷积操作。

使用 im2col 方法，我们可以将图像中每个卷积窗口的像素展开成一个列向量。将这些列向量堆叠起来，我们就可以得到一个大的矩阵，其中每列代表一个卷积窗口。然后卷积核也被展开成一个行向量，并与上述矩阵进行乘法运算，实现了卷积操作。

这样，原本复杂的卷积操作就被转换成了两个矩阵之间的乘法，这是现代计算硬件（特别是使用 cuBLAS 库）擅长的操作

OK，下面我们来看 im2col 的案例，看一下卷积是怎么一步步变成矩阵乘法运算的

我们先来看一个最简单的案例，如下图所示：

ic=oc=1的情形

在上图中我们的输入 input 维度是 1x5x5，filter 维度是 1x1x3x3，输出 output 维度是 1x3x3，stride 等于 1，padding 等于 0，我们先不看 batch 维度

从下图中可以看出卷积从头到尾 filter 一共需要滑动 9 次，每滑动一次 input 里面的 9 个元素都需要跟 filter 中的 9 个元素做一个乘加，得到一个输出数据

ic=oc=1的情形

那这也就意味着整个计算其实等价于一个 1x9 乘以一个 9x1 的矩阵乘法，那么所以说我们可以把这个计算换成下图这个样子：

ic=oc=1的情形

图中上面是 convolution，下面我们把它展平，我们把 filter 中的 9 个数据给它展开成一行，同理把 input 中每次滑动窗口的 9 个数据按列展开，那么它就变成了一行乘以一列，这样就得到了输出 9 个数据中的第 1 个数据，对于输出我们也将它按行展开

以上就是 filter 在 input 中滑动第一次的一个计算，那么同理第二次的计算中，filter 本身是不变的，变的是 input 中跟 filter 相乘的那一块，那么依此类推 filter 滑动 9 次之后就得到了完整的输出。那通过这样一个过程我们就可以把 conv 的计算等价成一个 1x9 乘以 9x9 的矩阵乘法

OK，我们理解了这个之后我们再稍微复杂一点，我们把 input 的 channel 设置成 2，那么 filter 的输入 channel 也就是 2，那么整个过程就变成了下面的样子：

ic=n,oc=1的情形

filter 它之前不是 9 个数据吗，那么现在我们其实有两个 channel，因此它按行展开就有 18 个数据，同理 input 中滑动窗口的 18 个数据需要在列上做展开，那么最终二者计算得到输出中的一个数值，如下图所示：

ic=n,oc=1的情形

那 filter 它最终滑动了多少次呢，那还是 9 次，这也就意味着 input 的宽度还是 9，不同的是高度变成了 18

那么最后我们把所有数据全展平后我们就得到一个 18x9 的矩阵，那整个 conv 过程就是 1x18 乘以 18x9 得到 1x9 的矩阵运算，那 output 的大小不变，只不过参与计算的数据变多了

OK，我们再复杂化一点，我们把 filter 的个数增加，增加成 3 个，那整个过程就变成了下面的样子：

ic=n,oc=m的情形

如果说只有一个 filter 我们按行展开就行了，那现在多个 fiter 意味着每个 filter 就是一行，最终展开变成了如下的样子：

ic=n,oc=m的情形

从图中我们能看出不再是 vector 和 matrix 相乘了，而是 matrix 和 matrix 相乘，这是因为我们的 filter 也变成了一个矩阵，维度是 3x18，与 input 中的 18x9 维的数据相乘得到最终的 output 输出

以上就是 im2col 的简单分析了，下面我们从公式的角度来分析下

我们规定下：

$I C$ ， $I H$ ， $I W$ 是 input 的 $c$ ， $h$ ， $w$ 的大小
$KH$ ， $K W$ 是 kernel 的 $h$ ， $w$ 的大小
$OC$ ， $O H$ ， $O W$ 是 output 的 $c$ ， $h$ ， $w$ 的大小

那么 filter 每滑动一次时，input 中与 filter 参与计算的数量是：

$IC\times KH\times KW =18$

filter 滑动的次数是：

$(IH-KH+stride)\times(IW-KW+stride)=9$

filter 的个数是：

$OC$

由此可见，我们是可以把参与 conv 计算的激活值、权重以及输出给放在一个矩阵里，用矩阵乘法的方式去计算 conv 即 $M\times N=P$

$M$ 激活值的大小：

$OC\times (IC\times KH\times KW)$

$N$ 权重的大小：

$(IC\times KH\times KW) \times (OH\times OW)$

$P$ 输出的大小：

$OC\times (OH\times OW)$

那其实我们在做计算的时候就非常适合 CUDA 加速了，这个模式大家可能都已经看过很多遍了，就是每一个线程负责一个点，那每一个点其实就是利用 shared memory 做一个乘加

Explicit GEMM Conv 就是显性的分配额外的空间用来做 im2col 的处理，将 N 维的数据转为 2 维，并用优化过的矩阵乘法算法来加速

3. spconv是如何使用Explicit GEMM Conv的

谈到 spconv 的加速我们不得不聊一个 repo，就是 https://github.com/traveller59/spconv

这个 repo 实现的 spconv 是相当不错的，现在都有很多人在用它去加速，它这里面采用的方式有 Explicit GEMM Conv，对稀疏矩阵乘法做了很大程度上的加速，最新的 spconv2.3 已经支持 int8

我们可以看到这里面作者其实就是充分利用了 CUDA 的一些特性去做一个加速，那现在整个更新已经到 CUDA-12.0 了，还是比较新的，我们可以直接用 pip 方式去安装

我们可以看他现在的 spconv 已经更新到 2.3，可以支持 int8 的量化，那里面有一些使用案例，大家感兴趣的可以看下

同时我们之前不是做了 CenterPoint 的环境搭建吗，那 CenterPoint 中 SCN 网络的 spconv 加速其实就是用它这个库来进行加速的

所以由此可见这个 spconv 它影响力还是比较大，那大家安装之后可以根据它的 README example 先跑一跑一些示例，看看里面的 spconv 加速是怎么实现的

OK，我们下面再来看 spconv 是如何使 Explicit GEMM Conv 做加速的，官方提供了一个文档用来说明 spconv 算法的加速，具体在 spconv/docs/spconv2_algo.pdf 中，我们一起来看看他是怎么做的

这里面的 input 输入数据是 5x5 的，filter 是 3x3 的，其中 input 的 25 个数据只有 5 个数据是有效的，其它全为 0，那它来跟这个 filter 来做计算得到一个 output，其中 output 中有 6 个有效数据

那么 filter 在这里通过滑动窗口来进行计算，那滑动窗口中只要有一个数据在 filter 里面，也就是 input 滑动窗口中只要有一个数据被 filter 盖住了，那它就参与计算

那这里我们可以看到 filter 有 6 次的滑动会捕捉到信息，那这里面有个点大家不能忽视，就是我们要对 input 和 filter 通过 im2col 展开，那展开的话其实我们能发现 input 中存在大量的无效数据也就是 0

也就是说我们转换成矩阵运算之后，虽然可以把很多计算给省掉，但是依旧存在很多无用的计算，主要原因在于我们的 input 是稀疏的，转换成的矩阵也是稀疏的

那所以作者就说 Too much zeros!，这里面的 0 太多了，我们需要想办法把这些 0 给去除掉

那作者是怎么做的呢，这里面主要是两个步骤即 Gather 和 ScatterAdd，就是用 Gather 和 Scale 的方式来做一个压缩和扩充，如下图所示：

我们每一列可能 0 特别多，那么我们就可以通过 Gather 把里面的数据给压缩，把一列中所有的 0 全给去除掉就只保留没有 0 的部分，比如图中 5 个数据有 2 个是 0，通过 Gather 我们就可以把这 2 个 0 给去除掉

接着我们让它再跟权重去做计算，那无用的计算就会少很多，通过这种方式得到输出值。此外我们还需要保证输入和输出的维度大小一致，因此我们还要把之前删除的 0 再加上去，通过 ScatterAdd 的方式来完成

所以总结下来 traveller59 作者

traveller 提供的解决方案是使用 Gather 和 ScatterAdd。**通过 Gather 将 input 中参与计算但没有意义的 0 点数据去除掉，**只留下有用的数据，这样 GEMM 的计算会变得更加 Dence，GEMM 计算完了以后，再通过 ScatterAdd 将 0 点添加进去。那这个就是作者提供的用 Explicit GEMM Conv 做 spconv 加速的一个方案

这里博主有些困惑，那在 filter 的 9 次滑动中其实 6 次是有效的，但不知道为什么图中只计算了 5 次，博主按照自己的理解，绘制了一个草图，描述了整个过程，如下图所示：

4. 使用Explicit GEMM Conv处理spconv的优缺点

OK，我们讲完 Explicit GEMM Conv 之后，我们思考一下它有什么缺点，我们说 Explicit 代表显性的意思，那显性去做 im2col 就意味着我们需要分配额外的空间，那额外的开销它其实是不能忽略的，在某种意义上是会产生很大的延迟的

那这部分其实我们也需要去考虑是否能够去除掉，因为它导致会有很多没有必要的 memory R/W，那这个地方就很容易成为瓶颈，那这个就是显式做 GEMM Conv 的一个问题

那有了这个问题，那么肯定就会有很多人去想怎么去解决它，那么所以有一个相应的概念叫做 Implicit GEMM Conv，隐式的 GEMM Conv

这里先做个预告，如上图所示，我们可以看下显式 GEMM Conv 把 N 维的 tensor 给转换成矩阵，然后通过 GEMM 计算得到一个值，那这个是显式的

那隐式是怎么做的呢，隐式我们可以发现它没有通过 im2col 这个操作去生成矩阵，那它直接就是在 tensor 这个维度上去做矩阵乘法

矩阵乘法中的每一个数据我们不再给给它分配空间了，我们直接通过索引的方式去寻找这个矩阵方法所需要的计算点到底对应 tensor 中的哪一个点，那这样通过索引的方式去寻找计算点可以直接跳过 im2col 这个步骤

那这个方式其实也是 spconv 可以选择的一种加速方式，那这部分具体怎么做，我们下节课再给大家讲解

OK，本次课程到这里就结束了

5. 拓展-conv加速

以下内容翻译自 https://leonardoaraujosantos.gitbook.io/artificial-inteligence/machine_learning/deep_learning/convolution_layer/making_faster

5.1 Introduction

这里我们将展示一种将卷积运算转换为矩阵乘法的方法。这种方法的优点是计算速度更快，但内存使用量更大。我们采用 im2col 操作，将输入图像转换为矩阵，然后将该矩阵与重塑后的 Kernel 相乘。最后我们再通过 col2im 运算将乘积矩阵重塑为图像

5.2 im2col

按照正常方式我们需要使用大量 for 循环来实现卷积，虽然这有助于理解，但速度不够快，这里我们将学习如何以矢量化方式实现卷积。

首先，如果我们仔细观察，卷积运算基本上是 Kernel 与移动窗口选择的局部区域之间的点积，而移动窗口选择的局部区域大小与我们的 Kernel 相同，如果我们在内存中扩展所有可能的窗口，并将点乘作为矩阵乘法来执行，会发生什么情况？答案是速度提高 200 倍或更多，但会消耗更多内存

比如，如果输入值为 [227x227x3]，需要用步长为 4、填充为 0 的 11x11x3 滤波器进行卷积，那么我们就需要在输入值中提取 [11x11x3] 个像素块，然后将每个像素块拉伸为大小为 11*11*3=363 的列向量

以输入 227 计算，步长为 4，填充为 0，则宽度和高度上都有 ((227-11)/4)+1=55 个位置，从而得到大小为 [363x3025] 的输出矩阵 X_col。在这里，每一列都是一个拉伸的感受野，总共有 55*55=3025 个

总结一下我们如何计算 im2col 的输出大小：

[img_height, img_width, img_channels] = size(img);
newImgHeight = floor(((img_height + 2*P - ksize) / S)+1);
newImgWidth  = floor(((img_width  + 2*P - ksize) / S)+1);        
cols = single(zeros((img_channels*ksize*ksize),(newImgHeight * newImgWidth)));

CONV 层的权重也同样被拉伸成行。例如，如果有 96 个大小为 [11x11x3] 的滤波器，那么矩阵 W_row 的大小为 [96x363]，其中 11x11x3=363

图像和 Kernel 转换成矩阵后，卷积可以通过简单的矩阵乘法实现，在我们的例子中就是 W_col[96x363] 乘以 X_col[363x3025]，得到一个矩阵 [96x3025]，需要将其重塑为 [55x55x96]

最后的重塑也可也通过一个名为 col2im 的函数来实现

值得注意的是，im2col 的某些实现会将结果转置，如果是这种情况，则必须改变矩阵乘法的顺序

5.3 Forward graph

为了帮助我们使用 im2col 进行卷积，并推导出反向传播，我们以图形的形式展示了使用 im2col 进行的卷积，如下图所示。这里的输入张量是单一的 3 通道 4x4 图像，它将进入一个卷积层，卷积层的 S:1 P:0 K:2 F:1（输出量）

5.4 Backward graph

使用 im2col 技术，计算图与 FC 层详细，有着相同的公式 $f(x,\theta,\beta)=(x.\theta^T)+\beta$ ，不同的是现在我们有了 reshape、transpose、im2col 块

关于反向传播过程中的 reshape 和 transpose，你只需要使用另一种 reshape 或 transpose 来反转它们的操作即可，需要注意的是，如果在前向传播过程中使用的是行为主的 reshape，那么在反向传播过程中也需要使用行为主的 reshape

唯一需要注意的是 im2col 的反向传播操作，它不能使用简单的 reshape 来实现，因为 patches 实际上可能会重叠（取决于步长），因此需要对 patches 相交处的梯度求和

5.5 Python example for forward propagation

def conv_forward_naive(x, w, b, conv_param):
  """
  A naive implementation of the forward pass for a convolutional layer.

  The input consists of N data points, each with C channels, height H and width
  W. We convolve each input with F different filters, where each filter spans
  all C channels and has height HH and width HH.

  Input:
  - x: Input data of shape (N, C, H, W)
  - w: Filter weights of shape (F, C, HH, WW)
  - b: Biases, of shape (F,)
  - conv_param: A dictionary with the following keys:
    - 'stride': The number of pixels between adjacent receptive fields in the
      horizontal and vertical directions.
    - 'pad': The number of pixels that will be used to zero-pad the input.

  Returns a tuple of:
  - out: Output data, of shape (N, F, H', W') where H' and W' are given by
    H' = 1 + (H + 2 * pad - HH) / stride
    W' = 1 + (W + 2 * pad - WW) / stride
  - cache: (x, w, b, conv_param)
  """
  out = None
  pad_num = conv_param['pad']
  stride = conv_param['stride']
  N,C,H,W = x.shape
  F,C,HH,WW = w.shape
  H_prime = (H+2*pad_num-HH) // stride + 1
  W_prime = (W+2*pad_num-WW) // stride + 1
  out = np.zeros([N,F,H_prime,W_prime])
  #im2col
  for im_num in range(N):
      im = x[im_num,:,:,:]
      im_pad = np.pad(im,((0,0),(pad_num,pad_num),(pad_num,pad_num)),'constant')
      im_col = im2col(im_pad,HH,WW,stride)
      filter_col = np.reshape(w,(F,-1))
      mul = im_col.dot(filter_col.T) + b
      out[im_num,:,:,:] = col2im(mul,H_prime,W_prime,1)
  cache = (x, w, b, conv_param)
  return out, cache

5.6 Python example for backward propagation

def conv_backward_naive(dout, cache):
  """
  A naive implementation of the backward pass for a convolutional layer.

  Inputs:
  - dout: Upstream derivatives.
  - cache: A tuple of (x, w, b, conv_param) as in conv_forward_naive

  Returns a tuple of:
  - dx: Gradient with respect to x
  - dw: Gradient with respect to w
  - db: Gradient with respect to b
  """
  dx, dw, db = None, None, None

  x, w, b, conv_param = cache
  pad_num = conv_param['pad']
  stride = conv_param['stride']
  N,C,H,W = x.shape
  F,C,HH,WW = w.shape
  H_prime = (H+2*pad_num-HH) // stride + 1
  W_prime = (W+2*pad_num-WW) // stride + 1

  dw = np.zeros(w.shape)
  dx = np.zeros(x.shape)
  db = np.zeros(b.shape)

  # We could calculate the bias by just summing over the right dimensions
  # Bias gradient (Sum on dout dimensions (batch, rows, cols)
  #db = np.sum(dout, axis=(0, 2, 3))

  for i in range(N):
      im = x[i,:,:,:]
      im_pad = np.pad(im,((0,0),(pad_num,pad_num),(pad_num,pad_num)),'constant')
      im_col = im2col(im_pad,HH,WW,stride)
      filter_col = np.reshape(w,(F,-1)).T

      dout_i = dout[i,:,:,:]
      dbias_sum = np.reshape(dout_i,(F,-1))
      dbias_sum = dbias_sum.T

      #bias_sum = mul + b
      db += np.sum(dbias_sum,axis=0)
      dmul = dbias_sum

      #mul = im_col * filter_col
      dfilter_col = (im_col.T).dot(dmul)
      dim_col = dmul.dot(filter_col.T)

      dx_padded = col2im_back(dim_col,H_prime,W_prime,stride,HH,WW,C)
      dx[i,:,:,:] = dx_padded[:,pad_num:H+pad_num,pad_num:W+pad_num]
      dw += np.reshape(dfilter_col.T,(F,C,HH,WW))
  return dx, dw, db

5.7 Im2col and Col2im sources in python

该实现将接收三维张量 [channels, rows, cols]，并创建二维矩阵 [rows=(new_h*new_w), cols=(kw*kw*C)]，注意该算法将输出上图的转置版本

def im2col(x,hh,ww,stride):

    """
    Args:
      x: image matrix to be translated into columns, (C,H,W)
      hh: filter height
      ww: filter width
      stride: stride
    Returns:
      col: (new_h*new_w,hh*ww*C) matrix, each column is a cube that will convolve with a filter
            new_h = (H-hh) // stride + 1, new_w = (W-ww) // stride + 1
    """

    c,h,w = x.shape
    new_h = (h-hh) // stride + 1
    new_w = (w-ww) // stride + 1
    col = np.zeros([new_h*new_w,c*hh*ww])

    for i in range(new_h):
       for j in range(new_w):
           patch = x[...,i*stride:i*stride+hh,j*stride:j*stride+ww]
           col[i*new_w+j,:] = np.reshape(patch,-1)
    return col

def col2im(mul,h_prime,w_prime,C):
    """
      Args:
      mul: (h_prime*w_prime*w,F) matrix, each col should be reshaped to C*h_prime*w_prime when C>0, or h_prime*w_prime when C = 0
      h_prime: reshaped filter height
      w_prime: reshaped filter width
      C: reshaped filter channel, if 0, reshape the filter to 2D, Otherwise reshape it to 3D
    Returns:
      if C == 0: (F,h_prime,w_prime) matrix
      Otherwise: (F,C,h_prime,w_prime) matrix
    """
    F = mul.shape[1]
    if(C == 1):
        out = np.zeros([F,h_prime,w_prime])
        for i in range(F):
            col = mul[:,i]
            out[i,:,:] = np.reshape(col,(h_prime,w_prime))
    else:
        out = np.zeros([F,C,h_prime,w_prime])
        for i in range(F):
            col = mul[:,i]
            out[i,:,:] = np.reshape(col,(C,h_prime,w_prime))

    return out

def col2im_back(dim_col,h_prime,w_prime,stride,hh,ww,c):
    """
    Args:
      dim_col: gradients for im_col,(h_prime*w_prime,hh*ww*c)
      h_prime,w_prime: height and width for the feature map
      strid: stride
      hh,ww,c: size of the filters
    Returns:
      dx: Gradients for x, (C,H,W)
    """
    H = (h_prime - 1) * stride + hh
    W = (w_prime - 1) * stride + ww
    dx = np.zeros([c,H,W])
    for i in range(h_prime*w_prime):
        row = dim_col[i,:]
        h_start = (i / w_prime) * stride
        w_start = (i % w_prime) * stride
        dx[:,h_start:h_start+hh,w_start:w_start+ww] += np.reshape(row,(c,hh,ww))
    return dx

5.8 Smaller example

为了让问题变简单，我们以 X[3x3] 与 W[2x2] 的卷积为例进行说明

总结

这节课程我们学习了 Explicit GEMM Conv 去加速 spconv 的方案，我们首先介绍了 im2col，卷积的计算实际上是可以转换为矩阵乘法运算的，接着我们分析了使用 Explicit GEMM Conv 方法加速 spconv，主要是通过 Gather 和 ScatterAdd 两个步骤来完成的，最后我们分析了 Explicit GEMM Conv 的缺点主要是需要额外分配内存空间，内存的读写非常耗时，因此引出了 Implicit GEMM Conv 的加速方案

OK，以上就是第 4 小节有关 Explicit GEMM conv 优化方案的全部内容了，下节我们将去学习 spconv 另一种优化方案即 Implicit GEMM conv，敬请期待

下载链接

论文下载链接【提取码：6463】
数据集下载链接【提取码：data】
代码和安装包下载链接【提取码：cuda】

参考

复杂onnx解决方案（以sparseconv为例）
矩阵乘法的 CUDA 实现、优化及性能分析
https://github.com/traveller59/spconv
https://leonardoaraujosantos.gitbook.io/artificial-inteligence/machine_learning/deep_learning/convolution_layer/making_faster

你可能感兴趣的:(spconv,im2col,Explicit,GEMM,Conv)

2018-11-01 每日一词 essence 夏炎学英语
essencethemostbasicandimportantqualityofsomething例句：Theessenceofeducationistoteachstudentshowtothinkcritically.1）常用搭配“本质”：与形容词real、true、very搭配；与动词capture、convey、embody、represent搭配；inessence，大体上，本质上。“精
ADC（Analog-to-Digital Converter，模数转换器）是什么？ Yashar Qian 嵌入式 ADC mcu 嵌入式硬件
ADC（Analog-to-DigitalConverter，模数转换器）是什么？ADC（Analog-to-DigitalConverter，模数转换器）是电子系统中一种至关重要的硬件电路或集成模块，它的核心功能是将连续的模拟信号（如电压、电流、温度、压力、声音等物理量转换成的电信号）转换为离散的数字信号（由0和1组成的二进制代码），以便数字系统（如微控制器MCU、处理器CPU、FPGA等）能够
CF1733E Conveyor 题解
CF1733EConveyor题意：有个120120120行，120120120列的棋盘。每个格子初始方向向右。每秒(0,0)(0,0)(0,0)产生一个史莱姆，所有史莱姆随格子方向移动。接着所有格子改变方向，向右变为向下，向下变成向右。若两个史莱姆相遇则合并为一个。qqq次询问，第ttt秒时(x,y)(x,y)(x,y)是否有。t≤1018t\leq10^{18}t≤1018思路：注意每一秒是每
修改与遍历MAP 东方欲晓_莫道君行早
packagecom.*;importjava.util.*;/***CreatedbyHPon2018/8/2.*/publicclassTest{//定义一个用于转换map的配置信息privatestaticMapmap=newHashMapconvertMap(MapmapParam){MapnewMap=newHashMap>it=mapParam.entrySet().iterator(
生成式人工智能实战 | 像素卷积神经网络（PixelCNN）盼小辉丶生成式人工智能实战150讲深度学习生成模型 aigc
生成式人工智能实战|像素卷积神经网络0.前言1.PixelCNN工作原理1.1掩码卷积层1.2残差块2.PixelCNN分析3.使用混合分布改进PixelCNN3.1模型构建3.2模型训练0.前言像素卷积神经网络(PixelConvolutionalNeuralNetwork,PixelCNN)是于2016年提出的一种图像生成模型，其根据前面的像素预测下一个像素的概率来逐像素地生成图像，模型可以通
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
kvm虚拟机下的格式转换 teayear linux 运维服务器运维技术教程自动化监控
该指令使用qemu-img工具将原始磁盘镜像（raw格式）转换为QCOW2格式的虚拟磁盘镜像，具体参数解释如下：分步解析qemu-imgconvert调用QEMU的镜像转换工具，用于不同虚拟磁盘格式之间的转换。-p显示转换进度条（等同于--progress），实时反馈转换过程的状态。-fraw指定源文件的格式为raw（原始二进制格式）。raw格式无元数据头，直接存储磁盘扇区数据，常用于物理磁盘拷贝
面试真题 | 小红书-C++引擎架构
文章目录1.自我介绍2.项目3.c++多态，如何实现的，虚表、虚表指针存储位置C++多态的实现机制虚表指针的存储位置面试官的深度追问4.explicit关键字explicit关键字的回答面试官可能的追问5.unique_ptr、shared_ptr、weak_ptr的原理，有没有线程安全问题，weak_ptr的解决了什么问题？可以用裸指针吗？会有什么问题回答unique_ptrshared_ptr
【嵌入式电机控制#15】电流闭环控制（二）：电流采样 Cyber耐提克嵌入式电机控制系统电机控制嵌入式系统控制算法单片机
代码解析（1）main.c中ADC的DMA中断回调voidHAL_ADC_ConvCpltCallback(ADC_HandleTypeDef*hadc){__IOuint16_tConvCnt=0;__IOint32_tADConv=0;//这里其实没必要用IO定义，变量与外设寄存器无直接交互HAL_ADC_Stop_DMA(hadc);//注意：对于信号传递速度极快的DMA，即使你用了HT中断
TCP的socket编程
TCP客户端逻辑voidUsage(conststd::string&process){std::cout4字节IP2.网络序列intn=connect(sockfd,CONV(&server),sizeof(server));//自动进行bindif(n0){charbuffer[1024];ssize_tm=read(sockfd,buffer,sizeof(buffer)-1);if(m>0
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
200 种格式转换FileConverter：图片视频音频文档随意转，免费开源超好用文哥工具箱1 电脑软件构建开源软件
各位文件处理小能手们！今天给你们介绍个超牛的免费开源工具——FileConverter。软件下载地址安装包这玩意儿就像个万能魔法师，能让图片、视频、音频、文档等200多种格式随意转换，就跟变戏法似的！你知道吗，用户只要在右键菜单点一点，就能快速完成转换操作，简直不要太方便！而且啊，这软件还自带压缩功能，压缩比例和旋转参数都能随便调，就像给文件量身定制衣服一样。更厉害的是，它支持离线处理，不用网络也
trouble9.28 小小_d574
1.（基础篇）英英释义：tocauseinconvenienceordiscomfortto例句：Hewastroubledbyhishealth.2.体会这个词（进阶篇）我们都知道“trouble”是“麻烦”，不过我们这里要学习的是它的动词形式，表示“让某人感到痛苦或焦虑”。我们在口语和写作中都能用到它。在口语中，我们想麻烦别人做某事时，可以先客气地说一句：I’msorrytotroubleyo
传统教学 vs 非在校教育? 选哪个比较好？School vs Unschooling? NicholasTan尼克
大家好，今天我要讲的是一个非常有趣的话题，上周我刚和深圳理想堂的创始人进行了深入交流-上学还是不上学？Hireaders,todayI’llbetalkingaboutaveryinterestingtopicwhichIhadacloseconversationwiththefounder&edupreneurinShenzhenat理想堂,AmandaHuang-Toschoolornotto
GPU网络运维一行代码通万物网络运维 GPU
一、GPU网络架构与核心技术GPU集群网络需适配分布式训练中“多节点数据同步”（如all-reduce、broadcast）的高频、大流量需求，主流技术方案及特点如下：网络技术核心优势适用场景运维重点InfiniBand低延迟（~1us）、高带宽（400Gb/s）、原生RDMA支持超大规模集群（≥1000节点）、千亿参数模型训练子网管理、固件兼容性、链路健康RoCE（RDMAoverConverg
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
SpringBoot + Logback 实现日志脱敏【手把手案例】甘蓝聊Java 【更新中...】项目中的那些事 spring boot logback Logback日志脱敏 Java日志脱敏
文章目录背景分析现有Logback配置了解PatternLayout中的Converter解决第1步：创建自定义Converter第2步：自定义logback配置文件第3步：调整yaml配置第4步：启动服务并验证参考背景SpringBoot+MyBatis+MySQL+Logback框架，使用MySQL的AES_DECRYPT()和AES_ENCRYPT()函数，由于日志设置为debug级别，导致
python提取pdf文字,python 提取pdf文字
安装pdfminer库windows下安装pdfminer3kpipinstallpdfminer3kLiunx下安装pdfminerpipinstallpdfminer代码frompdfminer.pdfparserimportPDFParser,PDFDocumentfrompdfminer.converterimportPDFPageAggregatorfrompdfminer.layout
selenium跳转到新页面时如何进行定位
在Selenium中，当你跳转到新页面（例如通过点击链接、提交表单或JavaScript重定向）时，通常会遇到页面加载或窗口切换的问题。为了在新页面上继续进行页面定位操作，你需要确保以下几点：✅1.等待页面加载完成Selenium默认不会自动等待页面加载完成。因此，你需要使用显式等待（ExplicitWait）来确保元素存在后再进行操作。示例代码（Python）：fromseleniumimpor
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
Halcon算子--shape_trans，用于变换区域的形状 X-Vision
函数原型：shape_trans(Region:RegionTrans:Type:)shape_trans仍然是区域，smallest_rectangle1可以获得四个角的坐标函数作用：变换区域的形状参数列表：Region（in）：被变换的区域RegionTrans（out）：变换后的区域Type（in）：变换类型参数Type的可选项解释如下：convex：凸包性ellipse：与输入区域有相同的
Excel to JSON API by WTSolution Documentation wtsolutions excel与json互相转换 excel json WTSolutions api
ExceltoJSONAPIbyWTSolutionDocumentationIntroductionTheExceltoJSONAPIprovidesasimplewaytoconvertExcelandCSVdataintoJSONformat.ThisAPIacceptstab-separatedorcomma-separatedtextdataandreturnsstructuredJSO
安防监控漏报频发？陌讯实时检测算法实测召回率98% 2501_92487721 目标跟踪计算机视觉人工智能算法
一、开篇痛点：安防监控的检测难题在夜间低光、遮挡、小目标等复杂场景下，传统YOLO系列算法常出现漏检（FN）和误检（FP）。某安防厂商测试数据显示：当目标像素<50×50时，开源模型召回率骤降至65%以下。二、技术解析：陌讯算法的三重创新陌讯视觉算法通过多尺度特征融合+自适应光照补偿提升鲁棒性：动态感受野机制在Backbone中引入可变形卷积（DeformableConv），公式表示为：y(p)=
基于SIFT-POCS的超分辨率图像重建技术研究与实现神经网络15044 算法深度学习仿真模型人工智能计算机视觉深度学习算法大数据机器学习
基于SIFT-POCS的超分辨率图像重建技术研究与实现摘要本文详细研究了基于SIFT特征匹配和POCS(ProjectionOntoConvexSets)算法的超分辨率图像重建方法，并完整实现了文献"Super-ResolutionImageReconstructionBasedonSIFT-POCS"中提出的算法。首先介绍了超分辨率重建的基本原理和研究意义，然后深入分析了SIFT特征提取与匹配、
Spring Framework 7.019.验证、数据绑定和类型转换(Validation, Data Binding, and Type Conversion) 程序员勇哥 Java全套教程 Spring Framework 7 spring 数据库 java springboot
SpringFramework7.019.验证、数据绑定和类型转换(Validation,DataBinding,andTypeConversion)验证、数据绑定和类型转换各有优缺点。将验证视为业务逻辑，Spring提供的验证和数据绑定设计不会将两者相互排斥。具体来说，验证不应绑定到Web层，应该易于本地化，并且应该能够插入任何可用的验证器。考虑到这些问题，Spring提供了一个Validato
91. SAP 系统里的中文数据，用 ABAP 导出成 Excel 文件时遇到乱码的分析和解决办法汪子熙零基础快速学习 ABAP excel ABAP SAP Netweaver 思爱普
本教程前一篇文章，我们介绍了如何将SAPABAP系统中的数据，以Excel文件的形式导出到本地：90.将SAPABAP内表内容本地导出成Excel文件这个方法确实比较实用。关于ABAP处理Excel文件还有另外两篇教程文章：42.用ABAP新建本地Excel文件并写入数据SAPABAP处理Excel的标准函数TEXT_CONVERT_XLS_TO_SAP介绍有朋友尝试把前一篇教程里的示例代码的数据
ValueConverter转换器WPF lph1972 wpf
属性搭桥比如BoolToVisibility创建两个属性BoolVisibility这样不好混乱了viewmodels降低了泛用性系统自带的convertor//resurcetestvis//convertorStaticResource做不到翻转做不到flase状态自定义命名空间只要细到文件夹不需要到文件、自己写Converter创建Converters文件夹在根目录多次在window.Res
python玛丽冒险游戏开发详解
一、游戏运行环境《玛丽冒险》运行环境要求：Python3.xPygame库（安装命令：pipinstallpygame）PyCharmIDE（或其他PythonIDE）二、核心类解析1.地图滚动类（MyMap）classMyMap():def__init__(self,x,y):self.bg=pygame.image.load("image/bg.png").convert_alpha()sel
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

八. 实战：CUDA-BEVFusion部署分析-学习spconv的优化方案(Explicit GEMM conv)

目录

前言

0. 简述

1. 什么是Explicit GEMM Conv

2. im2col

3. spconv是如何使用Explicit GEMM Conv的

4. 使用Explicit GEMM Conv处理spconv的优缺点

5. 拓展-conv加速

5.1 Introduction

5.2 im2col

5.3 Forward graph

5.4 Backward graph

5.5 Python example for forward propagation

5.6 Python example for backward propagation

5.7 Im2col and Col2im sources in python

5.8 Smaller example

总结

下载链接

参考

你可能感兴趣的:(spconv,im2col,Explicit,GEMM,Conv)