图波列夫

CUTLASS: Implicit GEMM Convolution

以下内容翻译自：CUTLASS 中的 Implicit GEMM Convolution

CUTLASS Convolution

Implicit GEMM 是将卷积操作表述为 GEMM (广义矩阵-矩阵积)。卷积接受激活张量并对其应用滑动滤波器以产生输出张量。

Introduction

此版本的 CUTLASS 包含几个与卷积相关的工件。

Implicit GEMM Algorithm
CUTLASS Convolution Implementation
Convolution Examples

Implicit GEMM Algorithm

二维卷积可以映射到矩阵乘：组建一个包含激活张量元素的卷积矩阵，然后由滤波张量形成的矩阵乘以该矩阵。该算法的最早形式通过通常称为 im2col 的操作显式构造卷积矩阵。生成的矩阵按照滤波器大小复制每个激活元素，消耗额外的存储容量和内存带宽。

隐式 GEMM 算法是 CUDA 中分块、分层 GEMM 计算的一种变体：当数据从全局内存加载到共享内存时，通过周密地更新指针和谓词，它会动态形成卷积矩阵的分块。
一旦在共享内存中构成卷积矩阵，现有组件计算 warp-level GEMM 累加卷积结果并更新输出张量。

本节介绍用于 Turing Tensor Core 的高效隐式 GEMM 卷积 CUDA 内核的结构。

Mapping Convolution to GEMM

前向卷积层计算输出张量y = conv(x, w)其中 x(NHWC)、w(KRSC) 和 y(NPQK) 是4-D 张量。

该计算可以通过以下分析函数来描述。

y[n, p, q, k] = sum_c(sum_r(sum_s( x[n, f(p, r), g(q, s), c] * w[k, r, s, c] )))

其中函数f和g定义如下。

f(p, r) = p * stride_h + R - r - 1 + pad_h
g(q, s) = q * stride_w + S - s - 1 + pad_w

CUTLASS Utilities 中提供了 host 和 device 参考实现。

这个计算可以映射到矩阵乘积的元素，如下所示。

C = gemm(A, B)

其中

A 是包含激活的 $\mathrm{NHW}\times \mathrm{RSC}$ 行主矩阵
B 是包含滤波器的 $\mathrm{RSC}\times \mathrm{K}$ 列主矩阵
C 是包含输出的 $\mathrm{NPQ}\times \mathrm{K}$ 行主矩阵

根据以下关系，输出矩阵 $C_{ij}$ 的每个元素对应于输出张量y[n, p, q, k]中的一个元素。

y[n, p, q, k] = Cij

其中，

i = q + Q * (p + P * n)
j = k

这些关系可以倒推如下。

k = j

n = i / (PQ)
residual = i % (PQ)

p = residual / Q
q = residual % Q

在 CRS 上迭代以累加结果的三重循环嵌套也可以通过以下关系被线性化并映射到内部 GEMM $K$ 维度（不要与滤波器张量维度 $K$ 混淆）。

gemm_k = s + S * (r + R * c)

逆向为

c = gemm_k / (RS)
residual = gemm_k % (RS)

r = residual / S
s = residual % S

给定这些等式，GEMM 三重循环嵌套可以使用张量索引进行扩充，如下所示。

int GEMM_M = N * P * Q;
int GEMM_N = K;
int GEMM_K = C * R * S;

for (int gemm_i = 0; gemm_i < GEMM_M; ++gemm_i) {
  for (int gemm_j = 0; gemm_j < GEMM_N; ++gemm_j) {

    int n = gemm_i / (PQ);
    int npq_residual = gemm_i % (PQ);

    int p = npq_residual / Q;
    int q = npq_residual % Q;

    Accumulator accum = 0;

    for (int gemm_k = 0; gemm_k < GEMM_K; ++gemm_k) {

      int k = gemm_j;

      int c = gemm_k / (RS);
      int crs_residual = gemm_k % (RS);

      int r = crs_residual / S;
      int s = crs_residual % S;

      int h = f(p, r);
      int w = g(q, s);

      ElementA a = tensor_A.at({n, h, w, c});
      ElementB b = tensor_B.at({k, r, s, c});

      accum += a * b;
    }

    C[gemm_i * K + gemm_j] = accum;
  }
}

CUTLASS GEMM implementation 在图块上显式迭代。因此，可以实现一个图块迭代器来分析地计算这些函数并加载适当的元素。然而，由此产生的模运算将是计算密集型的，并且开销将限制以 Turing Tensor Core 为目标的 GEMM 内核的性能。

以下部分描述了如何在以 Tensor Core 为目标的分层 GEMM 内核结构体中实施高效的实现。

CUTLASS Convolution Implementation

为了获得最佳性能，建议使用以下参数：

所有张量都是128位对齐的 NHWC 张量；
通道数 © 是 32 个元素的倍数；
滤波器计数 (K) 是 32 个元素的倍数。

这可实现128位向量内存访问，从而产生高效的 CUDA 内核。通过在conv::kernel::DefaultConv2dFprop中设置 AlignmentA 和 AlignmentB，即使在张量核上也支持较小的对齐，但性能低于128位对齐张量。

CUTLASS Device-level Convolution Operator

CUTLASS 定义了接受大量模板参数的 CUDA C++ 模板，以通过操作、数据类型、图块配置、数学指令和融合输出操作来特化生成的内核。

在 turing_tensorop_conv2dfprop.cu，卷积操作定义如下：

/// Define an Implicit GEMM convolution forward propagation (fprop) kernel
using Conv2dFpropKernel = typename cutlass::conv::kernel::DefaultConv2dFprop<
  ElementInputA,                                          // data type of element a (mapped to activation for fprop)                         
  LayoutInputA,                                           // layout of element a (mapped to activation for fprop)
  ElementInputB,                                          // data type of element b (mapped to filters for fprop)  
  LayoutInputB,                                           // layout of element b (mapped to filters for fprop)
  ElementC,                                               // data type of element c (mapped to output for fprop)
  LayoutC,                                                // layout of element c (mapped to output for fprop)
  ElementAccumulator,                                     // data type of internal accumulation
  MMAOp,                                                  // opcode class tag
  SmArch,                                                 // target SM architecture
  ThreadblockShape,                                       // shape of threadblock tile
  WarpShape,                                              // shape of warp-level GEMM tile
  InstructionShape,                                       // shape of target math instruction
  EpilogueOp,                                             // epilogue operator 
  SwizzleThreadBlock,                                     // optional function to reorder threadblocks for locality
  NumStages,                                              // number of pipeline stages in threadblock-scoped GEMM
  cutlass::arch::OpMultiplyAddSaturate,                   // math operation on data of element a and b
  cutlass::conv::IteratorAlgorithm::kOptimized            // global memory iterator algorithm  
>::Kernel

该模板旨在通用并涵盖所有可行的配置。该示例指定了以下具体数据类型、布局和图块形状。

/// Define an Implicit GEMM convolution forward propagation (fprop) kernel
using Conv2dFpropKernel = typename cutlass::conv::kernel::DefaultConv2dFprop<
  cutlass::int4b_t,                                    // data type of element a (mapped to activation for fprop)                         
  cutlass::layout::TensorNHWC,                         // layout of element a (mapped to activation for fprop)
  cutlass::int4b_t,                                    // data type of element b (mapped to filters for fprop)  
  cutlass::layout::TensorNHWC,                         // layout of element b (mapped to filters for fprop)
  int32_t,                                             // data type of element c (mapped to output for fprop)
  cutlass::layout::TensorNHWC,                         // layout of element c (mapped to output for fprop)
  int32_t,                                             // data type of internal accumulation
  cutlass::arch::OpClassTensorOp,                      // opcode class tag
  cutlass::arch::Sm75,                                 // target SM architecture
  cutlass::gemm::GemmShape<128, 128, 128>,             // shape of threadblock tile
  cutlass::gemm::GemmShape<64, 64, 128>,               // shape of warp-level GEMM tile
  cutlass::gemm::GemmShape<8, 8, 32>,                  // shape of target math instruction
  cutlass::epilogue::thread::LinearCombinationClamp<
    int32_t,                                           // data type of output matrix
    8,                                                 // The number of elements per vectorized
                                                       // memory access. This becomes the vector width of
                                                       // math instructions in the epilogue too.
    int32_t,                                           // Data type of accumulator
    float>;    ,                                       // epilogue operator 
  SwizzleThreadBlock,                                  // optional function to reorder threadblocks for locality
  2,                                                   // number of pipeline stages in threadblock-scoped GEMM
  cutlass::arch::OpMultiplyAddSaturate,                // math operation on data of element a and b
  cutlass::conv::IteratorAlgorithm::kOptimized         // global memory iterator algorithm  
>::Kernel

即使用4位整数输入和输出 (cutlass::int4b_t) 计算2D 卷积前向传播。使用32位整数（int32_t）进行内部累加，并对单精度浮点（float）的输出进行元素线性组合运算。

线程块和线程束级别形状指的是 gemm_api.md 描述的分层分块 GEMM 计算。较大的图块可以更好地重用通过共享内存加载的数据，但启动的 CTA 较少，并且对于较小的问题规模可能无法完全占用 GPU。较小的图块配置实现了较低的峰值利用率，但对于实际工作负载，可以更好地匹配 GPU 内的 SM 数量。

Launching the convolution

以下代码将隐式 GEMM 操作的参数收集到一个结构体中。

//
// Define arguments for CUTLASS Convolution
//

// mode (kCrossCorrelation or kConvolution)
cutlass::conv::Mode mode = cutlass::conv::Mode::kCrossCorrelation;

// Split K dimension into 1 partitions
int split_k_slices = 1;

cutlass::conv::Conv2dProblemSize problem_size(      
    options.input_size,
    options.filter_size,
    options.padding,
    options.conv_stride,
    options.dilation,
    options.output_size(),
    mode,
    split_k_slices);

typename ImplicitGemm::Arguments arguments{
  problem_size,
  tensor_a.device_ref(),
  tensor_b.device_ref(),
  tensor_c.device_ref(),
  tensor_c.device_ref(),
  {options.alpha, options.beta},
};

mode标志指示是计算互相关还是卷积。参数input_size、filter_size、padding、conv_stride和dilation指定输入和输出张量的纬度，并表征问题大小。

参数tensor_a.device_ref()、tensor_b.device_ref()和tensor_c.device_ref()是
CUTLASS TensorRef<>对象，其中包含 GPU 设备内存中张量数据的指针和步幅值。

以下代码初始化并启动设备上的隐式 GEMM 操作。以下代码初始化并在设备上启动隐式GEMM操作。初始化参数结构体，接着将其用于查询设备端工作区要求，并在需要时在设备内存中分配空间。

然后，使用参数结构体和设备内存中的工作空间初始化隐式 GEMM 对象。该初始化步骤预先计算卷积核使用的内部查找表，必要时也可以清除设备端工作空间。

最后，调用初始化的隐式 GEMM 对象，在设备上启动内核。tensor_c现在包含了隐式 GEMM 的结果。

ImplicitGemm implicit_gemm_op;

// Query workspace size
size_t workspace_size = implicit_gemm_op.get_workspace_size(arguments);

// Allocate workspace memory
cutlass::device_memory::allocation<uint8_t> workspace(workspace_size);

// Initialize the Implicit GEMM object
cutlass::Status status = implicit_gemm_op.initialize(arguments, workspace.get());

if (status != cutlass::Status::kSuccess) {
  /* error */
}

//
// Launch initialized CUTLASS kernel
//

status = implicit_gemm_op();

if (status != cutlass::Status::kSuccess) {
  /* error */
}

该示例演示了如何使用 CUTLASS Utilities 中定义的cutlass::HostTensor<>将输入和输出张量写入 CSV 文件。

  std::ofstream output_workspace(ss.str());

  output_workspace 
    << "Input = \n" << tensor_a.host_view() << "\n\n"
    << "Filters = \n" << tensor_b.host_view() << "\n\n";

  // Copy device memory to host backing store
  tensor_c.sync_host();

  output_workspace << "Computed = \n" << tensor_c.host_view() << std::endl;

CUTLASS Components

CUTLASS 定义了以下 CUDA C++模板来实现隐式 GEMM 卷积，这些模板将在后续章节中进行更详细的描述。
激活图块迭代器将激活图块加载到寄存器中。提供了两种实现方案：

conv2d_fprop_activation_tile_access_iterator_analytic.h 分析计算指针增量和掩码
conv2d_fprop_activation_tile_access_iterator_optimized.h 优化了在全局内存上的迭代和在共享内存中创建 GEMM-A 图块。

滤波器图块迭代器将滤波器加载到寄存器中。同样，提供了两种实现方式：

conv2d_fprop_filter_tile_access_iterator_analytic.h 分析计算指针增量和掩码
conv2d_fprop_filter_tile_access_iterator_optimized.h 优化全局内存迭代并在共享内存中创建 GEMM-B 图块。

优化迭代器涵盖的改进包括：

在主机上预先计算内核不变的指针增量。
在设备端迭代器上计算 cta 不变掩码谓词
使用 fast divmod 将 GEMM 维度映射到卷积张量。

例如，一个优化的激活迭代器使用 fast divmod 将 GEMM 的 M 维映射到 NPQ。

流水线主循环将线程块范围的图块从全局内存加载到共享内存中，然后应用 CUTRASS 线程束级 GEMM 操作从共享内存加载并向 Turing Tensor Core 发出指令。

mma_pipelined.h

存储到共享内存以及使用 Turing Tensor Core 执行 warp 宽度矩阵乘法运算的操作直接从 CUTLASS GEMM 组件应用。这包括以下几个部分：

Regular Tile Iterator：在 transform::threadblock::RegularTileIterator 中实现，将寄存器支持的片段以置换后的布局存储到共享内存中。
Warp-level GEMM：在 cutlass::gemm::warp::MmaTensorOp 中定义，明确从共享内存加载的图块迭代器并向 Turing Tensor Core 发出数学指令。此处描述了更多详细信息。
Epilogue 对线程块内线程间的累加器元素进行重新排序，以高效地更新输出张量。它在 epilogue::threadblock::Epilogue 中实现。

Loading Activations and Filters

Implicit GEMM Convolution 算法将 GEMM 的 K 维（CRS 的范围）划分为线程块图块，并将每个线程块图块分配给一个滤波器位置和一个通道区间。迭代完所有滤波器位置后，卷积算法前进到下一个通道区间并从滤波器r=0, s=0开始。

主循环的每次迭代都会计算一个线程块图块的矩阵乘积，如 CUTLASS GEMM implementation 中所述。总而言之，激活和滤波器的线程块图块从全局内存中的张量加载并存储到共享内存中。线程块内的每个线程加载一个或多个向量并共同涵盖整个图块。

下图展示了 Implicit GEMM 主循环的一次特定迭代。线程块中的每个线程都映射到 Activation 和 Filter 张量中的若干元素向量。GEMM 的 M 维度中，每个索引对应于输出张量的唯一(N,P,Q)索引，并且可以基于该索引以及滤波器位置(r,s)来计算指针。

体现此功能的 CUTLASS 组件是 Conv2dFpropFilterTileAccessIteratorAnalytic。其构造函数计算 GEMM 的 M 维到 (N, P, Q) 的映射，at()方法将线程执行的每个内存访问的线性偏移映射到的 Activation 张量中。此外，valid()方法计算每个滤波器位置和每个内存访问的有效性，以指示内存访问是在张量的边界内还是在边界外。

operator++() 在连续维度和跨步维度上对线程执行的内存访问进行迭代。

// cutlass/conv/threadblock/conv2d_fprop_activation_tile_access_iterator_analytic.h

// Update iterator to thread's next contiguous, strided memory access
Conv2dFpropActivationTileAccessIteratorAnalytic &operator++() {
  ++iteration_contiguous_;
  if (iteration_contiguous_ < ThreadMap::Iterations::kContiguous) {
    return *this;
  }
  iteration_contiguous_ = 0;
  
  ++iteration_strided_;
  if (iteration_strided_ < ThreadMap::Iterations::kStrided) {
    return *this;
  }
  iteration_strided_ = 0;
 
  return *this;
}

在访问完当前线程块图块的所有入口后，advance()更新指向下一个图块的指针。添加到每个指针的偏移量遵循滤波器位置的遍历，执行以下操作之一：

从滤波器位置(r, s, c)前进到滤波器位置(r, s+1, c)
从滤波器位置(r, S-1, c)前进到滤波器位置(r+1, 0, c)
从滤波器位置(R-1, S-1, c)前进到滤波器位置(0, 0, c+32)

方法advance()主体中的逻辑计算激活 GEMM-A 图块的上述三个更新：

// cutlass/conv/threadblock/conv2d_fprop_activation_tile_access_iterator_analytic.h

// Advance to the next access
void advance() {
  // moves to the next tile
  ++filter_s_;
  if (filter_s_ < problem_size_.S) {
    return;
  }
  filter_s_ = 0;
  
  ++filter_r_;
  if (filter_r_ < problem_size_.R) {
    return;
  }
  filter_r_ = 0;
  
  filter_c_ += Shape::kRow * problem_size_.split_k_slices;
}

类似的逻辑也适用于 Conv2dFpropFilterTileAccessIteratorAnalytic。

为了减少主循环体中的计算开销，可以在主机代码中预先计算指针偏移量，并作为其Params结构体中的查找表提供给 CUDA 内核。如 Conv2dFpropFilterTileAccessIteratorOptimized 所示，将从滤波器位置计算偏移的逻辑提取到了Params构造函数中。

// cutlass/conv/threadblock/conv2d_params.h
struct Conv2dFpropActivationIteratorOptimizedParams<layout::TensorNHWC> {
 ...
// next S
inc_next[0] = conv_sign * (int64_t(layout.stride()[0]) * problem_size.dilation_w) * element_size_bits / 8;

// next R
inc_next[1] = conv_sign * (
    int64_t(layout.stride()[1]) * problem_size.dilation_h
    - (problem_size.S - 1) * layout.stride()[0] * problem_size.dilation_w
  ) * element_size_bits / 8;

// next C
inc_next[2] = (
    threadblock_shape.column() * problem_size.split_k_slices
    - conv_sign * int64_t(problem_size.R - 1) * layout.stride()[1] * problem_size.dilation_h
    - conv_sign * int64_t(problem_size.S - 1) * layout.stride()[0] * problem_size.dilation_w
  ) * element_size_bits / 8;

 ...
}

这允许Conv2dFpropActivationTileAccessIteratorOptimized::advance()中的设备代码中仅执行增量表的简单查找。

// cutlass/conv/threadblock/conv2d_fprop_activation_tile_access_iterator_optimized.h
CUTLASS_HOST_DEVICE
void advance() { 

  int next_idx = 0;
 
  // moves to the next tile
  ++filter_s_;
  if (filter_s_ == problem_size_.S) {
    filter_s_ = 0;
    ++filter_r_;
 
    if (filter_r_ < problem_size_.R) {
      next_idx = 1;
    }
    else {
      filter_r_ = 0;
      next_idx = 2;
    }
  }
  
  add_byte_offset_(params_.inc_next[next_idx]); // in addition to Conv2dFpropActivationTileAccessIteratorAnalytic::advance()

  if (next_idx == 2) {  
    filter_c_ += params_.filter_c_delta;
  }
}

Making use of Tensor Cores

Turing Tensor Core 通过在线程束内的所有线程之间共享数据来高效地计算矩阵乘法累加运算。支持以下操作：

Shape	A	B	C
8x8x32	int4b_t	int4b_t	int32_t
8x8x16	int8b_t	int8b_t	int32_t
16x8x8	half	half	half
16x8x8	half	half	float

从功能上讲，Turing 8x8x32矩阵乘法运算将 A、B 和 C 矩阵分布在线程束内的32个线程上，如下图所示。

CUDA 程序员可以通过 PTX 指令 mma.sync 访问此 Tensor Core 操作。CUTLASS 使用 cutlass/arch/mma_sm75.h 中定义的设备端内在函数封装内联 PTX，如下例所示。

unsigned A;   // eight packed 4-bit integer elements
unsigned B;   // eight packed 4-bit integer elements

int C[2];     // two 32-bit integer elements
int D[2];     // two 32-bit integer elements

asm volatile(
  "mma.sync.aligned.m8n8k32.row.col.s32.s4.s4.s32 {%0,%1}, {%2}, {%3}, {%4,%5};\n"
  : "=r"(D[0]), "=r"(D[1])
  : "r"(A), "r"(B), "r"(C[0]), "r"(C[1]));

为了高效地将数据从共享内存加载到寄存器中，并在线程束之间的分布与上述匹配，Turing GPU 架构引入了 ldmatrix。ldmatrix 是最终的线程束协作指令，因为所有线程都向长度为128位的最多32个行向量提供地址。这些行从共享内存中取出，然后分布在每行四个线程的组中。线程内 SMEM 指针和目标寄存器的排列如下所示。图中突出显示了线程0以强调映射。

Turing Tensor Core 对 INT4数据进行乘法累加运算的计算矩阵的大小为8×8×32个元素。ldmatrix 每次操作最多取32行（或列）。可以发出16个 Tensor Core 操作来实现32×32×32矩阵乘积，并完美地消耗由两个 ldmatrix 指令加载的所有数据，如下图所示。通过增加内存指令数量并发出更多 Tensor Core 操作，可以实现更大的图块，最大可达64x64x32的线程束级矩阵操作。限制是保存累加器元素的寄存器数量。

Shared Memory Layouts

在前两节中，我们描述了如何从全局内存中的激活和滤波器张量加载数据来计算卷积，并且描述了 ldmatrix 和 mma.sync 的组合，以从共享内存中获取数据并发出 Tensor Core 操作。

为了确保数据移动效率，必须注意避免 bank 冲突。CUTLASS 使用置换后的共享内存布局来避免存储到共享内存时发生存 bank 冲突，并使用 ldmatrix 从共享内存高效加载。
下图说明了用于从全局内存加载激活和滤波器线程块图块以及共享内存中的置换布局的线程映射。

在图中，一个线程束宽度的内存访问以蓝色突出显示，单个线程加载一个128位向量。全局内存中的图块可以对应于激活或滤波器，并假设是通过四个线程加载连续通道进行“条带挖掘”的。

将共享内存可视化为一个"主行"矩阵，其中八列表示8个128位 bank。如 CUTLASS GTC 2019 slides、recording 中所述，如果每个线程束满足以下条件，则访问共享内存将不会发生冲突：

{T0, T1, …, T7} 不访问同一个128位的 bank
{T8, T9, …, T15} 不访问同一个128位的 bank
{T16, T17, …, T23} 不访问同一个128位的 bank
{T24, T25, …, T31} 不访问同一个128位的 bank

为了实现无冲突存储，共享内存布局重新映射条带挖掘排列以转置向量，并对每个线程指针的列索引应用 XOR 运算。具体来说，

  int store_column = (lane_id % 8) ^ (lane_id / 8);

这种布局上的转换将有助于从共享内存中读取数据切片，以使用 Tensor Core 计算线程束级矩阵乘法。

下图显示了参与 ldmatrix 指令的前16个线程如何逻辑映射到共享内存中矩阵的c=0..31切片。该切片在代码中称为k_group，因为它对应于线程束级矩阵乘法的相同 K 索引。

图中下半部分为共享内存中的物理布局，线程根据 XOR 函数进行行列偏移。通过检查，我们可以观察到没有 bank 冲突，因为 T0 … T7 每个访问唯一的存储体，T8 … T15 也是如此，后续相同。

为了前进到共享内存中的下一个“k-group”，根据以下顺序使用 XOR 操作更新指针：

^1 从k=0前进到k=1
^3 从k=1前进到k=2
^1 从k=2前进到k=3
^3 从k=3前进到k=0

其中第一种转变如下所示。

CUTLASS warp-level GEMM API 定义了用于从置换共享内存加载数据切片并向 Tensor Core 发出操作的模板。

Updating the Output Tensor

主循环终止后，线程束级 GEMM 的累加器图块存储线程束对输出张量的贡献。然而，线程块内的线程之间的数据分布专门用于使用 Tensor Core 的高效矩阵乘法累加运算，并且不利于全局内存的高效合并操作。需要进行数据重排。

Epilogue 是通过共享内存交换累加器元素、加载输出矩阵或张量的切片、应用线性缩放或偏置等元素操作，以及将结果存储到输出张量的组件。

CUTLASS 将其构建为几个组件：

cutlass::epilogue::threadblock::Epilogue：在整个线程块图块上循环的顶层组件
cutlass::epilogue::warp::TileIteratorTensorOp：用于将 Tensor Core 的累加器存储到共享内存的专用组件
cutlass::epilogue::threadblock::SharedLoadIterator：用于从共享内存中的主行排列加载元素的组件
cutlass::epilogue::threadblock::PredicatedTileIterator：用于将矩阵片段加载或存储到全局内存的组件（带有边界检查）
cutlass::epilogue::thread::LinearCombination：计算alpha * AB + beta * C得到最终输出的逐元素函数

Unit Tests

单元测试在一个独立的 CUDA 内核中验证上述每个组件的功能行为。这就给人们提供了一个便利的环境

检查模板定义
展示在设备代码中使用这些模板的实例化
断言功能正确性

Convolution unit tests

设备范围的卷积运算符：conv2d_fprop_implicit_gemm_s4nhwc_s4nhwc_s32nhwc_tensor_op_s32_sm75.cu

GEMM unit tests

Turing Tensor Core 的线程束范围矩阵乘法：gemm_sm75.cu

Epilogue unit tests

Turing Tensor Core 的收尾：epilogue_tensor_op.cu

Convolution Example

本节介绍所提供的卷积示例，旨在引导读者了解 Implicit GEMM 卷积的 CUTLASS 实现。

Building and Running the Example

示例 09_turing_tensorop_conv2dfprop 计算前向卷积层，其中输入和输出都是 4-b 整数。示例源代码可见于 examples/09_turing_tensorop_conv2dfprop/turing_tensorop_conv2dfprop.cu。

在构建示例之前，首先执行 quickstart.md 中构建任何 CUTLASS 组件的先决条件步骤。计算能力7.5指的是 Turing 架构，这项工作需要 CUDA 10.2 Toolkit 或更高版本，以使用 Turing Tensor Core 的mma PTX instruction。

$ mkdir build && cd build

$ cmake .. -DCUTLASS_NVCC_ARCHS=75

要构建示例，请从构建目录执行make 09_turing_tensorop_conv2dfprop。

$ make 09_turing_tensorop_conv2dfprop

$ ls examples/09_turing_tensorop_conv2dfprop 
examples/09_turing_tensorop_conv2dfprop

此示例提供了一个简单的命令行界面，用于指定4位整数元素 (cutlass::int4b_t) 的4D 张量的范围，将它们初始化为随机值，并计算卷积层的结果。可选地，输入和输出张量可以保存到.csv文件中，并且可以执行 CUTRASS 主机端参考检查以验证正确性。

使用--help运行可以看到完整的用法语句：

$ ./examples/09_turing_tensorop_conv2dfprop/09_turing_tensorop_conv2dfprop --help
09_turing_tensorop_conv2dfprop example

  This example uses Turing's Tensor Core operators on int4 data types to compute
  forward convolution on tensors of layout NHWC.

Options:

  --help               If specified, displays this usage statement.

  --n <int>            Input tensor extent N
  --h <int>            Input tensor extent H
  --w <int>            Input tensor extent W
  --c <int>            Input tensor extent C
  --k <int>            Filter extent K
  --r <int>            Filter extent R
  --s <int>            Filter extent S

  --alpha <float>      Epilogue scalar alpha
  --beta <float>       Epilogue scalar beta

  --ref-check          If set (true), reference check on the host is computed
  --perf-check         If set (true), performance is measured.
  --benchmark          If set (true), performance benchmarking on several layers and batch-size.
  --iterations <int>   Number of profiling iterations to perform.
  --save-workspace     If set, workspace is written to a text file.
  --tag <string>       String to replicate across the first column in the results table



Examples:

$ ./examples/09_turing_tensorop_conv2dfprop/09_turing_tensorop_conv2dfprop  --n=32 --h=224 --w=224 --c=128 --k=256 --r=1 --s=1

$ ./examples/09_turing_tensorop_conv2dfprop/09_turing_tensorop_conv2dfprop  --n=1 --h=224 --w=224 --c=32 --k=32 --r=3 --s=3 --ref-check

请注意，此示例假设所有张量都是128b 对齐且格式为 NHWC。因此，对于激活、滤波器和输出，维度 C 必须能被32整除。

如果传递了--benchmark选项，则会针对不同的批处理大小对 ResNet50中的几个层进行分析。此示例输出是在使用 CUDA 10.2编译的 NVIDIA RTX 2080上计算的。

build$ ./examples/09_turing_tensorop_conv2dfprop/09_turing_tensorop_conv2dfprop --benchmark

卷积也可以由 CUTLASS Profiler 运行。

Copyright

  Redistribution and use in source and binary forms, with or without
  modification, are permitted provided that the following conditions are met:

  1. Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

  2. Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

  3. Neither the name of the copyright holder nor the names of its
  contributors may be used to endorse or promote products derived from
  this software without specific prior written permission.

  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
  AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
  FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
  SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
  CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
  OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
  OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

你可能感兴趣的:(GPU,DeepLearning,CUTLASS,人工智能,GPU,CUDA)

Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
大模型的学习 LLaMa和ChatGLM，minichatgpt4 贝猫说python 学习 llama 人工智能
LLaMa和ChatGLM，minichatgpt4什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
@llvm.amdgcn.workitem.id.x()引发的一些前后端的调研 jc小小川+幻幻融hr 小小川编译器 elasticsearch 大数据搜索引擎
记录资料：UserGuideforAMDGPUBackend—LLVM5documentationintrinsic函数会执行lowerintrinsicspassllvm-project-main/llvm/lib/CodeGen/IntrinsicLowering.cppllvm-project-main/llvm/lib/Target/AMDGPU/AMDGPULowerIntrinsics
CUDA——内存 UCAS_HMM CUDA c++c语言性能优化
内存形式静态全局内存#include#include__device__floatdevData;//-GPU静态变量（所有设备代码均可见，主机代码不允许直接访问）__global__voidcheckGlobalVariable(){printf("threadIdx.x=%ddevData=%0.2f\n",threadIdx.x,devData);devData+=2.0f;}intmain
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
2024最新华为OD机试试题库全 -【执行时长】- C卷算法小叮当华为OD试题练习A+B+C卷华为od java python c++
1.题目详情1.1⚠️题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。1.2输入要求第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
Python中的并发编程：多线程与多进程的比较【第124篇—多线程与多进程的比较】一键难忘 python java 服务器并发编程多线程多进程
发现宝藏前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。Python中的并发编程：多线程与多进程的比较在Python编程领域中，处理并发任务是提高程序性能的关键之一。本文将探讨Python中两种常见的并发编程方式：多线程和多进程，并比较它们的优劣之处。通过代码实例和详细的解析，我们将深入了解这两种方法的适用场景和潜在问题。多线程
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
自然语言处理概念以及发展黑夜照亮前行的路自然语言处理
自然语言概念总结自然语言处理（NaturalLanguageProcessing，简称NLP）是计算机科学领域与人工智能领域的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理旨在帮助计算机理解和处理自然语言，使计算机能够像人类一样处理和生成语言。从概念上讲，自然语言处理融合了语言学、计算机科学和数学等多学科的知识。它并不仅仅是一般地研究自然语言，而是侧重
群晖NAS使用Docker安装WPS Office并结合内网穿透实现公网远程办公深鱼~ cpolar 容器运维 ssh 网络
文章目录推荐1.拉取WPSOffice镜像2.运行WPSOffice镜像容器3.本地访问WPSOffice4.群晖安装Cpolar5.配置WPSOffice远程地址6.远程访问WPSOffice小结7.固定公网地址推荐前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击跳转到网站】wps-office是一个在Linux服务器上部署WPSOffice的镜像。它基于
MATLAB使用OMP实现图像的压缩感知实例 superdont 计算机视觉入门 matlab 计算机视觉图像处理机器学习图像加密人工智能算法
OMP（OrthogonalMatchingPursuit）是一种用于稀疏信号恢复的迭代算法。它的目标是从一组测量值中重建具有少量非零元素的信号。基本步骤以下是OMP算法的简要步骤：初始化残差：将残差初始化为测量向量。迭代过程：a.原子选择：在每次迭代中，从字典中选择与当前残差最相关的原子。b.更新估计：使用所选的原子更新信号的估计。c.更新残差：更新残差，将其减去已匹配的部分。停止条件：重复步骤
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
高质量 Git 仓库汇总（持续更新，方便查看） Nice_cool. 学习
Leetcodehttps://github.com/kamyu104/LeetCode-SolutionsCmakehttps://github.com/viva64/pvs-studio-cmake-examples3D目标检测Awesome-3D-Object-DetectionAwesome-3D-Object-Detection-for-Autonomous-DrivingCudaCod
加速 PyTorch 模型预测常见方法梳理 samoyan pytorch pytorch 人工智能 python
目录1.使用GPU加速2.批量推理3.使用半精度浮点数(FP16)4.禁用梯度计算5.模型简化与量化6.使用TorchScript7.模型并行和数据并行结论在使用PyTorch进行模型预测时，可以通过多种方法来加快推理速度。以下是一些加速模型预测的常用方法，但注意有些模型直接使用下面方法会出错，大家谨慎使用：1.使用GPU加速如果您有可用的GPU资源，确保您的模型在GPU上运行，因为GPU提供了比
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(