CUDA并行编程

引入

并行能帮我们提高代码性能，而GPU在硬件上是能够更好地实现一些并行工作的，能够更大程度地并行。

CUDA是SIMT模型，只用写一个程序，其中就包含了CPU部分和GPU并行部分的代码，那么就需要指明哪些是CPU（一般称为HOST），哪些是在GPU上运行(一般称为device)。

device变量 对于变量，也就是数据，我们需要存放在GPU上，以便GPU端代码调用，我们没有创建特别的数据类似，而是使用指针，在分配内存时分配的是device端内存。

核函数 对于代码，如何让它在GPU上运行呢，CUDA定义了一种device函数类型，一般形式如下。如果是GPU的入口函数，也就是第一个调用的函数(其它的device函数一般在这个入口函数中调用)，cuda称为核函数。

__global__ void Kernel(参数)
{
	//GPU并行代码
}

核函数的调用也是不一样的。我们在main函数中这么调用它，比寻常的函数调用多了个<<<>>>，里面的参数是调用并行资源的参数，之后会提到。其中d_A, d_B此时都已经是指针，指向的是GPU中的地址(显存)，而不是CPU。而n只是一个int型的，只用传形参即可，不用指针。

vecAddKernel<<<DimGrid,DimBlock>>>(d_A, d_B, d_C, n);

GPU的结构

硬件层面：GPU被分成一个个的SM（Streaming Multiprocessor计算单元），资源是以一个SM为单位的，寄存器、控制单元和缓存在SM里面都有，而一个GPU中有许多个SM，这也是GPU并行的硬件支持。其中sp就是基础的CUDA核心，用于处理线程中的指令，一个SM有多个sp。

warp ：warp是cuda编程中的重要概念，一个warp是一个线程束，如今包含了32个线程。GPU最基本的调度单元不是线程，而是一个warp，也就是32个线程，多个sp会共同处理一个warp的指令。

软件层面：grid->block->thread。grid是最大的单位，包含了一个程序中所有的thread，block的意义在于一个block下的所有线程必定在同一个SM下工作，并且共享内存是以block为单位来划分的，也就是说只有一个block中的线程之间能共享内存。

在编程时，我们需要注意的就是如何划分block和thread，之前提到，在调用核函数时，就能分配一个grid中有多少block，一个block中有多少thread。如下所示，为vecAddKernel函数分配了5个block，每一个block中有256个thread，即当调用这个函数时，将会有5*256个线程并行。

vecAddKernel<<<5,256>>>(d_A, d_B, d_C, n);

3维结构：grid中的block与block中的thread是可以以2维以及3维的形式构成的。我们可以用cuda提供的dim3结构来表示。如下所示，一个grid中的block是以100502的形式排列，block中的thread是以161616的形式排列。对于这样的结构，在处理一些图像等特殊结构时能够更加清晰。

dim3 DimGrid(100, 50, 2);
dim3 DimBlock(16, 16, 16);
PictureKernel<<<DimGrid,DimBlock>>>(d_Pin, d_Pout, m, n);

地址映射：现在我们将一个10241024的矩阵中每个值平方，那么构建了一个grid是3232，block是32*32的结构，让每个线程处理一个值。
传入的是二维数组的指针和矩阵的宽1024，为什么是指针之前提到过，device变量在CUDA中用指针指向device内存，那么对于二维数组，我们其实在用一维的方式求解。

dim3 DimGrid(32, 32, 1);
dim3 DimBlock(32, 32, 1);
sqKernel<<<DimGrid,DimBlock>>>(matrix, width);

对于核函数，我们现在只知道有1024*1024个线程在工作，怎么让它们工作到对应的值，就是地址映射需要做的事情。一个块中的线程有编号，一个grid中的block也有编号，通过这些编号，我们可以对应到矩阵。

__global__ void sqKernel(int* matrix, int width)
{
	int tx = threadIdx.x;//获取x方向线程号：0到31
	int ty = threadIdx.y;//获取y方向线程号：0到31
	int blockWidth = blockDim.x;//获取一个块在x方向宽度：32
	int tid = threadIdx.y * blockDim.x + threadIdx.x;//获取一个块中全局线程号：y*width+x 0到1023
	int bx = blockIdx.x;//获取x方向块号：0到31
	int by = blockIdx.y;//获取y方向块号：0到31
	int x = threadIdx.x + blockIdx.x*blockDim.x;//获取全局的x编号：0到1023
	int y = threadIdx.y + blockIdx.y*blockDim.y;//获取全局的y编号：0到1023
	int id = y * width + x;//获取全局id：y*width+x 0到1024*1024-1

	//matrix[id]平方
}

最后我们通过全局id，即可对应上需要处理的值在哪个位置。

结构优化：一个SM中一般有1536个线程，已知一个block中所有线程必定在一个SM中运行，所以为了让SM中的线程全部用上，我们在设计时需要让block的线程数是1536的公约数，比如256就比较合适，或者16*16。

device变量

初始化

前文已经提到过device变量实质上是在host初始化的，用指针分配的device内存

下面是一个host二维数组的变量，大小为HEIGHT*WIDTH

int* h_A;
size_t bytesCount = HEIGHT * WIDTH * sizeof(int);
h_A = new int[bytesCount];

delete[] h_A;

下面是一个device二维数组的变量，大小也为HEIGHT*WIDTH

int* d_A;
size_t bytesCount = HEIGHT * WIDTH * sizeof(int);
cudaMalloc((void **)&d_A, bytesCount);//需要用cudaMalloc来分配内存。

cudaFree(d_A);//用cudaFree来释放内存。

可以发现其中有一个问题就是cudaMalloc使用了双重指针，这是由于cudaMalloc依旧有一个错误信息的返回值，那么如果需要将d_A修改，需要传的不是一个空壳，而是需要传地址，才能实现在函数中的变量值修改了，函数外的变量值也会改变。
所以就需要传地址，又由于传的本身就是一个指针，那么需要的是指针的地址，就是双重的void指针。

数据传递

对于一个device端的变量，d_A是不能直接在host下使用的，不能读也不能写。
那么怎么赋值，怎么接收数据，cuda中有一个函数可以做到cudaMemcpy

cudaMemcpy(d_A, h_A, bytesCount, cudaMemcpyHostToDevice);//d_A = h_A,从host拷贝到device

cudaMemcpy(h_A, d_A, bytesCount, cudaMemcpyDeviceToHost);//h_A = d_A,从device拷贝到host

此时已经明白了一个基本的cuda结构，可以去看一看文章最后的第一个矩阵加法是如何实现的。

共享内存与矩阵乘法

引入

我们直接用cudaMalloc创建的是位于global memory全局内存上的，最基本、容量最大，也是最慢的一个存储位置，share memory是比全局内存要快很多的，但缺点就是很小。
并且共享变量是在和函数上声明的，所以可以直接用二维数组，而不是一维转二维。

对于普通的矩阵乘法，在核函数中，我们可以直接将该线程对应的一整行和一整列都读取上来，然后相乘相加，如下所示。

float Pvalue = 0;
// each thread computes one element of the block sub-matrix
for (int k = 0; k < Width; ++k) {
Pvalue += M[y*Width+k]*N[k*Width+x];
}
P[y*Width+x] = Pvalue;

但是（0,0）线程和（0,1）线程都要读取第0行，分别与第一列和第二列相乘，显然重复读取了第0行。
于是定义了一个共享内存，想要直接先读取所有需要的数据到共享内存中，然后再通过共享内存计算。

//kernel假设块大小是16*16，矩阵是1024*1024，那么M需要16*1024的数据，N需要1024*16的数据。
__shared__ float ds_M[16][1024];//共享变量用__shared__修饰
__shared__ float ds_N[1024][16];
//...省略中间读取到共享内存部分.
for (int k = 0; k < Width; ++k) {
	Pvalue += ds_M[y*Width+k]*ds_N[k*Width+x];
}

但是共享内存是很小的，只能放很小的一部分。

算法

所以我们成几个部分读取，分块的大小为TILE_WIDTH，一般与块大小一致，所以这是也是16，如果是32也是没有问题的。

//
__shared__ float ds_M[16][TILE_WIDTH];//共享变量用__shared__修饰
__shared__ float ds_N[TILE_WIDTH][16];

那么现在就需要一个块一个块的读取，M矩阵向X方向读取，N向y方向读取
比如线程是(0,1)，那么M矩阵，读取的就是M[0, 0tilewidth+1], [0, 1tilewidth+1]…，那么线程(0,1)到(31,1)并行下，就能将第一列的所有数据读取进来。
N矩阵读取的就是N[0+tilewidth0, 1], N[0+tilewidth1, 1], N[0 + 16*tilewidth, 1]
写成代码就是

for (int p = 0; p < n/TILE_WIDTH; ++p) {//p代表的就是现在到第几个块了。
	ds_M[ty][tx] = M[y * width + p*TILE_WIDTH+tx];
	ds_N[ty][tx] = N[(p * TILE_WIDTH+ty)*width+ x];
	__syncthreads();//所有线程都读取完了第P块
	//然后就将这一块的结果暂存起来
	for (int i = 0; i < TILE_WIDTH; ++i)Pvalue += ds_M[ty][i] * ds_N[i][tx];
	__synchthreads();//等所有线程都计算完了这一个块再进行下一个块。
}
P[Row*Width+Col] = Pvalue;//最后所有块都执行完毕

一块一块的读取一块一块的计算。
还有一个问题没有提到就是边界处理，假如矩阵不是刚好1024而是1023，那么有些线程就需要进行边界处理。用if判断一下即可，具体处理方式可见最后完整代码。

control divergence

已知GPU调度的基本调度单位是warp，一个warp有32个线程，一个warp的线程一般都在一个块里面按照顺序的。
比如现在有（16*16）个线程在一个块里面，那么第(0,0)线程到(1,15)号线程就是一个warp，所以块一般是32的倍数。

而这一个warp假如工作内容是不同的，就会降低效率，本来一批的东西被分成多批，而不同warp本来就是不同批次。
我们称这种降低效率的情况叫control divergence
比如下面0到4干的活就与5到31干的事不一样。

if(tid < 5){
	printf("1");
}

假如我们改成下面就不会有这种问题。

if(tid < 32){
	printf("1");
}

原子操作与直方图

引入

现在的案例是有一串很长的英文字母，agfweifowjfei这样的，现在需要统计a到g的字母有多少个，g到o的字母有多少，以此类推
字符串已经长到我们不能让一个线程对应一个字母，所以我们还是需要分成多个部分。比如有102400个字母，分成1024个线程，一个线程处理100个字母。
那么第1个线程处理前100个，第二个处理第二批100个，实际上是这样吗？不是的，由于局部性原理，即假如缓存没有需要的数据，会将附近的数据读入到缓存中，所以我们在编程序时最好将要处理的数据放在一起。
现在的做法是第一个线程在处理第1个字母时，第二个线程在处理第101个，不能很好地利用缓存机制。

__global__ void histo_kernel(unsigned char *buffer, long size, unsigned int *histo)
{
  int i = threadIdx.x + blockIdx.x * blockDim.x;

  // stride就是每一次处理多少字母，等于grid中所有线程。
  int stride = blockDim.x * gridDim.x;

  while (i < size)
  {
    int alphabet_position = buffer[i] - 'a';
    if (alphabet_position >= 0 && alphabet_position < 26)
      atomicAdd(&(histo[alphabet_position / 4]), 1);
    i += stride;
  }
}

可以看到上面的代码处理的就是相近的数据，通过stride步长来定位到第n次批次，比如现在线程全局id是i，第5次处理，那么对应的字母就是buffer[5*stride+i];
其中有一个新的函数atomicAdd（）,这个函数是原子操作，如果多个线程同时对一个类别进行加，就可能造成竞争，所以这个加法操作就是临界区
为了防止多线程对一个变量同时操作，cuda使用原子操作来处理这种情况。
int atomic(int * address, int val)这个函数有多个重构，可以处理int, unsigned int, unsigned long long , float。其返回值是原子操作之前的旧值，新值通过指针已经放在变量中了。
同样，可以看后文的完整代码。

共享直方图算法

对于一个算法在一步步地向后计算的途中，对于buffer每次读取的位置是不同的，无法优化，但是histo却只有7个，多次重复读取，所以可以使用共享内存。
可以在一个块中放一个共享的私有的histo，用来作为中转暂存，等将所有字母统计完毕，将私有的histo再汇集到全局的histo上。
大致代码如下，完整代码附在后文，前7个线程同时负责私有histo的初始化和汇集，不可避免地有control divergence

__global__ void histo_kernel(unsigned char *buffer, long size, unsigned int *histo)
{
    __shared__ unsigned int histo_private[7];
    // 初始化值共享内存为0；
    if (threadIdx.x < 7)
        histo_private[threadIdx.x] = 0;
    __syncthreads();
    while (i < size)
    {
        atomicAdd(&(histo_private[alphabet_position / 4]), 1);
        i += stride;
    }
    // 等待所有线程执行完毕
    __syncthreads();

    if (threadIdx.x < 7)
    {
        atomicAdd(&(histo[threadIdx.x]), histo_private[threadIdx.x]);
    }
}

卷积计算

引入

cuda并行也非常适合卷积计算。
卷积：一个图像有一个卷积核和一个输入数组，卷积核的大小一般比输入数组小很多。比如输入数组是一个2维的图像像素，10241024，那么卷积核可能是33，对于每一个像素点，卷积核将先将自己矩阵转置，再取周围3*3的像素点，与自身进行一定操作，最后得到的值就是这个像素点新的值。

卷积核：之前提到卷积核在进行卷积的时候需要先将自己进行转置，所以对称的卷积核方便操作。

例子：现在一维数组nums={1234567}，卷积核为M={34543}，现在需要对nums[2]进行卷积操作了，那么长度为5的卷积核将取以nums[2]为中心左右两边的数进行操作，最后新的nums[2] = nums[0]*M[0]+nums[1]*M[1]+nums[2]*M[2]+nums[3]*M[3]+nums[4]*M[4]=57

幽灵元素：假如上面例子中，轮到nums[0]进行卷积，左边已经没有元素，那么就直接补0，称为幽灵元素。

那么在写核函数的时候，只需要注意当前从哪个地方开始乘即可。

int start_point = i – (Mask_Width/2);//2为中心，即2 - 5 / 2 = 0,从0开始积和。

对于2d的卷积函数也是如此。

int N_start_col = Col - (maskwidth / 2);
int N_start_row = Row - (maskwidth / 2);

如果想要看完整代码附在后文。

共享内存卷积

与矩阵乘法共享类似，卷积也是在计算本像素点数值时需要其它像素点的数值，所以可以用类似的思想，将共用的地方用共享内存先读取。

与矩阵乘法不同的是，卷积需要多处理块的边界问题，比如现在一个块16*16大小，那么在块中第0号线程和第255号线程在进行读取时很有可能无法读取到周围块的元素。
接下来介绍的算法将共享内存=block大小>计算大小，就是需要计算的实际上比block线程小一圈，这样就能读取到周围的元素。

#define O_TILE_WIDTH 12//块大小是16*16，mask大小为5*5，那么12*12就是实际读取的大小
#define BLOCK_WIDTH 16

那么这个时候全局的x和全局的y已经不能和需要计算的xy对应起来了，这个时候一个很巧妙的做法就是直接想象块的大小就是12*12，而不是16，在计算地址的时候按照O_TILE_WIDTH 16来计算。

__shared__ int Ns[BLOCK_WIDTH][BLOCK_WIDTH];//16*16的共享内存
int row_o = blockIdx.y * O_TILE_WIDTH + ty;
int col_o = blockIdx.x * O_TILE_WIDTH + tx;
int row_i = row_o - 2;//输入地址的映射不变，照常-2，不过之前是y和x，现在是row_o
int col_i = col_o - 2;

由于读取时需要所有线程都工作，所以我们不必加什么限制,比如现在是第0块，那么o就是0到11，读取时就是-2到13，到第二块的时候输出index就是1*12+tx,就是12到23，读取的index就是12-2到12-2+16，完美对应。

if ((row_i >= 0) && (row_i < height) && (col_i >= 0) && (col_i < width))
{
    Ns[ty][tx] = in[row_i * width + col_i];
}
else
{
    Ns[ty][tx] = 0;
}

接下来的重要一环就是计算，首先只需要1212参与计算，这里选择了前面的1212个线程
不是选择中间的12*12那么就有一个问题就是当线程是0,0的时候，中心点其实在2，2，所以需要计算的是00到44与mask的00到44

int value = 0;
if (ty < O_TILE_WIDTH && tx < O_TILE_WIDTH)
{
    for (int i = 0; i < maskwidth; i++)
    {
        for (int j = 0; j < maskwidth; j++)
        {
            value += mask[i * width + j] * Ns[i + ty][j + tx];
        }
    }
}

restrict

对于只读的指针，我们可以通过__restrict__来修饰
如const int * __ restrict__ M

reduction规约

simple

规约和扫描都是cuda并行的计算模式。
现在是一个规约的例子，为了求一个矩阵每一行的和。直接用共享内存
reduction就是多个数逐渐减少，最后汇聚到一个变量上，这里的代码就是用一个块计算的是两个块大小的数，为了一个块计算一个数，所以一个块有512个线程，共1024个块，那么前512个线程就是第一行。

__global__ void rowSum(int *input, int *output, int width)
{
    __shared__ int partialSum[2 * BLOCK_SIZE];//共享内存大小是block的两倍,1024
    unsigned int tx = threadIdx.x;
    unsigned int start = blockIdx.x * 2 * blockDim.x;//块为0的时候，start=512，第一个块就读取了1024个数据。
    partialSum[tx] = input[start + tx];//一个线程负责读取两个数据。
    partialSum[blockDim.x + tx] = input[start + blockDim.x + tx];
}

一个块用一个stride，每次翻倍，通过tx % stride == 0。然后通过2*tx就能定位到，为什么是2倍就是因为共享内存是两倍。
stride=1的时候，就是(0,1), (2, 3), (4,5)
stride=2的时候，就是(0,2),(4, 6), (8, 10)
stride=512的时候，就是(0, 512)

// reduce
for (unsigned int stride = 1; stride <= blockDim.x; stride *= 2)
{
    __syncthreads();
    if (tx % stride == 0)
    {
        partialSum[2 * tx] += partialSum[2 * tx + stride];
    }
}
// 将最后的结果存放到
if (tx == 0)
{
    output[blockIdx.x] = partialSum[0];
}

better

前一个版本的在运行到后面的时候，运行的线程分布很开，不仅有control divergence而且不能很好地利用缓存。
下面的版本就是将原本stride从小到大改成了从大到小。

for (unsigned int stride = blockDim.x;stride > 0; stride /= 2)
{
	__syncthreads();
	if (t < stride)
		partialSum[t] += partialSum[t+stride];
}

现在比如一个block有1024个线程，那么在stride到32之前，都没有divergence，只有到16,8之后才会有。

scan扫描

work_inefficient

scan扫描的一个例子就是计算前缀和。现在有一个二维矩阵，需要计算其前缀和，那么我们首先需要计算每一行的前缀和。
下面就是每一行计算前缀和的代码，所以我们现在一个块的大小就是一行的大小，读取就是一一对应到一个共享内存中。
然后是迭代扫描计算，inefficient的扫描就是每次获取stide2的数据，比如现在是stride=8，那么tid=17的时候，获取的是28个数据，2到17的和。
stride = 1的时候0:0, 1:01, 2:12, 3:23, 4:34, 5:45, 6:56…
stride = 2的时候0:0, 1:01, 2:2+0=012, 3:1+3=0123, 4:2+4=1234, 5:5+3=2345
stride = 4的时候0:0, 1:01, 2:012, 3:0123, 4:1234, 5:5+1=012345

__global__ void work_inefficient_scan_kernel(int *inputMatrix, int *output, int width)
{
    __shared__ int XY[SECTION_SIZE];
    int tid = threadIdx.x;                 // 线程内的局部id
    int i = blockIdx.x * blockDim.x + tid; // 全局id
    if (i < width * width)
    {
        XY[tid] = inputMatrix[i] * inputMatrix[i];
    }
    // 执行迭代扫描
    for (unsigned int stride = 1; stride <= blockDim.x; stride *= 2)
    {
        __syncthreads();
        int in1 = 0;
        if (tid >= stride)
        {
            in1 = XY[tid - stride];
        }
        __syncthreads();
        XY[tid] += in1;
    }
    __syncthreads();
    if (i < width * width)
    {
        output[i] = XY[tid];
    }
}

最后的效率是O(N* log2(N)) ，这串代码可能会在执行资源饱和的情况下，效率低于串行。

work_efficient

首先我们可以用之前的思想，一个块读取两个块的数据

#define BLOCK_SIZE 512
#define SECTION_SIZE 1024

 __shared__ int XY[SECTION_SIZE];
 unsigned int tx = threadIdx.x;
 unsigned int start = blockIdx.x * 2 * blockDim.x;
 XY[tx] = inputMatrix[start + tx];
 XY[blockDim.x + tx] = inputMatrix[start + blockDim.x + tx];

这是用到了二叉树的思想，首先将子节点的值都聚集到身上。

for (unsigned int stride = 1; stride <= blockDim.x; stride *= 2)
{
    __syncthreads();
    int index = (threadIdx.x + 1) * 2 * stride - 1;
    if (index < SECTION_SIZE)
    {
        XY[index] += XY[index - stride];
    }
}

下面的从根开始遍历，第一个index的值就是第一层节点，让第一层节点和右边的第二层节点相加，形成新的第一层节点

到步长为1的时候，就轮到叶子节点了，叶子节点与之前已经得到的前缀根相加，叶子节点就也能存储前缀和。

代码如下

for (int stride = blockDim.x / 2; stride > 0; stride /= 2)
{
    __syncthreads();
    int index = (threadIdx.x + 1) * stride * 2 - 1;
    if (index + stride < SECTION_SIZE)
    {
        XY[index + stride] += XY[index];
    }
}

最后的时间复杂度差不多是O(log2(N)*log2(N))，并且更节省资源。
完整代码附在后文。

稀疏矩阵

下面是一个例子，当然这个矩阵不够大，零也不够多，只是方便学习。现在需要nn的稀疏矩阵与n1的矩阵X相乘

对于这种乘法，我们不需要关注零，只需要将第一行的非零元素与矩阵X对应位置相乘相加就是第一个值。

CSR

通过三个数组来存储稀疏矩阵，第一个数组data存放非零元素，可能就是data[7]={3,1,2,4,1,1,1}
第二个数组col_index对应的是上一个数组元素对应的列,col_index[7] = {0,2,1,2,3,0,3}
第三个数组用来存放行的信息，比如data的第一行元素data[0]和data[1],第二行没有，第三行是2到4，那么row_ptr={0,2,2,5,7}

CSR能不能做到随机读取，就是我想读到哪一行就读哪一行，而不需要遍历，显然是可以的，但是不能直接定位到列，只能定位到行。
比如我读取ROW 2的代码如下

for(int index = row_ptr[2]; index<row_ptr[3]; index++){
	int col = col_index[index];//对应原本矩阵的坐标就是(2, col)，值是value
	int value = data[index];
}

那么如何将稀疏矩阵乘法并行化就很清晰了，每一个线程处理一行。

int temp = 0;
int row = blockIdx.x * blockDim.x + threadIdx.x;
for(int index = row_ptr[row]; index<row_ptr[row+1]; index++){
	int col = col_index[index];//对应原本矩阵的坐标就是(row, col)，值是value
	temp += data[index] * X[col];
}

但是很显然，当稀疏矩阵一些行有特别多的非零元素，与一些行全是零的时候，其对应的线程就会出现负载不均衡的情况
并且control divergence的现象严重。

ELL

首先将进行压缩，将有最多非零元素的那一行作为矩阵的宽，非零元素全部向左边靠，列信息保留。

这样我们就知道一行是3个元素，然后遍历3次就可以处理完一行的数据。
但还有一个问题就是当多个线程都在处理一行的第一个元素的时候，没有很好利用缓存。
所以我们在存储values时，可以采用列优先的方式。321, 141,*1,对应的列坐标也是一样010,223,*3.
最后计算

__global__ void SpMV_ELL(int num_rows, float *data, int *col_index, int num_elem, float *x, float *y)
{
	int row = blockIdx.x * blockDim.x + threadIdx.x;
	int temp = 0;
	if (row < num_rows) {//不要超过行数
		for (int i = 0; i < num_elem; i++) {
			col = col_index[row+i*num_rows];
			temp += data[row+i*num_rows] * X[col];//所以在计算data坐标和col时，用的是row+i*num_rows，将行优先的行列坐标转成列优先坐标
		}
	}

这个方案也有缺点，就是当你某一行的非零元素特别多的时候，需要很多存储空间，极端的就是某一行一个零没有，就是原本矩阵了，没有压缩一点。

COO

这种压缩矩阵的模式是将每个非零元素对应的行和列都用数组储存，
缺点是当你用这种方式存储时，无法直接得到它们位置上的对应关系，比如哪些数据是在同一行。
所以一般我们是将coo与其它的方式结合起来，用以减少其存储空间。

比如将ell和coo结合起来。
将ell中非零元素多的那几列用coo存储，比如上面的案例中，将第三列的1用coo单独存储，就是
data = 1, rowindex = 2, colindex = 3,那么coo的存储数组中只有2列，断了一截

//ell
for (i = 0; i < num_rows_ell; i++) {//此时num_rows = 2
	int col = col_index_ell[row + i * num_rows];
	value += data_ell[row+i*num_rows] * x[col];
}
//COO
for (i = 0; i < num_elem_coo; i++) {
	if (row_index_coo[i] == row) {//遍历coo中的所有元素，看哪个是在这一行里面的。
		dot += data_coo[i] * x[col_index_coo[i]];
	}
}

JDS

最后还有一种就是JDS模式，在ELL的基础上进行行变换，按照长度从长到短排列
存储方式采用的CSR的数组存储，只不过需要多一个行的数组。现在的行数组就是row_index={2,0,3,1}row2是最长的，所以放到第一行了。
data数组和col数组也是，不同的是rowptr存储不是行从哪到哪，而是改成了部分，相同非零元素的是同一部分，row0和row3就是一部分，而row1由于没有元素，这个部分就不参与计算。
每一部分单独有一个核函数进行

merge sort

merge sort就是将两个已经排好序的数组合成一个数组，听起来应该是顺序执行的。
如果我们将原本两个数组叫做AB，第三个数组叫做C，那么假如以9为块，前9个用一个线程跑，后9个用一个线程跑。
但问题在于，现在你知道C需要9个数，那么多少来源于A，多少来源于B呢。
这个计算多少数据来源于A是能求出来的，将这个函数称作co_rank

其中k是指需要从A和B中取K个数，m是A的长度，n是B的长度，最后返回的i是说从A中取i个数，即0到i-1。
那么从B中取多少个数就等于k-i

__global__ void merge_basic_kernel(int* A, int m, int* B, int n, int* C){
	int id= blockIdx.x*blockDim.x + threadIdx.x;
	// 一个线程处理一部分，这一部分就是m+n/所有线程数
	int k_curr = id*ceil((m+n)/(blockDim.x*gridDim.x);
	int k_next = min((id+1) * ceil((m+n)/(blockDim.x*gridDim.x)), m+n);
	int i_curr= co_rank(k_curr, A, m, B, n);
	// 执行两遍co_rank就能获取到需要从哪到哪
	int i_next = co_rank(k_next, A, m, B, n);
	int j_curr = k_curr -i_curr;
	int j_next = k_next-i_next;
	/* 知道这些信息后就能执行 */
	merge_sequential(&A[i_curr], i_next-i_curr, &B[j_curr], j_next-j_curr,
	&C[k_curr] );
}

完整代码实例：矩阵加法

两矩阵相加，实现2个矩阵（Width=2048, Height=1024）的相加

这个代码就是需要注意height是矩阵中的行，width是列，在计算全局id的时候需要用y*width + x

c++代码

#include 
#include 
#include 
using namespace std;
int HEIGHT = 1024, WIDTH = 2048;
int main(void)
{
    clock_t start, end;
    double cpu_time_used;
    start = clock();
    vector<vector<int>> h_A(HEIGHT, vector<int>(WIDTH, 4)), h_B(HEIGHT, vector<int>(WIDTH, 2)), h_C(HEIGHT, vector<int>(WIDTH));
    for (int i = 0; i < HEIGHT; i++)
    {
        for (int j = 0; j < WIDTH; j++)
        {
            h_C[i][j] = h_A[i][j] + h_B[i][j];
        }
        cout << endl;
    }
    end = clock();
    cpu_time_used = ((double)(end - start)) / CLOCKS_PER_SEC;
    for (int i = 0; i < HEIGHT; i++)
    {
        for (int j = 0; j < WIDTH; j++)
        {
            cout << h_C[i][j] << "\t";
        }
    }
    printf("\nTime taken: %f seconds\n", cpu_time_used);
    return 0;
}

cuda代码

#include 
#include 
#include 
#include 

using namespace std;

int HEIGHT = 1024, WIDTH = 2048;

__global__ void matrix_addition(int *A, int *B, int *C, const int height, const int width)
{
    const int x = blockIdx.x * blockDim.x + threadIdx.x;
    const int y = blockIdx.y * blockDim.y + threadIdx.y;
    const int id = y * width + x;
    if (x < width && y < height)
    {
        C[id] = A[id] + B[id];
    }
}

int main(void)
{
    float elapsedTime;
    cudaEvent_t start, stop;
    // 初始化 CUDA 事件
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    // 记录开始事件
    cudaEventRecord(start, 0);

    int *h_A, *h_B, *h_C;
    int *d_A, *d_B, *d_C;
    size_t bytesCount = HEIGHT * WIDTH * sizeof(int);
    h_A = new int[bytesCount];
    h_B = new int[bytesCount];
    h_C = new int[bytesCount];

    // 初始化输入矩阵
    for (int i = 0; i < HEIGHT; i++)
    {
        for (int j = 0; j < WIDTH; j++)
        {
            h_A[i * WIDTH + j] = 4;
            h_B[i * WIDTH + j] = 2;
        }
    }

    // 分配设备内存，将数据从主机复制到设备
    cudaMalloc((void **)&d_A, bytesCount);
    cudaMalloc((void **)&d_B, bytesCount);
    cudaMalloc((void **)&d_C, bytesCount);
    cudaMemcpy(d_A, h_A, bytesCount, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, bytesCount, cudaMemcpyHostToDevice);

    // 核函数计算
    dim3 block(32, 32);
    dim3 grid(64, 32);
    matrix_addition<<>>(d_A, d_B, d_C, HEIGHT, WIDTH);

    // 记录结束事件
    cudaEventRecord(stop, 0);
    // 同步事件，确保所有任务完成
    cudaEventSynchronize(stop);
     // 计算经过的时间
    cudaEventElapsedTime(&elapsedTime, start, stop);


    // 将数据从设备复制回主机
    cudaMemcpy(h_C, d_C, bytesCount, cudaMemcpyDeviceToHost);

    // 输出结果
    for (int i = 0; i < HEIGHT; i++)
    {
        for (int j = 0; j < WIDTH; j++)
        {
            printf("%d ", h_C[i * WIDTH + j]);
        }
        printf("\n");
    }
    // 输出时间
    printf("Elapsed time: %3.1f ms\n", elapsedTime);
    // 销毁事件
    cudaEventDestroy(start);
    cudaEventDestroy(stop);

    // 释放内存
    delete[] h_A;
    delete[] h_B;
    delete[] h_C;
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    cudaDeviceReset();

    return 0;
}

完整代码实例：用块并行计算矩阵乘法

#include 
#include 
#include 
#include 
#define TILE_WIDTH 16
#define TEMP_WIDTH 2047 //
using namespace std;
int WIDTH_A = 1023, HEIGHT_A = 2047, WIDTH_B = 2047, HEIGHT_B = 511, HEIGHT_C = 511, WIDTH_C = 1023;

__global__ void matrix_addition(int *A, int *B, int *C, const int height, const int width)
{
    __shared__ int ds_A[TILE_WIDTH][TILE_WIDTH];
    __shared__ int ds_B[TILE_WIDTH][TILE_WIDTH];

    const int x = blockIdx.x * blockDim.x + threadIdx.x;
    const int y = blockIdx.y * blockDim.y + threadIdx.y;
    const int tx = threadIdx.x;
    const int ty = threadIdx.y;
    int value = 0;
    for (int i = 0; i < (TEMP_WIDTH - 1) / TILE_WIDTH + 1; i++)
    { // 每次遍历一个块
        if (y < height && i * TILE_WIDTH + tx < TEMP_WIDTH)
        {
            ds_B[ty][tx] = B[y * TEMP_WIDTH + (i * TILE_WIDTH + tx)]; // id = y * width + x，每次遍历x+Tile_WIDTH,B的坐标用的是B的width
        }
        else
        {
            ds_B[ty][tx] = 0;
        }
        if (i * TILE_WIDTH + ty < TEMP_WIDTH && x < width) // 新的x不能越B的x界，新的y不能越A的y界
        {
            ds_A[ty][tx] = A[(i * TILE_WIDTH + ty) * width + x]; // A的坐标用的是A的width，即C的width
        }
        else
        {
            ds_A[ty][tx] = 0;
        }
        __syncthreads(); // 等待这个块内所有线程执行完毕,
        if (y < height && x < width)
        {
            for (int k = 0; k < TILE_WIDTH; k++)
            {
                value += ds_B[ty][k] * ds_A[k][tx]; // 再将第i个块所有线程的结果放到value里面。
            }
        }

        __syncthreads();
    }
    if (y < height && x < width)
    {
        C[y * width + x] = value;
    }
}

int main(void)
{
    float elapsedTime;
    cudaEvent_t start, stop;
    // 初始化 CUDA 事件
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    // 记录开始事件
    cudaEventRecord(start, 0);

    int *h_A, *h_B, *h_C;
    int *d_A, *d_B, *d_C;
    size_t bytesCountA = HEIGHT_A * WIDTH_A * sizeof(int);
    size_t bytesCountB = HEIGHT_B * WIDTH_B * sizeof(int);
    size_t bytesCountC = HEIGHT_C * WIDTH_C * sizeof(int);
    h_A = new int[bytesCountA];
    h_B = new int[bytesCountB];
    h_C = new int[bytesCountC];

    // 初始化输入矩阵
    for (int i = 0; i < HEIGHT_A; i++)
    {
        for (int j = 0; j < WIDTH_A; j++)
        {
            h_A[i * WIDTH_A + j] = 4;
        }
    }
    for (int i = 0; i < HEIGHT_B; i++)
    {
        for (int j = 0; j < WIDTH_B; j++)
        {
            h_B[i * WIDTH_B + j] = 2;
        }
    }

    // 分配设备内存，将数据从主机复制到设备
    cudaMalloc((void **)&d_A, bytesCountA);
    cudaMalloc((void **)&d_B, bytesCountB);
    cudaMalloc((void **)&d_C, bytesCountC);
    cudaMemcpy(d_A, h_A, bytesCountA, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, bytesCountB, cudaMemcpyHostToDevice);

    // 核函数计算
    dim3 block(16, 16);
    dim3 grid(64, 32);
    matrix_addition<<<grid, block>>>(d_A, d_B, d_C, HEIGHT_C, WIDTH_C);

    // 记录结束事件
    cudaEventRecord(stop, 0);
    // 同步事件，确保所有任务完成
    cudaEventSynchronize(stop);
    // 计算经过的时间
    cudaEventElapsedTime(&elapsedTime, start, stop);

    // 将数据从设备复制回主机
    cudaMemcpy(h_C, d_C, bytesCountC, cudaMemcpyDeviceToHost);

    // 输出结果
    for (int i = 0; i < HEIGHT_C; i++)
    {
        for (int j = 0; j < WIDTH_C; j++)
        {
            printf("%d ", h_C[i * WIDTH_C + j]);
        }
        printf("\n");
    }

    // 输出时间
    printf("Elapsed time: %3.1f ms\n", elapsedTime);

    // 销毁事件
    cudaEventDestroy(start);
    cudaEventDestroy(stop);

    // 释放内存
    delete[] h_A;
    delete[] h_B;
    delete[] h_C;
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    cudaDeviceReset();

    return 0;
}

完整代码实例：一般的直方图统计字母频率

#include 
#include 
#include 
__global__ void histo_kernel(unsigned char *buffer, long size, unsigned int *histo)
{
  int i = threadIdx.x + blockIdx.x * blockDim.x;

  // stride就是每一次处理多少字母，等于grid中所有线程。
  int stride = blockDim.x * gridDim.x;

  while (i < size)
  {
    int alphabet_position = buffer[i] - 'a';
    if (alphabet_position >= 0 && alphabet_position < 26)
      atomicAdd(&(histo[alphabet_position / 4]), 1);
    i += stride;
  }
}
int main(void)
{
  unsigned char *buffer, *d_buffer;
  unsigned int *histo, *d_histo;
  int histoSize = 7;
  long size = 1024;
  size_t byteSize = sizeof(unsigned char) * size;
  buffer = new unsigned char[byteSize];
  histo = new unsigned int[sizeof(unsigned int) * histoSize];
  cudaMalloc((void **)&d_buffer, sizeof(unsigned char) * size);
  cudaMalloc((void **)&d_histo, sizeof(unsigned int) * histoSize);

  for (long i = 0; i < size; i++)
  {
    buffer[i] = (char)(i % 26 + 'a');
  }
  for (long i = 0; i < histoSize; i++)
  {
    histo[i] = 0;
  }
  cudaMemcpy(d_buffer, buffer, byteSize, cudaMemcpyHostToDevice);
  cudaMemcpy(d_histo, histo, sizeof(unsigned int) * histoSize, cudaMemcpyHostToDevice);
  histo_kernel<<<2, 256>>>(d_buffer, size, d_histo);
  cudaDeviceSynchronize();
  cudaMemcpy(histo, d_histo, sizeof(unsigned int) * histoSize, cudaMemcpyDeviceToHost);
  for (long i = 0; i < histoSize; i++)
  {
    printf("histo[%ld]:%d\n", i, histo[i]);
  }
  cudaDeviceReset();
  delete[] buffer;
  delete[] histo;
  cudaFree(d_buffer);
  cudaFree(d_histo);
  return 0;
}

完整代码实例：共享内存的直方图

#include 
#include 
#include 
__global__ void histo_kernel(unsigned char *buffer, long size, unsigned int *histo)
{
    __shared__ unsigned int histo_private[7];

    // 初始化值共享内存为0；
    if (threadIdx.x < 7)
        histo_private[threadIdx.x] = 0;
    __syncthreads();
    int i = threadIdx.x + blockIdx.x * blockDim.x;
    // stride=grid上所有线程
    int stride = blockDim.x * gridDim.x;
    while (i < size)
    {
        int alphabet_position = buffer[i] - 'a';
        if (alphabet_position >= 0 && alphabet_position < 26)
            atomicAdd(&(histo_private[alphabet_position / 4]), 1);
        i += stride;
    }
    // 等待所有线程执行完毕
    __syncthreads();

    if (threadIdx.x < 7)
    {
        atomicAdd(&(histo[threadIdx.x]), histo_private[threadIdx.x]);
    }
}

int main(void)
{
    unsigned char *buffer, *d_buffer;
    unsigned int *histo, *d_histo;
    int histoSize = 7;
    long size = 1024;
    size_t byteSize = sizeof(unsigned char) * size;
    buffer = new unsigned char[byteSize];
    histo = new unsigned int[sizeof(unsigned int) * histoSize];
    cudaMalloc((void **)&d_buffer, sizeof(unsigned char) * size);
    cudaMalloc((void **)&d_histo, sizeof(unsigned int) * histoSize);

    for (long i = 0; i < size; i++)
    {
        buffer[i] = (char)(i % 26 + 'a');
    }
    for (long i = 0; i < histoSize; i++)
    {
        histo[i] = 0;
    }
    cudaMemcpy(d_buffer, buffer, byteSize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_histo, histo, sizeof(unsigned int) * histoSize, cudaMemcpyHostToDevice);
    histo_kernel<<<2, 256>>>(d_buffer, size, d_histo);
    cudaDeviceSynchronize();
    cudaMemcpy(histo, d_histo, sizeof(unsigned int) * histoSize, cudaMemcpyDeviceToHost);
    for (long i = 0; i < histoSize; i++)
    {
        printf("histo[%ld]:%d\n", i, histo[i]);
    }
    cudaDeviceReset();
    delete[] buffer;
    delete[] histo;
    cudaFree(d_buffer);
    cudaFree(d_histo);
    return 0;
}

完整代码实例：2D卷积模板计算

#include 
#include 
#include 

__global__ void convolution_2D_basic_kernel(unsigned int *in, unsigned int *mask, unsigned int *out, int maskwidth, int w, int h)
{
    int Col = blockIdx.x * blockDim.x + threadIdx.x;
    int Row = blockIdx.y * blockDim.y + threadIdx.y;
    if (Col < w && Row < h)
    {
        int pixVal = 0;
        int N_start_col = Col - (maskwidth / 2);
        int N_start_row = Row - (maskwidth / 2);
        // Get the of the surrounding box
        for (int j = 0; j < maskwidth; ++j)
        {
            for (int k = 0; k < maskwidth; ++k)
            {
                int curRow = N_start_row + j;
                int curCol = N_start_col + k;
                // Verify we have a valid image pixel
                if (curRow > -1 && curRow < h && curCol > -1 && curCol < w)
                {
                    pixVal += in[curRow * w + curCol] * mask[j * maskwidth + k];
                }
            }
        }
        // Write our new pixel value out
        out[Row * w + Col] = (unsigned int)(pixVal);
    }
}
int main()
{
    unsigned int *mask, *d_mask, *d_output;
    unsigned int *input, *d_input, *output;
    int width = 1024, height = 1024;
    int maskwidth = 5;
    size_t inputSize = sizeof(unsigned int) * width * height;
    size_t maskSize = sizeof(unsigned int) * maskwidth * maskwidth;
    mask = new unsigned int[maskSize];
    input = new unsigned int[inputSize];
    output = new unsigned int[inputSize];

    cudaMalloc((void **)&d_mask, maskSize);
    cudaMalloc((void **)&d_input, inputSize);
    cudaMalloc((void **)&d_output, inputSize);

    for (int y = 0; y < maskwidth; y++)
    {
        for (int x = 0; x < maskwidth; x++)
        {
            mask[y * width + x] = 2;
        }
    }
    srand(time(NULL));
    for (int y = 0; y < height; y++)
    {
        for (int x = 0; x < width; x++)
        {
            input[y * width + x] = rand() % 200;
            output[y * width + x] = 0;
        }
    }
    cudaMemcpy(d_mask, mask, maskSize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_input, input, inputSize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_output, output, inputSize, cudaMemcpyHostToDevice);

    dim3 DimGrid(64, 64, 1);
    dim3 DimBlock(16, 16, 1);
    convolution_2D_basic_kernel<<<DimGrid, DimBlock>>>(d_input, d_mask, d_output, maskwidth, width, height);
    cudaDeviceSynchronize();
    cudaMemcpy(output, d_output, inputSize, cudaMemcpyDeviceToHost);
    for (int i = 0; i < 10; i++)
    {
        for (int j = 0; j < 10; j++)
        {
            printf("outpu[%d][%d]:%d\n", i, j, output[i * width + j]);
        }
    }
    cudaDeviceReset();
    return 0;
}

完整代码实例：共享内存的卷积模板计算

#include 
#include 
#include 

#define O_TILE_WIDTH 12
#define BLOCK_WIDTH 16
__global__ void convolution_2D_basic_kernel(unsigned int *in, unsigned int *mask, unsigned int *out, int maskwidth, int width, int height)
{
    __shared__ int Ns[BLOCK_WIDTH][BLOCK_WIDTH];
    int tx = threadIdx.x;
    int ty = threadIdx.y;
    int row_o = blockIdx.y * O_TILE_WIDTH + ty;
    int col_o = blockIdx.x * O_TILE_WIDTH + tx;
    int row_i = row_o - 2;
    int col_i = col_o - 2;
    if ((row_i >= 0) && (row_i < height) && (col_i >= 0) && (col_i < width))
    {
        Ns[ty][tx] = in[row_i * width + col_i];
    }
    else
    {
        Ns[ty][tx] = 0;
    }
    __syncthreads();
    int value = 0;
    if (ty < O_TILE_WIDTH && tx < O_TILE_WIDTH)
    {
        for (int i = 0; i < maskwidth; i++)
        {
            for (int j = 0; j < maskwidth; j++)
            {
                value += mask[i * width + j] * Ns[i + ty][j + tx];
            }
        }
    }
    if (row_o < height && col_o < width)
        out[row_o * width + col_o] = value;
}
int main()
{
    unsigned int *mask, *d_mask, *d_output;
    unsigned int *input, *d_input, *output;
    int width = 1024, height = 1024;
    int maskwidth = 5;
    size_t inputSize = sizeof(unsigned int) * width * height;
    size_t maskSize = sizeof(unsigned int) * maskwidth * maskwidth;
    mask = new unsigned int[maskSize];
    input = new unsigned int[inputSize];
    output = new unsigned int[inputSize];

    cudaMalloc((void **)&d_mask, maskSize);
    cudaMalloc((void **)&d_input, inputSize);
    cudaMalloc((void **)&d_output, inputSize);

    for (int y = 0; y < maskwidth; y++)
    {
        for (int x = 0; x < maskwidth; x++)
        {
            mask[y * width + x] = 2;
        }
    }
    srand(time(NULL));
    for (int y = 0; y < height; y++)
    {
        for (int x = 0; x < width; x++)
        {
            input[y * width + x] = rand() % 200;
            output[y * width + x] = 0;
        }
    }
    cudaMemcpy(d_mask, mask, maskSize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_input, input, inputSize, cudaMemcpyHostToDevice);
    cudaMemcpy(d_output, output, inputSize, cudaMemcpyHostToDevice);

    dim3 DimGrid(86, 86, 1);
    dim3 DimBlock(16, 16, 1);
    convolution_2D_basic_kernel<<<DimGrid, DimBlock>>>(d_input, d_mask, d_output, maskwidth, width, height);
    cudaDeviceSynchronize();
    cudaMemcpy(output, d_output, inputSize, cudaMemcpyDeviceToHost);
    for (int i = 0; i < 10; i++)
    {
        for (int j = 0; j < 10; j++)
        {
            printf("outpu[%d][%d]:%d\n", i, j, output[i * width + j]);
        }
    }
    cudaDeviceReset();
    return 0;
}

完整代码实例：better版规约

#include 
#include 

#define BLOCK_SIZE 512

__global__ void rowSum(int *input, int *output, int width)
{
    __shared__ int partialSum[2 * BLOCK_SIZE];
    unsigned int tx = threadIdx.x;
    unsigned int start = blockIdx.x * 2 * blockDim.x;
    partialSum[tx] = input[start + tx];
    partialSum[blockDim.x + tx] = input[start + blockDim.x + tx];

    // reduce better
    for (unsigned int stride = blockDim.x; stride > 0; stride /= 2)
    {
        __syncthreads();
        if (tx < stride)
            partialSum[tx] += partialSum[tx + stride];
    }
    // 将最后的结果存放到
    if (tx == 0)
    {
        output[blockIdx.x] = partialSum[0];
    }
}

int main()
{
    float elapsedTime;
    cudaEvent_t start, stop;
    // 初始化 CUDA 事件
    cudaEventCreate(&start);
    cudaEventCreate(&stop);

    const int matrixSize = 1024 * 1024;
    const int blockSize = BLOCK_SIZE;
    const int numBlocks = (matrixSize + blockSize - 1) / blockSize / 2;
    const int outputSize = numBlocks;

    int *inputMatrix, *output;
    int *d_inputMatrix, *d_output;

    // 为input和output分配内存
    inputMatrix = new int[matrixSize];
    output = new int[outputSize];

    // 为d_input和d_output分配内存
    cudaMalloc((void **)&d_inputMatrix, matrixSize * sizeof(int));
    cudaMalloc((void **)&d_output, outputSize * sizeof(int));

    // 初始化input
    for (int i = 0; i < matrixSize; i++)
    {
        inputMatrix[i] = 1;
    }
    // 记录开始事件
    cudaEventRecord(start, 0);
    // 复制input到d_input
    cudaMemcpy(d_inputMatrix, inputMatrix, matrixSize * sizeof(int), cudaMemcpyHostToDevice);

    // 启动核函数
    rowSum<<<numBlocks, blockSize>>>(d_inputMatrix, d_output, matrixSize);

    // 将output结果返回
    cudaMemcpy(output, d_output, outputSize * sizeof(int), cudaMemcpyDeviceToHost);

    // 记录结束事件
    cudaEventRecord(stop, 0);
    // 同步事件，确保所有任务完成
    cudaEventSynchronize(stop);
    // 计算经过的时间
    cudaEventElapsedTime(&elapsedTime, start, stop);

    for (int i = 0; i < 10; i++)
    {
        printf("output[%d]: %d\n", i, output[i]);
    }
    // 输出时间
    printf("Elapsed time: %3.4f ms\n", elapsedTime);
    // 最后释放内存。
    delete[] inputMatrix;
    delete[] output;
    cudaFree(d_inputMatrix);
    cudaFree(d_output);

    return 0;
}

完整代码实例：work_efficient二维前缀和scan

#include 
#include 

#define BLOCK_SIZE 512
#define SECTION_SIZE 1024

__global__ void work_efficient_scan_kernel(int *inputMatrix, int *output, int width)
{
    __shared__ int XY[SECTION_SIZE];
    unsigned int tx = threadIdx.x;
    unsigned int start = blockIdx.x * 2 * blockDim.x;
    XY[tx] = inputMatrix[start + tx];
    XY[blockDim.x + tx] = inputMatrix[start + blockDim.x + tx];

    for (unsigned int stride = 1; stride <= blockDim.x; stride *= 2)
    {
        __syncthreads();
        int index = (threadIdx.x + 1) * 2 * stride - 1;
        if (index < SECTION_SIZE)
        {
            XY[index] += XY[index - stride];
        }
    }
    for (int stride = blockDim.x / 2; stride > 0; stride /= 2)
    {
        __syncthreads();
        int index = (threadIdx.x + 1) * stride * 2 - 1;
        if (index + stride < SECTION_SIZE)
        {
            XY[index + stride] += XY[index];
        }
    }
    if (start + blockDim.x + tx < width * width)
    {
        output[start + tx] = XY[tx];
        output[start + blockDim.x + tx] = XY[blockDim.x+tx];
    }
}

int main()
{
    float elapsedTime;
    cudaEvent_t start, stop;
    // 初始化 CUDA 事件
    cudaEventCreate(&start);
    cudaEventCreate(&stop);

    const int matrixSize = 1024 * 1024;
    const int width = 1024;

    int *inputMatrix, *output;
    int *d_inputMatrix;
    int *d_output;

    inputMatrix = new int[matrixSize];
    output = new int[matrixSize];

    // 初始化input
    for (int i = 0; i < matrixSize; i++)
    {
        inputMatrix[i] = 1;
        output[i] = 0;
    }

    // 分配 GPU 内存
    cudaMalloc((void **)&d_inputMatrix, matrixSize * sizeof(int));
    cudaMalloc((void **)&d_output, matrixSize * sizeof(int));

    // 将输入数据从主机内存拷贝到 GPU 内存
    cudaMemcpy(d_inputMatrix, inputMatrix, matrixSize * sizeof(int), cudaMemcpyHostToDevice);

    // 记录开始事件
    cudaEventRecord(start, 0);

    dim3 gridSize(1024, 1);
    dim3 blockSize(BLOCK_SIZE, 1);
    work_efficient_scan_kernel<<<gridSize, blockSize>>>(d_inputMatrix, d_output, width);

    // 将输出数据从 GPU 内存拷贝到主机内存
    cudaMemcpy(output, d_output, matrixSize * sizeof(int), cudaMemcpyDeviceToHost);

    // y方向相加
    for (int x = 0; x < width; x++)
    {
        for (int y = 1; y < width; y++)
        {
            output[y * width + x] += output[(y - 1) * width + x];
        }
    }

    // 记录结束事件
    cudaEventRecord(stop, 0);
    // 同步事件，确保所有任务完成
    cudaEventSynchronize(stop);
    // 计算经过的时间
    cudaEventElapsedTime(&elapsedTime, start, stop);

    // 打印结果
    for (int i = 0; i < 5; i++)
    {
        for (int j = 0; j < 5; j++)
        {
            printf("output[%d][%d]: %d\n", i, j, output[i * width + j]);
        }
    }
    printf("output[%d][%d]: %d\n", 1023, 1023, output[1023 * width + 1023]);

    // 输出时间
    printf("Elapsed time: %3.4f ms\n", elapsedTime);

    // 释放 GPU 内存
    cudaFree(d_inputMatrix);
    cudaFree(d_output);

    // 最后释放主机内存
    delete[] inputMatrix;
    delete[] output;

    return 0;
}

各种报错

the provided ptx was compiled with an unsupported toolchain

这是说你的工具链有问题，就是Cuda和Cuda toolkit和你的Gpu driver有一个对不上，当然说的就是你的gpu驱动没有跟上其它两个工具，所以更新即可。

你可能感兴趣的:(c语言)

打印出1-100的奇数。（C语言）王多鱼001 C语言 c语言算法数据结构
代码：#includeintmain(){for(inti=1;i<101;i++){if(i%2==1){printf("%d,",i);}}return0;}
llama.cpp 编译安装@Ubuntu skywalk8163 项目实践人工智能 llama ubuntu linux 人工智能
在Kylin和Ubuntu编译llama.cpp，具体参考：llama模型c语言推理@FreeBSD-CSDN博客现在代码并编译：gitclonehttps://github.com/ggerganov/llama.cppcdllama.cppmkdirbuildcdbuildcmake..cmake--build.--configRelease#可选安装makeinstall#或可选添加路径ex
C语言pthread互斥锁(mutex)和可重入锁(递归锁recursive)的演示嫦娥妹妹等等我开发语言 c语言
实验理论参考:1一旦共享资源被互斥锁锁定,则其余线程想访问共享资源必须等待，直到锁被释放2使用normal属性的互斥锁,一旦发生重入逻辑,则阻塞,成为死锁需要将属性改为recursive成为可重入的,递归的代码功能:1命令行传参1model=1演示异步未上锁之乱序演示count在数据竞态（RaceCondition）下的错误值2命令行传参2model=2演示使用互斥锁后线程的执行顺序演示count
C语言演示多线程编程条件下自旋锁和屏障的使用嫦娥妹妹等等我开发语言 c语言开源
主线故事:有4个人玩游戏输了,惩罚:1分别使用4台不同的ATM机给我存钱2必须一块一块的存3存完还得在ATM上看一下我的余额设计模式:1每个人使用一条单独的线程,再准备一个计时线程用来输出时间2存钱涉及到对共享资源的读写,是原子操作需要用锁保护这里使用自旋锁3都存完钱后需要等待在各自的ATM上回显余额这里使用屏障技术4如果在主线程中回显对应他们给我打电话告诉我存完了我自己看一下则不需要使用屏障因为
生日蜡烛（C语言） blue and ACM c语言 java 算法
某君从某年开始每年都举办一次生日party，每次吹与年龄相同的蜡烛。现在他共吹了236根蜡烛。请问，他从多少岁开始过生日party的？答案：26#includeintmain(){intage=0;inttotal=0;for(inti=10;i<100;i++){for(intj=i;j<100;j++){total+=j;if(total==236){age=i;break;}}total=0
【1.1 编程基础之输入输出】09. 字符菱形青少年编程小助手_Python Openjudge题目解析算法青少年编程电子学会等级考试 gesp
09:字符菱形总时间限制:1000ms内存限制:65536kB描述给定一个字符，用它构造一个对角线长5个字符，倾斜放置的菱形。输入输入只有一行，包含一个字符。输出该字符构成的菱形。样例输入*样例输出*************参考程序（1）C语言#includeintmain(){charc;scanf("%c",&c);printf("%c\n",c);printf("%c%c%c\n",c,c,
C语言-数据在内存存储白榆maple c语言开发语言
目录一、整数在内存中存储1.整数在内存中的存储2.大小端字节序2.为什么有大小端3.大小端判断二、浮点数在内存中的存储1.V=(−1)^s∗M*2^EIEEE754规定：2.浮点数存的过程3.浮点数取的过程E不全为0或不全为1E全为0E全为1题⽬解析一、整数在内存中存储1.整数在内存中的存储在内存中存储的数据是二进制，整数的2进制表示方法有三种，即原码、反码和补码有符号的整数，三种表示方法均有符号
C/C++中的Static关键字 SuhyOvO C语言 C++c语言 c++
Static关键字在C和C++编程中是不可或缺的一部分，它用于定义具有持久存储期的变量和函数，以及类的静态成员。虽然它的使用相对直接，但不恰当的使用可能会导致难以调试的错误和混淆。本文将探讨static关键字的概念、作用以及在C和C++中的具体应用。文章目录第一部分：深入理解Static关键字定义和基本概念在C和C++中static的基本作用第二部分：Static在C语言中的使用静态全局变量静态局
5. C++ 局部静态变量在什么时候分配内存和初始化？九五一 C++知识 c++java jvm 开发语言数据结构
C++局部静态变量在什么时候分配内存和初始化？对于C语言的全局和静态变量，不管是否被初始化，其内存空间都是全局的；如果初始化，那么初始化发生在任何代码执行之前，属于编译期初始化。由于内置变量无须资源释放操作，仅需要回收内存空间，因此程序结束后全局内存空间被一起回收，不存在变量依赖问题，没有任何代码会再被执行！C++引入了对象，这给全局变量的管理带领新的麻烦。C++的对象必须有构造函数生成，并最终执
【王道训练营】第二题你的任务是计算a+b。云梦之泽moon c语言算法开发语言
文章目录答案代码分析举例说明C语言基础知识：输入输出和算术操作符输入和输出示例1：使用`printf`和`scanf`函数示例2：使用`printf`函数打印多种类型的值示例3：使用算术操作符总结答案#includeintmain(){inta;intb;scanf("%d%d",&a,&b);printf("%d",a+b);return0;}代码分析这段代码是一个简单的C程序，它从用户输入两个
数据结构——单向链表（C语言版） GG Bond.ฺ 数据结构链表 c语言
在数据结构和算法中，链表是一种常见的数据结构，它由一系列节点组成，每个节点包含数据和指向下一个节点的指针。在C语言中，我们可以使用指针来实现单向链表。下面将详细介绍如何用C语言实现单向链表。目录1.定义节点结构体2.初始化链表3.插入节点4.删除节点5.遍历链表6.主函数1.定义节点结构体首先，我们需要定义表示链表节点的结构体。每个节点包含一个数据域和一个指向下一个节点的指针域。typedefst
C语言之猴子吃桃普通的一个普通猿 C语言算法 c语言算法开发语言
目录一简介二代码实现循环实现递归实现三时空复杂度A.循环实现B.递归实现一简介猴子吃桃问题是一个经典的递推算法题目，它描述如下：一只猴子第一天摘下若干个桃子，当天吃掉了所摘桃子数的一半多一个。之后每天早上，猴子都会吃掉前一天剩下桃子数的一半多一个。直到第十天早上，猴子只剩下了一个桃子。二代码实现使用C语言来解决这个问题，可以通过循环或者递归的方式来计算猴子第一天到底摘了多少个桃子。以下是两种方法的
haproxy无缝热加载的辅助进程multibinder的C语言实现版本码农心语 LINUX 高性能 c++开发 haproxy 无缝热加载 seamless reload hitless reload multibinder
本模块用epoll模型来实现了一个multibinder，供haproxy无缝热重启来使用，需要另外再做一个haproxy_wrapper来实现haproxy配置文件的生成和进程的加载功能。本模块也可以作为入门epoll开发和signalfd开发的学习材料。haproxy的无缝热重启的实现原理功能：创建一个listensocket关闭一个listensocket获取一个listensock
解释C语言中的预处理指令（如#include，#define） Layla_c C语言 c语言 c++算法
解释C语言中的预处理指令（如#include，#define）C语言中的预处理指令是编译器在编译源代码之前首先处理的指令。这些指令通常用于包含头文件、定义宏和进行条件编译。下面是一些常见的预处理指令及其解释：#include#include指令用于包含其他文件的内容。这通常用于包含标准库头文件或用户自定义的头文件。有两种包含文件的方式：复制代码*`#include`：这种方式用于包含系统头文件，编
数据结构——双向链表（C语言版） GG Bond.ฺ 数据结构链表 c语言
上一章：数据结构——单向链表（C语言版）-CSDN博客目录什么是双向链表？双向链表的节点结构双向链表的基本操作完整的双向链表示例总结什么是双向链表？双向链表是一种常见的数据结构，它由一系列节点组成，每个节点包含两个指针：一个指向前一个节点，一个指向后一个节点。双向链表可以在任意位置高效地插入和删除节点，相比单向链表，双向链表可以双向遍历，但相应地需要更多的内存空间存储额外的指针。双向链表的节点结构
c++学习笔记（8）有趣的树人 c++学习笔记
1.C++中的strlen函数用于计算字符串的长度，直到遇到空字符（'0'）为止，但不包括这个空字符本身。strlen是C语言标准库中的一个函数，它的作用是确定一个以空字符结尾的字符数组（即C风格字符串）的长度。这个函数在头文件中定义，通常在需要知道字符串长度时使用，例如在复制或比较字符串时。关键点：函数原型：size_tstrlen(constchar*str)，其中size_t是一个无符号整数
C语言例3-22：赋值运算的例子 Glace.♥ C语言 c语言 c++开发语言
赋值运算的优先级：算术运算符优先于关系运算符优先于双目逻辑运算符优先于赋值运算符赋值运算符的结合性是从右至左代码如下：#includeintmain(void){inti=97,j,k,l,m,n;floatf1=1.0f,f2;charc1='b',c2;//'b'(98)printf("c2=i+1的值为：%d\n",c2=i+1);//98printf("\n");printf("j=!c1
蓝桥杯算法基础（11）：十大排序算法（冒泡排序）c语言般版湖前一人对影成双算法排序算法 c语言
十大排序算法合集（c语言般）冒泡排序选择排序插入排序希尔排序快速排序归并排序堆排序计数排序桶排序基数排序分类:交换类1.冒泡排序2.快速排序分配类1.计数排序2.基数排序选择类1.选择排序归并类1.归并排序插入类1.插入排序2.希尔排序冒泡排序#include//它是一个基于交换的排序,每一轮搜索最大值放到序列的尾部#defineMAXSIZE10voidintArr(intarr[],intle
魔方矩阵c语言,C语言检验并打印魔方矩阵,检验并打印魔方矩阵，用C语言，求大神尽快解决... weixin_40006185 魔方矩阵c语言
#includeintmain(){inta[5][5],i,j,sum,N;printf("请输入一个5*5的矩阵：\n");for(i=0;i<5;i++){for(j=0;j<5;j++){scanf("%d",&a[i][j]);}}N=5*(5*5+1)/2;for(i=0;i<5;i++){sum=0;//每求一行sum重新置为0for(j=0;j<5;j++){sum=sum+a[i
C语言—学生成绩管理系统脉牛杂德 c语言算法开发语言数据结构青少年编程
实验1：学生成绩管理系统V3.0某班有最多不超过30人（具体人数由键盘输入）参加某门课程的考试，参考第11周在线测验中“学生成绩管理系统V2.0”，用二维字符数组作函数参数编程实现如下菜单驱动的学生成绩管理系统：（1）录入每个学生的学号、姓名和考试成绩；（2）计算课程的总分和平均分；（3）按成绩由高到低排出名次表；（4）按成绩由低到高排出名次表；（5）按学号由小到大排出成绩表；（6）按姓名的字典顺
【C语言】遍历目录树 00000928 编程 #C语言 #linux c语言算法开发语言
在Linux环境下，如果编写程序且需要通过函数接口来遍历目录树，可以考虑使用以下几个常用的调用：1.opendir()/readdir()/closedir()：这是POSIX标准定义的函数，用于遍历目录。`opendir()`用于打开一个目录，`readdir()`用于读取目录内的项，`closedir()`用于关闭目录。遍历目录时，通常会对获取的每一个条目进行判断，以确定它是文件还是目录。对于
C语言之打鱼晒网问题普通的一个普通猿 C语言算法 c语言开发语言数据结构算法
目录一简介二代码实现步骤一：判断输入日期步骤二：计算总天数步骤三：判断行为模式三时空复杂度一简介打鱼晒网问题是一个经典的编程题目，源自中国的俗语“三天打鱼两天晒网”，意思是周期性地工作和休息。在C语言中实现这一问题的程序设计目标是：当给定一个日期后，计算出从某一固定起始日（如1990年1月1日或2011年1月1日）开始到该日期为止，渔夫按照每连续五天循环一次的行为模式（前三天打鱼，后两天晒网），确
深入挖掘C语言之——枚举 GG Bond.ฺ c语言开发语言 visual studio
目录1.枚举的定义2.枚举常量的赋值3.枚举的使用示例4.注意事项在C语言中，枚举（Enum）是一种用户定义的数据类型，用于定义一组具名的整型常量。枚举常常用于提高代码的可读性和可维护性，使程序更易于理解。本篇博客将详细介绍C语言中枚举的相关知识，并提供代码示例帮助理解。1.枚举的定义枚举通过enum关键字来定义，其基本语法为：enum枚举名{标识符1,标识符2,...};例如：enumWeekd
Ubuntu系统下C语言开发环境搭建与使用教程洛可可白后端专栏 ubuntu c语言 linux
前言欢迎来到我的技术小宇宙！这里不仅是我记录技术点滴的后花园，也是我分享学习心得和项目经验的乐园。无论你是技术小白还是资深大牛，这里总有一些内容能触动你的好奇心。洛可可白：个人主页个人专栏：✅前端技术✅后端技术个人博客：洛可可白博客代码获取：bestwishes0203封面壁纸：洛可可白wallpaper文章目录Ubuntu系统下C语言开发环境搭建与使用教程教程内容0.序言1.准备工作2.安装SS
蓝桥杯算法基础（12）：十大排序算法（选择排序）（插入排序）c语言般版湖前一人对影成双排序算法算法蓝桥杯
选择排序选择排序的基本思想是冒泡排序，找到最小值，与未排序部分的第一个元素进行交换前面为已排序部分，后面为未排序部分选择排序需要用到三个指针第一个指针:从第一个元素开始，每次与最小值交换位置第二个指针:从第一个指针所在位置开始，记录未排序部分最小值的位置第三个指针:从第一个指针所在位置开始，往后找比k所在位置元素小的元素，找到后，k指向此位置intselectSort(intarr[],intle
C语言经典面试题目（十五） Masami22 C语言面试题目 c语言面试开发语言职场和发展
1、如何在C语言中实现堆数据结构？在C语言中，可以通过动态内存分配来实现堆数据结构。一种常见的方式是使用数组来表示堆，并使用堆的性质来维护数组的结构。以下是一个简单的堆数据结构的示例：#include#include#defineMAX_HEAP_SIZE100typedefstruct{int*elements;intsize;intcapacity;}Heap;Heap*createHeap(
C语言简单题（7）从主函数中输入10个等长字符串，用一个函数对他们排序，然后在主函数输出这10个已排好序的字符串没那么特别的特别 c语言算法数据结构
从主函数中输入10个等长字符串，用一个函数对他们排序，然后在主函数输出这10个已排好序的字符串/*从主函数中输入10个等长字符串，用一个函数对他们排序，然后在主函数输出这10个已排好序的字符串*/#include#includevoidsort(char(*s)[100]){inti,j;chartemp[100],*t=temp;for(i=0;i0){strcpy(t,s[j]);strcpy
Redis常见问题爱码的嘉 Redis redis 数据库缓存
1、什么是redis？Redis是C语言开发的一个开源的高性能键值对（key-value）的内存数据库，可以用作数据库、缓存、消息中间件等。它是一种NoSQL的数据库。性能优秀，数据在内存中，读写速度非常快，支持并发10WQPS。单进程单线程，是线程安全的，采用IO多路复用机制。丰富的数据类型，支持字符串、散列、列表、集合、有序集合等。支持数据持久化。可以将内存中数据保存在磁盘中，重启时加载。主从
关机程序 --- C语言实现子期cod c语言开发语言
关机程序代码及讲解这边给大家两种写法代码如下：//循环写法#include#include//strcmp#include//systemintmain(){charinput[20]={0};system("shutdown-s-t60");//system函数-执行系统命令滴关机倒计时60秒while(1){printf("请输入我真帅，否则你的电脑将在一分钟之内关机\n请输入：");scan
悟空问答：学C语言好，还是学C++好呢？看专业大佬分析一起学编程程序员 c语言 c++编程语言学习编程编程
虽然两种编程语言分属于不同的编程思想，用的时间长了觉得差异也不是很大，现在就个人的从业经历，讲述下两种编程语言的差异和共同之处。现在已经很多人觉得c语言过时了，因为从招聘的需求看要求JAVA、Python的明显居多，其他的编程语言现在基本上雷声大雨点小还成不了气候，现在很多主流的客户端框架还是C语言和C++的天下，毕竟性能是谁也绕不过去的事情，从就业的绝对数量上两种的数量并不低，但是入门的门槛提升
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>