AlmostFree

Cuda学习笔记

CUDA C简介
- 基本操作
- 读取GPU的信息
CUDA C并行编程
- 向量和
- Julia集
线程协作
- 点积的计算
  - 申请共享内存
  - 每个线程单独工作
  - 多个线程协同工作
  - 保存归约结果
  - 总的代码
常量内存与事件
- 常量内存
- 事件
原子性
- 简介
- 直方图的计算
  - 在CPU上计算直方图
  - 在GPU上计算直方图
    - 全局内存原子操作
    - 共享内存原子操作
- 总结
散列表的实现
- 散列表
- CPU实现
- GPU多线程下的散列表

CUDA C简介

基本操作

以下是调用GPU的基本操作代码。代码作用是将两个数相加。
其中要注意的是:
1. cudaMemcpy() 函数前两个参数传递的是地址。
2. cudaMalloc() 函数原型为：

cudaError_t cudaMalloc (void **devPtr, size_t  size );

所以调用时首先将第一个参数强制转换为 (void **) 类型，再取地址 & 得到之前定义的那个一维指针地址。

代码如下：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include 

__global__ void add(int a, int b, int* c){
    *c = a + b;
}

int main()
{
    int c[10];
    int* dev_c;

    cudaMalloc( (void**)&dev_c, sizeof(int) ) ;

    add<<<1, 1>>>(2, 7, dev_c);
    // 第一个参数和第二个参数都传的是地址.
    // int c;
    // cudaMemcpy( &c, dev_c, sizeof(int),cudaMemcpyDeviceToHost ) ;
    // 以下代码传址传的是数组c的首地址
    cudaMemcpy( c, dev_c, sizeof(int),cudaMemcpyDeviceToHost ) ;

    printf("%d\n", c[0]);
    cudaFree(dev_c);
    return 0;
}

读取GPU的信息

用如下方式读取GPU信息：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include 

int main()
{
    cudaDeviceProp prop;

    int count;
    cudaGetDeviceCount(&count);

    for (int i = 0; i < count; ++i)
    {
        cudaGetDeviceProperties(&prop, i);
        printf("  --- General Information for device %d --- \n", i);
        printf("Name:  %s\n", prop.name);
        printf("Compute capability: %d.%d\n", prop.major, prop.minor);
        printf("Clock rate: %d\n", prop.clockRate);
        printf("Device copy overlap:");
        if(prop.deviceOverlap)
            printf("Enable\n");
        else
            printf("Disable\n");

        printf("Kernel execition timeout:");
        if(prop.kernelExecTimeoutEnabled)
            puts("Enable");
        else
            puts("Disable");

        printf("  --- Memory Information for device %d ---\n", i);
        printf("Total global mem: %ld\n", prop.totalGlobalMem);
        printf("Total constant mem: %ld\n", prop.totalConstMem);
        printf("Max mem pitch: %ld\n", prop.memPitch);
        printf("Texture Alignment: %ld\n", prop.textureAlignment);
        printf("  --- MP Information for device %d --- \n", i);
        printf("Multiprocessor count %d\n", prop.multiProcessorCount);
        printf("Shared mem per mp : %ld\n", prop.sharedMemPerBlock);
        printf("Registers per mp: %d\n", prop.regsPerBlock);
        printf("Threads in warp: %d\n", prop.warpSize);
        printf("Max threads per block: %d\n", prop.maxThreadsPerBlock);
        printf("Max therad dimensions: (%d, %d, %d)\n",  prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);

        printf("Max grid dimensions: (%d, %d, %d)\n", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);
        puts("");

    }

    return 0;
}

CUDA C并行编程

向量和

使用CUDA C并行编程来计算向量与向量的和：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include 

const int N = 10;

__global__ void add(int* a, int* b, int* c)
{
    // blockIdx - 内置变量，保存当前执行设备代码的线程块的索引
    int tid = blockIdx.x;
    if (tid < N)
    {
        c[tid] = a[tid] + b[tid];
    }
}

int main()
{
    int a[N], b[N], c[N];
    int *dev_a, *dev_b, *dev_c;

    // GPU内存分配
    cudaMalloc((void**)&dev_a, N * sizeof(int));
    cudaMalloc((void**)&dev_b, N * sizeof(int));
    cudaMalloc((void**)&dev_c, N * sizeof(int));

    // 在CPU上给a, b 赋值
    for (int i = 0; i < N; ++i)
    {
        a[i] = -i;
        b[i] = i * i;
    }

    // 将数组a, b复制到GPU
    cudaMemcpy(dev_a, a, N * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, N * sizeof(int), cudaMemcpyHostToDevice);

    // <<>> 第一个参数a表示设备在执行核函数时使用的并行线程块的数量
    // 以下代码创建N个线程块在GPU上运行
    add<<1>>>(dev_a, dev_b, dev_c);

    // 将结果dev_c复制到CPU
    cudaMemcpy(c, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost);

    for (int i = 0; i < N; ++i)
    {
        printf("%d + %d = %d\n", a[i], b[i], c[i]);
    }

    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_c);

    return 0;
}

Julia集

首先要在VS和系统路径中加入glut，之后头文件导入就行了。
CPU版本：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
//#include "cuda_gl_interop.h"
#include 
#include 

#define DIM 1000

struct CPUBitmap
{
    unsigned char *pixels;    /*像素点的总个数*/
    int x, y;                 /*图像的长宽*/
    void *dataBlock;          /*  */

    void (*bitmapExit)(void*);  /*这是一个函数 */

    CPUBitmap( int width, int height, void *d = NULL )
    {
        pixels = new unsigned char[width * height * 4];   /*计算总的像素点数，并分配新的空间*/
        x = width;                                        /*图像的宽*/
        y = height;                                       /*图像的高*/
        dataBlock = d;                                    /* */
    }

    /*析构函数*/
    ~CPUBitmap()
    {
        /*删除像素点*/
        delete [] pixels;       
    }
    /*取得所有像素点*/       
    unsigned char* get_ptr( void ) const   { return pixels; }
    /*取得图片总大小*/
    long image_size( void ) const { return x * y * 4; }

    void display_and_exit( void(*e)(void*) = NULL )
    {
        CPUBitmap**   bitmap = get_bitmap_ptr();
        *bitmap = this;
        bitmapExit = e;

        // a bug in the Windows GLUT implementation prevents us from
        // passing zero arguments to glutInit()
        int c=1;
        char* dummy = "";

        /*glutInit,对 GLUT (OpenGl 里面的一个工具包，包含很多函数)进行初始化,这个函数必须在其它的 GLUT使用之前调用一次。其格式比较死板,一般照抄这句glutInit(&argc, argv)就可以了*/

        glutInit( &c, &dummy );        

        /*设置显示方式,其中 GLUT_RGBA 表示使用 RGBA 颜色,与之对应的还有GLUT_INDEX(表示使用索引颜色) ；GLUT_SINGLE 表示使用单缓冲,。与之对应的还有 GLUT_DOUBLE(使用双缓冲)。*/    
        glutInitDisplayMode( GLUT_SINGLE | GLUT_RGBA );

        /*这个也简单,设置窗口的大小*/

        glutInitWindowSize( x, y );

        /*根据前面设置的信息创建窗口。参数将被作为窗口的标题。注意:窗口被创建后,并不立即显示到屏幕上。需要调用 glutMainLoop 才能看到窗口。*/

        glutCreateWindow( "bitmap" );

        glutKeyboardFunc(Key);

        /* 设置一个函数,当需要进行画图时,这个函数就会被调用。*/
        glutDisplayFunc(Draw);

        /*显示窗口*/

        glutMainLoop();

    }

        // static method used for glut callbacks
    static CPUBitmap** get_bitmap_ptr( void )
    {
        static CPUBitmap   *gBitmap;
        return &gBitmap;
    }

        // static method used for glut callbacks
    static void Key(unsigned char key, int x, int y)
    {
        /* 如果按键按的是Esc按键，则退出程序。*/
        switch (key)
        {
            case 27:
            CPUBitmap*   bitmap = *(get_bitmap_ptr());
            if (bitmap->dataBlock != NULL && bitmap->bitmapExit != NULL)
                bitmap->bitmapExit( bitmap->dataBlock );
        }
     }

    // static method used for glut callbacks

    /* 画图 */
    static void Draw( void )
    {
        CPUBitmap*   bitmap = *(get_bitmap_ptr());

        /*设置背景颜色*/
        glClearColor( 0.0, 0.0, 0.0, 1.0 );

        /*清除。GL_COLOR_BUFFER_BIT 表示清除颜色*/
        glClear( GL_COLOR_BUFFER_BIT );

        glDrawPixels( bitmap->x, bitmap->y, GL_RGBA, GL_UNSIGNED_BYTE, bitmap->pixels );

        /*保证前面的 OpenGL 命令立即执行(而不是让它们在缓冲区中等待)。其作用跟 fflush(stdout)类似。*/
        glFlush();
    }
};

struct cuComplex
{
    float r;
    float i;
    cuComplex(float a, float b) : r(a), i(b) {}
    float magnitude2(void) {return r * r + i * i;}
    cuComplex operator * (const cuComplex& a){
        return cuComplex(r * a.r - i * a.i, i * a.r + r*a.i);
    }
    cuComplex operator+(const cuComplex& a)
    {
        return cuComplex(r + a.r, i + a.i);
    }
};

int julia(int x, int y)
{
    const float scale = 1.5;
    float jx = scale * (float)((DIM >> 1) - x) / (DIM >> 1);
    float jy = scale * (float)((DIM >> 1) - y) / (DIM >> 1);

    cuComplex c(-0.8, 0.156);
    cuComplex a(jx, jy);

    int i = 0;
    for (int i = 0; i < 200; ++i)
    {
        a = a * a + c;
        if (a.magnitude2() > 1000)
        {
            return 0;
        }
    }
    return 1;
}

void kernel(unsigned char *ptr)
{
    for (int y = 0; y < DIM; y++)
    {
        for (int x = 0; x < DIM; x++)
        {
            int offset = x + y * DIM;

            int juliaValue = julia(x, y);
            ptr[(offset << 2) + 0] = 255 * juliaValue;
            ptr[(offset << 2) + 1] = 0;
            ptr[(offset << 2) + 2] = 0;
            ptr[(offset << 2) + 3] = 255;
        }
    }
}

int main()
{
    CPUBitmap bitmap(DIM, DIM);
    unsigned char *ptr = bitmap.get_ptr();
    kernel(ptr);

    bitmap.display_and_exit();

    return 0;
}

改写为GPU版本：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
//#include "cuda_gl_interop.h"
#include 
#include 
#include 

typedef long clock_t;
#define CLOCKS_PER_SEC ((clock_t)1000)
#define DIM 1000

struct CPUBitmap
{
    unsigned char *pixels;    /*像素点的总个数*/
    int x, y;                 /*图像的长宽*/
    void *dataBlock;          /*  */

    void (*bitmapExit)(void*);  /*这是一个函数 */

    CPUBitmap( int width, int height, void *d = NULL )
    {
        pixels = new unsigned char[width * height * 4];   /*计算总的像素点数，并分配新的空间*/
        x = width;                                        /*图像的宽*/
        y = height;                                       /*图像的高*/
        dataBlock = d;                                    /* */
    }

    /*析构函数*/
    ~CPUBitmap()
    {
        /*删除像素点*/
        delete [] pixels;       
    }
    /*取得所有像素点*/       
    unsigned char* get_ptr( void ) const   { return pixels; }
    /*取得图片总大小*/
    long image_size( void ) const { return x * y * 4; }

    void display_and_exit( void(*e)(void*) = NULL )
    {
        CPUBitmap**   bitmap = get_bitmap_ptr();
        *bitmap = this;
        bitmapExit = e;

        // a bug in the Windows GLUT implementation prevents us from
        // passing zero arguments to glutInit()
        int c=1;
        char* dummy = "";

        /*glutInit,对 GLUT (OpenGl 里面的一个工具包，包含很多函数)进行初始化,这个函数必须在其它的 GLUT使用之前调用一次。其格式比较死板,一般照抄这句glutInit(&argc, argv)就可以了*/

        glutInit( &c, &dummy );        

        /*设置显示方式,其中 GLUT_RGBA 表示使用 RGBA 颜色,与之对应的还有GLUT_INDEX(表示使用索引颜色) ；GLUT_SINGLE 表示使用单缓冲,。与之对应的还有 GLUT_DOUBLE(使用双缓冲)。*/    
        glutInitDisplayMode( GLUT_SINGLE | GLUT_RGBA );

        /*这个也简单,设置窗口的大小*/

        glutInitWindowSize( x, y );

        /*根据前面设置的信息创建窗口。参数将被作为窗口的标题。注意:窗口被创建后,并不立即显示到屏幕上。需要调用 glutMainLoop 才能看到窗口。*/

        glutCreateWindow( "bitmap" );

        glutKeyboardFunc(Key);

        /* 设置一个函数,当需要进行画图时,这个函数就会被调用。*/
        glutDisplayFunc(Draw);

        /*显示窗口*/

        glutMainLoop();

    }

        // static method used for glut callbacks
    static CPUBitmap** get_bitmap_ptr( void )
    {
        static CPUBitmap   *gBitmap;
        return &gBitmap;
    }

        // static method used for glut callbacks
    static void Key(unsigned char key, int x, int y)
    {
        /* 如果按键按的是Esc按键，则退出程序。*/
        switch (key)
        {
            case 27:
            CPUBitmap*   bitmap = *(get_bitmap_ptr());
            if (bitmap->dataBlock != NULL && bitmap->bitmapExit != NULL)
                bitmap->bitmapExit( bitmap->dataBlock );
        }
     }

    // static method used for glut callbacks

    /* 画图 */
    static void Draw( void )
    {
        CPUBitmap*   bitmap = *(get_bitmap_ptr());

        /*设置背景颜色*/
        glClearColor( 0.0, 0.0, 0.0, 1.0 );

        /*清除。GL_COLOR_BUFFER_BIT 表示清除颜色*/
        glClear( GL_COLOR_BUFFER_BIT );

        glDrawPixels( bitmap->x, bitmap->y, GL_RGBA, GL_UNSIGNED_BYTE, bitmap->pixels );

        /*保证前面的 OpenGL 命令立即执行(而不是让它们在缓冲区中等待)。其作用跟 fflush(stdout)类似。*/
        glFlush();
    }
};

struct cuComplex
{
    float r;
    float i;
    __device__ cuComplex(float a, float b) : r(a), i(b) {}
    __device__ float magnitude2(void) {return r * r + i * i;}
    __device__ cuComplex operator * (const cuComplex& a)
    {
        return cuComplex(r * a.r - i * a.i, i * a.r + r*a.i);
    }
    __device__ cuComplex operator + (const cuComplex& a)
    { 
        return cuComplex(r + a.r, i + a.i);
    }
};

__device__ int julia(int x, int y)
{
    const float scale = 1.5;
    float jx = scale * (float)((DIM >> 1) - x) / (DIM >> 1);
    float jy = scale * (float)((DIM >> 1) - y) / (DIM >> 1);

    cuComplex c(-0.8, 0.156);
    cuComplex a(jx, jy);

    int i = 0;
    for (int i = 0; i < 200; ++i)
    {
        a = a * a + c;
        if (a.magnitude2() > 1000)
        {
            return 0;
        }
    }
    return 1;
}

__global__ void kernel(unsigned char *ptr)
{
    int x = blockIdx.x;
    int y = blockIdx.y;
    int offset = x + y * gridDim.x;

    int juliaValue = julia(x, y);
    ptr[(offset << 2) + 0] = 255 * juliaValue;
    ptr[(offset << 2) + 1] = 0;
    ptr[(offset << 2) + 2] = 0;
    ptr[(offset << 2) + 3] = 255;
}

int main()
{
    CPUBitmap bitmap(DIM, DIM);
    unsigned char *dev_bitmap;

    cudaMalloc( (void**)&dev_bitmap, bitmap.image_size() );

    dim3 grid(DIM, DIM);
    //clock_t start = clock();
    kernel<<1>>>(dev_bitmap);
    //clock_t finish = clock();

    //printf( "%f seconds\n", (double)(finish - start) / CLOCKS_PER_SEC );

    cudaMemcpy(bitmap.get_ptr(), dev_bitmap, bitmap.image_size(), cudaMemcpyDeviceToHost);

    bitmap.display_and_exit();

    cudaFree(dev_bitmap);
    return 0;
}

线程协作

点积的计算

申请共享内存

首先我们需要申请共享内存，在这个例子中声明的是数组cache:

__shared__ float cache[threadsPerBlock];

这里我们需要明白的是，一旦这样声明数组，就会创建与线程块的数量相同的数组cahce，即每个线程块都会对应一个这样的数组cache。我们都知道，共享内存是用于同一个线程块内的线程之间交流的，不同线程块之间是无法通过共享内存进行交流的。另外，数组cache的大小是每个线程块中线程的个数，即线程块的大小。

每个线程单独工作

现在来看每个线程完成的是什么工作！
如果向量长度不是特别长(假设大小等于总线程个数)的话，每个线程只需要工作一次，即计算两个元素的积并保存在中间变量 temp 里。但是实际计算过程中由于向量长度过长，一次计算可能会计算不完，每个线程需要多次计算才能完成所有工作，因此 temp 保存的值可能为多个元素乘积之和，如下图所示：

假设数组大小为16，线程总数为4。此时一次并行是无法完成工作的，所以需要多次并行，即每个线程需要做四次工作才可完成计算。
相应的代码如下：

int tid = threadIdx.x + blockIdx.x * blockDim.x;
double tmp = 0;
while (tid < N)
{
    tmp += a[tid] * b[tid];
    tid += blockDim.x * gridDim.x;
}

多个线程协同工作

线程之间通过共享内存进行协作。每个线程将temp的值保存到每个线程块的共享内存(shared memory)中，即数组cache中,相应的代码如下：

cache[cacheIndex] = temp;
__syncthreads();

这样每个线程块中对应的数组cache保存的就是每个线程的计算结果。为了节省带宽，这里又采用了并行计算中常用的归约算法，来计算数组中所有值之和，并保存在第一个元素(cache[0])内。这样每个线程就通过共享内存(shared memory)进行数据交流了。具体代码如下所示：

//归约算法将每个线程块上的cache数组归约为一个值cache[0]，最终保存在数组c里
int i = blockDim.x /2;
while (i != 0)
{
    if (cacheIndex < i)
        cache[cacheIndex] += cache[cacheIndex + i];
    __syncthreads();        //确保每个线程已经执行完前面的语句
    i /= 2;
}

保存归约结果

现在每个线程块的计算结果已经保存到每个共享数组cache的第一个元素cache[0]中，这样可以大大节省带宽。下面就需要将这些归约结果保存到全局内存(global memory)中。

观察核函数你会发现有一个传入参数——数组c。这个数组是位于全局内存中，每次使用线程块中线程ID为0的线程来将每个线程块的归约结果保存到该数组中，注意这里每个线程块中的结果保存到数组c中与之相对应的位置，即c[blockIdx.x]。

总的代码

#include 
#include 
#include "cuda_runtime.h"
#include "device_functions.h"
#include "device_launch_parameters.h"

#define Min(a,b) (a

const int N = 33 * 1024;
// 线程块里的线程256个，线程格一共有32个线程，这就意味着，每个线程将会计算4次，因为数组元素很大
const int threadsPerBlock = 256;
// 
const int blocksPerGrid = Min( 32, (N + threadsPerBlock - 1) / threadsPerBlock );

__global__ void dot(float *a, float *b, float *c)
{
    __shared__ float cache[threadsPerBlock];
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int cacheIndex = threadIdx.x;

    float tmp = 0;
    while (tid < N)
    {
        tmp += a[tid] * b[tid];
        tid += blockDim.x * gridDim.x;
    }

    // 设置cache中对应位置上的值
    cache[cacheIndex] = tmp;

    // 对线程块中的线程进行同步
    __syncthreads();

    // 归约，以下代码要求threadPerBlock是2的指数
    int i = blockDim.x /2;
    while (i != 0)
    {
        if (cacheIndex < i)
        {
            cache[cacheIndex] += cache[cacheIndex + i];
        }
        __syncthreads();
        i /= 2;
    }
    if (cacheIndex == 0)
    {
        c[blockIdx.x] = cache[0];
    }

}

int main()
{
    float *a, *b, c, *partial_c;
    float *dev_a, *dev_b, *dev_partial_c;

    // 在CPU上分配内存
    a = (float*)malloc(N * sizeof(float));
    b = (float*)malloc(N * sizeof(float));
    partial_c = (float*)malloc(blocksPerGrid * sizeof(float));

    // 在GPU上分配内存
    cudaMalloc((void**)&dev_a, N * sizeof(float));
    cudaMalloc((void**)&dev_b, N * sizeof(float));
    cudaMalloc((void**)&dev_partial_c, blocksPerGrid * sizeof(float));

    // 初始化
    for (int i = 0; i < N; ++i)
    {
        a[i] = i;
        b[i] = i << 1;
    }

    // 将数组a, b从CPU上复制到GPU
    cudaMemcpy(dev_a, a, N * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, N * sizeof(float), cudaMemcpyHostToDevice);

    // 计算点积
    dot<<>>(dev_a, dev_b, dev_partial_c);

    // 将partial_c从GPU上复制到CPU
    cudaMemcpy(partial_c, dev_partial_c, blocksPerGrid * sizeof(float), cudaMemcpyDeviceToHost);

    // 在CPU上完成最终计算
    c = 0;
    for (int i = 0; i < blocksPerGrid; ++i)
    {
        c += partial_c[i];
    }
    #define sum_squares(x) (x*(x+1)*(x*2+1)/6)
    printf( "Does GPU value %.6g == %.6g?\n", c, 2 * sum_squares( (N - 1.0) ) );
    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_partial_c);

    free(a);
    free(b);
    free(partial_c);

    return 0;
}

常量内存与事件

常量内存

常量内存用

__constant__

来声明，将把变量的访问限制为只读。与全局内存中读取数据相比，从常量内存中读取相同的数据可以节约内存带宽。
但使用常量内存是否可以使性能变好，可以由事件来计算运行时间判断。

事件

CUDA中事件的本质上是一个GPU时间戳，这个时间戳是在用户制定的时间点上记录的。由于GPU本身支持记录时间戳，因此避免了当使用CPU定时器来统计GPU执行的时间时可能遇到的诸多问题。
其使用过程如下：
首先创建一个起始事件，结束事件，然后记录一个事件，最后告诉CPU在某个事件上需要同步。

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start, 0);

// 在GPU上执行一些工作

cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);

float elapsedTime;
cudaEventElapsedTime(&elapsedTime, start, stop);

printf("Time: %.3lf ms\n", elapsedTime);
cudaEventDestroy(start);
cudaEventDestroy(stop);

其中cudaEventRecord函数的第二个参数，书中会在讨论流(stream)的时候再介绍。

原子性

简介

从C/C++的递增运算符入手：

x++;

这条语句的操作包括：

读取x中的值。

将步骤1中读到的值增加1。

将递增后的结果写回到x。

现在考虑：如果有两个线程需要对x的值进行递增。会有非常多的调度方式，如果调度方式不正确，将会得到错误的结果。因此我们需要通过某种方式一次性执行完读取-修改-写入三个操作，并且在执行过程中不能被其他线程中断，除非已经完成了这三个操作，否则其他的线程都不能读取或写入x的值。
由于这些操作的执行过程不能分解为更小的部分，因此我们将满足这种条件限制的操作称为原子操作。
CUDA C支持多种原子操作，当有数千个线程在内存访问上发生竞争时，这些操作能够确保在内存上实现安全的操作。

直方图的计算

在CPU上计算直方图

这是一个在CPU上计算直方图的程序，非常简单。

#include 
#include 
#include 
#include "cuda_runtime.h"
#include "device_functions.h"
#include "device_launch_parameters.h"

#define Min(a,b) (a
#define SIZE (100*1024*1024)

// 生成随机数据
void* big_random_block( int size )
{
    unsigned char *data = (unsigned char*)malloc( size );
    for (int i=0; ireturn data;
}

int main()
{
    unsigned char *buffer = (unsigned char*)big_random_block( SIZE );

    // capture the start time
    clock_t start, stop;
    start = clock();

    unsigned int histo[256];
    for (int i = 0; i < 256; i++)
        histo[i] = 0;

    for (int i = 0; i < SIZE; i++)
        histo[buffer[i]]++;

    stop = clock();
    float elapsedTime = (1.0 * stop - start) / CLOCKS_PER_SEC * 1000.0f;
    printf( "Time to generate:  %3.1f ms\n", elapsedTime );

    long histoCount = 0;
    for (int i = 0; i < 256; i++)
    {
        histoCount += histo[i];
    }
    printf( "Histogram Sum:  %ld\n", histoCount );

    free( buffer );
    return 0;
}

在GPU上计算直方图

如果输入数组足够大，通过多个线程处理缓冲区的不同部分，将会节约大量的计算时间。
不同的线程来读取不同部分的输入数据非常容易。但在计算输入数据的直方图时，多个线程可能同时对输出直方图的同一个元素进行递增。在这种情况下，需要通过原子递增操作来避免问题。
main函数与CPU版本的基本差不多。思路是先分配内存，然后调用GPU计算，然后检验结果是否正确，最后释放内存：

int main()
{
    unsigned char *buffer = (unsigned char*)big_random_block( SIZE );

    // 初始化计时事件
    cudaEvent_t start, stop;
    cudaEventCreate( &start );
    cudaEventCreate( &stop );
    cudaEventRecord( start, 0 );

    // 在GPU上为数据分配内存
    unsigned char *dev_buffer;
    unsigned int *dev_histo;
    cudaMalloc( (void**)&dev_buffer, SIZE );
    cudaMalloc( (void**)&dev_histo, 256 * sizeof(int) );

    cudaMemcpy( dev_buffer, buffer, SIZE, cudaMemcpyHostToDevice );
    cudaMemset( dev_histo, 0, 256 * sizeof(int) );

    // 计算直方图
    /// .......................
    /// .......................

    // 将GPU上运行后的数据复制到CPU
    unsigned int histo[256];
    cudaMemcpy( histo, dev_histo, 256 * sizeof(int), cudaMemcpyDeviceToHost );

    // 计时结束
    cudaEventRecord( stop, 0 );
    cudaEventSynchronize( stop );
    float elapsedTime;
    cudaEventElapsedTime( &elapsedTime, start, stop );
    printf( "Time to generate: %3.lf ms\n", elapsedTime );

    // 在CPU上检验计算结果是否正确
    for (int i = 0; i < SIZE; ++i)
    {
        histo[buffer[i]]--;
    }
    for (int i = 0; i < 256; ++i)
    {
        if (histo[i] != 0)
        {
            printf( "Failure at %d!\n", i);
        }
    }

    // 释放内存
    cudaEventDestroy( start );
    cudaEventDestroy( stop );
    cudaFree( dev_histo );
    cudaFree( dev_buffer );
    free( buffer );

    return 0;
}

出于性能的考虑，这个示例中的核函数调用比通常的核函数调用复杂一点。由于直方图包含256个元素，因此可以在每个线程块中包含256个线程，这种方式不仅方便而且高效。
但是在线程块的数量上还可以有更多选择。比如在100MB数据中共有104 857 600个字节。我们可以启动一个线程块，让每个线程处理409 600个数据元素。同样，还可以启动409 600个线程块，让每个线程处理一个数据元素。
通过一些实验，当线程块的数量为GPU处理器数量的2倍时，具有最优性能。
通过以下代码来实现这个操作。

cudaDeviceProp prop;
cudaGetDeviceProperties( &prop, 0 );
int blocks = prop.multiProcessorCount << 1;
histo_kernel<<256>>>( dev_buffer, SIZE, dev_histo );

因此完整的main函数如下：

int main()
{
    unsigned char *buffer = (unsigned char*)big_random_block( SIZE );

    // 初始化计时事件
    cudaEvent_t start, stop;
    cudaEventCreate( &start );
    cudaEventCreate( &stop );
    cudaEventRecord( start, 0 );

    // 在GPU上为数据分配内存
    unsigned char *dev_buffer;
    unsigned int *dev_histo;
    cudaMalloc( (void**)&dev_buffer, SIZE );
    cudaMalloc( (void**)&dev_histo, 256 * sizeof(int) );

    cudaMemcpy( dev_buffer, buffer, SIZE, cudaMemcpyHostToDevice );
    cudaMemset( dev_histo, 0, 256 * sizeof(int) );

    // GPU计算直方图
    cudaDeviceProp prop;
    cudaGetDeviceProperties( &prop, 0 );
    int blocks = prop.multiProcessorCount << 1;
    histo_kernel<<256>>>( dev_buffer, SIZE, dev_histo );


    // 将GPU上运行后的数据复制到CPU
    unsigned int histo[256];
    cudaMemcpy( histo, dev_histo, 256 * sizeof(int), cudaMemcpyDeviceToHost );

    // 计时结束
    cudaEventRecord( stop, 0 );
    cudaEventSynchronize( stop );
    float elapsedTime;
    cudaEventElapsedTime( &elapsedTime, start, stop );
    printf( "Time to generate: %3.lf ms\n", elapsedTime );

    // 在CPU上检验计算结果是否正确
    for (int i = 0; i < SIZE; ++i)
    {
        histo[buffer[i]]--;
    }
    for (int i = 0; i < 256; ++i)
    {
        if (histo[i] != 0)
        {
            printf( "Failure at %d!\n", i);
        }
    }

    // 释放内存
    cudaEventDestroy( start );
    cudaEventDestroy( stop );
    cudaFree( dev_histo );
    cudaFree( dev_buffer );
    free( buffer );

    return 0;
}

全局内存原子操作

在GPU上计算直方图的代码，首先先采用全局内存的原子操作。
代码如下：

__global__ void histo_kernel( unsigned char *buffer, long size, unsigned int *histo )
{
    int i = threadIdx.x + blockIdx.x * blockDim.x;
    int stride = blockDim.x * gridDim.x;

    // 每个线程知道它的起始偏移i以及递增数量
    // 遍历输入数组，递增直方图中的元素
    while ( i < size )
    {
            // 原子操作
        atomicAdd( &(histo[buffer[i]]), 1 );
        i += stride;
    }

}

然而，发现在运行这个代码比原来CPU版本运行的还慢大概4倍。
设置基性能标准很重要。
由于在核函数里面只包含了非常少的计算工作，所以可能是全局内存上的原子操作导致性能降低。当数千个线程尝试访问少量的内存位置时，将会发生大量的竞争。为了确保递增操作的原子性，对相同内存位置的操作都将被硬件串行化。这可能导致保存未完成操作的队列非常长，会抵消通过并行运行的线程获得的性能提升。
因此考虑共享内存的操作。

共享内存原子操作

虽然原子操作是导致上面性能降低的原因，但是解决这个问题的方法确实使用更多的原子操作。因为问题出在有数千个线程在少量的内存地址上发生竞争。解决这个问题分两步。
首先，对每个并行线程块计算它所处理数据的直方图。由于每个线程块在执行这个操作时是相互独立的，所以可以在共享内存中计算这些直方图。但这种方式依然需要原子操作，因为在线程块中的多个线程之间还是会处理相同值的数据元素。但现在只有256个线程在256个地址上发生竞争，将大大减少在使用全局内存时数千个线程之间发生竞争的情况。
然后，在上个阶段中分配一个共享内存缓冲区进行初始化，用来保存每个线程块的临时直方图。
代码如下：

__global__ void histo_kernel( unsigned char *buffer, long size, unsigned int *histo )
{
    __shared__ unsigned int tmp[256];

    tmp[threadIdx.x] = 0;
    __syncthreads();

    int i = threadIdx.x + blockIdx.x * blockDim.x;
    int stride = blockDim.x * gridDim.x;

    while ( i < size )
    {
        atomicAdd( &(tmp[buffer[i]]), 1 );
        i += stride;
    }

    __syncthreads();

    atomicAdd( &(histo[threadIdx.x]), tmp[threadIdx.x] );
}

因为使用256个线程，且直方图中刚好包含256个元素，因此每个线程将自动把它计算得到的元素只增加到最终直方图的元素上。如果线程数量不等于元素数量，那么这个阶段将更为复杂。

总结

在一些情况中，比如成千上万个线程同时修改一个地址的元素，在这些情况中，大规模并行机器反而会带来负担。而硬件中支持的原子操作可以帮助减轻这种痛苦。
然而，在上面例子中可以看到，有时候依赖原子操作会带来性能问题，并且这些问题只能通过对算法的某些部分重构来解决。在上面例子中用了一种两阶段的算法，降低了在全集内存访问上竞争的程度。
通常，这种降低内存竞争程度的策略总能带来不错的效果。因此如果遇到在程序中使用原子操作的时候，要记住这种策略。

散列表的实现

散列表

散列表实际上就是一个hash table，但我目前没搞懂hash table和inverted list的关系，感觉是同一个东西。
散列表是一种保存键-值二元组的数据结构。散列表根据与值相应的键，把值放入桶（bucket）中。这种将键值映射到值的方法叫做散列函数。好的散列函数可以把键均匀地分布到所有桶中。这种情况下，有可能发生哈希冲突，哈希冲突的解决方法是表头键后面跟上一个链表，来保存被散列函数映射到同一个键值的桶中。

CPU实现

散列表主要包含两个部分：一个散列函数，一个表示桶的数据结构。
桶的实现用分配一个长度为N的数组来表示，数组中每个元素都表示一个键-值的二元组链表。
以下为这个数据结构：

struct Entry
{
    // 键
    unsigned int key;
    // 值，任意数据类型
    void* value;
    // 冲突时指向下一结点的指针
    Entry* next;
}

struct Table
{
    // 哈希表的长度
    size_t cnt;
    // 哈希表，第一维指针连接表头，第二维指针指向entry
    Entry **entries;
    // 每添加一个Entry结点时需要重新分配新的内存，对程序性能产生影响
    // 用pool来维持一个可用Entry节点的数组，避免这种情况
    Entry *pool;
    // 指向下一个可用的Entry节点
    // 需要将一个结点添加到哈希表中时，只需使用firstFree指向的Entry
    Entry *firstFree;
}

初始化代码：

void initialize(Table &table, int entries, int elements)
{
    table.cnt = entries;
    // calloc分配空间并初始化为0，malloc分配空间不初始化
    table.entries = (Entry**)calloc( entries, sizeof(Entry*) );
    table.pool = (Entry*)malloc( elements * sizeof(Entry) );
    table.firstFree = table.pool;
}

在初始化过程中，主要操作有为哈希表entries分配内存，为结点的池分配内存，将指针firstFree初始化为指向结点池中的第一个结点。

程序结束之后，需要释放内存：

void free_table(Table &table)
{
    free( table.entries );
    free( table.pool );
}

直接使用键值作为索引，也就是说，将结点e保存在table.entries[e.key]中。因此散列表函数如下，下面这个函数并不能保证生成数据的均匀的，这里假设生成的键是随机并且均匀的。

size_t hash(unsigned int key, size_t cnt)
{
    return key % cnt;
}

接下来是插入操作：
1. 首先将键放入散列表函数中计算出新的结点所属于的桶。
2. 从结点池中取出一个预先分配的Entry结点，赋值。
3. 将这个结点插入到得到的桶的首部。
代码如下：

void add_to_table(Table &table, unsigned int key, void* value)
{
    // 计算要插入的新结点的表头
    size_t hashValue = hash(key, table.cnt);

    // 从结点池中取出一个预先分配Entry结点
    Entry* location = table.firstFree++;
    location -> key = key;
    location -> value = value;

    // 插入当前表的链表首部
    location -> next = table.entries[hashValue];
    table.entries[hashValue] = location;
}

用如下代码来检验上面代码能否工作。首先遍历这张哈希表，然后查看每个结点，将结点放入散列表函数计算，确认这个结点被保存到了正确的桶中，检查完每个结点之后，验证散列表中的结点数量确实等于添加到散列表的元素数量。如果这些数值不相等，不是无意中将一个结点添加到了多个桶，就是没有正确的插入结点。

void verigy_table(const Table &table)
{
    int cnt = 0;
    for (size_t i = 0; i < table.cnt; ++i)
    {
        Entry *current = table.entries[i];
        while (current != NULL)
        {
            cnt++;
            if (hash( current->key, table.cnt) != i)
            {
                printf("%d hashed to %ld, but was located at %ld\n", current->key, hash(current->key, table.cnt), i);
            }
            current = current -> next;
        }
    }
    if (cnt != ELEMENTS)
        printf("%d elements found in hash table. Should be %ld\n", cnt, ELEMENTS);
    else
        printf("All %d elements found in hash table.\n", cnt);
}

#define HASH_ENTRIES 1024

int main()
{
    unsigned int *buffer = (unsigned int*)big_random_block( SIZE );
    clock_t start, stop;
    start = clock();

    Table table;
    initialize( table, HASH_ENTRIES, ELEMENTS );

    for (int i = 0; i < ELEMENTS; i++)
    {
        add_to_table( table, buffer[i], (void*)NULL);
    }

    stop = clock();
    double elaspsedTime = (stop - start) / CLOCKS_PER_SEC * 1000.0;
    printf("Time to hash: %3.lf ms\n", elaspsedTime);

    verigy_table(table);
    free_table(table);
    free(buffer);

    return 0;
}

GPU多线程下的散列表

当两个线程，同时对同一个表头插入结点的时候，就会出现两个指针同时指向原表头的情况。因此，每次只有一个线程可以安全地对表头进行插入结点。如果每个表头都有一个相应的原子锁，那么我们可以确保每次只有一个线程对指定的桶进行修改。

首先，我们先需要一个原子锁结构，其定义如下：

struct Lock
{
    int *mutex;
    Lock( void )
    {
        cudaMalloc( (void**)&mutex, sizeof(int) );
        cudaMemset( mutex, 0, sizeof(int) );
    }

    ~Lock( void )
    {
        cudaFree( mutex );
    }

    __device__ void lock( void )
    {
        while( atomicCAS( mutex, 0, 1 ) != 0 );
    }

    __device__ void unlock( void )
    {
        atomicExch( mutex, 0 );
    }
};

其他数据结构的定义相同，只需要把散列表函数的声明改为 _ _ device _ _ , _ _ host _ _，当这两个关键字一起使用时，会告诉NVIDIA编译器，同时生成函数在设备上和主机上的版本。设备版本将在设备上运行，并且只能从设备代码中调用。同样，主机版本的函数将在主机上运行，并且只能从主机代码中调用。

struct Entry
{
    // 键
    unsigned int key;
    // 值，任意数据类型
    void* value;
    // 冲突时指向下一结点的指针
    Entry* next;
};

struct Table
{
    // 哈希表的长度
    size_t cnt;
    // 哈希表，第一维指针连接表头，第二维指针指向entry
    Entry **entries;
    // 每添加一个Entry结点时需要重新分配新的内存，对程序性能产生影响
    // 用pool来维持一个可用Entry节点的数组，避免这种情况
    Entry *pool;
    // 指向下一个可用的Entry节点
    // 需要将一个结点添加到哈希表中时，只需使用firstFree指向的Entry
    Entry *firstFree;
};

__device__ __host__ size_t hash(unsigned int key, size_t cnt)
{
    return key % cnt;
}

初始化和释放内存的函数大多与CPU版本中相同，但使用的是CUDA开辟内存的函数：

void initialize(Table &table, int cnt, int elements)
{
    table.cnt = cnt;
    cudaMalloc( (void**)&table.entries, cnt * sizeof(Entry*) );
    cudaMemset( table.entries, 0, cnt * sizeof(Entry*) );
    cudaMalloc( (void**)&table.pool, elements * sizeof(Entry) );
}

void free_table(Table &table)
{
    cudaFree( table.entries );
    cudaFree( table.pool );
}

检查散列表的函数，可以编写一个在GPU上运行的函数，也可以使用原来CPU上的检查函数。第二种方法比较好，可以函数复用，节约开发时间。
这里的verify_table()函数与CPU中的完全相同。由于选择了重用CPU版本的函数，因此需要把散列表从GPU内存复制到主机内存。这个函数将包括三个步骤。首先为散列表数据分配主机内存，通过cudaMemcpy()函数将GPU上的数据复制到这块内存里，这部分代码并不困难。

复杂的地方在于，有一部分的数据是指针。不能简单地将这些指针复制到主机上，因为这些指针指向的地址存在与GPU上，他们在主机上并不是有效的指针。但这些指针的相对偏移还是有效的，每个指向Entry结点的GPU指针都指向数据table.pool[]中的某个位置，但是为了在主机上使用散列表，需要他们指向数组hostTable.pool[]中相同的Entry。因此给定一个GPU指针X，需要给目前的CPU指针加上偏移：

hostTable.pool + (X - table.pool)

对每个被复制的Entry指针，都要执行这个更新操作：包括hostTable.entries中的Entry指针，以及散列表的结点池中每个Entry的next指针。

void copy_table_to_host(const Table &table, Table &hostTable)
{
    // 创建CPU的空间，并将GPU上的数据复制到CPU上
    hostTable.cnt = table.cnt;
    hostTable.entries = (Entry**)calloc( table.cnt, sizeof(Entry*) );
    hostTable.pool = (Entry*)malloc( ELEMENTS * sizeof(Entry) );

    cudaMemcpy( hostTable.entries, table.entries, table.cnt * sizeof(Entry*), cudaMemcpyDeviceToHost );
    cudaMemcpy( hostTable.pool, table.pool, ELEMENTS * sizeof(Entry), cudaMemcpyDeviceToHost );

    // 原来复制到CPU上的指针，所指向的地址仍旧是GPU上的地址，但其偏移是不变的
    // 因此，计算复制到CPU上的GPU指针的偏移，用来重新定位在GPU当前这个内存上的元素

    // 重新定位在GPU上元素的表头
    for (int i = 0; i < table.cnt; ++i)
    {
        if (hostTable.entries[i] != NULL)
        {
            // hostTable.entries[i]在GPU中指向table.pool[X]，减去GPU中的位置首元素table.pool，得到偏移
            // 用GPU地址的hostTable.pool + 偏移，就得到GPU上的指针指向的元素了
            hostTable.entries[i] =(Entry*)( (size_t)hostTable.pool + ((size_t)hostTable.entries[i] - (size_t)table.pool) );
        }
    }
    // 重新定位每个元素的next指针
    for (int i = 0; i < ELEMENTS; ++i)
    {
        if (hostTable.pool[i].next != NULL)
        {
            // 与上面类似
            hostTable.pool[i].next = (Entry*)( (size_t)hostTable.pool + ((size_t)hostTable.pool[i].next - (size_t)table.pool) );
        }
    }
}

接下来就是CUDA C原子锁语句的使用了。核函数add_to_table()的参数包括一个键的数组，一个值的数组，一个散列表和原子锁数组。原子锁数组用于锁定散列表中的每个桶。
由于输入的数据是两个数组，并且在线程中需要对这两个数组进行索引，因此还需要将索引线性化。

之后遍历输入数组。对于数据key[]中的每个键，线程将通过散列表函数计算出这个键-值二元组属于哪个桶。计算出目标桶之后，线程会锁定这个桶，添加它的键-值二元组，然后解锁这个桶：

__global__ void add_to_table(unsigned int *keys, void **values, Table table, Lock *lock)
{
    // 计算当前所在线程索引
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int stride = blockDim.x * gridDim.x;

    //遍历输入数组
    while (tid < ELEMENTS)
    {
        unsigned int key = keys[tid];
        size_t hashValue = hash( key, table.cnt );
        for (int i = 0; i < 32; i++)
        {
            if ( (tid % 32) == i )
            {
                Entry* location = &(table.pool[tid]);
                location->key = key;
                location->value = values[tid];

                // 原子锁，锁定哈希表头的内存，这块内存只能当前线程操作
                lock[hashValue].lock();

                location->next = table.entries[hashValue];
                table.entries[hashValue] = location;

                // 解锁原子锁
                lock[hashValue].unlock();
            }
        }
        tid += stride;
    }

}

然而这段代码中有一个非常特别的地方，for()循环和后面的if()语句似乎没必要。在之前有引入线程束的概念，线程束是一个包含32个线程的集合，并且这些线程以不掉已知的方式执行。这本书中并没有讨论如何在GPU上实现这种步调一致的执行方式，但每次在线程束中只有一个线程可以获得这个锁，如果让线程束中所有的32个线程都同时竞争这个锁，将会发生严重的问题。在这种情况下，最好的方式是在软件中执行一部分的工作，遍历线程束中的线程，并给每个线程依此机会来获取数据结构的锁，执行工作，然后解锁。

main函数与CPU版本大致相同。首先分配一大块随机数据作为散列表的键。然后用CUDA事件来计时。接下来为随机数组分配GPU内存，将数组幅值到GPU上，并初始化散列表。
之后的步骤就是为散列表的桶准备好原子锁，为散列表中每一个桶都分配一个锁。
总的代码如下：

#include 
#include 
#include 
#include "cuda_runtime.h"
#include "device_functions.h"
#include "device_launch_parameters.h"

#define Min(a,b) (a
#define SIZE (100*1024*1024)
#define ELEMENTS (SIZE / sizeof(unsigned int))

struct Lock
{
    int *mutex;
    Lock( void )
    {
        cudaMalloc( (void**)&mutex, sizeof(int) );
        cudaMemset( mutex, 0, sizeof(int) );
    }

    ~Lock( void )
    {
        cudaFree( mutex );
    }

    __device__ void lock( void )
    {
        while( atomicCAS( mutex, 0, 1 ) != 0 );
    }

    __device__ void unlock( void )
    {
        atomicExch( mutex, 0 );
    }
};

// 生成随机数据
void* big_random_block( int size )
{
    unsigned char *data = (unsigned char*)malloc( size );
    for (int i=0; ireturn data;
}

struct Entry
{
    // 键
    unsigned int key;
    // 值，任意数据类型
    void* value;
    // 冲突时指向下一结点的指针
    Entry* next;
};

struct Table
{
    // 哈希表的长度
    size_t cnt;
    // 哈希表，第一维指针连接表头，第二维指针指向entry
    Entry **entries;
    // 每添加一个Entry结点时需要重新分配新的内存，对程序性能产生影响
    // 用pool来维持一个可用Entry节点的数组，避免这种情况
    Entry *pool;
    // 指向下一个可用的Entry节点
    // 需要将一个结点添加到哈希表中时，只需使用firstFree指向的Entry
    Entry *firstFree;
};

void initialize(Table &table, int cnt, int elements)
{
    table.cnt = cnt;
    cudaMalloc( (void**)&table.entries, cnt * sizeof(Entry*) );
    cudaMemset( table.entries, 0, cnt * sizeof(Entry*) );
    cudaMalloc( (void**)&table.pool, elements * sizeof(Entry) );
}

void free_table(Table &table)
{
    cudaFree( table.entries );
    cudaFree( table.pool );
}

__device__ __host__ size_t hash(unsigned int key, size_t cnt)
{
    return key % cnt;
}

void copy_table_to_host(const Table &table, Table &hostTable)
{
    // 创建CPU的空间，并将GPU上的数据复制到CPU上
    hostTable.cnt = table.cnt;
    hostTable.entries = (Entry**)calloc( table.cnt, sizeof(Entry*) );
    hostTable.pool = (Entry*)malloc( ELEMENTS * sizeof(Entry) );

    cudaMemcpy( hostTable.entries, table.entries, table.cnt * sizeof(Entry*), cudaMemcpyDeviceToHost );
    cudaMemcpy( hostTable.pool, table.pool, ELEMENTS * sizeof(Entry), cudaMemcpyDeviceToHost );

    // 原来复制到CPU上的指针，所指向的地址仍旧是GPU上的地址，但其偏移是不变的
    // 因此，计算复制到CPU上的GPU指针的偏移，用来重新定位在GPU当前这个内存上的元素

    // 重新定位在GPU上元素的表头
    for (int i = 0; i < table.cnt; ++i)
    {
        if (hostTable.entries[i] != NULL)
        {
            // hostTable.entries[i]在GPU中指向table.pool[X]，减去GPU中的位置首元素table.pool，得到偏移
            // 用GPU地址的hostTable.pool + 偏移，就得到GPU上的指针指向的元素了
            hostTable.entries[i] =(Entry*)( (size_t)hostTable.pool + ((size_t)hostTable.entries[i] - (size_t)table.pool) );
        }
    }
    // 重新定位每个元素的next指针
    for (int i = 0; i < ELEMENTS; ++i)
    {
        if (hostTable.pool[i].next != NULL)
        {
            // 与上面类似
            hostTable.pool[i].next = (Entry*)( (size_t)hostTable.pool + ((size_t)hostTable.pool[i].next - (size_t)table.pool) );
        }
    }
}

void verify_table(const Table &dev_table)
{
    int cnt = 0;
    Table table;
    copy_table_to_host(dev_table, table);
    for (size_t i = 0; i < table.cnt; ++i)
    {
        Entry *current = table.entries[i];
        while (current != NULL)
        {
            cnt++;
            if (hash( current->key, table.cnt) != i)
            {
                printf("%d hashed to %ld, but was located at %ld\n", current->key, hash(current->key, table.cnt), i);
            }
            current = current -> next;
        }
    }
    if (cnt != ELEMENTS)
        printf("%d elements found in hash table. Should be %ld\n", cnt, ELEMENTS);
    else
        printf("All %d elements found in hash table.\n", cnt);
}

/// CPU version
//void add_to_table(Table &table, unsigned int key, void* value)
//{
//  // 计算要插入的新结点的表头
//  size_t hashValue = hash(key, table.cnt);
//
//  // 从结点池中取出一个预先分配Entry结点
//  Entry* location = table.firstFree++;
//  location -> key = key;
//  location -> value = value;
//
//  // 插入当前表的链表首部
//  location -> next = table.entries[hashValue];
//  table.entries[hashValue] = location;
//}

/// GPU version
__global__ void add_to_table(unsigned int *keys, void **values, Table table, Lock *lock)
{
    // 计算当前所在线程索引
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int stride = blockDim.x * gridDim.x;

    //遍历输入数组
    while (tid < ELEMENTS)
    {
        unsigned int key = keys[tid];
        size_t hashValue = hash( key, table.cnt );
        for (int i = 0; i < 32; i++)
        {
            if ( (tid % 32) == i )
            {
                Entry* location = &(table.pool[tid]);
                location->key = key;
                location->value = values[tid];

                // 原子锁，锁定哈希表头的内存，这块内存只能当前线程操作
                lock[hashValue].lock();

                location->next = table.entries[hashValue];
                table.entries[hashValue] = location;

                // 解锁原子锁
                lock[hashValue].unlock();
            }
        }
        tid += stride;
    }

}

#define HASH_ENTRIES 1024

int main()
{
    unsigned int *buffer = (unsigned int*)big_random_block( SIZE );

    cudaEvent_t start, stop;
    cudaEventCreate( &start );
    cudaEventCreate( &stop );
    cudaEventRecord( start, 0 );

    unsigned int *dev_keys;
    void **dev_values;

    cudaMalloc( (void**)&dev_keys, SIZE );
    cudaMalloc( (void**)&dev_values, SIZE );
    cudaMemcpy( dev_keys, buffer, SIZE, cudaMemcpyHostToDevice );

    // 分配锁
    Table table;
    initialize( table, HASH_ENTRIES, ELEMENTS );

    Lock lock[HASH_ENTRIES];
    Lock* dev_lock;

    cudaMalloc( (void**)&dev_lock, HASH_ENTRIES * sizeof(Lock) );
    cudaMemcpy( dev_lock, lock, HASH_ENTRIES * sizeof(Lock), cudaMemcpyHostToDevice );

    // kernel
    add_to_table<<<60, 256>>>(dev_keys, dev_values, table, dev_lock);

    cudaEventRecord( stop, 0 );
    cudaEventSynchronize( stop );
    float elapsedTime;
    cudaEventElapsedTime( &elapsedTime, start, stop );
    printf("Time to hash: %3.lf ms\n", elapsedTime);

    verify_table(table);

    cudaEventDestroy( start );
    cudaEventDestroy( stop );
    free_table( table );
    cudaFree( dev_lock );
    cudaFree( dev_keys );
    cudaFree( dev_values );
    free( buffer );


    return 0;
}

你可能感兴趣的:(Cuda学习笔记)

深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
[python]通过whl文件安装torchvision和torchaudio及国内whl文件下载地址汇总萌萌哒240 环境配置 python 开发语言
要通过.whl文件安装torchvision和torchaudio，你需要先确保你已经安装了与这些库兼容的PyTorch版本。以下是一个详细的步骤指南，帮助你通过.whl文件安装这些库。1.安装PyTorch首先，确保你已经安装了PyTorch。你可以从PyTorch的官方网站获取适合你系统的安装命令例如，如果你使用的是CUDA11.3和Python3.8，你可以使用以下命令安装PyTorch：p
qt/c++学习笔记之基于tcp的文件同步程序demo（第二部分） Bryce学亮 qt c++学习
server服务器端头文件filebase.h#ifndefFILEBASE_H#defineFILEBASE_H#include#include#include#include#includeenumMsgType{MsgTypeInvaid=0,MsgTypeFile,MsgTypeDel,MsgTypeRename};classfilebase:publicQObject{Q_OBJECTp
Python学习笔记 | 类与对象 MUYUN友逹 Python学习笔记类与对象
基于Python3版本的学习。初识概念：类(class)与对象(object)生活中我们所说的类，是物以类聚的类，是分门别类的类，是多个类似事物组成的群体的统称。而在Python中我们所遇到的类（class），比如整数、字符串、浮点数等，不同的数据类型就属于不同的类。准确来说，它们的全名是整数类、字符串类、浮点数类。每一个类之下都包含无数相似的不同个例。在Python的术语里，我们把类的个例就叫做
人工智能英语学习笔记「已注销」
基础篇单词mythologyn.ancientmythsingeneral;ideasthatmanypeoplethinkaretruebutthatdonotexistorarefalse神话Examples:AsatyrishalfmanandhalfgoatinGreekandRomanmythology.在希腊和罗马神话中，森林之神是半人半羊的样子。Thishasbeenwellillu
TypeScript 学习笔记（七）：TypeScript 与后端框架的结合应用 Evaporator Core typescript 前端框架学习
1.引言在前几篇学习笔记中，我们已经探讨了TypeScript的基础知识和在前端框架（如Angular和React）中的应用。本篇将重点介绍TypeScript在后端开发中的应用，特别是如何与Node.js和Express结合使用，以构建强类型、可维护的后端应用。2.TypeScript与Node.jsNode.js是一个基于ChromeV8引擎的JavaScript运行时，广泛用于构建后端应用。
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
架构师反向代理Haproxy+压力测试 - 学习笔记无影V随风学习笔记 linux相关
一.Apache的反向代理(生产不建议使用)1.Apache的编译安装:yuminstallapr-develapr-util-develpcre-developenssl-develcd/usr/local/src/wgethttp://archive.apache.org/dist/httpd/httpd-2.4.18.tar.gztar-zxvfhttpd-2.4.18.tar.gzcdht
centos7安装cuda、dudnn、Nvidia驱动[最详细的教程和报错解决方案] LensonYuan 自然语言处理深度学习自然语言处理数据挖掘机器学习深度学习
现在很多教程都没有覆盖全报错问题，本文几乎把所有问题都描述到位首先说下我电脑的环境：centos7x86-64：uname-r命令显示为3.10.0-1160.el7.x86_64；物理显卡为单卡2080ti；gcc通过yum安装，yuminstallgcc版本为4.8.5,同时会显示安装一些其他包，如glibc版本为2.17；安装准备以下为驱动和官网文件名一致，可到nvidia官网下载，选择历史
华为数通HCIA(学习笔记) 想做运维大佬华为数通(HCIA)笔记系列华为学习笔记
2024-03-22重启华为数通学习计划由于工作原因，预计将在2024年6月30日之前完成HCIP的学习并通过HCIP的考试-在2025年6月30日前完成HCIE的学习并通过HCIE的考试此为学习笔记，实验笔记和试题笔记会分别更新到其他帖子中一、数据网络通信基础1.1专业名词LAN(LocalAreaNetwork)：局域网Ethrenet：以太网Campus：园区网VLAN(VirtualLAN
python学习笔记浅夏入秋^_^ Python 编程语言 python 学习开发语言
python学习笔记第1-3章基础知识https://www.jetbrains.com/help/pycharm/小技巧：如果在编辑器中未选择任何内容，按⌘C可将文本光标处的整行复制到剪贴板。按两次⌃Space可调用代码补全功能的特殊变体，这样您可以从没有在当前文件中声明的命名空间补全XML标记名称。如果命名空间尚未声明，则会自动生成声明。使用代码|检查代码可对整个项目或自定义范围运行代码分析，
2011寒假-数据库学习笔记 weixin_33967071 数据库设计模式人工智能
第一课:数据库类型1.1平面文件适用于:1，数值小且简单2，数值不经常变化3，希望能够使用简单的文本编辑器来更改数值4，希望保存以前数值的简单历史清单,5，希望使用工具快速比较两个文件例如:INI文件(initialization)1.2关系数据库适用于:l需要在不同的表之间执行复杂的查询和连接.l需要执行数据有效性验证,如在其他表中检验相关行的存在.l需要为特定的数据有效性验证,如在其他表中检验
whisper.cpp 学习笔记法号：行颠机器学习 whisper 学习笔记
whisper.cppwhisper.cpp学习笔记whisper介绍源码下载源码编译支持的模型优化/加速生成库文件使用whispe.cpp的demo参考文献whisper.cpp学习笔记whisper介绍whisper是基于OpenAI的自动语音识别（ASR）模型。他可以识别包括英语、普通话等在内多国语言。whisper分为whisper（python版本）和whisper.cpp（C/C++版
【Linux探索学习】第二十五弹——动静态库：Linux 中静态库与动态库的详细解析 GG Bond.ฺ Linux探索学习 linux 学习运维
Linux学习笔记：https://blog.csdn.net/2301_80220607/category_12805278.html?spm=1001.2014.3001.5482前言：在Linux系统中，静态库和动态库是开发中常见的两种库文件类型。它们在编译、链接、内存管理以及程序的性能和可维护性方面有着显著的差异。了解静态库与动态库的区别和使用方式，有助于开发者根据实际需求选择最适合的解决
计算机基础知识 yzx991013 函数计算机
学习笔记：《Excel公式与函数》（1）项目1：公司销售情况统计表（SUM、SUMIF、SUMIFS）SUM函数（直接求和）：函数格式：=SUM(number1,[number2],...)number1（必需参数）要相加的第一个数字，可以是数字，或Excel中A1之类的单元格引用或A2:A8之类的单元格范围。number2，这是要相加的第二个数字。SUMIF函数（单条件求和）：函数格式：=SUM
大一上第四周学习笔记 Alex Su (*^▽^*)
10.5周一国庆浪了好久其实浪完了我真的不知道要干啥了这种生活其实是很空虚的我以前以为算法竞赛占据了我太多时间，没有时间享受其他事情其实这说明我还不热爱它这是编程这件事使我的生活变得充实这也是我感兴趣，有天赋，有前景的东西为什么不全力以赴呢找回对编程的热爱，而不是为了保研想起了我以前看得《驱动力》这本书现实的利益这样外在驱动力其实是不长久，不稳定的。真正强大，稳定的驱动力是内在驱动力。对于我，就是
java搜索DFS BFS 剪枝记忆化搜索相关例题算法学习笔记（持续更新中） ddb酱 java 学习笔记
目录DFSP1706全排列问题P1596连接水池的数量P1036[NOIP2002普及组]选数P1219[USACO1.5]八皇后CheckerChallengeP2392kkksc03考前临时抱佛脚P2036[COCI2008-2009#2]PERKETP1605迷宫P1101单词方阵，以后再做，看别人的题解做的P2404自然数的拆分问题，以后在做BFSP1443马的遍历P1596连接水池的数量
华为昇腾AI处理器，atc模型转换和推理过程，华为的CANN库对标的是NVIDIA的cuda，所以在华为昇腾AI处理器上安装了CANN后，就可以直接使用pytorch了，以及推理框架(参考学习) 鼾声鼾语嵌入式硬件学习 stm32 python 数据库
1，模型转换atc模型转换模型转换如图参考链接如下：https://toscode.mulanos.cn/ascend/samples/tree/master/inference/modelInference/sampleResnetQuickStart/cpp2，推理运行，这里需要注意用到了infer，有点类似的pytorch对模型的加载使用model=InferSession(0,model_
[Python学习笔记1]——列表的简单操作秋风、萧瑟 python 学习笔记
目录1.列表的定义2.访问列表元素3.列表的改、增、删3.1列表元素的修改3.2列表元素的添加3.2.1使用方法append()在列表末尾添加元素3.2.2使用方法insert()在列表中插入元素3.3在列表中删除元素3.3.1使用del语句删除元素（根据索引删除）3.3.2使用pop()方法删除元素（根据索引删除，可将删除值再利用）3.3.3使用remove()方法删除元素（根据值删除元素）4.
Java编程思想学习笔记之内容介绍 java开发13264 Java编程思想学习笔记学习笔记
从本文开始，逐步学习这本经典著作，在网上有不少人吐槽本书太老，但笔者认为技术可能过时，但思想可以管用很久，并且以早期版本入门可以获得一个更深入更全面的理解，如果读者看本专栏是为了入门Java那么相信还是很有益处的。跟本专栏需要三本资料，一是原书英文版，二是翻译中文版，三是配套习题解答以及代码包等内容，部分资源不是很好找，后期有空整理好后发布在CSDN。中文版用来速读，但翻译着实不尽如人意，很多地方
Python学习笔记——面向对象 xueyueQQ Python Python 面向对象
本学习笔记基于Bilibili视频网站up主—黑马程序员的Python视频教程链接：https://www.bilibili.com/video/av14184325面向对象1类和对象1.类和对象的关系2.类的设计2面向对象基础语法1.dir内置函数2.定义简单的类3.方法中的self参数4.初始化方法在初始化方法内部定义属性初始化方法的改造——初始化的同时设置初始值5.内置方法和属性3面向对象封
【vLLM 学习】安装
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/vLLM是一个Python库，包含预编译的C++和CUDA(12.1)二进制文件。依赖环境操作系统：LinuxPython：3.8-3.12GPU：计算能力7.0或更高（例如V100、T4、RTX20xx、A100、L
麦田物语学习笔记:构建游戏的时间系统扶离_flee 麦田物语学札学习笔记游戏
基本流程1.代码思路(1)新建一个TimeManager.cs(2)创建枚举变量来表示四季,在TimeManager里需要的变量有:游戏内的秒,分钟,小时,天,月,年;游戏内的季节;控制一个季节有多少个月;控制时间的暂停;计时器tikTime(3)在Settings里添加计时器的阈值,以及各个时间的进位(4)初始化各个时间单位以及实现更新游戏时间的逻辑2.代码实现新增枚举类publicenumSe
Cherno C++学习笔记 P53 模板 14_11 Cherno C++学习学习笔记 c++
这篇文章我们会讲一下C++模板，这个是一个非常有意思的且有用的东西，我们平时使用的STL其实就是基于模板编写的。它几乎就像一个宏，可以去做我们想做的任何事情。模板也可以称其为泛型，但是它比泛型要强大得多。模板是一个非常非常大的话题，所以这里我们只会讲解它简单的应用。它的本质是可以根据我们自己的用途，为其定义一个模板，然后编译器会根据我们给出的规则来帮助我们编写代码，可以让我们省去很多麻烦。所以使用
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n