Nice_cool.

CUDA编程- - GPU线程的理解 thread,block,grid - 再次学习

GPU线程的理解 thread,block,grid

一、从 cpu 多线程角度理解 gpu 多线程
- 1、cpu 多线程并行加速
- 2、gpu多线程并行加速
- - 2.1、cpu 线程与 gpu 线程的理解（核函数）
  - - 2.1.1 、第一步：编写核函数
    - 2.1.2、第二步：调用核函数（使用内核函数）
    - 2.1.3、第三步：编写 CMakeLists & 编译代码
二、重要概念 & 与线程索引的直观理解
- 2.1、重要概念
- 2.2、dim3与启动内核
- 2.3、如何找到线程块的索引
- 2.4、如何找到绝对线程索引
三、参考代码（打印索引）
- 3.1、打印一维索引
- 3.2、打印二维索引
- 3.2、扩展应用（获取图片坐标）

一、从 cpu 多线程角度理解 gpu 多线程

1、cpu 多线程并行加速

在 cpu 中，用 openmp 并行计算，有限的线程数对 128 进行分组运算。

#pragma omp parallel for
for(int i =0;i<128;i++)
{
	a[i]=b[i]*c[i];
}

2、gpu多线程并行加速

在 gpu 中，可以直接开启 128 个线程对其进行计算。下面步骤和代码是演示如何开启 128个线程并打印

2.1、cpu 线程与 gpu 线程的理解（核函数）

2.1.1 、第一步：编写核函数

__global__ void some_kernel_func(int *a, int *b, int *c)
{
    // 初始化线程ID
    int i = (blockIdx.x * blockDim.x) + threadIdx.x;
    // 对数组元素进行乘法运算
    a[i] = b[i] * c[i];
    // 打印打前处理的进程ID
    // 可以看到blockIdx并非是按照顺序启动的，这也说明线程块启动的随机性
    printf("blockIdx.x = %d,blockDimx.x = %d,threadIdx.x = %d\n", blockIdx.x, blockDim.x, threadIdx.x);
}

2.1.2、第二步：调用核函数（使用内核函数）

#）调用语法
kernel_function<<>>(param1,param2,...)

num_blocks 线程块，至少保证一个线程块
num_threads 执行内核函数的线程数量

#）tips:

1、 some_kernel_func<<<1,128>>>(a,b,c); 调用 some_kernel_func 1*128 次

2、 some_kernel_func<<<2,128>>>(a,b,c); 调用 some_kernel_func 2*128 次

3、如果将 num_blocks 从 1 改成 2 ，则表示 gpu 将启动两倍于之前的线程数量的线程，

在 blockIdx.x = 0 中，i = threadIdx.x
在 blockIdx.x = 1 中， blockDim.x 表示所要求每个线程块启动的线程数量，在这 = 128

2.1.3、第三步：编写 CMakeLists & 编译代码

CMakeLists.txt

cmake_minimum_required(VERSION 2.8 FATAL_ERROR)
project(demo)
add_definitions(-std=c++14)      
find_package(CUDA REQUIRED)

# add cuda
include_directories(${CUDA_INCLUDE_DIRS} ) 
message("CUDA_LIBRARIES:${CUDA_LIBRARIES}")
message("CUDA_INCLUDE_DIRS:${CUDA_INCLUDE_DIRS}")
cuda_add_executable(demo print_theardId.cu)

# link
target_link_libraries (demo ${CUDA_LIBRARIES})

print_theardId.cu

#include 
#include 

#include 
#include 

/*gpu 中的矩阵乘法*/
__global__ void some_kernel_func(int *a, int *b, int *c)
{
    // 初始化线程ID
    int i = (blockIdx.x * blockDim.x) + threadIdx.x;
    // 对数组元素进行乘法运算
    a[i] = b[i] * c[i];
    // 打印打前处理的进程ID
    // 可以看到blockIdx并非是按照顺序启动的，这也说明线程块启动的随机性
    printf("blockIdx.x = %d,blockDimx.x = %d,threadIdx.x = %d\n", blockIdx.x, blockDim.x, threadIdx.x);
}

int main(void)
{
    // 初始化指针元素
    int *a, *b, *c;
    // 初始化GPU指针元素
    int *gpu_a, *gpu_b, *gpu_c;
    // 初始化数组大小
    int size = 128 * sizeof(int);
    // 为CPU指针元素分配内存
    a = (int *)malloc(size);
    b = (int *)malloc(size);
    c = (int *)malloc(size);
    // 为GPU指针元素分配内存
    cudaMalloc((void **)&gpu_a, size);
    cudaMalloc((void **)&gpu_b, size);
    cudaMalloc((void **)&gpu_c, size);
    // 初始化数组元素
    for (int i = 0; i < 128; i++)
    {
        b[i] = i;
        c[i] = i;
    }
    // 将数组元素复制到GPU中
    cudaMemcpy(gpu_b, b, size, cudaMemcpyHostToDevice);
    cudaMemcpy(gpu_c, c, size, cudaMemcpyHostToDevice);
    // 执行GPU核函数
    some_kernel_func<<<4, 32>>>(gpu_a, gpu_b, gpu_c);
    // 将GPU中的结果复制到CPU中
    cudaMemcpy(a, gpu_a, size, cudaMemcpyDeviceToHost);
    // 释放GPU和CPU中的内存
    cudaFree(gpu_a);
    cudaFree(gpu_b);
    cudaFree(gpu_c);
    free(a);
    free(b);
    free(c);
    return 0;
}

mkdir build
cd build
cmake ..
make
./demo

部分结果：

可以看到，
1、gpu 可以直接调用很多个线程，
2、线程数量的多少是由线程块，线程，线程网格等决定的，
3、在核函数中编写单个线程的使用代码，再调用核函数，便可简单的达到 cpu 中 openmp 的多线程方式

二、重要概念 & 与线程索引的直观理解

2.1、重要概念

gridDim.x – 线程网格X维度的线程块数目
gridDim.y – 线程网格Y维度的线程块数目

blockDim.x – 一个线程块X维度上的线程数量
blockDim.y – 一个线程块Y维度上的线程数量

theadIdx.x – 线程块X维度上的线程数量
theadIdx.y – 线程块Y维度上的线程数量

一般来说：
一个 kernel 对应一个 grid
一个 grid 可以有多个 block，一维~三维
一个 block 可以有多个 thread，一维~三维

2.2、dim3与启动内核

dim3 是CUDA中的特殊数据结构，可用来创建二维的线程块与线程网络
eg：4个线程块，128个线程

dim3 threads_rect(32,4)	// 每个线程块在X方向开启32个线程，Y方向开启4个线程
dim3 blocks_rect(1,4)	//在线程网格上，x方向1个线程块，Y方向4个线程
or
dim3 threads_square(16,8)
dim3 blocks_square(2,2)

以上两种方式线程数都是 324=128 ， 168=128，只是线程块中线程的排布方式不一样

启动内核
1、 some_kernel_func<<>>(a,b,c);

2、 some_kernel_func<<>>(a,b,c);

2.3、如何找到线程块的索引

线程块的索引 x 线程块的大小 + 线程数量的起始点
参考核函数

// 定义ID查询函数
__global__ void what_is_my_id(
    unsigned int *const block,
    unsigned int *const thread,
    unsigned int *const warp,
    unsigned int *const calc_thread)
{
    /*线程ID是线程块的索引 x 线程块的大小 + 线程数量的起始点*/
    const unsigned int thread_idx = (blockIdx.x * blockDim.x) + threadIdx.x;

    block[thread_idx] = blockIdx.x;
    thread[thread_idx] = threadIdx.x;

    /*线程束 = 线程ID / 内置变量warpSize*/
    warp[thread_idx] = thread_idx / warpSize;

    calc_thread[thread_idx] = thread_idx;
}

来个.cu文件，体验一下这个核函数，// 编译方法同上

#include 
#include 

#include "cuda.h"
#include "cuda_runtime.h"

// 定义ID查询函数
__global__ void what_is_my_id(
    unsigned int *const block,
    unsigned int *const thread,
    unsigned int *const warp,
    unsigned int *const calc_thread)
{
    /*线程ID是线程块的索引 x 线程块的大小 + 线程数量的起始点*/
    const unsigned int thread_idx = (blockIdx.x * blockDim.x) + threadIdx.x;

    block[thread_idx] = blockIdx.x;
    thread[thread_idx] = threadIdx.x;

    /*线程束 = 线程ID / 内置变量warpSize*/
    warp[thread_idx] = thread_idx / warpSize;

    calc_thread[thread_idx] = thread_idx;
}

// 定义数组大小
#define ARRAY_SIZE 1024
// 定义数组字节大小
#define ARRAY_BYTES ARRAY_SIZE * sizeof(unsigned int)

// 声明主机下参数
unsigned int cpu_block[ARRAY_SIZE];
unsigned int cpu_thread[ARRAY_SIZE];
unsigned int cpu_warp[ARRAY_SIZE];
unsigned int cpu_calc_thread[ARRAY_SIZE];

// 定义主函数
int main(void)
{
    // 总线程数量为 2 x 64 = 128
    // 初始化线程块和线程数量
    const unsigned int num_blocks = 2;
    const unsigned int num_threads = 64;
    char ch;

    // 声明设备下参数
    unsigned int *gpu_block, *gpu_thread, *gpu_warp, *gpu_calc_thread;

    // 声明循环数量
    unsigned int i;

    // 为设备下参数分配内存
    cudaMalloc((void **)&gpu_block, ARRAY_BYTES);
    cudaMalloc((void **)&gpu_thread, ARRAY_BYTES);
    cudaMalloc((void **)&gpu_warp, ARRAY_BYTES);
    cudaMalloc((void **)&gpu_calc_thread, ARRAY_BYTES);

    // 调用核函数
    what_is_my_id<<<num_blocks, num_threads>>>(gpu_block, gpu_thread, gpu_warp, gpu_calc_thread);

    // 将设备下参数复制到主机下
    cudaMemcpy(cpu_block, gpu_block, ARRAY_BYTES, cudaMemcpyDeviceToHost);
    cudaMemcpy(cpu_thread, gpu_thread, ARRAY_BYTES, cudaMemcpyDeviceToHost);
    cudaMemcpy(cpu_warp, gpu_warp, ARRAY_BYTES, cudaMemcpyDeviceToHost);
    cudaMemcpy(cpu_calc_thread, gpu_calc_thread, ARRAY_BYTES, cudaMemcpyDeviceToHost);

    // 释放GPU内存
    cudaFree(gpu_block);
    cudaFree(gpu_thread);
    cudaFree(gpu_warp);
    cudaFree(gpu_calc_thread);

    // 循环打印结果
    for (i = 0; i < ARRAY_SIZE; i++)
    {
        printf("Calculated Thread: %d - Block: %d - Warp: %d - Thread: %d\n", cpu_calc_thread[i], cpu_block[i], cpu_warp[i], cpu_thread[i]);
    }
    return 0;
}

2.4、如何找到绝对线程索引

thread_idx = ( (gridDim.x * blockDim.x ) * idy ) + idx;

绝对线程索引 = 当前行索引 * 每行线程总数 + x方向的偏移
参考核函数

/*定义线程id计算函数*/
__global__ void what_is_my_id_2d_A(
    unsigned int *const block_x,
    unsigned int *const block_y,
    unsigned int *const thread,
    unsigned int *const calc_thread,
    unsigned int *const x_thread,
    unsigned int *const y_thread,
    unsigned int *const grid_dimx,
    unsigned int *const block_dimx,
    unsigned int *const grid_dimy,
    unsigned int *const block_dimy)
{
    /*获得线程索引*/
    const unsigned int idx = (blockIdx.x * blockDim.x) + threadIdx.x;
    const unsigned int idy = (blockIdx.y * blockDim.y) + threadIdx.y;
    /*
        计算线程id
        计算公式：线程ID = ((网格维度x * 块维度x) * 线程idy) + 线程idx(作为x维度上的偏移)
    */
    const unsigned int thread_idx = ((gridDim.x * blockDim.x) * idy) + idx;
    /*获取线程块的索引*/
    block_x[thread_idx] = blockIdx.x;
    block_y[thread_idx] = blockIdx.y;
    /*获取线程的索引*/
    thread[thread_idx] = threadIdx.x;
    /*计算线程id*/
    calc_thread[thread_idx] = thread_idx;
    /*获取线程的x维度索引*/
    x_thread[thread_idx] = idx;
    /*获取线程的y维度索引*/
    y_thread[thread_idx] = idy;
    /*获取网格维度的X，Y值*/
    grid_dimx[thread_idx] = gridDim.x;
    grid_dimy[thread_idx] = gridDim.y;
    /*获取block_dimy*/
    block_dimx[thread_idx] = blockDim.x;
}

来个.cu文件，体验一下这个核函数，// 编译方法同上

#include 
#include 
#include 
#include 

/*定义线程id计算函数*/
__global__ void what_is_my_id_2d_A(
    unsigned int *const block_x,
    unsigned int *const block_y,
    unsigned int *const thread,
    unsigned int *const calc_thread,
    unsigned int *const x_thread,
    unsigned int *const y_thread,
    unsigned int *const grid_dimx,
    unsigned int *const block_dimx,
    unsigned int *const grid_dimy,
    unsigned int *const block_dimy)
{
    /*获得线程索引*/
    const unsigned int idx = (blockIdx.x * blockDim.x) + threadIdx.x;
    const unsigned int idy = (blockIdx.y * blockDim.y) + threadIdx.y;
    /*
        计算线程id
        计算公式：线程ID = ((网格维度x * 块维度x) * 线程idy) + 线程idx(作为x维度上的偏移)
    */
    const unsigned int thread_idx = ((gridDim.x * blockDim.x) * idy) + idx;
    /*获取线程块的索引*/
    block_x[thread_idx] = blockIdx.x;
    block_y[thread_idx] = blockIdx.y;
    /*获取线程的索引*/
    thread[thread_idx] = threadIdx.x;
    /*计算线程id*/
    calc_thread[thread_idx] = thread_idx;
    /*获取线程的x维度索引*/
    x_thread[thread_idx] = idx;
    /*获取线程的y维度索引*/
    y_thread[thread_idx] = idy;
    /*获取网格维度的X，Y值*/
    grid_dimx[thread_idx] = gridDim.x;
    grid_dimy[thread_idx] = gridDim.y;
    /*获取block_dimy*/
    block_dimx[thread_idx] = blockDim.x;
}

/*定义矩阵宽度以及大小*/
#define ARRAY_SIZE_X 32
#define ARRAY_SIZE_Y 16
#define ARRAY_SIZE_IN_BYTES (ARRAY_SIZE_X * ARRAY_SIZE_Y * sizeof(unsigned int))

/*声明CPU端上的各项参数内存*/
unsigned int *cpu_block_x[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_block_y[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_thread[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_warp[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_calc_thread[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_x_thread[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_y_thread[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_grid_dimx[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_grid_dimy[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_block_dimx[ARRAY_SIZE_Y][ARRAY_SIZE_X];
unsigned int *cpu_block_dimy[ARRAY_SIZE_Y][ARRAY_SIZE_X];

int main(void)
{
   const dim3 thread_rect = (32, 4);
    /*注意这里的块的dim3值为1x4*/
    const dim3 block_rect = (1, 4);

    /*初始化矩形线程分布启动项*/
     const dim3 thread_square = (16, 8);
    /*注意这里的块的dim3值为2x2*/
    const dim3 block_square = (2, 2);

    /*定义一个临时指针用于打印信息*/
    char ch;

    /*定义GPU端上的各项参数内存*/
    unsigned int *gpu_block_x;
    unsigned int *gpu_block_y;
    unsigned int *gpu_thread;
    unsigned int *gpu_warp;
    unsigned int *gpu_calc_thread;
    unsigned int *gpu_x_thread;
    unsigned int *gpu_y_thread;
    unsigned int *gpu_grid_dimx;
    unsigned int *gpu_grid_dimy;
    unsigned int *gpu_block_dimx;

    /*分配GPU端上的各项参数内存*/
    cudaMalloc((void **)&gpu_block_x, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_block_y, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_thread, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_warp, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_calc_thread, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_x_thread, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_y_thread, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_grid_dimx, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_grid_dimy, ARRAY_SIZE_IN_BYTES);
    cudaMalloc((void **)&gpu_block_dimx, ARRAY_SIZE_IN_BYTES);

    /*调用核函数*/
    for (int kernel = 0; kernel < 2; kernel++)
    {
        switch (kernel)
        {
        case 0:
            /*执行矩形配置核函数*/
            what_is_my_id_2d_A<<<block_rect, thread_rect>>>(gpu_block_x, gpu_block_y, gpu_thread, gpu_warp, gpu_calc_thread, gpu_x_thread, gpu_y_thread, gpu_grid_dimx, gpu_grid_dimy, gpu_block_dimx);
            break;
        case 1:
            /*执行方形配置核函数*/
            what_is_my_id_2d_A<<<block_square, thread_square>>>(gpu_block_x, gpu_block_y, gpu_thread, gpu_warp, gpu_calc_thread, gpu_x_thread, gpu_y_thread, gpu_grid_dimx, gpu_grid_dimy, gpu_block_dimx);
            break;
        default:
            exit(1);
            break;
        }

        /*将GPU端上的各项参数内存拷贝到CPU端上*/
        cudaMemcpy(cpu_block_x, gpu_block_x, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_block_y, gpu_block_y, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_thread, gpu_thread, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_warp, gpu_warp, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_calc_thread, gpu_calc_thread, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_x_thread, gpu_x_thread, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_y_thread, gpu_y_thread, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_grid_dimx, gpu_grid_dimx, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_grid_dimy, gpu_grid_dimy, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);
        cudaMemcpy(cpu_block_dimx, gpu_block_dimx, ARRAY_SIZE_IN_BYTES, cudaMemcpyDeviceToHost);

        printf("\n kernel %d\n", kernel);
        /*打印结果*/
        for (int y = 0; y < ARRAY_SIZE_Y; y++)
        {
            for (int x = 0; x < ARRAY_SIZE_X; x++)
            {
                printf("CT: %2u Bkx: %1u TID: %2u YTID: %2u XTID: %2u GDX: %1u BDX: %1u GDY: %1u BDY:%1U\n", cpu_calc_thread[y * ARRAY_SIZE_X + x], cpu_block_x[y * ARRAY_SIZE_X + x], cpu_thread[y * ARRAY_SIZE_X + x], cpu_y_thread[y * ARRAY_SIZE_X + x], cpu_x_thread[y * ARRAY_SIZE_X + x], cpu_grid_dimx[y * ARRAY_SIZE_X + x], cpu_block_dimx[y * ARRAY_SIZE_X + x], cpu_grid_dimy[y * ARRAY_SIZE_X + x], cpu_block_y[y * ARRAY_SIZE_X + x]);
            }
            /*每行打印完后按任意键继续*/
            ch = getchar();
        }
        printf("Press any key to continue\n");
        ch = getchar();
    }
    /*释放GPU端上的各项参数内存*/
    cudaFree(gpu_block_x);
    cudaFree(gpu_block_y);
    cudaFree(gpu_thread);
    cudaFree(gpu_warp);
    cudaFree(gpu_calc_thread);
    cudaFree(gpu_x_thread);
    cudaFree(gpu_y_thread);
    cudaFree(gpu_grid_dimx);
    cudaFree(gpu_grid_dimy);
    cudaFree(gpu_block_dimx);
}

其中有个代码片段

   const dim3 thread_rect = (32, 4);
    /*注意这里的块的dim3值为1x4*/
    const dim3 block_rect = (1, 4);
    
     const dim3 thread_square = (16, 8);
    /*注意这里的块的dim3值为2x2*/
    const dim3 block_square = (2, 2);

如图理解，都是 2x2 / 1x4 = 四个线程块；每一块 32x4 / 16x8 =128个线程。这是两种不同的线程块布局方式。

但是一般会选择长方形的布局方式。
1、要以行的方式进行连续访问内存，而不是列的方式
2、同一个线程块可以通过共享内存进行通信
3、同一个线程束中的线程存储访问合并在一起了，长方形布局只需要一次访问操作就可以获得连续的内存数据 // 正方形要两次访问

三、参考代码（打印索引）

3.1、打印一维索引

场景：
一个数组有 8 个数据，要开 8 个线程去访问。
我们想切成 2 个block 访问，所以一个 blcok 就有 4 个线程

所以线程设置如下：一个 block里面4个线程，一个grid里面2个block

一维索引的设置如下：

    dim3 block(4);// 一个 block 里面 4 个线程
    dim3 grid(2);//	一个 grid 里面 2 个 block

#include 
#include 

__global__ void print_idx_kernel(){
    printf("block idx: (%3d, %3d, %3d), thread idx: (%3d, %3d, %3d)\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         threadIdx.z, threadIdx.y, threadIdx.x);
}

__global__ void print_dim_kernel(){
    printf("grid dimension: (%3d, %3d, %3d), block dimension: (%3d, %3d, %3d)\n",
         gridDim.z, gridDim.y, gridDim.x,
         blockDim.z, blockDim.y, blockDim.x);
}

__global__ void print_thread_idx_per_block_kernel(){
    int index = threadIdx.z * blockDim.x * blockDim.y + \
              threadIdx.y * blockDim.x + \
              threadIdx.x;

    printf("block idx: (%3d, %3d, %3d), thread idx: %3d\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         index);
}

__global__ void print_thread_idx_per_grid_kernel(){
    int bSize  = blockDim.z * blockDim.y * blockDim.x;

    int bIndex = blockIdx.z * gridDim.x * gridDim.y + \
               blockIdx.y * gridDim.x + \
               blockIdx.x;

    int tIndex = threadIdx.z * blockDim.x * blockDim.y + \
               threadIdx.y * blockDim.x + \
               threadIdx.x;

    int index  = bIndex * bSize + tIndex;

    printf("block idx: %3d, thread idx in block: %3d, thread idx: %3d\n", 
         bIndex, tIndex, index);
}

void print_one_dim(){
    int inputSize = 8;
    int blockDim = 4;
    int gridDim = inputSize / blockDim;

    dim3 block(blockDim);//4
    dim3 grid(gridDim);//2

    print_idx_kernel<<<grid, block>>>();
    //print_dim_kernel<<>>();
    //print_thread_idx_per_block_kernel<<>>();
    //print_thread_idx_per_grid_kernel<<>>();

    cudaDeviceSynchronize();	//用于同步
}

int main() {
    print_one_dim();
    return 0;
}

核函数及其结果：

8个线程，8个输出；
索引都是从 z到y到x的；

1、线程块与线程

__global__ void print_idx_kernel(){
    printf("block idx: (%3d, %3d, %3d), thread idx: (%3d, %3d, %3d)\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         threadIdx.z, threadIdx.y, threadIdx.x);
}

2、线程网格与线程块

__global__ void print_dim_kernel(){
    printf("grid dimension: (%3d, %3d, %3d), block dimension: (%3d, %3d, %3d)\n",
         gridDim.z, gridDim.y, gridDim.x,
         blockDim.z, blockDim.y, blockDim.x);
}

1x1x2=2
1x1x4=4

3、在 block 里面寻找每个线程的索引

__global__ void print_thread_idx_per_block_kernel(){
    int index = threadIdx.z * blockDim.x * blockDim.y + \
              threadIdx.y * blockDim.x + \
              threadIdx.x;

    printf("block idx: (%3d, %3d, %3d), thread idx: %3d\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         index);
}

可以根据下面的图来理解访问顺序：

结果：

4、在 grid 里面寻找每个线程索引

__global__ void print_thread_idx_per_grid_kernel(){
    int bSize  = blockDim.z * blockDim.y * blockDim.x;	// block 的线程大小

    int bIndex = blockIdx.z * gridDim.x * gridDim.y + \
               blockIdx.y * gridDim.x + \
               blockIdx.x;

    int tIndex = threadIdx.z * blockDim.x * blockDim.y + \
               threadIdx.y * blockDim.x + \
               threadIdx.x;

    int index  = bIndex * bSize + tIndex;

    printf("block idx: %3d, thread idx in block: %3d, thread idx: %3d\n", 
         bIndex, tIndex, index);
}

可以根据下面的图来理解访问顺序：实际上就是从一堆方块里面找到那个红点

结果：（thread 从 0 ~ 7 ）

3.2、打印二维索引

#include 
#include 


__global__ void print_idx_kernel(){
    printf("block idx: (%3d, %3d, %3d), thread idx: (%3d, %3d, %3d)\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         threadIdx.z, threadIdx.y, threadIdx.x);
}

__global__ void print_dim_kernel(){
    printf("grid dimension: (%3d, %3d, %3d), block dimension: (%3d, %3d, %3d)\n",
         gridDim.z, gridDim.y, gridDim.x,
         blockDim.z, blockDim.y, blockDim.x);
}

__global__ void print_thread_idx_per_block_kernel(){
    int index = threadIdx.z * blockDim.x * blockDim.y + \
              threadIdx.y * blockDim.x + \
              threadIdx.x;

    printf("block idx: (%3d, %3d, %3d), thread idx: %3d\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         index);
}

__global__ void print_thread_idx_per_grid_kernel(){
    int bSize  = blockDim.z * blockDim.y * blockDim.x;

    int bIndex = blockIdx.z * gridDim.x * gridDim.y + \
               blockIdx.y * gridDim.x + \
               blockIdx.x;

    int tIndex = threadIdx.z * blockDim.x * blockDim.y + \
               threadIdx.y * blockDim.x + \
               threadIdx.x;

    int index  = bIndex * bSize + tIndex;

    printf("block idx: %3d, thread idx in block: %3d, thread idx: %3d\n", 
         bIndex, tIndex, index);
}


void print_two_dim(){
    int inputWidth = 4;

    int blockDim = 2;
    int gridDim = inputWidth / blockDim;


    dim3 block(blockDim, blockDim);// 2 , 2
    dim3 grid(gridDim, gridDim);    //2,2


    print_idx_kernel<<<grid, block>>>();
    // print_dim_kernel<<>>();
    // print_thread_idx_per_block_kernel<<>>();
    //print_thread_idx_per_grid_kernel<<>>();

    cudaDeviceSynchronize();
}

int main() {
     print_two_dim();
    return 0;
}

3.2、扩展应用（获取图片坐标）

原理其实就是同上面（在 grid 里面寻找每个线程索引）一样，这里为了方便看，再次贴一次图。

重写一个核函数，比之前的方便看

__global__ void print_cord_kernel(){
    int index = threadIdx.z * blockDim.x * blockDim.y + \
              threadIdx.y * blockDim.x + \
              threadIdx.x;

    int x  = blockIdx.x * blockDim.x + threadIdx.x;
    int y  = blockIdx.y * blockDim.y + threadIdx.y;

    printf("block idx: (%3d, %3d, %3d), thread idx: %3d, cord: (%3d, %3d)\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         index, x, y);
}

完整的 .cu 文件如下：

#include 
#include 

__global__ void print_cord_kernel(){
    int index = threadIdx.z * blockDim.x * blockDim.y + \
              threadIdx.y * blockDim.x + \
              threadIdx.x;

    int x  = blockIdx.x * blockDim.x + threadIdx.x;
    int y  = blockIdx.y * blockDim.y + threadIdx.y;

    printf("block idx: (%3d, %3d, %3d), thread idx: %3d, cord: (%3d, %3d)\n",
         blockIdx.z, blockIdx.y, blockIdx.x,
         index, x, y);
}

void print_cord(){
    int inputWidth = 4;

    int blockDim = 2;
    int gridDim = inputWidth / blockDim;

    dim3 block(blockDim, blockDim);
    dim3 grid(gridDim, gridDim);

    print_cord_kernel<<<grid, block>>>();

    cudaDeviceSynchronize();
}

int main() {
     print_cord();
    return 0;
}

你可能感兴趣的:(Cuda与TensorRT,学习,算法,人工智能)

第23节课：前端调试技巧—掌握浏览器开发者工具与性能优化学问小小谢 HTML学习前端性能优化交互 html5 安全学习
目录浏览器开发者工具常见的浏览器开发者工具浏览器开发者工具的基本使用打开开发者工具开发者工具的面板使用开发者工具进行调试Elements面板检查和编辑HTML检查和编辑CSSConsole面板输出日志和调试信息执行JavaScript代码Network面板监控网络请求分析请求和响应Performance面板记录和分析性能优化性能Application面板检查和管理资源调试存储性能优化与调试性能优化
第22节课：前端测试与调试—确保代码质量和性能的关键学问小小谢 HTML学习前端学习服务器运维网络
目录前端测试的重要性测试类型：单元测试与集成测试单元测试单元测试的优点单元测试的实践集成测试集成测试的优点集成测试的实践测试框架：Jest与MochaJestJest的特点Jest的安装与使用MochaMocha的特点Mocha的安装与使用实践：使用Jest和Mocha进行前端测试示例：使用Jest进行单元测试示例：使用Mocha进行集成测试结语在现代软件开发中，测试和调试是确保代码质量和性能的关
第2节课：文本内容与格式化——HTML中的文本处理技巧学问小小谢 HTML学习 html 前端学习
目录文本内容与格式化：段落和标题：构建文本基础段落``标题``到``格式化：强调和样式加粗``斜体``下划线``列表：组织内容无序列表``有序列表``定义列表``实践：创建一个内容丰富的网页结语文本内容与格式化：在网页设计中，文本是传达信息的核心元素。HTML提供了多种方式来创建和格式化文本，使其既美观又易于阅读。在本节课中，我们将深入学习HTML中文本内容的创建和格式化，包括段落、标题、加粗、斜
使用 Nginx 实现动态图片加水印：技术探索与实践指南20250122 Narutolxy 前端技术干货分享 nginx 运维
使用Nginx实现动态图片加水印：技术探索与实践指南引言图片水印是一种广泛应用于保护图片隐私、防止盗用的重要手段。传统方式通常通过前端或后端实现水印处理，但两者各有局限性。本文探讨了一种基于Nginx的折中方案：通过Nginx代理拦截图片请求，动态添加水印并返回给前端。这种方法不仅安全高效，还能减轻后端压力，为开发者提供了一种灵活的实践思路。背景与问题分析在图片加水印的场景中，常见的实现方式包括：
Gradle依赖管理 & Kotlin DSL解析超低空MC kotlin 开发语言 android gradle java 移动开发
公共组件库依赖管理公共组件库项目采用了单project多module的模块化开发形式,在这样的项目结构下,如何去维护模块及外部依赖是一个我们不能回避的问题.在组件库阶段一及阶段二的研发过程中,我们遇到了以下与依赖相关的问题:如何在开发过程中统一各组件模块中的依赖及版本如何高效的解决,在开发过程中依赖本地组件模块;测试/发布过程中使用远端依赖的问题针对问题一,可以采用通用的组件库，从而实现各个模块中
构建新纪元：Gradle中Kotlin插件的配置全指南 2402_85758936 kotlin 开发语言 android
构建新纪元：Gradle中Kotlin插件的配置全指南引言Kotlin，这门现代、简洁的语言，正在逐渐成为Java平台的有力补充。随着Kotlin在Android开发中的广泛采用，以及对服务器端和Web开发的支持，Kotlin插件在Gradle中的配置变得尤为重要。本文将深入探讨如何在Gradle中配置Kotlin插件，以充分利用Kotlin语言的强大功能。Kotlin与Gradle插件Kotli
电控---基础篇 kyle~ 嵌入式单片机嵌入式硬件
一、时钟时钟控制器(ResetClockControl,RCC)：1.有低速高速两种(highspeed,HS与LowSpeed,LS)低速用于实时时钟(RealTimeClock,RTC)高速用于定时器,UART,ADC等多种外设2.有内外部两种(Internal,I与External,E)（1）Disable不用外部时钟，则自启动（强制）使用MCU核心内部时钟一般是不准的代名词（2）Cryst
matlab学习路线 kyle~ matlab matlab 学习信息可视化
阶段1：基础入门（1-2周）目标：熟悉MATLAB界面、基础语法和简单操作。学习内容：环境与界面：了解MATLAB的桌面布局（命令窗口、工作区、编辑器、当前文件夹）。学习如何创建脚本（.m文件）和实时脚本（.mlx文件）。掌握常用快捷键（如Ctrl+R注释、F5运行脚本）。基础语法：变量定义与数据类型（数值、字符、逻辑、矩阵、cell数组、结构体）。矩阵操作（创建、索引、切片、拼接），例如：A=[
CVPR‘24开源 | ADA-Track：端到端3D多目标跟踪最新SOTA！计算机视觉工坊 3D视觉从入门到精通 3d 目标跟踪人工智能
编辑：计算机视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、3DGS系列、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！
linux防火墙禁止80端口入站,Linux中在防火墙中开启80端口的例子，linux80 在下乔西西
Linux中在防火墙中开启80端口的例子，linux80最近自己在学习Linux。搭建一个LNMP环境。在测试时一切都好。然后重启Linux后。再次访问网站无法打开。最终原因是在防火墙中没有加入80端口的规则。具体方法如下：在CentOS下配置iptables防火墙，是非常必要的。来我们学习如何配置！，其它版本一下：1.打开iptables的配置文件：代码如下复制代码vi/etc/sysconfi
1.“use strict“ 严格模式 - JS 个人意志想 #Little Points in JS 笔记开发语言 js 学习
JS严格模式JS严格模式是指令在JavaScript1.8.5（ECMAScript5、ES5）开始引入的；是一种旨在消除歧义、语法规范、维护安全的模式；通过语句"usestrict"进行声明。声明与作用域在文件头部声明，整个文件代码都要遵循严格模式；在函数内部开头声明，函数体遵循严格模式；函数的严格模式是最佳选择，没必要整个文件都严格，或者可以一个文件就写一个函数。限制不允许使用未声明的变量（对
组合总和 III - 深度优先搜索（DFS）解题思路与代码实现迪小莫学AI 深度优先算法
组合总和III-深度优先搜索（DFS）解题思路与代码实现问题描述给定一个整数k和一个目标数n，要求从数字1到9中找到所有可能的组合，组合的长度为k，并且所有数字之和为n。每个数字最多使用一次，且解集不能包含重复的组合。组合的顺序不重要。示例示例1：输入：k=3,n=7输出：[[1,2,4]]解释：1+2+4=7，只有这一种有效组合。示例2：输入：k=3,n=9输出：[[1,2,6],[1,3,5]
Elasticsearch from+size与scroll混合使用实现深度分页搜索爱喝咖啡的程序员 #分布式搜索引擎
目录一.需求二.思考三.实现方案一.需求环境准备:JDK1.8Elasticsearch7.3.1RestHighLevelClient客户端对Elasticsearch做深度分页，比如第1500页，每页20条记录，且需要支持前后翻页。二.思考由于index.max_result_window的限制，直接使用from+size无法搜索满足条件10000条以上的记录。如果贸然增大index.max_
22、JavaScript学习笔记——ES5严格模式 lvh98 javascript 学习前端
ES5严格模式当前使用的ES语法是基于ES3.0的方法加上ES5.0的新增方法。默认情况下，ES3.0和ES5.0冲突的部分，会沿用ES3.0的方法；而在ES5.0严格模式下，冲突部分会使用ES5.0的方法。1.“usestrict”不再兼容ES3.0的一些不规则语法。使用全新的ES5.0规范。1.1ES5.0严格模式的启动要选择使用严格模式，需要使用严格模式编译指示（pragma），即一个不赋值
FastAPI：一个贼快的Python Web框架程序媛千千 fastapi python
Python，作为一个强大而灵活的编程语言，提供了多种框架来简化Web开发过程。其中，FastAPI是一个很新但极其强大的库，它允许开发者以极简的代码高效地构建API。什么是FastAPI？FastAPI是一个现代、快速（高性能）的Web框架，用于构建API与Web应用程序。它基于标准Python类型提示这一特性，提供了多项功能，如数据验证、序列化、文档生成等。为什么选择FastAPI？速度：Fa
深入探索SQL中修改表字段属性的技巧与策略不一样的信息安全数据库 oracle sql
摘要在SQL中，修改表字段属性是一项常见的数据库管理任务。用户可以调整字段的数据类型、长度、默认值或注释，而无需更改字段名称。例如，varchar类型可转换为mediumtext或text，NVARCHAR2类型可转换为NCLOB。若需同时变更字段名称及其属性，亦可通过特定SQL语句实现。此外，修改字段的默认值同样可行。这些操作有助于优化数据库结构，提升数据存储和查询效率。关键词SQL修改字段,数
一个真正可用的docker-compse部署单机版kafka 版本2.x garen_dimon 软件研究 docker kafka 容器
注意：kafka3.x版本，Kafka3.x需要Java11或更高版本。确保系统已安装合适的Java版本。Kafka3.x推荐使用ZooKeeper3.5.x或更高版本。确保ZooKeeper集群与Kafka版本兼容。如果你计划使用KRaft模式替换传统的ZooKeeper模式，请确保你已经了解新模式的要求和配置。在网上搜索单机docker-compose部署kafka，出现最多的内容如下：ver
用SpringBoot+mysql+html实现ATM 系统总结与扩展 SAFE20242034 #一 SpringBoot spring boot mysql html
这里写目录标题ATM系统总结与扩展项目概述主要功能模块1.用户注册2.用户登录3.账户查询4.存款与取款5.转账6.修改密码7.销户系统改进建议功能扩展技术优化完整代码实现数据库表设计后端代码（SpringBoot示例）1.Account实体类2.AccountRepository接口3.AccountController类前端代码（HTML+JavaScript示例）实际开发与部署步骤**1.开
Java 核心与应用：Java 继承与多态码力全開《Java 核心与应用》java python 开发语言
目录Java核心与应用：Java继承与多态引言1.Java继承基础1.1什么是继承？1.1.1继承的语法1.1.2继承的类型1.2方法重写（Override）1.2.1方法重写的规则1.2.2方法重写vs方法重载1.3继承体系中的构造方法调用链1.3.1构造方法调用链的执行顺序1.4动态绑定原理与虚方法表1.4.1动态绑定的实现原理1.4.2虚方法表的结构1.5继承的缺陷与组合优于继承原则1.5.
Python3 【集合】项目实战：3 个新颖的学习案例李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享案例学习编程技巧
Python3【集合】项目实战：3个新颖的学习案例以下是3个应用“Python集合”知识的综合应用项目，这些项目具有新颖性、前瞻性和实用性，每个项目都包含完整的代码、解释说明、测试案例和执行结果。基因序列比对文章推荐系统运行日志分析项目1：基因序列比对（集合运算与去重）项目描述在生物信息学中，比对两个基因序列的相似性。使用集合的交集和并集计算相似度。代码实现#基因序列（简化为字符串集合）seque
spring mvc java 8 rest idea_springmvc学习笔记---面向移动端支持REST API 射命丸咲 spring mvc java 8 rest idea
前言:springmvc对注解的支持非常灵活和飘逸,也得web编程少了以往很大一坨配置项.另一方面移动互联网的到来,使得RESTAPI变得流行,甚至成为主流.因此我们来关注下springmvc对restapi的支持程度,以及需要做的工作评估.样例设计和准备:springmvc学习笔记系列的文章目录:•idea创建springmvc项目RESTAPI的设计原则遵循之前的博文来实现•移动互联网实战--
Spark Streaming的背压机制的原理与实现代码及分析 weixin_30777913 spark 大数据 python
SparkStreaming的背压机制是一种根据JobScheduler反馈的作业执行信息来动态调整Receiver数据接收率的机制。在Spark1.5.0及以上版本中，可以通过设置spark.streaming.backpressure.enabled为true来启用背压机制。当启用背压机制时，SparkStreaming会自动根据系统的处理能力来调整数据的输入速率，从而在流量高峰时保证最大的吞
30【进程名和进程id（pid）】学编程的闹钟从零开始学编程语言学习
进程名是由程序被启动时的文件名决定的，比如，桌面有一个文件1.exe，那么当1.exe被运行的时候，这个程序的进程名就是1.exe，所以进程名可以重复而进程id（pid）则是每个运行的程序有系统随机分配的一个唯一id（即每次运行不一样），与窗口句柄一样具备唯一性，是用来定位软件的
2020 年 12 月大学英语四级考试真题（第 1 套）——纯享题目版 fo安方英语—四级CET4 学习四级生活
个人主页：fo安方的博客✨个人简历：大家好，我是fo安方，目前中南大学MBA在读，也考取过HCIECloudComputing、CCIESecurity、PMP、CISP、RHCE、CCNPRS、PEST3等证书。兴趣爱好：b站天天刷，题目常常看，运动偶尔做，学习需劳心，寻觅些乐趣。欢迎大家：这里是CSDN，是我记录我的日常学习，偶尔生活的地方，喜欢的话请一键三连，有问题请评论区讨论。导读页：这是
2022 年 6 月大学英语四级考试真题（第 2 套）——纯享题目版 fo安方英语—四级CET4 生活学习四级
个人主页：fo安方的博客✨个人简历：大家好，我是fo安方，目前中南大学MBA在读，也考取过HCIECloudComputing、CCIESecurity、PMP、CISP、RHCE、CCNPRS、PEST3等证书。兴趣爱好：b站天天刷，题目常常看，运动偶尔做，学习需劳心，寻觅些乐趣。欢迎大家：这里是CSDN，是我记录我的日常学习，偶尔生活的地方，喜欢的话请一键三连，有问题请评论区讨论。导读页：这是
2023 年 6 月大学英语四级考试真题（第 3 套）——纯享题目版 fo安方英语—四级CET4 学习生活英语四级
个人主页：fo安方的博客✨个人简历：大家好，我是fo安方，目前中南大学MBA在读，也考取过HCIECloudComputing、CCIESecurity、PMP、CISP、RHCE、CCNPRS、PEST3等证书。兴趣爱好：b站天天刷，题目常常看，运动偶尔做，学习需劳心，寻觅些乐趣。欢迎大家：这里是CSDN，是我记录我的日常学习，偶尔生活的地方，喜欢的话请一键三连，有问题请评论区讨论。导读页：这是
2022 年 12 月大学英语四级考试真题（第 3 套）——纯享题目版 fo安方英语—四级CET4 学习生活
个人主页：fo安方的博客✨个人简历：大家好，我是fo安方，目前中南大学MBA在读，也考取过HCIECloudComputing、CCIESecurity、PMP、CISP、RHCE、CCNPRS、PEST3等证书。兴趣爱好：b站天天刷，题目常常看，运动偶尔做，学习需劳心，寻觅些乐趣。欢迎大家：这里是CSDN，是我记录我的日常学习，偶尔生活的地方，喜欢的话请一键三连，有问题请评论区讨论。导读页：这是
用友NC checkekey SQL 注入漏洞 403_found 漏洞复现 sql 数据库
免责声明本文旨在提供有关特定漏洞的深入信息，帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步，未经授权访问系统、网络或应用程序，可能会导致法律责任或严重后果。因此，作者不对读者基于本文内容所采取的任何行为承担责任。读者在使用本文信息时，必须严格遵循适用的法律法规及服务协议，自行承担一切风险与责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。一，产品
研发团队管理：如何应对工期非合理要求程序猿学长团队管理研发管理研发团队管理
关注公众号程序猿学长，获取大量免费学习资源和更多文章内容。在销售主导型公司中，面对CEO要求“三个月完成本应半年的项目”，研发管理者需要采取“系统性谈判+结构化交付+风险显性化”的组合策略。以下是具体应对框架，含操作步骤、工具使用和典型案例：一、需求解构与优先级重塑1.需求价值四象限分析高价值+高紧急高价值+低紧急低价值+高紧急低价值+低紧急需求池商业价值评估核心MVP分阶段交付简化方案暂缓或放弃
HDFS的读写流程步骤（附图文解析） m0_67265464 面试学习路线阿里巴巴 hdfs hadoop 大数据面试 intellij-idea
1、HDFS的写入流程：详细步骤：client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；client请求第一个block该传输到哪些DataNode服务器上；NameNode根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的DataNode的地址，如：A，B，C；client请求3台DataNo
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin