看风景的人lsy

CUDA编程笔记

围绕图灵系显卡

常见术语

Streaming Multiprocessor (SM)：GPU中的处理器核心
Graphics Processing Clusters (GPCs)
Texture Processing Clusters (TPCs)
Raster Operations Units(ROPs)：光栅化处理单元。光栅化操作，是发生在模型完全建立，并且完成基本光照及对应纹理之后的操作环节。除了满足二维平面输出对坐标变换的要求之外，Rasterizer（光栅化）最大的意义在是：由于透视固有的视线前后遮蔽问题，建立好的模型存在很多看不到的部分，光栅化过程对Z值得判断，可以将这些看不到的部分剔除掉]

硬件概况

核心代号

产品型号	RTX 2080 Ti	RTX 2080	RTX 2070	RTX 2060	GTX 1660 Ti
核心代号	TU102	TU104	TU106	TU106	TU116

The TU104 and TU106 GPUs utilize the same basic architecture as TU102, scaled down to different degrees for different usage models and market segments.

硬件架构

Graphics Processing Cluster
├──	6 * Texture Processing Cluster
        ├──	2 * Streaming Multiprocessor
                ├── 64 CUDA Cores = 64 FP32 cores, 32 FP64 cores, 64 INT32 cores
                ├──	8 mixed-precision Tensor Cores
                ├── 1 RT Core
                ├──	64K 32-bit registers, a 256 KB register file
                ├──	4 texture units
                ├──	96 KB of L1/shared memory
                ├──	16 special function units for single-precision floating-point transcendental functions
                ├──	4 warp schedulers

memory controller
├──	8 ROP units
├──	512 KB of L2 cache

Traditional graphics workloads partition the 96 KB L1/shared memory as 64 KB of dedicated graphics shader RAM and 32 KB for texture cache and register file spill area. Compute workloads can divide the 96 KB into 32 KB shared memory and 64 KB L1 cache, or 64 KB shared memory and 32 KB L1 cache.

Turing Tensor Cores

用于加速矩阵运算，可用于神经网络训练和最后的推理
modes ： INT4, INT8, FP16
Deep Learning Super Sampling (DLSS)要用到该单元

RT Cores

用于光线追踪

新特性

独立的线程调度。一个warp的线程可以不同步地执行
hardware-accelerated Multi Process Service (MPS) with address space isolation for multiple applications
合作组(Cooperative Group)，可以轻易达到不同范围线程的同步
新的整数数据通道。使得浮点数指令计算可以和整数指令计算并行。可见最优性能部分

unify shared memory, texture caching, and memory load caching into one unit。对于常见工作，可以获得超过2倍的带宽和超过2倍的容量的L1缓存

deviceQuery

lsy@lsy-MS-7B79:~$ cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery
lsy@lsy-MS-7B79:/usr/local/cuda-10.0/samples/1_Utilities/deviceQuery$ ./deviceQuery 
./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce RTX 2060"
  CUDA Driver Version / Runtime Version          10.1 / 10.0
  CUDA Capability Major/Minor version number:    7.5
  Total amount of global memory:                 5901 MBytes (6188105728 bytes)
  (30) Multiprocessors, ( 64) CUDA Cores/MP:     1920 CUDA Cores
  GPU Max Clock rate:                            1710 MHz (1.71 GHz)
  Memory Clock rate:                             7001 Mhz
  Memory Bus Width:                              192-bit
  L2 Cache Size:                                 3145728 bytes (3M bytes)
  Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)
  Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers
  Total amount of constant memory:               65536 bytes(64 KBs)
  Total amount of shared memory per block:       49152 bytes(48 KBs)
  Total number of registers available per block: 65536(64*4 KBs)
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  1024
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 3 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device supports Compute Preemption:            Yes
  Supports Cooperative Kernel Launch:            Yes
  Supports MultiDevice Co-op Kernel Launch:      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 29 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 10.1, CUDA Runtime Version = 10.0, NumDevs = 1
Result = PASS

Device 0: "GeForce GTX 1660 Ti"
  CUDA Driver Version / Runtime Version          10.1 / 10.1
  CUDA Capability Major/Minor version number:    7.5
  Total amount of global memory:                 5945 MBytes (6233391104 bytes)
  (24) Multiprocessors, ( 64) CUDA Cores/MP:     1536 CUDA Cores
  GPU Max Clock rate:                            1455 MHz (1.46 GHz)
  Memory Clock rate:                             6001 Mhz
  Memory Bus Width:                              192-bit
  L2 Cache Size:                                 1572864 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)
  Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  1024
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 3 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device supports Compute Preemption:            Yes
  Supports Cooperative Kernel Launch:            Yes
  Supports MultiDevice Co-op Kernel Launch:      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 10.1, CUDA Runtime Version = 10.1, NumDevs = 1
Result = PASS

CPU vs GPU

GPU适合处理的问题应该具有一下2个特点：

数据并行计算
高的算数强度：the ratio of arithmetic operations to memory operations

GPU劣势：缓存小，memory access latency 更大一些；逻辑控制能力差

目标：做完x份数学试卷

CPU 计算单元 = 数学教授， GPU 计算单元 = 20 个中学生，一份试卷必须由单个人完成

CPU缓存大 = 做完一份后，去取下一份试卷花费的时间少

如果 x = 1，那么CPU更快。

如果 x = 1000，那么GPU更快。在计算过程中，取下一份试卷期间，20 个中学生大概率是有试卷在做的。所以，内存延迟就被掩盖掉了（即使延迟更低，也不会起到作用）

计算能力

Turing架构的显卡计算能力的为sm_75等。它代表了GPU的支持特征（如动态并行、半精度浮点数等）和技术规格（最多可并行的核函数数量、每个大核的32位寄存器个数）

NVCC 和 runtime

通过提供了c语言的扩展集和运行时库，帮助熟悉c语言的程序员编写在GPU上运行的程序。

nvcc

包含c语言扩展特性的源文件都要通过nvcc进行编译。nvcc是编译器驱动，提供和gcc类似的命令行选项，调用其它工具来实现不同阶段的编译。

线下编译：分离设备代码和主机代码
- 设备代码 ----编译为----> PTX code 或 cubin object
- 主机代码：核函数<<<...>>>执行 ----修改为----> 调用核函数的运行时函数
- 可以选择继续让主机编译器编译主机代码
just-in-time 编译： Any PTX code loaded by an application at runtime is compiled further to binary code by the device driver. This is called just-in-time compilation.

runtime

运行时库内容：C functions that execute on the host to allocate and deallocate device memory, transfer data between host memory and device memory, manage systems with multiple devices, etc.

初始化时间：运行时在一个运行时函数(more specifically any function other than functions from the device and version management sections of the reference manual) 第一次被调用的时候初始化。
初始化内容：为系统中的每个设备创建一个CUDA环境（被该应用的所有线程共享）；设备代码（PTX则需编译）传送到设备内存

执行模型

多线程程序（核函数）被分成多个线程块独立地执行。

核函数

// Kernel definition
__global__ void VecAdd(float* A, float* B, float* C)
{	int i = threadIdx.x;	C[i] = A[i] + B[i];	}

int main()
{
    ...
    // Kernel invocation with N threads
    VecAdd<<<1, N>>>(A, B, C);
    ...
}

__global__、threadIdx和<<>>是CUDA C对c语言的扩展。

线程层次

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Sw6356ni-1576298749030)(image/grid-of-thread-blocks.png)]

从大到小：grid > block > thread。核函数中与之对应的内置类型变量是blockIdx 、blockDim 、threadIdx。

线程块之间是独立进行；线程块内的线程必须同时存在同一个SM上，且它们之间可以共享该block的shared memory，并通过__syncthreads同步。线程的执行是以warp为单位进行的（分配线程资源以warp为单位）。线程块占用的资源(线程个数、共享内存、寄存器个数/线程)会影响程序执行的效率，见最优性能

warp

线程的创建、管理、调度和执行是warp为单位进行的。每个线程都有独立的指令地址计数器和寄存器状态，但是共享一个程序计数器（sm7.0之前）和一个活跃mask（标识活跃的线程）。

在7.0之前，同一个warp的线程是同步执行的，存在warp范围的线程同步。如果warp内发生线程分歧，则在某一执行路线中处于未活跃的线程仍要执行指令（浪费计算资源），只是不用读写数据。

7.0及之后，每个线程拥有独立的程序计数器和调用栈。因此，实现了独立线程粒度的调度（执行），可以更好地利用计算资源和同一warp线程间的通信。 schedule optimizer determines how to group active threads from the same warp together into SIMT units.

独立线程调度

Independent Thread Scheduling目前只有sm_7.0+的设备支持。这使得warp内的线程可以不同步地进行。当然可以选择不使用这个特征。

好处：不用考虑束内分歧，simplifying code changes when porting CPU code
注意：warp内线程不在是隐式地同步了

同步

warp vote functions：warp内线程以predicate作为输入，与0进行比较

int __all_sync(unsigned mask, int predicate);  //if 在mask中且活动的线程 的predicate都大于0，则返回非零值
int __any_sync(unsigned mask, int predicate);  //mask有32位，第i位标识第i个线程是否参与同步
unsigned __ballot_sync(unsigned mask, int predicate);
unsigned __activemask();

__syncwarp()同步warp内线程

block

一个SM可以存在多少个block，依赖于核函数需要的寄存器数量和block的共享内存大小，SM本身的资源和技术规格。如果一个SM不可以满足一个block，则程序不能执行。

block被分为一个或多个warp执行。

同步

__syncthreads()：7.0之前的设备是warp间的同步，只要warp内的一个线程到达该障碍点即可。7.0及之后，则是线程的同步

存储模型

参数基于RTX2060

以可见性划分：

线程：local memory，最多为512 KB；寄存器数据
线程块：共享内存
线程格：global memory

另外2种特殊内存：纹理内存和常量内存

local memory

设备代码的自动变量（一般在寄存器中，单线程最多255个寄存器）有可能存储在局部内存，有3种情况：动态定义的数组；大型数组和结构；寄存器溢出后其它内容。加上编译选项--ptxas-options=-v可看。

大小：单线程最多512KB
位置：reside in device memory
缓存：L2缓存
组织：Local memory is however organized such that consecutive 32-bit words are accessed by consecutive thread IDs. Accesses are therefore fully coalesced as long as all threads in a warp access the same relative address

global memory

大小：Total amount of global memory: 5901 MBytes (6188105728 bytes)
位置：reside in device memory
缓存：L2缓存，只读数据 can also be cached in the unified L1/texture cache（用__ldg()或编译器自动优化）。加上编译器选项-Xptxas -dlcm=ca，所有数据均可以缓存在 the unified L1/texture cache
优点：容量大，DDR6
访问：
- 192位的内存总线宽度，由3个64位的内存通道组成
- cache line is 128 bytes。需要128字节对齐
- memory transaction大小：如果在L1和L2缓存，则为128字节。否则为32字节
非原子操作：非原子写，如果warp中的多个线程写入同一个位置，只有一个线程写，且该线程未知

shared memory

大小：Maximum amount of shared memory per multiprocessor = 64KB。可以手动调整( cudaFuncSetAttribute()，核函数粒度 )，同时编译器也进行自动调整
位置：L1缓存，和L1缓存共有96KB的空间。``The remaining data cache serves as an L1 cache and is also used by the texture unit that implements the various addressing and data filtering modes`
缓存：自己就是
优点：带宽大，延迟低。32 banks that are organized such that successive 32-bit words map to successive banks. Each bank has a bandwidth of 32 bits per clock cycle.。且有广播机制
使用：避免访问冲突，即同时访问同一个bank的多个数据

constant memory

大小：整个设备上为Constant memory size = 64 KB
位置：专用的Constant memory
缓存：专用的缓存，Cache working set per multiprocessor for constant memory = 8 KB

a read-only constant cache that is shared by all functional units and speeds up reads from the constant memory space, which resides in device memory,

优点：如果一个warp的线程访问同一个内存数据，可以通过广播降低访问量；但是如果请求不同内存数据，则需要分为多次执行A request is then split into as many separate requests as there are different memory addresses in the initial request, decreasing throughput by a factor equal to the number of separate requests.

texture and surface memory

区别：纹理内存是只读的，表面内存可读写。纹理内存支持硬件滤波和插值
大小：受SM技术规格限制，

Maximum Texture Dimension Size (x,y,z) 1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)
位置：reside in device memory
缓存：专用的缓存，Cache working set per multiprocessor for texture memory = 32KB
优点：纹理缓存针对2D空间的局部性进行优化；有专用的单元计算地址空间；广播；自动滤波和插值
使用：有2种API用来访问纹理和表面内存，纹理引用API（有限制）和纹理对象API

纹理拾取：CUDA 数组对纹理拾取有优化，并且在设备端只能通过纹理拾取访问。线性内存则无优化

纹理对象需要提供什么？
- 要被拾取的纹理（一段纹理内存）
- 纹理的维度，
- 纹理元素的类型
- 读取模式：cudaReadModeNormalizedFloat or cudaReadModeElementType
- 纹理坐标模式：normalized or not。都是浮点数坐标
- 寻址模式：对越界元素的处理，cudaAddressModeBorder, cudaAddressModeClamp, cudaAddressModeWrap, and cudaAddressModeMirror
- 滤波模式：cudaFilterModePoint or cudaFilterModeLinear
texture object API：A texture object is created using cudaCreateTextureObject() from a resource description of typestruct cudaResourceDesc, which specifies the texture, and from a texture description cudaTextureDesc

// Allocate CUDA array in device memory
cudaChannelFormatDesc channelDesc =
	cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat);
cudaArray* cuArray;
cudaMallocArray(&cuArray, &channelDesc, width, height);

// Copy to device memory some data located at address h_data
// in host memory 
cudaMemcpyToArray(cuArray, 0, 0, h_data, size, cudaMemcpyHostToDevice);

// Specify texture
struct cudaResourceDesc resDesc;
memset(&resDesc, 0, sizeof(resDesc));
resDesc.resType = cudaResourceTypeArray;
resDesc.res.array.array = cuArray;

// Specify texture object parameters
struct cudaTextureDesc texDesc;
memset(&texDesc, 0, sizeof(texDesc));
texDesc.addressMode[0]   = cudaAddressModeWrap;
texDesc.addressMode[1]   = cudaAddressModeWrap;
texDesc.filterMode       = cudaFilterModeLinear;
texDesc.readMode         = cudaReadModeElementType;
texDesc.normalizedCoords = 1;

// Create texture object
cudaTextureObject_t texObj = 0;
    cudaCreateTextureObject(&texObj, &resDesc, &texDesc, NULL);

// Destroy texture object
cudaDestroyTextureObject(texObj);

// Free device memory
cudaFreeArray(cuArray);

texture reference API：

纹理引用的一些参数必须在编译时已知，且运行时不变。因此，必须提前声明为全局静态变量。另外的限制是不能作为函数参数

texture<DataType, Type, ReadMode> texRef;

绑定CUDA arrays

texture<float, cudaTextureType2D,
        cudaReadModeElementType> texRef;
// Set texture reference parameters
texRef.addressMode[0] = cudaAddressModeWrap;
texRef.addressMode[1] = cudaAddressModeWrap;
texRef.filterMode     = cudaFilterModeLinear;
texRef.normalized     = true;
cudaBindTextureToArray(texRef, cuArray);
cudaUnbindTexture(texRef);

任务并行

可并行的任务

以下操作可以看作独立的任务，可以并行执行：

Computation on the host;
Computation on the device;
Memory transfers from the host to the device;
Memory transfers from the device to the host;
Memory transfers within the memory of a given device;
Memory transfers among devices.

主机和设备的并行执行

通过相对于主机的异步操作实现，异步操作是在设备完成任务之前就返回控制权，使得主机继续向下执行。主机和设备之间的异步操作如下：

Kernel launches;（可以通过设置环境变量禁止异步；在用分析工具的时候，除非运行并行核函数分析，否则是同步的）
Memory copies within a single device’s memory;
Memory copies from host to device of a memory block of 64 KB or less;
Memory copies performed by functions that are suffixed with Async;（如果主机内存不是页锁定的，则是同步的）
Memory set function calls.

核函数并行

同一个CUDA环境（相当于CPU的同一进程）下的核函数可以并行执行。SM75下，最大并行数量是128。

Kernels that use many textures or a large amount of local memory are less likely to execute concurrently with other kernels.

数据传输和核函数并行

设备内数据传输，只需要设备支持核函数并行，即可与核函数并行执行。

主机和设备的数据传输，需要asyncEngineCount大于0，才可与核函数并行执行。主机内存必须是页锁定的

数据传输并行

asyncEngineCount大于等于2。主机内存必须是页锁定的

流和事件

需要通过流来实现后3种类型的任务并行。流是按顺序执行的一系列命令。不同流的命令可以并行执行。

cudaStream_t stream[2];
for (int i = 0; i < 2; ++i)
    cudaStreamCreate(&stream[i]);
float* hostPtr;
cudaMallocHost(&hostPtr, 2 * size);

for (int i = 0; i < 2; ++i) {
    cudaMemcpyAsync(inputDevPtr + i * size, hostPtr + i * size,
                    size, cudaMemcpyHostToDevice, stream[i]);
    MyKernel <<<100, 512, 0, stream[i]>>>
          (outputDevPtr + i * size, inputDevPtr + i * size, size);
    cudaMemcpyAsync(hostPtr + i * size, outputDevPtr + i * size,
                    size, cudaMemcpyDeviceToHost, stream[i]);
}

for (int i = 0; i < 2; ++i)
    cudaStreamDestroy(stream[i]);

默认流

当执行相关cuda c函数，不指定流参数的时候，命令被发送到默认流上。可以通过编译选项，选择不同类型的默认流：

--default-stream per-thread：默认流是常规流，每个主机线程拥有一个默认流
--default-stream legacy：默认流是特殊流，NULL流。每个设备拥有一个NULL流，被所有主机线程共享。NULL流可以引发隐式同步

显式同步

下面的流中命令的顺序是主机代码发布命令的顺序

cudaDeviceSynchronize()：主机代码等待所有主机线程上的所有流的前面命令执行完
cudaStreamSynchronize()：主机代码等待指定流的前面命令执行完
cudaStreamWaitEvent()：指定流之后的命令等待事件完成。如果是NULL流，则所有流的之后命令等待事件完成
cudaStreamQuery()：判断指定流的前面命令是否完成，无同步

隐式同步

不同流的2个命令不能并行执行，如果主机线程在它们之间发出了以下操作：

a page-locked host memory allocation,
a device memory allocation,
a device memory set,
a memory copy between two addresses to the same device memory,
any CUDA command to the NULL stream,
a switch between the L1/shared memory configurations

流这部分看 <<专业 CUDA C 编程 >>更好

回调

回调函数在主机上执行。回调可以插入到一个流的任意节点。当该流之前的操作完成，则会调用回调函数。该命令有同步的作用，即推迟该流之后命令的执行，直到回调完成。如果流是NULL流，则等待和推迟的命令范围扩大为所有流的命令

void CUDART_CB MyCallback(cudaStream_t stream, cudaError_t status, void *data){
    printf("Inside callback %d\n", (size_t)data);
}
...
for (size_t i = 0; i < 2; ++i) {
    cudaMemcpyAsync(devPtrIn[i], hostPtr[i], size, cudaMemcpyHostToDevice, stream[i]);
    MyKernel<<<100, 512, 0, stream[i]>>>(devPtrOut[i], devPtrIn[i], size);
    cudaMemcpyAsync(hostPtr[i], devPtrOut[i], size, cudaMemcpyDeviceToHost, stream[i]);
    cudaStreamAddCallback(stream[i], MyCallback, (void*)i, 0);
}

流的优先级

At runtime, as blocks in low-priority schemes finish, waiting blocks in higher-priority streams are scheduled in their place.

事件

可用于计时和流间同步

cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);

cudaEventRecord(start, 0);
for (int i = 0; i < 2; ++i) {
    cudaMemcpyAsync(inputDev + i * size, inputHost + i * size,
                    size, cudaMemcpyHostToDevice, stream[i]);
    MyKernel<<<100, 512, 0, stream[i]>>>
               (outputDev + i * size, inputDev + i * size, size);
    cudaMemcpyAsync(outputHost + i * size, outputDev + i * size,
                    size, cudaMemcpyDeviceToHost, stream[i]);
}
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
float elapsedTime;
cudaEventElapsedTime(&elapsedTime, start, stop);

cudaEventDestroy(start);
cudaEventDestroy(stop);

错误检查

所有的运行时函数返回错误代码，但是异步函数返回的错误代码反映了执行该函数之前的错误。这个错误可能是之前的异步函数产生的或者是该函数的参数错误。可以通过同步的方法确定该执行处是否有错误：cudaDeviceSynchronize()

运行时为每个主机线程保留了一个错误变量（初始化为cudaSuccess）。当错误发生的时候，它被重写。cudaPeekAtLastError返回该错误变量。cudaGetLastError返回并重置该错误变量。

最优性能

整数计算独立于浮点数计算。之前，浮点数数学运算和其它的简单计算 (integer adds for addressing and fetching data, floating point compare or min/max for processing results) 是不能同时进行的。Turing adds a second parallel execution unit next to every CUDA core that executes these instructions in parallel with floating point math.

the Turing SM adds a new independent integer datapath that can execute instructions concurrently with the floating-point math datapath. In previous generations, executing these instructions would have blocked floating-point instructions from issuing.

线程块资源：线程块的线程必须在同一个SM中。线程块占用的资源(线程个数、共享内存、寄存器个数/线程)会影响程序执行的效率。
- Register and shared memory usage are reported by the compiler when compiling with the ``-ptxas-options=-v `option。
- Register usage can be controlled using the maxrregcount compiler option or launch bounds
- 每个SM最多16个线程块、1024个线程、64KB共享内存、64K个32位寄存器。在图像处理中，如果一个block线程是32*32，那一个SM只能执行一个block。

性能指南

性能优化围绕3个基本策略：

Maximize parallel execution to achieve maximum utilization;
Optimize memory usage to achieve maximum memory throughput;
Optimize instruction usage to achieve maximum instruction throughput.

最大化利用率

应用应该进行更多的并行操作（尽量避免同步操作），并且并行操作可以映射到系统的不同单元。

应用级别：主机计算、设备计算、主机与设备之间的数据传输可以并行操作。串行工作交给CPU，并行交给GPU
设备级别：SM之间可以并行计算。通过流，使得多个核函数并行执行
SM级别：不同的计算单元之间可以并行。需要更多的warp驻扎在SM内
- 延迟掩盖：在每个指令发布时间，warp调度器选择准备执行下一条指令的warp，发布指令（2条）到该warp的活跃线程。共4个warp调度器，所以每个时钟周期，一个SM发布8条指令。延迟是warp得到下一条指令到开始执行该指令所等待的时钟周期个数。如果warp调度器在每个时钟周期都有指令发布，那么认为该延迟被掩盖掉了。当warp多的时候，可以使延迟“降低”
- 闲置：当在一个block范围同步时，SM上的另一个block可以继续执行。降低SM闲置的时间

最大化内存吞吐

尽快地传递需要的数据。应该减少低带宽通道的数据传输，同时，采用最优的内存访问模式（如纹理内存、共享内存，局部性(合并访问)、内存对齐等）

设备内存通过 32-, 64-, or 128-byte 的内存交易完成。一个warp内的内存访问(memory access)会被合并为一个或多个内存交易(memory transaction)
全局内存：全局内存指令支持 1, 2, 4, 8, or 16 bytes 的读写。因此，自定义的数据类型大小和内存对齐应该留意（如果类型大小是32字节，数据是连续的，那么访问的内存就会交错，吞吐量降低）。通过CUDA 内存 API 分配的内存至少是256字节对齐的
局部内存：设备代码的自动变量（一般在寄存器中，单线程最多255个寄存器）有可能存储在局部内存，有3种情况：动态定义的数组；大型数组和结构；寄存器溢出后其它内容。加上编译选项--ptxas-options=-v可看。
其它内存特点，可见存储模型

最大化指令吞吐

高效地（充分且不浪费）利用计算单元。如

减少吞吐量低的指令，如使用内置函数、单精度运算
减少warp内分歧（sm70之后，这个的影响减少）
减少指令个数，如避免同步、使用__restrict__
避免产生大量的相同指令，应该给任务分配比例适当的浮点数和整型计算，使得计算资源利用率提高
在精度允许的条件下：-ftz=true、-prec div=false、-prec-sqrt=false
__fdividef(x, y)比/更快。 -use_fast_math
rsqrtf()指令只有在-prec-div=false和-prec-sqrt=false下，才会产生（编译器把1.0/sqrtf()优化为该指令）
三角函数：尽量用单精度类型的。输入参数的单位为弧度，尽量不要太大，否则会进入慢的计算通道
整数算术：除法和取余会转换为20个指令，尽可能通过位运算优化
半精度算术：
类型转换：也是有对应指令的，尽量避免

C 语言扩展

函数执行空间说明符

Function execution space specifiers denote whether a function executes on the host or on the device and whether it is callable from the host or from the device.

__global__、__device__、__host__

变量内存空间声明符

__device__, __shared__ and __constant__

内置维度变量

gridDim blockDim blockIdx threadIdx warpSize

内存障碍函数

void __threadfence_block();  //前面的写对于block范围可见；前面的读有序
void __threadfence();  //除了块范围效果，前面的写对于设备范围可见。但仅仅保证顺序是这样，可能直接读缓存而发生错误
void __threadfence_system();  //除了块范围效果，前面的写对于系统范围可见

同步函数

void __syncthreads();  //阻塞，直到所有线程达到该点；之前的内存读写，block内可见; 块内线程必须都能（或都不）到达该点
int __syncthreads_count(int predicate);
int __syncthreads_and(int predicate);
int __syncthreads_or(int predicate);

void __syncwarp(unsigned mask=0xffffffff);  //束内同步； 不必所有束内线程一致执行该命令； 正在执行的线程必须等待mask内的线程执行完该函数

执行同步 + 内存读写可见

只读数据缓存函数

T __ldg(const T* address);

数据会被缓存到常量缓存

原子函数

原子函数在32位或64位的全局或共享内存上执行原子操作。

原子函数有自己对应的范围版本：atomicAdd_system() atomicAdd_block()

束内投票函数

int __all_sync(unsigned mask, int predicate);
int __any_sync(unsigned mask, int predicate);
unsigned __ballot_sync(unsigned mask, int predicate);
unsigned __activemask();

束内比较函数

unsigned int __match_any_sync(unsigned mask, T value);
unsigned int __match_all_sync(unsigned mask, T value, int *pred);

mask 指定了参与线程。函数只返回给活跃的参与线程（mask中的线程不必全部到达该点）

非参加的线程不必同步

束内交换函数

T __shfl_sync(unsigned mask, T var, int srcLane, int width=warpSize);
T __shfl_up_sync(unsigned mask, T var, unsigned int delta, int width=warpSize);  //目标lane = 本lane - delta
T __shfl_down_sync(unsigned mask, T var, unsigned int delta, int width=warpSize);
T __shfl_xor_sync(unsigned mask, T var, int laneMask, int width=warpSize);

束矩阵函数

利用 tensor core 计算矩阵D = A*B + C

分析计数函数

void __prof_trigger(int counter);

每个SM有16个硬件计数器

断言

void assert(int expression);

动态内存管理

void* malloc(size_t size);
void free(void* ptr);

执行配置

<<< Dg, Db, Ns, S >>>

启动限制

__global__ void
__launch_bounds__(maxThreadsPerBlock, minBlocksPerMultiprocessor)
MyKernel(...)
{
    ...
}

循环展开

#pragma unroll

你可能感兴趣的:(CUDA)

vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
jetson orin nano安装GPU版本的pytorch过程小鲈鱼- pytorch 人工智能 python
一、安装jetpack组件和安装CUDA/cuDNN可以参考下面这个博客「解析」JetsonOrinNX安装CUDA/cuDNN_jetsoncuda-CSDN博客二、安装Pytorch和torchaudio可以直接看官方给的步骤https://pytorch.org/audio/main/build.jetson.html
NVIDIA GeForce RTX 3090显卡详细介绍山顶望月川人工智能
一、详细参数（一）核心参数芯片厂商：NVIDIA显卡芯片：GeForceRTX3090显示芯片系列：NVIDIARTX30系列制作工艺：8纳米核心代号：GA102-300核心频率：基础频率1400MHz，加速频率1700MHzCUDA核心：10496个（二）显存规格显存频率：19500MHz显存类型：GDDR6X显存容量：24GB显存位宽：384bit最大分辨率：7680×4320（三）显卡接口接
【华为昇腾|CUDA】服务器A6000显卡部署LLM实战记录刘阿宾技能备忘服务器语言模型华为 gpu算力 kylin
安装驱动https://www.nvidia.cn/drivers/lookup/搜索对应gpu的kylin版本即可先使用wget下载rpm包rpm-i安装最后使用dnfinstallnvidia-driver即可上面安装的是驱动仓库安装CUDAkylin服务器参考配置同上，先wget，后rpm-i，最后dnfinstallcuda即可安装Ollamaollama官方提供aarch64docker
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Jetson Orin NX Super安装TensorRT-LLM u013250861 #LLM/部署&推理 elasticsearch 大数据搜索引擎
根据图片中显示的JetsonOrinNXSuper系统环境（JetPack6.2+CUDA12.6+TensorRT10.7），以下是针对该平台的TensorRT-LLM安装优化方案：一、环境适配调整基于你的实际配置：JetPack6.2（含CUDA12.6,TensorRT10.7）Python3.10.12aarch64架构需选择适配的TensorRT-LLM版本。由于官方预编译包可能未覆盖此
在 WSL2 中配置 CUDA 环境变量的两种方法（含多版本支持）新子y python 人工智能 linux
通过编辑~/.bashrc文件添加export语句来配置CUDA环境变量，然后用source~/.bashrc刷新环境。✅一：更完整的环境变量设置exportPATH=/home/yyf/.local/bin:$PATHexportCUDA_HOME=/usr/local/cuda-12.6exportPATH=$CUDA_HOME/bin:$PATHexportLD_LIBRARY_PATH=$
服务器无对应cuda版本安装pytorch-gpu[自用] 片月斜生梦泽南 pytorch
服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu安装1.x版本服务器无对应cuda版本安装pytorch-gpu网址GPU版本的pytorch、pytorchvision的下载链接https://download.pytorch.org/whl/
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备端内联函数，用于高效地计算两个uint类型值的带权重平均值。该函数返回两个无符号整数a和b的加权平均值，权重为：return(a*3+b)/4;函数原型__device____forceinline__uintc
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
DeepSeek 部署中的常见问题及解决方案 tonngw 后端
技术文章大纲：DeepSeek部署中的常见问题及解决方案引言简要介绍DeepSeek及其应用场景，说明部署过程中可能遇到的挑战。环境配置问题硬件兼容性问题：GPU型号、驱动版本不匹配的解决方案。依赖库冲突：Python版本、CUDA/cuDNN不兼容的排查方法。虚拟环境配置：Anaconda或Docker环境的最佳实践。模型加载与初始化问题预训练模型下载失败：网络代理设置、手动下载替代方案。显存不
PyTorch安装总失败？看完这篇保姆级教程，从0到1轻松搞定！喜欢编程就关注我 pytorch 人工智能 python
引言：为什么你装不好PyTorch？“CUDA版本不匹配？pip安装超时？conda环境冲突？”新手安装PyTorch的坑比代码bug还多！这篇博客整合CSDN高赞实战技巧，手把手教你绕过10大安装陷阱，附赠代码级验证指南！一、安装前必看：环境检查清单检查项操作方法Python版本python--version（推荐3.8-3.11）CUDA驱动nvidia-smi（仅NVIDIA显卡需要）con
ubuntu22.04从新系统到tensorflow GPU支持澍龑 tensorflow 人工智能
ubuntu22.04CUDA从驱动到tensorflow安装0系统常规设置和软件安装0.1挂载第二硬盘默认Home0.2软件安装0.3安装指定版本的python0.4python虚拟环境设置1直接安装1.1配置信息1.2驱动安装1.3集显显示，独显运算（其它debug用）1.4卸载驱动(备用，未试)日常使用ssh后台运行（断联不中断）0系统常规设置和软件安装0.1挂载第二硬盘默认Homesudo
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. weixin_66009678 pytorch 人工智能 python
出现如下报错：NVIDIAGeForceRTX3090withCUDAcapabilitysm_86isnotcompatiblewiththecurrentPyTorchinstallation.ThecurrentPyTorchinstallsupportsCUDAcapabilitiessm_37sm_50sm_60sm_70.IfyouwanttousetheNVIDIAGeForceRT
【CMake】CMake简介及使用示例晴雨日记 CMake c++
CMake简介CMake是一个跨平台的开源构建系统生成器，用于管理软件构建过程。它不直接编译代码，而是根据CMakeLists.txt文件生成标准构建文件（如Makefile、VisualStudio项目等），再调用底层工具（如gcc、MSVC）编译。核心优势：跨平台：支持Windows、Linux、macOS可扩展：支持C/C++/CUDA/Fortran等多种语言模块化：提供find_pack
开源 vGPU 方案 HAMi: core&memory 隔离测试探索云原生 AI kubernetes 容器云原生 gpu算力人工智能开源
本文主要对开源的vGPU方案HAMi的GPUCore&Memory隔离功能进行测试。省流：HAMivGPU方案提供的Core&Memory隔离基本符合预期：Core隔离：Pod能使用的算力会围绕设定值波动，但是一段时间内平均下来和申请的gpucores基本一致Memory隔离：Pod中申请的GPU内存超过设定值时会直接提示CUDAOOM1.环境准备简单说一下测试环境GPU：A40*2K8s：v1.
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
error -- unsupported GNU version gcc later than 10 are not supported；（gcc、g++）众人（某音、某书同名）服务器 linux 运维
服务器跑dit时编译flash-atten以及pytorch的cuda版本检查出错，分别报错题目以及如下：想了下是系统找不到编译器subprocess.CalledProcessError:Command'['which','c++']'returnednon-zeroexitstatus1.备案，以后有人要用12我还得换回来方案一：更改gcc和gcc+的版本没有合适的版本的话需要root权限指定
一文详解显卡（GPU）驱动（Driver）CUDA、PyTorch 四者之间的关系、依赖性、版本兼容性，以及如何通过命令查询各自版本等方面进行系统性总结番知了 pytorch 人工智能 python
目录一、四者的依赖关系概览简单理解：二、依赖链详细解释1.显卡（GPU）2.NVIDIA显卡驱动3.CUDAToolkit4.PyTorch三、版本兼容查询PyTorch与CUDA的兼容表四、版本查询命令（Linux/Windows）五、安装建议（实用路线）一、四者的依赖关系概览组件作用与其它组件的关系GPU(显卡)提供物理硬件（如NVIDIARTX4060）驱动必须支持你的显卡型号驱动Drive
VScode 里面使用 python 去直接调用 CUDA NeRF_er python vscode pytorch
上一个帖子主要分享了如何去将C++程序打包成一个package。我们最后的目的实际上是想把CUDA的程序打包成一个Package，C++程序只是起到了桥梁的作用：首先：CUDA程序和C++的程序一样，都有一个.cu的源文件和一个.h的头文件。我们的文件包含Cpp文件组成，负责当作CUDA和Python的桥梁。还有对应的CUDA的源代码文件和头文件。将这个cpp文件命名成ext.cpp.#inclu
查看电脑显卡(NVIDIA)应该匹配什么版本的CUDA Toolkit 发光的小豆芽 CUDA 电脑
被串行计算逼到要吐时，决定重拾CUDa了，想想那光速般的处理感觉（夸张了）不要太爽，记下我的闯关记录。正好我的电脑配了NVIDIA独显，GTX1650，有菜可以炒呀，没有英伟达的要绕道了。回到正题，查看自己的显卡应该装什么版本的Cuda驱动，具体如下：（1）在桌面空白处右键选中NVIDIA控制面（2）查看系统信息适配的CUDA版本说明显卡支持的cuda版本不能超过12.2.79。或者cmd进入窗口
疏锦行Python打卡 DAY 33 MLP神经网络的训练
importtorchtorch.cudaimporttorch#检查CUDA是否可用iftorch.cuda.is_available():print("CUDA可用！")#获取可用的CUDA设备数量device_count=torch.cuda.device_count()print(f"可用的CUDA设备数量:{device_count}")#获取当前使用的CUDA设备索引current_d
【Python训练营打卡】day33 @浙大疏锦行 2301_77865880 MyPython训练营打卡 python
DAY33简单的神经网络知识点回顾：1.PyTorch和cuda的安装2.查看显卡信息的命令行命令（cmd中使用）3.cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss过程预处理补充：注意事项：1.分类任务中，若标签是整数（如0/1/2
python打卡day52@浙大疏锦行风逸hhh python打卡60天行动 python 深度学习机器学习
知识点回顾：随机种子内参的初始化神经网络调参指南参数的分类调参的顺序各部分参数的调整心得神经网络调参核心实践一、全局随机种子设置（修改src/models/train.py）defset_seed(seed=42):torch.manual_seed(seed)torch.cuda.manual_seed_all(seed)np.random.seed(seed)random.seed(seed)
OpenCV CUDA模块设备层-----在GPU 上高效地执行两个 uint 类型值的最大值比较函数vmax2() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备端内联函数，用于在GPU上高效地执行两个uint类型值的最大值比较。该函数返回两个无符号整数a和b中的较大值：return(a>b)?a:b;函数原型__device____forceinline__uintcv
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f