一骑走烟尘

CUDA矩阵计算原理和方法

文章目录

基本概念

主机（host）
设备（device）
流式处理器（SP）
流式多处理器（SM）
线程（Thread）
线程块（Block）
线程格（Grid）
线程束（wrap）
函数修饰符

GPU内存的分类

全局内存（Global Memory）
共享内存（Shared Memory）
常量内存（Constant Memory）
纹理内存（Texture Memory）
固定内存

CUDA程序计算原理

CUDA程序执行过程
核函数（kernel）与SM
核函数（kernel）的调用
线程同步

win10+VS2017+CUDA10.0项目配置
CUDA常用函数介绍

cudaMalloc()函数
cudaFree()函数
cudaMemcpy()函数
cudaMallocManaged()函数

CUDA矩阵乘法实例

基本概念

主机（host）

将CPU及系统的内存（内存条）称为主机。

设备（device）

将GPU及GPU本身的显示内存称为设备。

流式处理器（SP）

流处理器SP（streaming processor,也叫CUDA core）是最基本的处理单元，最后具体的指令和任务都是在SP上处理的。GPU进行并行计算，也就是很多个SP同时做处理。

流式多处理器（SM）

多个SP加上其他的一些资源（warp，scheduler，register，shared memory等）组成一个SM（streaming multiprocessor）。也叫GPU大核。SM可以看做GPU的心脏（对比CPU核心），register和sharedmemory是SM的稀缺资源。CUDA将这些资源分配给所有驻留在SM中的threads。因此，这些有限的资源就使每个SM中active warps有非常严格的限制，也就限制了并行能力。
每个SM包含的SP数量依据GPU架构而不同，Fermi架构GF100是32个，GF10X是48个，Kepler架构都是192个，Maxwell都是128个。相同架构的GPU包含的SM数量则根据GPU的中高低端来定。在Maxwell架构中，Nvidia已经把SM改叫SMM。在软件逻辑上是所有SP是并行的，但是物理上并不是所有SP都能同时执行计算，因为有些会处于挂起，就绪等其他状态，这与GPU的线程调度有关。
GPU中每个sm都设计成支持数以百计的线程并行执行，并且每个GPU都包含了很多的SM，所以GPU支持成百上千的线程并行执行。当一个kernel启动后，thread会被分配到这些SM中执行。大量的thread可能会被分配到不同的SM，同一个block中的threads必然在同一个SM中并行（SIMT）执行。每个thread拥有它自己的程序计数器和状态寄存器，并且用该线程自己的数据执行指令，这就是所谓的Single Instruction Multiple Thread。
一个SP可以执行一个thread，但是实际上并不是所有的thread能够在同一时刻执行。Nvidia把32个threads组成一个warp，warp是调度和运行的基本单元。warp中所有threads并行的执行相同的指令。一个warp需要占用一个SM运行，多个warps需要轮流进入SM。由SM的硬件warp scheduler负责调度。目前每个warp包含32个threads（Nvidia保留修改数量的权利）。所以，一个GPU上resident thread最多只有SMxwarp个。

线程（Thread）

一般通过GPU的一个核进行处理。

线程块（Block）

由多个线程组成（可以表示成一维，二维，三维）；
各block是并行执行的，block间无法通信，也没有执行顺序；
线程块的数量限制为不超过65535（硬件限制）。

线程格（Grid）

由多个线程块组成（可以表示成一维，二维，三维）。

线程束（wrap）

在CUDA架构中，线程束是指一个包含32个线程的集合，这个线程集合被“编织在一起”并且“步调一致”的形式执行。在程序中的每一行，线程束中的每个线程都将在不同数据上执行相同的命令。

函数修饰符

在CUDA中，通过函数类型修饰符区分host和device上的函数:
__global__：在device上执行，从host中调用（一些特定的GPU也可以从device上调用），返回类型必须是void，不支持可变参数参数，不能成为类成员函数。注意用__global__定义的kernel是异步的，这意味着host不会等待kernel执行完就执行下一步。
__device__：在device上执行，单仅可以从device中调用，不可以和__global__同时用。
__host__：在host上执行，仅可以从host上调用，一般省略不写，不可以和__global__同时用，但可和__device__，此时函数会在device和host都编译。

GPU内存的分类

全局内存（Global Memory）

通俗意义上的设备内存。

共享内存（Shared Memory）

在设备内存上，以关键字__shared__添加到变量声明中。如__shared__ float cache[10]。对于GPU上启动的每个线程块，CUDA C编译器都将创建该共享变量的一个副本。线程块中的每个线程都共享这块内存，但线程却无法看到也不能修改其他线程块的变量副本。这样使得一个线程块中的多个线程能够在计算上通信和协作。

常量内存（Constant Memory）

在设备内存上，以关键字__constant__添加到变量声明中。如__constant__ float s[10];。常量内存定义的变量用于保存在核函数执行期间不会发生变化的数据。变量的访问限制为只读。NVIDIA硬件提供了64KB的常量内存。不再需要cudaMalloc()或者cudaFree(),而是在编译时，静态地分配空间。
常量内存其实只是全局内存的一种虚拟地址形式，并没有特殊保留的常量内存块。常量内存有两个特性，一个是高速缓存，另一个是它支持将单个值广播到线程束中的每个线程。当常量内存将数据分配或广播到线程束中的每个线程时（注意，实际上硬件会将单次内存读取操作广播到半个线程束），广播能够在单个周期内发生。当所有16个线程都读取相同地址时，这个功能可以极大提高性能，但当所有16个线程分别读取不同的地址时，它实际上会降低性能。如果半个线程束中的所有16个线程需要访问常量内存中的不同数据，那么这个16次不同的读取操作会被串行化，从而需要16倍的时间来发出请求。但如果从全局内存中读取，那么这些请求就会同时发出。这种情况下，从常量内存读取就会慢于从全局内存中读取。
注意:
当我们需要拷贝数据到常量内存中应该使用cudaMemcpyToSymbol()，而cudaMemcpy()会复制到全局内存。

纹理内存（Texture Memory）

纹理内存是另一种类型的只读内存，在特定的访问模式中（以下例子并非这种特定的访问模式），纹理内存同样能够提升性能。纹理内存缓存在芯片上，因此在某些情况中，它能够减少对内存的请求并提供更高效的内存带宽。纹理缓存是专门为那些在内存访问模式中存在大量空间局部性(Spatial Locality)的图形应用程序而设计的。在某个计算应用程序中，这意味着一个线程读取的位置可能与邻近线程的读取位置“非常接近”。举个例子，一个2x2矩阵的四个元素在地址上不是连续的，但是在空间位置上是互相相邻的，纹理缓存就是专门为了加速这种访问模式而设计的。如果在这种情况中使用纹理内存而不是全局内存，那么将会获得性能的提升。
纹理变量（引用）必须声明为文件作用域内的全局变量，其形式分为一维纹理内存和二维纹理内存。
一维纹理内存:
用texture<类型>类型声明，如texture texIn。通过cudaBindTexture()绑定到纹理内存中，通过tex1Dfetch()来读取纹理内存中的数据，通过cudaUnbindTexture()取消绑定纹理内存。
二维纹理内存
用texture<类型,数字>类型声明，如texture texIn。通过cudaBindTexture2D()绑定到纹理内存中，通过tex2D()来读取纹理内存中的数据，通过cudaUnbindTexture()取消绑定纹理内存。

固定内存

在主机内存上，也称为页锁定内存或者不可分页内存，操作系统将不会对这块内存分页并交换到磁盘上，从而确保了该内存始终驻留在物理内存中。因此操作系统能够安全地使某个应用程序访问该内存的物理地址，因为这块内存将不会破坏或者重新定位。
优点:
固定内存可以提高访问速度。由于GPU知道主机内存的物理地址，因此可以通过DMA（直接内存访问，Direct Memory Access)技术来在GPU和主机之间复制数据。由于DMA在执行复制时无需CPU介入。因此DMA复制过程中使用固定内存是非常重要的。
缺点:
使用固定内存，将失去虚拟内存的所有功能，系统将更快的耗尽内存。
注意:
对cudaMemcpy()函数调用中的源内存或者目标内存，才使用固定内存，并且在不再需要使用它们时立即释放。固定内存通过cudaHostAlloc()函数来分配；通过cudaFreeHost()释放。我们只能以异步方式对固定内存进行复制操作。

CUDA程序计算原理

CUDA程序执行过程

分配host内存，并进行数据初始化；
分配device内存，并从host将数据拷贝到device上；
调用CUDA的核函数在device上完成指定的运算；
将device上的运算结果拷贝到host上；
释放device和host上分配的内存。

核函数（kernel）与SM

kernel核函数是CUDA中一个重要的概念，kernel核函数是在device上线程中并行执行的函数，用__global__符号声明，在调用时需要用<<>>来指定一个kernel函数要执行的线程数量，在CUDA中，每个线程会分配一个唯一的线程号thread ID，这个ID值可以通过核函数的内置变量threadIdx来获得。
一个线程需要两个内置的坐标变量（blockIdx，threadIdx）来唯一标识，它们都是dim3类型变量，其中blockIdx指明线程所在grid中的位置，而threaIdx指明线程所在block中的位置。
每个线程有自己的私有本地内存（Local Memory），每个线程块有包含共享内存（Shared Memory）,可以被线程块中所有线程共享，其生命周期与线程块一致。此外，所有的线程都可以访问全局内存（Global Memory），还可以访问一些只读内存块：常量内存（Constant Memory）和纹理内存（Texture Memory）。
一个kernel核函数在device上执行时实际上启动了很多线程，一个kernel所启动的所有线程称为一个线程格（grid），同一个线程格上的线程共享相同的全局内存空间；一个线程格又分为很多线程块（block），一个线程块里面包含很多线程。
一个kernel核函数执行时会启动很多线程，这些线程是逻辑上并行的，但是在物理层上却不一定并行。但是一个GPU中存在很多CUDA核心（即SM），充分利用CUDA核心可以充分发挥GPU的并行计算能力。SM的核心组件包括CUDA核心，共享内存，寄存器等，SM可以并发地执行数百个线程，并发能力就取决于SM所拥有的资源数。
当一个kernel核函数被执行时，它的网格块（grid）中的线程块（block）被分配到SM上，一个线程块（block）只能在一个SM上被调度。有时一个kernel核函数的各个线程块（block）被分配多个SM，那么网格块（grid）只是逻辑层，而SM才是执行的物理层。
SM采用的是SIMT（Single-Instruction, Multiple-Thread，单指令多线程）架构，基本的执行单元是线程束（wraps），线程束包含32个线程，这些线程同时执行相同的指令，但是每个线程都包含自己的指令地址计数器和寄存器状态，也有自己独立的执行路径。所以尽管线程束（wraps）中的线程同时从同一程序地址执行，但是可能具有不同的行为，比如遇到了分支结构，一些线程可能进入这个分支，但是另外一些有可能不执行，它们只能死等，因为GPU规定线程束（wraps）中所有线程在同一周期执行相同的指令，线程束（wraps）分化会导致性能下降。
当线程块（block）被划分到某个SM上时，它将进一步划分为多个线程束（wraps），因为这才是SM的基本执行单元，但是一个SM同时并发的线程束（wraps）数是有限的。这是因为资源限制，SM要为每个线程块分配共享内存，而也要为每个线程束（wraps）中的线程分配独立的寄存器。所以SM的配置会影响其所支持的线程块和线程束并发数量。
从逻辑上划分，一个网格块（grid）包含多个线程块（block），一个线程块（block）包含有多个线程（Threads）。但是一个kernel核函数的所有线程在物理层不一定是同时并发的。因此，kernel核函数的网格块（grid）和线程块（block）的配置不同，性能会出现差异。另外，由于SM的基本执行单元是包含32个线程的线程束，所以线程块（block）大小一般要设置为32的倍数。

核函数（kernel）的调用

在VS2017的CUDA项目中启动kernel函数时要指定gridsize和blocksize，如:

 dim3 gridsize(2,2);
 dim3 blocksize(4,4);
Kernel << < gridSize, blocksize >> > (A, B, C);

这里的grid和block都是2D的。
gridsize相当于是一个2x2的block，gridDim.x，gridDim.y，gridDim.z相当于这个dim3的x，y，z方向的维度，这里是2x2x1。序号从0到3，且是从上到下的顺序，即grid中的blockidx序号标注情况为:

0     2
1     3

blocksize则是指block里面的线程(thread)的情况，blockDim.x，blockDim.y，blockDim.z相当于这个dim3的x，y，z方向的维度，这里是4x4x1.序号是0-15，即block中的threadidx序号标注情况为:

0      4       8      12 
1       5       9       13
2       6       10     14
3       7       11      15

确定线程的global ID:

int row = threadIdx.y + blockIdx.y * blockDim.y;
int col = threadIdx.x + blockIdx.x * blockDim.x;

ThreadID是线性增长的，其目的是用于在硬件和软件上唯一标识每一个线程。CUDA程序中任何一个时刻，每一个线程的ThreadIdx都是特定唯一标识的。Threads的唯一标识ThreadIdx的表达方式随着grid，block的划分维度而不同。

线程同步

线程同步是针对同一个线程块（block）中的所有线程而言的，因为只有同一个线程块（block）中的线程才能在有效的机制中共同访问共享内存（Shared Memory）。由于每一个线程（Thread）的生命周期长度是不相同的，线程（Thread）对共享内存（Shared Memory）的操作可能会导致读写的不一致，因此需要线程的同步，从而保证该block中所有线程同时结束。**

win10+VS2017+CUDA10.0项目配置

请先安装VS2017，一定要在安装CUDA前安装。
首先从这里下载CUDA10.0:https://developer.nvidia.com/cuda-10.0-download-archive 。按默认选项安装。然后下载CUDNN7.4.2 for CUDA10:https://developer.nvidia.com/rdp/cudnn-archive 。解压后复制到CUDA安装文件夹里。
在安CUDA装过程中，会自动检测本机是否已经安装了配套的VS版本其中之一，如果VS版本和Cuda版本不匹配的话，安装无法进行。
CUDA安装完成后在系统变量中应当会有下面两个变量，如果没有请自己添加上:

CUDA_PATH = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0
CUDA_PATH_V10_0 = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0

我们还要在系统变量中添加一个CUDNN变量:

CUDNN=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0

我们还需要在用户变量中添加下列变量:

CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.0
CUDA_LIB_PATH = %CUDA_PATH%\lib\x64
CUDA_BIN_PATH = %CUDA_PATH%\bin
CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64
CUDA_SDK_LIB_PATH = %CUDA_SDK_PATH%\common\lib\x64

添加完成后打开cmd，使用下列命令测试CUDA是否正常:

nvcc -V //正常显示版本号则说明安装成功
set cuda //可以查看设置的cuda环境变量
cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0\extras\demo_suite
deviceQuery.exe
bandwidthTest.exe
// 上面两行命令都返回Rsult=PASS则说明通过，返回Rsult=Fail则需要重新安装

打开VS2017，新建一个CUDA10.0 Runtime项目。新建项目时选择NVIDIA->CUDA 10.0->CUDA 10.0 Runtime。
在kernel.cu中添加下列代码：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include 

int main() {
	int deviceCount;
	cudaGetDeviceCount(&deviceCount);
	int dev;
	for (dev = 0; dev < deviceCount; dev++) {
		int driver_version(0), runtime_version(0);
		cudaDeviceProp deviceProp;
		cudaGetDeviceProperties(&deviceProp, dev);
		if (dev == 0)
			if (deviceProp.minor = 9999 && deviceProp.major == 9999)
				printf("\n");
		printf("\nDevice%d:\"%s\"\n", dev, deviceProp.name);
		cudaDriverGetVersion(&driver_version);
		printf("CUDA驱动版本:                                   %d.%d\n", driver_version / 1000, (driver_version % 1000) / 10);
		cudaRuntimeGetVersion(&runtime_version);
		printf("CUDA运行时版本:                                 %d.%d\n", runtime_version / 1000, (runtime_version % 1000) / 10);
		printf("设备计算能力:                                   %d.%d\n", deviceProp.major, deviceProp.minor);
		printf("Total amount of Global Memory:                  %u bytes\n", deviceProp.totalGlobalMem);
		printf("Number of SMs:                                  %d\n", deviceProp.multiProcessorCount);
		printf("Total amount of Constant Memory:                %u bytes\n", deviceProp.totalConstMem);
		printf("Total amount of Shared Memory per block:        %u bytes\n", deviceProp.sharedMemPerBlock);
		printf("Total number of registers available per block:  %d\n", deviceProp.regsPerBlock);
		printf("Warp size:                                      %d\n", deviceProp.warpSize);
		printf("Maximum number of threads per SM:               %d\n", deviceProp.maxThreadsPerMultiProcessor);
		printf("Maximum number of threads per block:            %d\n", deviceProp.maxThreadsPerBlock);
		printf("Maximum size of each dimension of a block:      %d x %d x %d\n", deviceProp.maxThreadsDim[0], deviceProp.maxThreadsDim[1], deviceProp.maxThreadsDim[2]);
		printf("Maximum size of each dimension of a grid:       %d x %d x %d\n", deviceProp.maxGridSize[0], deviceProp.maxGridSize[1], deviceProp.maxGridSize[2]);
		printf("Maximum memory pitch:                           %u bytes\n", deviceProp.memPitch);
		printf("Texture alignmemt:                              %u bytes\n", deviceProp.texturePitchAlignment);
		printf("Clock rate:                                     %.2f GHz\n", deviceProp.clockRate * 1e-6f);
		printf("Memory Clock rate:                              %.0f MHz\n", deviceProp.memoryClockRate * 1e-3f);
		printf("Memory Bus Width:                               %d-bit\n", deviceProp.memoryBusWidth);
	}
	return 0;
}

使用生成->重新生成(项目名)，调试->开始调试，运行结果如下:

Device0:"GeForce GTX 1070 with Max-Q Design"
CUDA驱动版本:                                   10.1
CUDA运行时版本:                                 10.0
设备计算能力:                                   6.0
Total amount of Global Memory:                  0 bytes
Number of SMs:                                  16
Total amount of Constant Memory:                65536 bytes
Total amount of Shared Memory per block:        49152 bytes
Total number of registers available per block:  65536
Warp size:                                      32
Maximum number of threads per SM:               2048
Maximum number of threads per block:            1024
Maximum size of each dimension of a block:      1024 x 1024 x 64
Maximum size of each dimension of a grid:       2147483647 x 65535 x 65535
Maximum memory pitch:                           2147483647 bytes
Texture alignmemt:                              32 bytes
Clock rate:                                     1.27 GHz
Memory Clock rate:                              4004 MHz
Memory Bus Width:                               256-bit

CUDA常用函数介绍

cudaMalloc()函数

函数原型:

cudaError_t cudaMalloc(void** devPtr, size_t size);

这个函数和C语言中的malloc类似，但是该函数是在device上申请一定字节大小的显存，devPtr是指向所分配内存的指针。可以将cudaMalloc()分配的指针传递给在设备/主机上执行的函数，也可以在设备代码中使用cudaMalloc()分配的指针进行设备内存读写操作。注意不可以在主机代码中使用cudaMalloc()分配的指针进行主机内存读写操作（即不能进行解引用）。

cudaFree()函数

函数原型:

cudaError_t cudaFree (void* devPtr);

与c语言中的free()函数一样，只是此函数释放的是cudaMalloc()分配的内存。

cudaMemcpy()函数

函数原型:

cudaError_t cudaMemcpy (void *dst, const void *src, size_t count, cudaMemcpyKind kind);

与c语言中的memcpy函数一样，只是此函数可以在主机内存和GPU内存之间互相拷贝数据。cudaMemcpyKind kind表示数据拷贝方向，若kind赋值为cudaMemcpyDeviceToHost表示数据从设备内存拷贝到主机内存。
该函数以同步方式执行，即当函数返回时，复制操作就已经完成了，并且在输出缓冲区中包含了复制进去的内容。相应的有个异步方式执行函数cudaMemcpyAsync()。

cudaMallocManaged()函数

函数原型:

cudaError_t cudaMallocManaged(void **devPtr, size_t size, unsigned int flag=0);

在最初的CUDA编程中，我们往往单独在host和device上进行内存分配，并且要进行将数据从host拷贝到device上，这很容易出错的。CUDA 6.0版本之后引入统一内存（Unified Memory）来避免这种麻烦，简单来说就是使用一个托管内存来共同管理host和device中的内存，并且自动在host和device中进行数据传输。CUDA中使用cudaMallocManaged()函数分配托管内存。
注意:
kernel核函数的执行是与host异步的，我们要在执行完kernel核函数后用cudaDeviceSynchronize()函数保证device和host同步，这样后面才可以正确访问kernel计算的结果。

CUDA矩阵乘法实例

我们要实现两个矩阵的乘法，设输入矩阵为A和B，要得到 C=AxB 。实现思路是每个线程计算C的一个元素值Cij，对于矩阵运算，应该选用grid和block为2-D。
计算步骤:
分配host内存，并进行数据初始化，分配device内存，并从host将数据拷贝到device上，实际代码中使用cudaMallocManaged()函数进行内存托管；
调用CUDA的kernel核函数在device上完成指定的运算；
同步device上的运算结果到host上，使用cudaDeviceSynchronize()函数来同步；
释放device和host上分配的内存，这步由前面定义的cudaMallocManaged()函数自动管理。
完整代码:

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include 
#include 

using namespace std;

// 打印显卡各项信息
void GetCudaImformation() {
	int deviceCount;
	cudaGetDeviceCount(&deviceCount);
	int dev;
	for (dev = 0; dev < deviceCount; dev++) {
		int driver_version(0), runtime_version(0);
		cudaDeviceProp deviceProp;
		cudaGetDeviceProperties(&deviceProp, dev);
		if (dev == 0)
			if (deviceProp.minor = 9999 && deviceProp.major == 9999)
				cout << endl;
		cout << "使用GPU device " << dev << ": " << deviceProp.name << endl;
		cudaDriverGetVersion(&driver_version);
		cout << "CUDA驱动版本:" << driver_version / 1000 << "." << (driver_version % 1000) / 10 << endl;
		cudaRuntimeGetVersion(&runtime_version);
		cout << "CUDA运行时版本:" << runtime_version / 1000 << "." << (runtime_version % 1000) / 10 << endl;
		cout << "设备计算能力:" << deviceProp.major << "." << deviceProp.minor << endl;
		cout << "显卡时钟频率:" << deviceProp.clockRate * 1e-6f << " GHz" << endl;
		cout << "内存时钟频率:" << deviceProp.memoryClockRate * 1e-3f << " MHz" << endl;
		cout << "内存总线带宽:" << deviceProp.memoryBusWidth << " bit" << endl;
		cout << "总显存大小:" << deviceProp.totalGlobalMem / (1024.0*1024.0) << " MB" << endl;
		cout << "总常量内存大小:" << deviceProp.totalConstMem / 1024.0 << " KB" << endl;
		cout << "SM数量:" << deviceProp.multiProcessorCount << endl;
		cout << "每个SM最大线程数:" << deviceProp.maxThreadsPerMultiProcessor << endl;
		cout << "每个线程块(block)共享内存大小:" << deviceProp.sharedMemPerBlock / 1024.0 << " KB" << endl;
		cout << "每个线程块(block)的最大线程数:" << deviceProp.maxThreadsPerBlock << endl;
		cout << "每个线程块(block)的最大可用寄存器数:" << deviceProp.regsPerBlock << endl;
		cout << "线程束(wrap)尺寸:" << deviceProp.warpSize << endl;
		cout << "每个线程块(block)各个维度最大尺寸:" << deviceProp.maxThreadsDim[0] << " x " << deviceProp.maxThreadsDim[1] << " x " << deviceProp.maxThreadsDim[2] << endl;
		cout << "每个线程格(grid)各个维度最大尺寸" << deviceProp.maxGridSize[0] << " x " << deviceProp.maxGridSize[1] << " x " << deviceProp.maxGridSize[2] << endl;
		cout << "最大存储间距:" << deviceProp.memPitch / (1024.0*1024.0) << " MB" << endl;
	}
}

// 矩阵类型,行优先,M(row, col) = *(M.elements + row * M.width + col)
struct Matrix {
	int width;
	int height;
	float *elements;
};

// 获取矩阵A的位置为(row, col)元素
__device__ float getElement(Matrix *A, int row, int col) {
	return A->elements[row * A->width + col];
}

// 为矩阵A的位置为(row, col)的元素赋值
__device__ void setElement(Matrix *A, int row, int col, float value) {
	A->elements[row * A->width + col] = value;
}

// 矩阵相乘kernel函数,2-D,每个线程计算一个元素Cij
__global__ void matMulKernel(Matrix *A, Matrix *B, Matrix *C) {
	float Cvalue = 0.0;
	int row = threadIdx.y + blockIdx.y * blockDim.y;
	int col = threadIdx.x + blockIdx.x * blockDim.x;
	for (int i = 0; i < A->width; ++i) {
		Cvalue += getElement(A, row, i) * getElement(B, i, col);
	}
	setElement(C, row, col, Cvalue);
}

int main() {
	GetCudaImformation();
	int width = 1 << 10;
	int height = 1 << 10;
	Matrix *A, *B, *C;
	// 申请托管内存
	cudaMallocManaged((void**)&A, sizeof(Matrix));
	cudaMallocManaged((void**)&B, sizeof(Matrix));
	cudaMallocManaged((void**)&C, sizeof(Matrix));
	int nBytes = width * height * sizeof(float);
	cudaMallocManaged((void**)&A->elements, nBytes);
	cudaMallocManaged((void**)&B->elements, nBytes);
	cudaMallocManaged((void**)&C->elements, nBytes);
	// 初始化A\B\C矩阵的宽度和高度
	A->height = height;
	A->width = width;
	B->height = height;
	B->width = width;
	C->height = height;
	C->width = width;
	// 初始化A矩阵所有元素为1.0,B矩阵所有元素为2.0
	for (int i = 0; i < width * height; ++i) {
		A->elements[i] = 1.0;
		B->elements[i] = 2.0;
	}
	// 定义kernel的blocksize为(32, 32)，那么grid大小为(32, 32)
	dim3 blockSize(32, 32);
	dim3 gridSize((width + blockSize.x - 1) / blockSize.x,
		(height + blockSize.y - 1) / blockSize.y);
	// 执行kernel
	matMulKernel << < gridSize, blockSize >> > (A, B, C);
	// 同步device数据保证结果能正确访问
	cudaDeviceSynchronize();
	// 检查执行结果
	float maxError = 0.0;
	for (int i = 0; i < width * height; ++i)
		maxError = fmax(maxError, fabs(C->elements[i] - 2 * width));
	cout << endl;
	cout << "最大误差: " << maxError << endl;
	return 0;
}

你可能感兴趣的:(CUDA编程)

CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
CUDA编程：优化GPU并行处理与内存管理 Omoo CUDA GPU并行处理线程协作内存管理硬件限制
背景简介CUDA是NVIDIA推出的一种通用并行计算架构，它利用GPU的强大计算能力来解决复杂的计算问题。在本书的第12章中，我们深入探讨了CUDA编程的关键概念，包括线程间的协作、内存分配与管理以及如何应对硬件限制。CUDA中的线程协作与内存管理在GPU上进行编程时，我们需要处理内存分配、数据传输以及内核（kernel）的调用等任务。CUDA提供了一系列的API来帮助开发者管理这些资源。在提供的
【CUDA编程】Dim3 量化投资和人工智能 CUDA 昇腾 CUDA 人工智能深度学习 c++云计算
dim3是CUDA编程中用于定义线程块（Block）和网格（Grid）维度的三维向量结构体，本质是包含三个无符号整数成员（x、y、z）的轻量级容器。以下是其核心特性与用法详解：一、核心定义与结构structdim3{unsignedintx;//第一维度（宽度）unsignedinty;//第二维度（高度）unsignedintz;//第三维度（深度）};默认值规则：未显式赋值的维度默认为1。示例
【CUDA编程】OptionalCUDAGuard详解量化投资和人工智能 CUDA 大模型人工智能机器学习 CUDA 云计算 python c++
OptionalCUDAGuard是PyTorch的CUDA工具库（c10/cuda）中用于安全管理GPU设备上下文的RAII（ResourceAcquisitionIsInitialization）类。其核心作用是在特定代码块中临时切换GPU设备，并在退出作用域时自动恢复原设备状态，尤其适用于设备可能为“未指定”（nullopt）的场景。以下从作用、原理、用法和典型场景详细解析：⚙️一、核心作用
【CUDA编程】 C10_CUDA_CHECK 宏详细解析量化投资和人工智能 CUDA CUDA 人工智能云计算大模型
以下是对C10_CUDA_CHECK宏的详细解析，结合CUDA错误处理机制和PyTorch框架设计进行说明：一、宏定义结构解析#defineC10_CUDA_CHECK(EXPR)\do{\constcudaError_t__err=EXPR;\c10::cuda::c10_cuda_check_implementation(\static_cast(__err),\__FILE__,\__fun
第四篇：Python 高级-高性能计算加速秘籍程序员勇哥 Python全套教程 python 开发语言
第四篇：Python高级-高性能计算加速秘籍在当今数据量与计算需求日益增长的环境下，提升Python程序的计算性能显得尤为关键。本篇将深入探讨向量化计算的深度优化以及如何借助CUDA编程与GPU加速来显著提升Python计算效率。一、向量化计算的深度优化（一）利用Numba实现复杂算法的高效向量化Numba简介Numba是一个用于Python的即时编译器（JIT），它能够将Python函数转换为机
Python中使用CUDA/GPU的方式比较东北豆子哥 CUDA HPC/MPI python CUDA
Python中使用CUDA/GPU的方式比较在Python中利用GPU加速计算有多种方式，以下是主要的几种方法及其比较：1.CUDA原生开发方式：使用NVIDIA提供的CUDAC/C++API开发内核通过PyCUDA或Numba等工具在Python中调用特点：最底层，性能最优开发复杂度高需要熟悉CUDA编程模型示例库：PyCUDANumbaCUDA2.通用GPU计算框架2.1CUDA加速库方式：使
flash attention的CUDA编程流水并行加速-V6 谨慎付费（看不懂试读博客不要订阅）高性能计算 redis 数据库缓存
之前关于flashattention的介绍可以继续参考链接添加链接描述矩阵乘法的优化参考添加链接描述，我们发现矩阵乘法的最优配置为：BLOCK_DIM_x=BLOCK_DIM_y=16，同时每个线程处理一个8×8的子矩阵。线程网格设置如下所示：constintRq=8;constintRv
被 CUDA 性能问题困扰？从全局内存到共享内存，并行归约优化全解析！讳疾忌医丶动手学习CUDA编程 c++CUDA 开发语言
你是不是也觉得GPU编程听起来很酷，但一上手就头大？别慌，今天我带你玩转CUDA里一个既基础又硬核的东西——并行归约。啥是归约？简单说，就是把一堆数加起来（或者其他累积操作），但在GPU上，这可不是简单的for循环，而是能让性能起飞的优化手法。作为一个写了好几年CUDA的老司机，我有个独家观点：并行归约是CUDA编程的灵魂，搞懂它，你就摸到了GPU优化的门道。这篇文章不整虚的，我会用大白话带你从最
《GPU高性能编程CUDA实战》中文版电子书翁佳忱
《GPU高性能编程CUDA实战》中文版电子书【下载地址】GPU高性能编程CUDA实战中文版电子书探索GPU高性能编程的奥秘，掌握CUDA实战技巧！本资源提供了《GPU高性能编程CUDA实战》中文电子书，深入解析GPU编程基础与CUDA架构，助您从理论到实践全面提升。无论您是编程新手还是资深开发者，本书都能为您提供清晰的指导与丰富的实战案例。立即下载，开启您的CUDA编程之旅，解锁GPU计算的无限潜
Cuda Instruction Replay ZhiqianXia CUDA 技术笔记 cuda
在CUDA编程中，指令重放（InstructionReplay）是GPU执行指令时因特定原因导致指令需重复发射或重新执行的现象，通常会影响性能。以下是其关键点：指令重放的原因分支分歧（DivergentBranches）当同一线程束（Warp）中的线程执行不同分支（如if-else）时，GPU需串行化处理每个分支路径。同一指令可能被多次发射（重放），导致执行时间增加。内存访问延迟全局内存访问未命中
CUDA编程高阶优化：如何突破GPU内存带宽瓶颈的6种实战策略学术猿之吻 GPU 高校人工智能边缘计算人工智能 transformer 深度学习 gpu算力 ai AI编程
在GPU计算领域，内存带宽瓶颈是制约性能提升的"隐形杀手"。本文面向具备CUDA基础的研究者，从寄存器、共享内存到TensorCore，系统剖析6项突破性优化策略，助你充分释放GPU算力。一、全局内存访问优化：对齐与合并原则1.1合并访问的本质GPU全局内存以‌线程束（Warp）‌为单位执行合并事务。当32个线程访问连续且对齐的128字节内存块时，总线利用率可达100%‌。以下代码演示如何实现合并
CUDA编程优化：如何实现矩阵计算的100倍加速学术猿之吻 GPU 高校人工智能矩阵人工智能线性代数深度学习量子计算算法 gpu算力
一、突破性能瓶颈的核心路径矩阵计算的百倍加速需要打通"内存带宽→计算密度→指令吞吐"三重关卡。根据NVIDIAAmpere架构白皮书，A100GPU的理论计算峰值（FP32）为19.5TFLOPS，但原生CUDA代码往往只能达到5-8%的理论值。通过系统化优化策略，我们成功将1024×1024矩阵乘法从初始的212ms优化至2.1ms，实现101倍加速（测试平台：NVIDIARTX3090）。二、
C++开发者的逆袭之路：大部份的高薪岗位都在招 CUDA 人才，你还不行动？讳疾忌医丶动手学习CUDA编程 c++开发语言
为什么你必须学会CUDA编程？想象一下，你手头有个计算任务，普通CPU跑得慢得像乌龟爬，而GPU却能像火箭一样把性能拉满——这就是高性能计算（HPC）的魅力！在这个数据爆炸的时代，无论是AI训练、科学仿真还是金融建模，HPC都成了不可或缺的利器。而NVIDIA的CUDA平台，正是这场革命的核心，把GPU从画图的“小能手”变成了并行计算的“大杀器”。作为一名C++专家，我可以负责任地说：学会CUDA
CUDA 编程相关的开源库 byxdaz CUDA cuda
CUDA编程相关的开源库非常丰富，涵盖了高性能计算、深度学习、图像处理、线性代数、优化算法等多个领域。1.通用GPU计算库CUDAToolkit(NVIDIA官方):包含CUDA运行时库、编译器（nvcc）、调试工具（cuda-gdb、Nsight）、数学库（如cuBLAS、cuFFT）等。CUDAToolkit-FreeToolsandTraining|NVIDIADeveloperThrust
GPU编程实战指南04：CUDA编程示例，使用共享内存优化性能 anda0109 CUDA并行编程 gpu算力 AI编程 ai
在CUDA编程中，共享内存（SharedMemory）比全局内存（GlobalMemory）效率高的原因主要与CUDA的硬件架构和内存访问特性密切相关。以下是详细分析：1.CUDA内存层次结构CUDA设备（GPU）具有多层次的内存架构，主要包括以下几种：寄存器（Registers）：每个线程私有的高速存储单元，速度最快但容量有限。共享内存（SharedMemory）：由同一个线程块（Block）中
gather算子的CUDA编程和算子测试谨慎付费（看不懂试读博客不要订阅）高性能计算 CUDA
知乎介绍参考添加链接描述完整测试框架参考本人仓库添加链接描述gather算子的onnx定义参考添加链接描述，该算子的主要变换参考下图：这里我们不妨以input=[A,dimsize,D]，indices=[B,C],axis=1举例子，此时对应的output形状是[A,B,C,D]，并且根据gather算子定义，我们知道output[i,j,k,s]=input[i,indices[j,k],s]
Python调用CUDA 源代码分析 python 开发语言
CUDA常用语法和函数CUDA(ComputeUnifiedDeviceArchitecture)是NVIDIA提供的一个并行计算平台和编程模型，允许开发者使用NVIDIAGPU进行高性能计算。以下是一些CUDA编程中的常用语法和函数：核函数（KernelFunctions）：使用__global__修饰符定义，这种函数可以从主机（CPU）调用并在设备（GPU）上并行执行。调用格式：kernel>
NVIDIA GTC 开发者社区Watch Party资料汇总扫地的小何尚 NVIDIA GPU linux AI 算法
NVIDIAGTC开发者社区WatchParty资料汇总以下是所有涉及到的工具中文解读汇总，希望可以帮到各位：1.CUDA编程模型开发者指南和最新功能解析专栏2.NVIDIAWarp：高性能GPU模拟与图形计算的Python框架3.NVIDIAcuDF：GPU加速的数据处理库详解4.NVIDIAcuML：GPU加速的机器学习库详解5.NVIDIAcuFFT详解：从入门到高级应用6.NVIDIAcu
GPU计算的历史与CUDA编程入门己见明 GPU计算 CUDA C 数据并行性 CUDA程序结构向量加法内核
GPU计算的历史与CUDA编程入门背景简介GPU计算的历史可以追溯到早期的并行计算研究，如今已发展成为计算机科学中的一个重要分支。本文将探讨GPU计算的发展史，重点分析《ComputerGraphics:PrinciplesandPractice》等关键文献，以及CUDAC编程模型的引入及其对现代软件开发的影响。历史回顾回顾历史，GPU计算的发展始于1986年Hillis与Steele在《Comm
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
英伟达的ptx是什么？ptx在接近汇编语言的层级运行？ AI-AIGC-7744423 人工智能
PTX（ParallelThreadeXecution）是英伟达CUDA架构中的一种中间表示形式（IR）语言。以下是关于它的介绍以及它与汇编语言层级关系的说明：PTX介绍•性质与作用：PTX是一种类似于汇编语言的指令集架构，但它更像是一种抽象的、面向并行计算的中间语言。它是CUDA编程模型中，主机代码与实际在GPU上执行的机器码之间的桥梁。开发者编写的CUDAC/C++等高级语言代码，在编译过程中
CUDA编程之OpenCV与CUDA结合使用 byxdaz CUDA opencv 人工智能计算机视觉
OpenCV与CUDA的结合使用可显著提升图像处理性能。一、版本匹配与环境配置CUDA与OpenCV版本兼容性‌OpenCV各版本对CUDA的支持存在差异，例如OpenCV4.5.4需搭配CUDA10.0‌2，而较新的OpenCV4.8.0需使用更高版本CUDA‌。需注意部分模块（如级联检测器）可能因CUDA版本更新而不再支持‌。‌OpenCV版本CUDA版本4.5.x‌推荐CUDA11.x及以下
GPU编程实战指南01：CUDA编程极简手册 anda0109 CUDA并行编程算法
目录1.CUDA基础概念1.1线程层次结构1.2内存层次结构2.CUDA编程核心要素2.1核函数2.2内存管理2.3同步机制3.CUDA优化技巧3.1内存访问优化3.2共享内存使用3.3线程分配优化4.常见问题和解决方案5.实际案例分析1.CUDA基础概念1.1线程层次结构CUDA采用层次化的线程组织结构，从小到大依次为：线程（Thread）：最基本的执行单元每个线程执行相同的核函数代码通过thr
高性能计算中如何优化内存管理？ gpu
在高性能计算（HPC）中，优化内存管理是提升计算性能的关键环节之一。以下是一些常见的优化策略和方法：内存分配与管理策略内存池技术：通过预分配一定大小的内存池，避免频繁的内存分配和释放操作，减少内存碎片化。例如，在CUDA编程中，可以使用内存池来管理GPU内存，从而提高内存访问效率。异构内存管理：在异构计算环境中（如CPU+GPU），采用统一内存管理（UnifiedMemory）或智能数据迁移策略，
cuda编程入门——并行归约(五) 我不会打代码啊啊 cuda编程算法 c++gpu算力
CUDA编程入门—并行归约（数组求和为例）在并行计算中，归约（Reduction）是一种将多个数据通过特定操作（如求和、求最大值等）合并为单一结果的并行算法。其核心目标是通过并行化加速大规模数据集的聚合计算。关键概念操作类型：可结合且可交换的操作（如加法、乘法、最大值、最小值、逻辑与/或等）适合并行归约。若操作不可结合（如减法或除法），需特殊处理或无法直接并行化。并行实现方式：树形结构归约：将数据
cuda编程入门——并行性与异构性概念我不会打代码啊啊 cuda编程 gpu算力 c++
CUDA编程入门一基于cuda的异构并行计算并行性一、并行性的概念与分类概念并行性旨在通过同时处理多个任务或数据元素来提高计算速度和效率。它可以在不同的层次上实现，包括指令级并行、数据级并行和任务级并行等。分类指令级并行（Instruction-LevelParallelism，ILP）：在处理器的指令执行层面，通过硬件技术（如流水线、超标量技术等）让多条指令在不同阶段同时执行，从而提高处理器的指
CUDA检测失败的解决方案 HackDashX Python
CUDA检测失败的解决方案在使用Python进行CUDA编程时，有时候会遇到"CUDAdetectionfailed"的错误信息。这个错误通常表示CUDA驱动程序无法正确地检测到CUDA设备。在本文中，我将为您提供一些解决这个问题的方法。以下是一些可能的原因和相应的解决方案：CUDA驱动程序未正确安装：首先，请确保您已正确安装了与您的CUDA版本相匹配的CUDA驱动程序。您可以从NVIDIA官方网
CUDA环境配置波小澜 CUDA cuda ubuntu 环境配置
本文介绍Ubuntu14.04下CUDA环境的安装过程标签高性能计算（HPC）并行化加速学习CUDA最好的去处还是NVIDIA官网，上面许多文档写的都相当不错，比如CUDA编程指南、如何使用cuRand生成随机数等。环境配置博主主要在Linux下进行CUDA程序的开发，包括Ubuntu14.04、CentOS6等以在Ubuntu下安装CUDA为例：首先，在命令行中执行nvidia-smi指令，查看
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement