grace 1314

cuda编程（示例，topk问题，代码解读与cuda基础概念）

文章声明：本文代码来自于扫地的小和尚，CUDA编程模型系列九( topK 问题/规约/2_Pass核函数)_cuda topk-CSDN博客

这篇文章，以及b站的视频

CUDA编程模型系列九( topK 问题/规约/2_Pass核函数)_哔哩哔哩_bilibili

可以自行观看，阅读原作，最近在学习如何使用cuda写程序，应用之前所学习的cuda基础知识，如何设计代码，如何编程，怎样去写一段代码是本文以及本人想要学习的。

1.topk问题

首先，先看看topk问题是什么，一个长度为N的数组（这里数据为整型int），求该数组前20个最大数分别是多少。

总结，输入的数组，长度为N，其次是输出数组，长度为k。

首先想想传统方法怎么做，遍历输入数组，使用排序或者比较算法先求最大值，存入数组，标记最大值的位置表示已访问，然后再求次最大值，标记已访问，再继续，直到数组存满。大循环是k次，小循环是N次，或者交换也行（就变成了插入排序，详情请看10中排序算法代码实现（Python与C++）-CSDN博客或者下面的代码）。这样使用两个for循环暴力求解问题，其实也能解决问题，就是对于海量的数据来说来耗时。

那么怎么用GPU去优化这个问题呢，首先要理解CPU的运行时逻辑运行，即一步一步走，一次循环结束，下一次循环才能开始，而GPU是一种并行运行，最小运行单位为线程，GPU中有大量的线程可以同步做运算执行一些任务。

对于上面的问题，在海量的数据中找出前20个最大值，那么用cuda来做可行的方法就是，将数据分成好多块由线程分别计算每个块里的前20个最大值，然后再合并到一个块里计算这个块里的前20个最大值。

这里要提一嘴，之前面试问我并行任务的前置条件是什么，我直接懵逼，后来查了以下才明白一个任务如果可以并行，那么这个任务就是可分割的。所以这一点是并行的思想，将一个问题分成几块或者好多块来解决这才是并行任务的前提。只能说非常后悔，但是没办法，错过了就是重来，就和谈恋爱似的。一般出现for循环的时候就可以考虑用并行来实现了。

好的回归正题，下面一边讲小和尚的cuda编程代码思路，一边复习下看用到了什么CUDA编程思想。

2.代码思路与代码段

首先，在全局领域定义了接下要用的常量以及变量。

#define N 100000000  //数据大小
#define BLOCK_SIZE 256  //一个块中有256个线程
#define GRID_SIZE 32  //32 每个网格中有32个块
#define topk 20 //topk问题前topk个最大数

__managed__ int source[N];   //原数组 
//__managed__  cuda关键字，用于声明所谓的托管内存，允许内存在CPU和GPU之间自动共享。
//用 __managed__ 声明的变量可以同时被 CPU 和 GPU 访问，无需手动在主机（CPU）和设备（GPU）之间复制数据。
//使用托管内存简化了内存管理，因为它允许 CPU 和 GPU 在无需显式数据传输命令的情况下访问相同的内存。

__managed__ int gpu_result[topk];  //topk最终结果
__managed__ int _1_pass_result[topk * GRID_SIZE];//每个block的前20个，即中间结果

一些代码解释也已经给出。这里分析下对应到那些cuda知识点。

由于主机端host（/cpu）和设备端device（GPU）端的内存是存在分离的。这意味着主机端不能直接访问设备端内存，而设备端也无法直接访问主机端内存。为了在两个环境之间交换数据，一般使用cudaMalloc（在GPU上分配内存），cudaMemcpy（将CPU内存数据复制到GPU内存/将GPU内存数据复制到CPU内存）最后使用cudaFree释放GPU上的内存。这也是cuda 提供的最常用，最基础的CPU，GPU交互方式。

但除此之外，还存在几种优化主机端与设备端的数据传输方式。

1.使用锁页内存/（固定内存），可以使用在cudaMallocHost在主机端申请锁页内存（用于存放主机端数据，使用cudaFreeHost（），清理锁页内存，设备端还是需要cudaMalloc申请），然后使用上面的基础方式完成数据交互。优点，这些内存时页面锁定的并且对设备来说可访问的，由于固定内存能被设备直接访问，所以它能用比可分页内存高得多的带宽进行读写。缺点，锁页内存有限，使用太多降低主机系统性能。还是需要显示地将数据从主机端存取内存数据。

2.零拷贝内存，常来说，主机不能直接访问设备变量，同时设备也不能直接访问主机变量。但有一个例外，零拷贝内存。主机和设备都可以访问零拷贝内存。GPU设备可以直接访问零拷贝内存，而无需先将数据拷贝到GPU的内存中。零拷贝的使用，还是用cudaHostAlloc在主机端申请内存，在GPU使用时，只需要将在主机端申请的指针交给设备变量即可，使用cudaHostGetDevicePointer（）函数，最后在使用cudaFreeHost释放零拷贝内存。所以这里可以看到零拷贝就是将零拷贝内存的指针给设备变量，那么设备端就可直接访问了。

3.统一内存寻址与托管内存：统一内存寻址是一种内存架构，它允许CPU和GPU共享同一个地址空间，这意味着一个内存地址可以同时被CPU和GPU访问。这简化了数据传输和同步的复杂性，因为不需要专门的API调用来在CPU和GPU间复制数据。但是，需要注意的是，即使地址空间是统一的，实际的物理内存可能仍然是分离的，因此数据可能需要在CPU和GPU之间移动。

托管内存允许开发者分配内存，这些内存既可以被CPU访问，也可以被GPU访问，而无需担心数据在不同内存空间之间的显式复制。

在CUDA中使用托管内存的步骤通常如下：

分配托管内存：使用cudaMallocManaged分配托管内存。
在CPU和GPU上使用内存：既可以在CPU代码中直接访问这块内存，也可以在CUDA内核中访问。
同步操作：在CPU访问托管内存中的数据之前，使用cudaDeviceSynchronize确保所有GPU操作已经完成。
释放内存：使用cudaFree释放托管内存。

所以第3种方式时最方便的，给数据申请一块内存，也不需要cudaMemcpy传来传去。

而在本文的代码中，使用了cuda编程中的__managed__关键字，用于声明托管内存（Managed Memory），这是一种简化主机和设备间内存交互的方式。当你在CUDA程序中使用 __managed__ 关键字声明变量时，这些变量会自动成为托管内存，即它们既可以被CPU访问，也可以被GPU访问，而无需进行显式的数据传输。当你在变量前使用 __managed__ 关键字时，CUDA运行时会负责这些变量的内存分配和释放，以及必要时在主机和设备之间自动移动数据。这样，你就可以在主机代码和设备代码（即CUDA内核）之间共享数据，而无需手动同步或传输数据。除此之外，在访问托管内存的数据之前，可能需要调用 cudaDeviceSynchronize() 来确保所有设备上的操作都已完成。

以上3种方式加上最基础的，一共四种，他们存在都是合理的，适合用于不同场景，虽然托管内存方便，但其性能收到PCIe总线带宽的限制，当频繁在主机和设备端交换数据时，并不理想。所以使用是要看场景的。

以下是由GPT总结的几种内存的使用场景。

锁页内存（Pinned Memory）

适用场景:
- 频繁数据传输：当需要频繁地在主机（CPU）和设备（GPU）之间传输数据时，使用锁页内存可以提高传输效率。
- 高带宽要求：如果应用程序需要大量数据在CPU和GPU之间快速移动，锁页内存可以提供更高的数据传输带宽。
不适用场景:
- 内存受限：锁页内存不能被操作系统交换出去，因此在内存受限的情况下可能会影响系统性能。
- 小规模数据传输：对于小量数据或不频繁的数据传输，使用锁页内存的优势不明显。

零拷贝内存（Zero-Copy Memory）

适用场景:
- 大量数据但低频访问：当处理的数据量非常大而且不经常访问时，零拷贝内存可以减少数据复制的开销。
- 只读或写一次数据：对于只读一次或只写一次的数据，零拷贝内存能够减少不必要的数据拷贝。
不适用场景:
- 高频率数据访问：由于访问零拷贝内存的延迟较高，频繁访问这类内存会降低性能。
- 小数据集：对于较小的数据集，传统的内存拷贝可能更高效。

托管内存（Managed Memory）

适用场景:
- 简化内存管理：当需要简化CPU和GPU间的内存管理时，托管内存提供了一种透明的数据迁移方式。
- 动态数据迁移：适用于数据访问模式不易预测的场景，CUDA运行时会根据需要动态迁移数据。
不适用场景:
- 极致性能需求：如果需要精细控制内存以达到最优性能，手动管理内存可能更合适。
- 确定的数据访问模式：如果数据访问模式非常明确，通过手动优化内存传输可能获得更好的性能。

总结

使用 锁页内存 当数据传输频繁且对带宽要求高。
使用 零拷贝内存 对于大量但访问频率较低的数据。
使用 托管内存 以简化内存管理，尤其在数据访问模式不确定的情况下。

每种内存类型都有其优势和局限，选择合适的类型取决于具体的应用需求和性能目标。

好了，以上是一些基础概念。继续回到代码。总的思路即就是在每个block中求出最大的前20个值，放入中间结果数组，然后再执行一遍核函数对中间结果求前20个，最后输出结果。这样为什么如下定义应该就明白了。

#define N 100000000  //数据大小
#define BLOCK_SIZE 256  //一个块中有256个线程
#define GRID_SIZE 32  //32 每个网格中有32个块
#define topk 20 

__managed__ int source[N];   //原数组 
//__managed__  cuda关键字，用于声明所谓的托管内存，允许内存在CPU和GPU之间自动共享。
//用 __managed__ 声明的变量可以同时被 CPU 和 GPU 访问，无需手动在主机（CPU）和设备（GPU）之间复制数据。
//使用托管内存简化了内存管理，因为它允许 CPU 和 GPU 在无需显式数据传输命令的情况下访问相同的内存。

__managed__ int gpu_result[topk];  //topk最终结果
__managed__ int _1_pass_result[topk * GRID_SIZE];//每个block的前20个，即中间结果

//理论，求一个大数组的前20个最大值，先将数组放入GPU内，每个block中求出最大的前20个值，放入_1_passresult
//然后每个block前20个值放一块在求前20个值得到最中结果

接下来就是main（）函数：

int main(){

	//为原数组赋初值
	printf("初始化源数据.....\n");
	for (int i = 0; i < N; i++) {
		source[i] = rand();
	}
	printf("完成初始化源数据.....\n");

	//cuda事件-计时
	cudaEvent_t start, stop_gpu, stop_cpu;
	cudaEventCreate(&start);
	cudaEventCreate(&stop_gpu);
	cudaEventCreate(&stop_cpu);
	cudaEventRecord(start);
	cudaEventSynchronize(start);//事件同步
	//这个函数用于等待一个 CUDA 事件完成。
	// 当你在 CUDA 程序中设置一个事件时，比如 cudaEventRecord(event, stream)，
	// 它会在特定的流（stream）中标记一个点。cudaEventSynchronize(event) 会阻塞调用线程，
	// 直到该事件发生，即直到 GPU 上的相关操作完成。
	printf("GPU Run *************\n");
	int times = 20;
	//计算
	for (int i = 0; i < times; i++) {
		gpu_topk << > > (source, _1_pass_result, N, topk);
		gpu_topk << <1, BLOCK_SIZE >> > (_1_pass_result, gpu_result, topk * GRID_SIZE, topk);
		cudaDeviceSynchronize();
		//cudaDeviceSynchronize() 函数会阻塞调用线程，直到 GPU 完成所有队列中的操作。
		// 这包括所有 CUDA 核心、内存复制和其他相关的 GPU 操作。
	}
	printf("GPU Run Complete %d 次*************\n",times);
	cudaEventRecord(stop_gpu);
	cudaEventSynchronize(stop_gpu);


	//cpu结果初始化
	int cpu_result[topk] = { 0 }; //cpu结果存储
	printf("CPU Run *************\n");
	//计算
	cpu_topk(source, cpu_result, N, topk);
	printf("GPU Run Complete *************\n");
	cudaEventRecord(stop_cpu);
	cudaEventSynchronize(stop_cpu);

	//计算两次时间
	float time_cpu, time_gpu;
	cudaEventElapsedTime(&time_gpu, start, stop_gpu);
	cudaEventElapsedTime(&time_cpu, stop_gpu, stop_cpu);

	//判断GPU计算是否有误
	bool error = false;
	for (int i = 0; i < topk; i++) {
		printf(" CPU top%d: %d; Gputop%d: %d;\n", i + 1, cpu_result[i], i + 1, gpu_result[i]);
		if (fabs(gpu_result[i] - cpu_result[i]) > 0) {
			error = true;
		}
	}
	printf("Result:%s\n", (error ? "Error" : "pass"));
	printf("CPU time: %.2f; GPU time: %.2f\n", time_cpu, time_gpu);

	return 0;
}

这块感觉没什么好讲的都是流程，需要看到的就是，使用了两次核函数完成topk任务，正如我们所想，第一步输出中间结果，中间结果是每个block块中的前topk个，输出大小为（topk*GRID_SIZE），第二部将中间结果当作输入求最终输出结果，最终结果是在1个块中的前topk个。

那么来看主要的核函数，以及设备函数。

__device__ __host__ void insert_sort(int*array,int k,int data) {
	//由__device__ __host__修饰符用于一个函数，表示该函数可以在GPU（设备）和CPU（主机）上执行
	//__device__ 声明一个函数为设备函数，该函数只能在GPU上执行，一般是被其他设备函数或者kernel调用
	// __host__ 声明一个函数为主机函数，该函数只能在CPU上执行，通常用于管理设备内存、启动核心等操作。
	for (int i = 0; i < k; i++) {
		//如果数据重复，就不参与排序了，选的是前20个最大的。
		if (array[i] == data) {
			return;
		}
	}
	//如果要插入的元素小于数组最后一个元素，那就不参与排序，因为就不是前20个最大的了
	if (data < array[k - 1]) {
		return;
	}
	//从倒数第二个开始，向前比较，如果当前数据比数据元素大，那么数组元素就向后移位，如果小于则将该位置的后一位作为插入位置。位置
	for (int i = k - 2; i >= 0; i--) {
		if (data > array[i]) {
			array[i + 1] = array[i];
		}
		else {
			array[i + 1] = data;
			return;
		}
	}

	//如果data比所有数据都大，那么将这个数据插入到改数组的第一个位置
	array[0] = data;
}

首先第一个函数insert_sort函数,实现一个插入排序，但其是由__device__,__host__两个关键字共同限制，表示既为设备函数，也为主机函数，在主机端和设备端都可调用，通常用于设备端与主机端的比较。

cuda中最常用的关键字，__device__，__host__，和 __global__ 是三个用于指定函数类型和执行空间的关键字。其中device定义的函数，一般被global定义的核函数或者其他device定义的设备函数调用。而Host定义的函数只能在CPU上也就是主机端code被调用，而不是由__device__,或者—__global__限定的函数。__global__ 关键字用于声明CUDA内核函数，这是一种特殊的函数，可以由CPU调用并在GPU上并行执行。这3个关键字中只有device与host可以组队，而global则不行，有点像明明是三个人的电影，我却始终不能有姓名。

然后这个函数吗原理也没啥好讲的，应该可以看得懂，注释的很详细，排除重复，以及小于数组最后一个数，剩下就开始将数据与数组元素比较，插入到合适的位置。

接下来就是重点核函数：

	//申请共享内存数据，用与保存每个块的计算结果
	__shared__ int ken[BLOCK_SIZE * topk];

首先可以看到核函数一进来就申请了一个共享内存数组。使用的__shared__关键在在kernel内声明。首先需要清楚的是，共享内存是在每个block中都有的，这里定义的的共享内存数组ken，在每个线程块中都有，块内所有线程均可访问，即共享内存，用于存储该块的top-k结果。其中BLOCK_SIZE是每个线程块的线程数。

	int top_array[topk];
	//top_array初始化，给最小值
	for (int i = 0; i < topk; i++) {
		top_array[i] = INT_MIN;
	}

申请了一个局部的top_arry数组，用于存储当前线程处理的top-k结果，并赋了初值。这是每个线程私有的，一般位于寄存器，如果溢出就位于局部内存（即local）。

	//插入排序
	//对数组中的所有数据进行插入排序
	for (int idx = threadIdx.x + blockDim.x * blockIdx.x; idx < length; idx += gridDim.x * blockDim.x) {
		insert_sort(top_array, topk, input[idx]);
	}

接着使用了一个for循环，这个for循环的初值是线程的全局索引，条件是小于数组长度，增量为网格（grid）中的所有线程数。这意味着每个线程在处理完其当前元素后，会跳过整个网格中的所有其他线程所处理的元素，直接处理下一个它需要处理的元素。

通过这种方式，该循环确保如果数组 input 的长度大于网格中线程的总数，每个线程将能够处理数组中的多个元素。每个线程处理的元素索引之间的间隔等于整个网格的线程总数，从而实现了数据的均匀分配。(这种方法称作网格跨步循环，用于当需要操作的元素数大于核函数的总线程数时。)

这里可能有人会疑问，我这不是就只有 gridDim.x * blockDim.x个线程么，怎么全局索引还要加这么多线程，这里就需要提到两个重要概念：

线程索引：记住线程索引不是线程本身。线程索引是一个数值，它唯一地标识了在CUDA网格中的每个线程。这个索引是根据线程在网格、线程块和线程内的位置计算出来的。线程索引用于确定每个线程应该处理的数据元素。在处理大型数据集时，这使得每个线程可以独立地工作在数组或内存中的不同位置。但是在编程时，其实线程索引与线程本身很容易混淆，二者这么看来是有重叠，但又不一样。

线程身份：线程身份是指线程的物理或逻辑存在。在CUDA中，线程通过它们的 threadIdx 和 blockIdx 被识别，但这些标识符并不提供关于线程在GPU硬件上的具体物理位置或身份的信息。在CUDA程序设计中，通常不需要知道线程的具体物理身份。相反，重要的是如何利用线程索引来合理地分配和控制数据处理。

在CUDA中，线程索引是核心概念，因为它决定了线程如何访问和处理数据。线程身份（如物理ID）在日常的CUDA编程中不是一个重点，因为CUDA的设计允许开发者从更高的抽象层面上考虑并行计算问题，而无需关注底层硬件的具体细节。

所以需要理解的是，当在调用核函数时，需要核函数的执行配置，GRID_SIZE,BLOCK_SIZE,这两个代表的这抽象的网络和块，当然也包括线程，抽象的是什么意思，即就是物理逻辑不存在，硬件上不是按着这么划分的。在核函数内，核函数执行的线程数是一定的，但至于是我前一个循环的线程是不是我当前循环所使用的线程，那没有意义，我只要确保我核函数内每回执行时线程数一致即可。

这里在用数据去感受一下，首先数组大小是N = 100000000，BLOCK_SIZE,GRID_SIZE是256，32。

总线程数为8192，那么需要多少次for循环呢，12208次。所以要使用8192个线程处理N个数组，需要12208次循环。

在来深入理解以下，比如第一个循环线程索引从0~8191，下一循环线程索引就从8192-16384，一次类推，所以线程索引只是线程索引，并不代表线程数的多少，在核函数内并行执行的线程数是一致的。

	//维护好的top array放进共享内存数组
	for (int i = 0; i < topk; i++) {
		ken[topk * threadIdx.x + i] = top_array[i];
	}
	__syncthreads();

然后将每个线程处理后的数组的top array放进共享内存数组ken中。ken的大小是块内线程总数*topk。每个线程单独维护着top array，也就是每个线程都有一个数组top_array。这也能解释在赋值时ken的索引为topk*threaIdx.x+i，因为threaIdx.x是块内线程编号，每个线程都有大小为topk的数组top_array,将他们顺序放入即为topk*threadx.x+i,这里是做一个线程块内多线程数据合并。

	//共像内存中的数据合并，并行归约。
	// 每一步都将当前活动的线程数减半，这些线程合并相邻的 top_array。
	// 这个过程在每个线程块内部进行，最终得到该块的局部前 k 个最大值。
	for (int i = BLOCK_SIZE/2; i >= 1; i /= 2) {
		if (threadIdx.x < i) {
			for (int m = 0; m < topk; m++) {
				insert_sort(top_array, topk, ken[topk * (threadIdx.x + i) + m]);
			}
		}
		__syncthreads();
		if (threadIdx.x < i) {
			for (int m = 0; m < topk; m++) {				
				ken[topk * threadIdx.x + m] = top_array[m];
			}
		}
		__syncthreads();
	}

接下来的操作是一个归约操作，每一步线程数减半，并且合并块内共享内存数组ken中的元素顺序。这种归约模式是高效并行算法的一个典型例子，它利用了线程之间的协作，将多个线程的结果合并成一个更小的集合。在每一步中，活跃的线程数量减半，最终得到每个线程块的局部Top-K结果。

这里需要重点记住的是，Ken是整个块内的线程所共享的数组，所以对Ken的索引需要使用线程索引，而top_array是每个线程私有的，所以不需要加线程索引，在核函数内自己就执行了。

在来深入分析以下，这是怎么做到的。

ken[topk * (threadIdx.x + i) + m]

首先线程索引，在大循环中一次减半，也就是说在这个for循环中用的线程数是依次减少的。

ken数组的大小5120。

i的变化是128，64，32，16，8，4，2，1。

threadIdx.x的变化，从0~127，到0~63，到0~31，到0~15，到0~7，到0~3，到0~1，最后0。

而threadIdx.x是与i共同变化的。

m的变化是0~19。

试着去算算首先是大循环下第一次循环数组索引范围是多少。最小值：20*（0+128）+0 = 2560，最大值：20*（127+128）+19 = 5119，表示对ken数组的后一半数据，将这些数组插入哪里呢，插入到前128个线程（即0~127）维护的top_array数组中，这里表示插入到前128个线程所维护的top_array数组。

然后后面再将前128个线程所维护的top_array分别在原位置更新Ken。其余依次类推。最终ken中的前20个就保留了block块内最大的topk数组。而由于ken是一个block私有的，因此如果有多个块block，最后output就包含多个块的ken。最终只取每个ken的前20个值即可。

最后：将ken

	//将最终结果写入输出数组，只使用每个线程块一个线程，可以是0，也可以使其他，
	// 用于将前topk个最大值写入输出数组相应的位置
	if (blockIdx.x * blockDim.x < length) {
		if (threadIdx.x == 0) {
			for (int i = 0; i < topk; i++) {
				output[topk * blockIdx.x + i] = ken[i];
			}
		}
	}

此外还有cpu的topk函数

void cpu_topk(int* input, int* output, int length, int k) {
	for (int i = 0; i < length; i++) {
		insert_sort(output, k, input[i]);
	}
}

这也没啥讲的。

然后总结一下：

核函数内声明不带关键字的变量或数组是每个线程私有的。
对于线程数小于要操作的数据可以采用网格跨步循环。附上一个小代码。

__global__ void MyKernel(int *array, int arraySize) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    int stride = gridDim.x * blockDim.x;

    for (int i = idx; i < arraySize; i += stride) {
        // 处理array[i]
    }
}

要注意不同类型数据的访问，全局内存的数据，一般采用全局索引，共享内存的索引一般采用块内索引。
使用规约算法处理大数据时非常有用，类似于递归，可以灵活地调整线程块的大小和数量，而不受处理的数据量的限制。它确保了即使数组大小远远超过线程总数，每个元素也都能被相应的线程处理。
理解线程索引与线程身份的含义不同，在核函数内执行的线程索引并不一定代表线程本身，线程，block，grid，在cuda编程中是一种抽象的上层逻辑，而不是底层硬件的物理逻辑。底层是通过流式处理器SM，以及许多cuda core，实现的，包含处理int，float，double等数据类型的加减乘除运算。

最终附上完全代码。

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include  "device_functions.h"
#include  //c标准输出输出库
#include 
#include  //c标准库包含rand，产生随机数

//topk 问题 数组前k个大的元素
//归约，累加求和

#define N 100000000  //数据大小
#define BLOCK_SIZE 256  //一个块中有256个线程
#define GRID_SIZE 32  //32 每个网格中有32个块
#define topk 20 

__managed__ int source[N];   //原数组 
//__managed__  cuda关键字，用于声明所谓的托管内存，允许内存在CPU和GPU之间自动共享。
//用 __managed__ 声明的变量可以同时被 CPU 和 GPU 访问，无需手动在主机（CPU）和设备（GPU）之间复制数据。
//使用托管内存简化了内存管理，因为它允许 CPU 和 GPU 在无需显式数据传输命令的情况下访问相同的内存。

__managed__ int gpu_result[topk];  //topk最终结果
__managed__ int _1_pass_result[topk * GRID_SIZE];//每个block的前20个，即中间结果

//理论，求一个大数组的前20个最大值，先将数组放入GPU内，每个block中求出最大的前20个值，放入_1_passresult
//然后每个block前20个值放一块在求前20个值得到最中结果


__device__ __host__ void insert_sort(int*array,int k,int data) {
	//由__device__ __host__修饰符用于一个函数，表示该函数可以在GPU（设备）和CPU（主机）上执行
	//__device__ 声明一个函数为设备函数，该函数只能在GPU上执行，一般是被其他设备函数或者kernel调用
	// __host__ 声明一个函数为主机函数，该函数只能在CPU上执行，通常用于管理设备内存、启动核心等操作。
	for (int i = 0; i < k; i++) {
		//如果数据重复，就不参与排序了，选的是前20个最大的。
		if (array[i] == data) {
			return;
		}
	}
	//如果要插入的元素小于数组最后一个元素，那就不参与排序，因为就不是前20个最大的了
	if (data < array[k - 1]) {
		return;
	}
	//从倒数第二个开始，向前比较，如果当前数据比数据元素大，那么数组元素就向后移位，如果小于则将该位置的后一位作为插入位置。位置
	for (int i = k - 2; i >= 0; i--) {
		if (data > array[i]) {
			array[i + 1] = array[i];
		}
		else {
			array[i + 1] = data;
			return;
		}
	}

	//如果data比所有数据都大，那么将这个数据插入到改数组的第一个位置
	array[0] = data;
}

__global__ void gpu_topk(int* input, int* output, int length, int k) {
	/*
	参数说明：
	input 输入数组
	output 输出数组
	length 输入数组的长度
	*/
	//申请共享内存数据，用与保存每个块的计算结果
	__shared__ int ken[BLOCK_SIZE * topk];
	

	int top_array[topk];
	//top_array初始化，给最小值
	for (int i = 0; i < topk; i++) {
		top_array[i] = INT_MIN;
	}

	//插入排序
	//对数组中的所有数据进行插入排序
	for (int idx = threadIdx.x + blockDim.x * blockIdx.x; idx < length; idx += gridDim.x * blockDim.x) {
		insert_sort(top_array, topk, input[idx]);
	}

	//维护好的top array放进共享内存数组
	for (int i = 0; i < topk; i++) {
		ken[topk * threadIdx.x + i] = top_array[i];
	}
	__syncthreads();

	//共像内存中的数据合并，并行归约。
	// 每一步都将当前活动的线程数减半，这些线程合并相邻的 top_array。
	// 这个过程在每个线程块内部进行，最终得到该块的局部前 k 个最大值。
	for (int i = BLOCK_SIZE/2; i >= 1; i /= 2) {
		if (threadIdx.x < i) {
			for (int m = 0; m < topk; m++) {
				insert_sort(top_array, topk, ken[topk * (threadIdx.x + i) + m]);
			}
		}
		__syncthreads();
		if (threadIdx.x < i) {
			for (int m = 0; m < topk; m++) {				
				ken[topk * threadIdx.x + m] = top_array[m];
			}
		}
		__syncthreads();
	}

	//将最终结果写入输出数组，只使用每个线程块一个线程，可以是0，也可以使其他，
	// 用于将前topk个最大值写入输出数组相应的位置
	if (blockIdx.x * blockDim.x < length) {
		if (threadIdx.x == 0) {
			for (int i = 0; i < topk; i++) {
				output[topk * blockIdx.x + i] = ken[i];
			}
		}
	}

}

void cpu_topk(int* input, int* output, int length, int k) {
	for (int i = 0; i < length; i++) {
		insert_sort(output, k, input[i]);
	}
}

int main(){

	//为原数组赋初值
	printf("初始化源数据.....\n");
	for (int i = 0; i < N; i++) {
		source[i] = rand();
	}
	printf("完成初始化源数据.....\n");

	//cuda事件-计时
	cudaEvent_t start, stop_gpu, stop_cpu;
	cudaEventCreate(&start);
	cudaEventCreate(&stop_gpu);
	cudaEventCreate(&stop_cpu);
	cudaEventRecord(start);
	cudaEventSynchronize(start);//事件同步
	//这个函数用于等待一个 CUDA 事件完成。
	// 当你在 CUDA 程序中设置一个事件时，比如 cudaEventRecord(event, stream)，
	// 它会在特定的流（stream）中标记一个点。cudaEventSynchronize(event) 会阻塞调用线程，
	// 直到该事件发生，即直到 GPU 上的相关操作完成。
	printf("GPU Run *************\n");
	int times = 1;
	//计算
	for (int i = 0; i < times; i++) {
		gpu_topk << > > (source, _1_pass_result, N, topk);
		gpu_topk << <1, BLOCK_SIZE >> > (_1_pass_result, gpu_result, topk * GRID_SIZE, topk);
		cudaDeviceSynchronize();
		//cudaDeviceSynchronize() 函数会阻塞调用线程，直到 GPU 完成所有队列中的操作。
		// 这包括所有 CUDA 核心、内存复制和其他相关的 GPU 操作。
	}
	printf("GPU Run Complete %d 次*************\n",times);
	cudaEventRecord(stop_gpu);
	cudaEventSynchronize(stop_gpu);


	//cpu结果初始化
	int cpu_result[topk] = { 0 }; //cpu结果存储
	printf("CPU Run *************\n");
	//计算
	cpu_topk(source, cpu_result, N, topk);
	printf("GPU Run Complete *************\n");
	cudaEventRecord(stop_cpu);
	cudaEventSynchronize(stop_cpu);

	//计算两次时间
	float time_cpu, time_gpu;
	cudaEventElapsedTime(&time_gpu, start, stop_gpu);
	cudaEventElapsedTime(&time_cpu, stop_gpu, stop_cpu);

	//判断GPU计算是否有误
	bool error = false;
	for (int i = 0; i < topk; i++) {
		printf(" CPU top%d: %d; Gputop%d: %d;\n", i + 1, cpu_result[i], i + 1, gpu_result[i]);
		if (fabs(gpu_result[i] - cpu_result[i]) > 0) {
			error = true;
		}
	}
	printf("Result:%s\n", (error ? "Error" : "pass"));
	printf("CPU time: %.2f; GPU time: %.2f\n", time_cpu, time_gpu);

	return 0;
}

你可能感兴趣的:(c语言,c++)

OpenRAND可重复的随机数生成库 novanova2009 elasticsearch 大数据搜索引擎
OpenRAND是一个C++库，旨在通过提供强大且可复制的随机数生成解决方案来促进可重复的科学研究。它是一个简单的仅头文件库，性能可移植，统计稳健，并且易于集成到任何HPC计算项目中。特征跨平台支持：OpenRAND旨在跨各种平台无缝工作，包括CPU和GPU。其仅标题库设计使其能够轻松集成到您的项目中。用户友好的API：OpenRAND提供了一个用户友好的API，可以直接在您的应用程序中生成随机数
专业课笔记——（第一章：C、C++基础知识）大小胖虎 C/C++基础知识笔记算法 C C++数据类型操作类型笔记
目录一、数据类型二、不同格式输出的含义三、运算符优先级四、计算机基础知识五、零碎基础知识点一、数据类型1、C语言中的最简单的数据类型：整数类型、字符类型、浮点类型（C语言没有逻辑型(bool)它是C++特有的，而c语言它是通过0、1表示实现的）构造类型：枚举型、数组类型、结构体类型、共用体类型、类类型(C++特有)2、计算字符串长度：strlen()：c语言中的函数length()：c++中的函数
C语言如何生成随机数？(过程逐步分析) 祁同伟. #C语言 c语言
先给大家分享一个查阅函数的网站：cplusplus.com-TheC++ResourcesNetwork我们通过一道题讲解：实现1-100的猜数字游戏先将代码大框架罗列出来：voidmenu(){printf("**********1.play***********\n");printf("**********0.eixt***********\n");}voidgame(){}voidtest(
ubuntu 20.04安装visual studio code并配置C++编译环境 Android Coder #NDK与音视频 ubuntu
1.下载安装visualstudiocode我的系统是Ubuntu20.04，首先是下载安装包。进入官网，直接下载压缩包。https://code.visualstudio.com/Download下载完成后双击安装即可。2.C++运行环境配置插件的安装汉化：过于简单，直接按照教程操作：https://jingyan.baidu.com/article/7e44095377c9d12fc1e2ef
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
C++函数返回多个值：结构体、tuple @you_123 c++
C++函数一般可以返回一个值，但是在使用中常常需要一个函数返回多个值，因此可以使用结构体或tuple来进行实现。注意看代码里的注释！！！1.使用结构体返回多个值实现步骤：1.先定义一个结构体2.准备我们要实现的函数(需要返回多个值)3.在要实现的函数内调用结构体返回多个值4.使用函数返回结果代码示例：step1:定义结构体structPointStruct{floatwithout_floor;i
基于 C++ 类的程序设计模式与应用研究饼干帅成渣 c++开发语言
摘要C++语言凭借其强大的功能在软件开发领域占据重要地位，类作为C++面向对象编程的核心，承载着数据封装、代码复用等关键使命。本文深入剖析C++类的基础概念、核心特性及其在实际编程中的应用。通过详细阐述类的定义、成员构成、访问控制以及封装、继承、多态等特性，结合具体代码示例展示其在构建软件架构中的作用。同时，探讨C++类在应用中面临的常见问题及解决方案，为开发者高效运用C++类进行程序设计提供有力
c++测试题 Helibo44 c++开发语言
题目A题目描述：给定两个非负整数A和B，以字符串形式输入，计算A*B的结果，并以字符串形式输出。输入的整数长度不超过1000位。输入格式：第一行，包含一个字符串A。第二行，包含一个字符串B。输出格式：输出一个字符串，表示A×B的结果。样例：输入：123456输出：56088样例解释：123*456=56088。题目B题目描述：给定一个主字符串S和一个模式字符串T，在主字符串中找到所有模式字符串的出
第十二届蓝桥杯C++青少年组中/高级组省赛2021年真题解析码农StayUp C++蓝桥杯青少年组真题解析蓝桥杯 c++算法
一、单选题第1题下列符号中哪个在C++中表示行注释（）。A:!B:#C:]D://答案：D在C++中，行注释的表示方式是使用双斜杠//。行注释是指从双斜杠开始直到该行的末尾，所有内容都会被编译器忽略，不会被编译和执行。第2题每个C++程序都必须有且仅有一个（）A:函数B:预处理命令C:主函数D:语句答案：C每个C++程序都必须有且仅有一个主函数。第3题下列字特串中不可以用作C++变量名称的是（）A
【C/C++】在排序数组中查找元素的第一个和最后一个位置（leetcode T34）勇士小蓝0727 c语言 c++leetcode 开发语言算法数据结构蓝桥杯
核心考点：法一双指针法;法二二分查找法题目描述：给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。（示例见文末）答案详解：方法一：双指针法vectorsearchRange(vector&nums,inttarge
【C语言初学】C语言中表示次方与开根 JAMJAM_NoName C c语言开发语言后端
开根：doublesqrt(doublex)(对x开根)次方：doublepow(doublex,doubley)（计算x^y）上述两个函数都属于math库中使用前要将预处理命令#include包含进源文件中两个例题：1.输入三角形的三边长，求三角形的面积已知三条边长a,b,c三角形面积公式:#include#includeintmain(){doublea,b,c;scanf("%lf%lf%l
c++介绍进程和线程区别此刻我在家里喂猪呢 c++c++
进程是程序运行的实例，是操作系统分配的资源的基本单位，每个进程有自己独立的地址空间，数据，代码段，相互独立。特点：独立性：进程之间的资源相互独立，一个进程的崩溃不会影响其他进程。资源分配单位：每个进程有独立的内存空间，文件句柄，全局变量。进程间通信复杂：由于进程之间相互独立，进程通信需要额外的进制（如管道，消息队列，信号号，信号量，共享内存等）。进程切换开销大：切换进程时，操作系统要保存和恢复寄存
c++介绍进程间的通信一此刻我在家里喂猪呢 c++c++
进程的数据空间是独立的，私有的，不能相互访问，但是某些情况下进程之间需要通信来实现某些功能和交换数据。1.数据的传：一个进程需要将它的数据发送给另一个进程。2.共享数据：多个进程要操作共享数据，一个进程对数据修改，别的进程会立即看到。3.通知事件：一个进程需要向另一个或者一组进程发送消息，通知它们发生某种事件（如进程退出）。4.进程控制：一个进程需要控制另一个进程的运行。进程的通信分为六种。1道：
c++报错：E0513 不能将 “const char *“ 类型的值分配到 “char *“ 类型的实体爱听雨声的北方汉轻轻松松学C++c++开发语言
我们比如编写了下面的一个C++程序，此时在visiostudio2019中报错：#include//iostream是InputOutputStream的缩写，意思是“输入输出流”。#includeusingnamespacestd;classStudent{public://成员变量char*name;intage;floatscore;//成员函数voidsay(){cout<
C++中类的三种继承方式爱听雨声的北方汉轻轻松松学C++c++
关于public、protected、private三种继承方式的对比：1.类的一个特征就是封装，public和private作用就是实现这一目的。所以：用户代码（类外）可以访问public成员而不能访问private成员；private成员只能由类成员
C++中的三个交换函数swap、swap_ranges、iter_swap 爱听雨声的北方汉轻轻松松学C++c++
有三个交换函数，swap、swap_ranges、iter_swap其中需要注意的是容器和数组虽然都可以充当存放元素的数据类型，但是两个不同的概念，之间的区别是可以将容器看成基本的数据类型，可以像处理基本的数据类型一样来处理容器，比如直接赋值，或者当成参数传递给函数做形参；但是数组有所不同，数组是一个包括有很多元素的数据类型，不能像处理基本数据类型那样直接对数组进行操作，需要借助指针。所以之间的区
C++原组tuple 爱听雨声的北方汉轻轻松松学C++c++
tuple是C++11新的标准库之一，其表示N元数组，它相当于有N个成员的结构体，只不过这个结构体的成员都是匿名的。tuple是类似于pair的模板，tuple像是pair
算法每日一练 (17) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(17)打家劫舍题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(17)打家劫舍题目地址：打家劫舍题目描述你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的
算法每日一练 (16) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(16)使用最小花费爬楼梯题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(16)使用最小花费爬楼梯题目地址：使用最小花费爬楼梯题目描述给你一个整数数组cost，其中cost[i]是从楼梯第i个台阶向上爬需
C++学习系列（11）：智能指针（unique_ptr、shared_ptr、weak_ptr） DoYangTan C++学习系列 c++学习 java
C++学习系列（11）：智能指针（unique_ptr、shared_ptr、weak_ptr）1.引言在C++传统的内存管理方式中，动态分配的对象需要手动释放，否则可能会导致内存泄漏（MemoryLeak）。为了解决这个问题，C++11引入了智能指针（SmartPointer），它能自动管理资源，避免内存泄漏。本篇博客将介绍：智能指针的概念三种智能指针：unique_ptr、shared_ptr
大疆C++开发面试题及参考答案大模型大数据攻城狮信号量 C++面试 C++面经堆和栈 TCP和UDP 智能指针 C++11
虚函数的作用是什么？虚函数机制是如何实现的？虚表指针在内存中的存放位置在哪里？虚函数主要用于实现多态性。多态是面向对象编程中的一个重要概念，它允许通过基类指针或引用调用派生类中重写的函数。这样可以在运行时根据对象的实际类型来确定调用哪个函数，增强了程序的灵活性和可扩展性。在实现虚函数机制方面，C++使用了虚函数表（v-table）。当一个类包含虚函数时，编译器会为这个类创建一个虚函数表。虚函数表是
1.✨学习系统浅探 *TQK* 自我认知规划（不让别人看）认知提升
不要过于苛求完美，允许自己偶尔放松，保持积极心态。长期坚持比短期高强度更重要，尤其是为三年后的考研做准备，需要持续的努力而不是一时的冲刺。定期复盘，调整计划。如果某天状态不好，可以适当减少任务量，保持弹性。同时，保证足够的睡眠和运动，这对维持多巴胺水平和整体精力很重要。一、系统构建一Deepseek指令我的大一下学期已经开始了，这一学期我又有新的计算机课程。上一学期我学了C语言，基础知识掌握的还可
如何使用SQL进行多表联合查询(SQLⅰte举例) C++ 老炮儿的技术栈 c++sql 算法学习笔记
使用C++和SQLite进行多表联合查询的示例代码。假设有两个表：students表和scores表，students表包含学生的基本信息，scores表包含学生的成绩信息，通过学生的id进行关联查询。#include#include#include//回调函数，用于处理查询结果staticintcallback(void*NotUsed,intargc,char**argv,char**azCo
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
基于跳表实现的轻量级KV存储引擎项目总结码云笔记后端 KV存储
项目介绍KV存储引擎众所周知，非关系型数据库redis，以及levedb，rockdb其核心存储引擎的数据结构就是跳表。本项目就是基于跳表实现的轻量级键值型存储引擎，使用C++实现。插入数据、删除数据、查询数据、数据展示、数据落盘、文件加载数据，以及数据库大小显示。在随机写读情况下，该项目每秒可处理啊请求数（QPS）:24.39w，每秒可处理读请求数（QPS）:18.41w项目存储文件main.c
【设计模式】C++ 单例模式总结与最佳实践白码思 c++单例模式开发语言
1.单例模式简介单例模式（SingletonPattern）是软件开发中常见的设计模式之一，主要用于确保某个类只有一个实例，并提供一个全局访问点。常见的使用场景包括：日志管理：全局唯一的日志记录器。数据库连接池：防止创建多个数据库连接，提高性能。资源管理器：如线程池、驱动管理器等。2.单例模式的实现方式C++中实现单例模式的方式有多种，常见方式如下：2.1普通的单例模式（非线程安全）特点：使用静态
41、如果`std::map`的键类型是自定义类型，需要怎么做？（附仿函数）桃酥403 桃酥的学习笔记（C++篇）c++stl
在C++中使用自定义类型作为std::map的键时，必须定义键的比较规则，具体可通过以下两种方式实现：方法一：在自定义类型中重载运算符myMap;方法二：自定义比较函数对象如果无法修改自定义类型（例如类型来自第三方库），也就是不能在自定义类型中重载小于运算符，此时我们可定义一个**仿函数（Functor）**来操作这个自定义类型。在初始化map时，这个仿函数就作为std::map的第三个参数：st
LeetCode剑指offer题目记录4 t.y.Tang LeetCode记录 leetcode python 矩阵
leetcode刷题开始啦,每天记录几道题.目录剑指offer07.重建二叉树题目描述示例思路python改进剑指offer09.用两个栈实现队列题目描述示例思路python剑指offer10-1.斐波那契数列题目描述思路pythonC++剑指offer10-2.青蛙跳台阶问题问题描述思路C++剑指offer07.重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节
华为od 员工派遣 C++ 优秀是一种习惯啊 huawei 华为od c++开发语言
华为od员工派遣C++题目描述某公司部门需要派遣员工去国外做项目。现在，代号为x的国家和代号为y的国家分别需要cntx名和cnty名员工。部门每个员工有一个员工号（1,2,3,…），工号连续，从1开始。部长派遣员工的规则：规则1：从[1,k]中选择员工派遣出去规则2：编号为x的倍数的员工不能去x国，编号为y的倍数的员工不能去y国。问题：找到最小的k，使得可以将编号在[1,k]中的员工分配给x国和y
字符串作为数组和用指针指向的字符串的区别 kfhj c语言
字符串作为数组和用指针指向的字符串在C语言（以及类似语言如C++）中都有各自的用途和特点。以下是它们之间的主要区别：定义和声明•字符串作为数组：字符串数组是一个字符数组，其中最后一个字符是空字符（’\0’），用于标识字符串的结束。例如：charstr[]=“Hello,World!”;这里，str是一个字符数组，包含了字符串"Hello,World!"和它的结尾空字符。•用指针指向的字符串：字符串
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多