Augusdi

CUDA: CUDA程序优化步骤

在《runtime API创建CUDA程序》中，我们做了一个计算一大堆数字的平方和的程序。不过，我们也提到这个程序的执行效率并不理想。当然，实际上来说，如果只是要做计算平方和的动作，用 CPU 做会比用 GPU 快得多。这是因为平方和的计算并不需要太多运算能力，所以几乎都是被内存带宽所限制。因此，光是把数据复制到显卡内存上的这个动作，所需要的时间，可能已经和直接在 CPU 上进行计算差不多了。

　　不过，如果进行平方和的计算，只是一个更复杂的计算过程的一部份的话，那么当然在 GPU 上计算还是有它的好处的。而且，如果数据已经在显卡内存上(例如在 GPU 上透过某种算法产生)，那么，使用 GPU 进行这样的运算，还是会比较快的。

　　刚才也提到了，由于这个计算的主要瓶颈是内存带宽，所以，理论上显卡的内存带宽是相当大的。这里我们就来看看，倒底我们的第一个程序，能利用到多少内存带宽。

　　程序的并行化

　　我们的第一个程序，并没有利用到任何并行化的功能。整个程序只有一个 thread。在 GeForce 8800GT 上面，在 GPU 上执行的部份(称为 "kernel")大约花费 640M 个频率。GeForce 8800GT 的执行单元的频率是 1.5GHz，因此这表示它花费了约 0.43 秒的时间。1M 个 32 bits 数字的数据量是 4MB，因此，这个程序实际上使用的内存带宽，只有 9.3MB/s 左右!这是非常糟糕的表现。

　　为什么会有这样差的表现呢?这是因为 GPU 的架构特性所造成的。在 CUDA 中，一般的数据复制到的显卡内存的部份，称为 global memory。这些内存是没有 cache 的，而且，存取 global memory 所需要的时间(即 latency)是非常长的，通常是数百个 cycles。由于我们的程序只有一个 thread，所以每次它读取 global memory 的内容，就要等到实际读取到数据、累加到 sum 之后，才能进行下一步。这就是为什么它的表现会这么的差。

　　由于 global memory 并没有 cache，所以要避开巨大的 latency 的方法，就是要利用大量的 threads。假设现在有大量的 threads 在同时执行，那么当一个 thread 读取内存，开始等待结果的时候，GPU 就可以立刻切换到下一个 thread，并读取下一个内存位置。因此，理想上当 thread 的数目够多的时候，就可以完全把 global memory 的巨大 latency 隐藏起来了。

　　要怎么把计算平方和的程序并行化呢?最简单的方法，似乎就是把数字分成若干组，把各组数字分别计算平方和后，最后再把每组的和加总起来就可以了。一开始，我们可以把最后加总的动作，由 CPU 来进行。

　　首先，在 first_cuda.cu 中，在 #define DATA_SIZE 的后面增加一个 #define，设定 thread 的数目：

#define DATA_SIZE    1048576
#define THREAD_NUM   256

　　接着，把 kernel 程序改成：

__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
    const int tid = threadIdx.x;
    const int size = DATA_SIZE / THREAD_NUM;
    int sum = 0;
    int i;
    clock_t start;
    if(tid == 0) start = clock();
    for(i = tid * size; i < (tid + 1) * size; i++) {
       sum += num[i] * num[i];
    }

    result[tid] = sum;
    if(tid == 0) *time = clock() - start;
}

　　程序里的 threadIdx 是 CUDA 的一个内建的变量，表示目前的 thread 是第几个 thread(由 0 开始计算)。以我们的例子来说，会有 256 个 threads，所以同时会有 256 个 sumOfSquares 函式在执行，但每一个的 threadIdx.x 则分别会是 0 ~ 255。利用这个变量，我们就可以让每一份函式执行时，对整个数据不同的部份计算平方和。另外，我们也让计算时间的动作，只在 thread 0(即 threadIdx.x = 0 的时候)进行。

　　同样的，由于会有 256 个计算结果，所以原来存放 result 的内存位置也要扩大。把 main 函式中的中间部份改成：

int* gpudata, *result;
clock_t* time;
cudaMalloc((void**) &gpudata, sizeof(int) * DATA_SIZE);
cudaMalloc((void**) &result, sizeof(int) * THREAD_NUM);
cudaMalloc((void**) &time, sizeof(clock_t));
cudaMemcpy(gpudata, data, sizeof(int) * DATA_SIZE, cudaMemcpyHostToDevice);

sumOfSquares<<<1, THREAD_NUM, 0>>>(gpudata, result, time);

int sum[THREAD_NUM];
clock_t time_used;
cudaMemcpy(&sum, result, sizeof(int) * THREAD_NUM, cudaMemcpyDeviceToHost);
cudaMemcpy(&time_used, time, sizeof(clock_t), cudaMemcpyDeviceToHost);
cudaFree(gpudata);
cudaFree(result);
cudaFree(time);

　　可以注意到我们在呼叫 sumOfSquares 函式时，指定 THREAD_NUM 为 thread 的数目。最后，在 CPU 端把计算好的各组数据的平方和进行加总：

int final_sum = 0;
for(int i = 0; i < THREAD_NUM; i++) {
    final_sum += sum[i];
}

printf("sum: %d time: %d\n", final_sum, time_used);

final_sum = 0;
for(int i = 0; i < DATA_SIZE; i++) {
    sum += data[i] * data[i];
}
printf("sum (CPU): %d\n", final_sum);

　　编译后执行，确认结果和原来相同。

　　这个版本的程序，在 GeForce 8800GT 上执行，只需要约 8.3M cycles，比前一版程序快了 77 倍!这就是透过大量 thread 来隐藏 latency 所带来的效果。

　　不过，如果计算一下它使用的内存带宽，就会发现其实仍不是很理想，大约只有 723MB/s 而已。这和 GeForce 8800GT 所具有的内存带宽是很大的差距。为什么会这样呢?

　　内存的存取模式

　　显卡上的内存是 DRAM，因此最有效率的存取方式，是以连续的方式存取。前面的程序，虽然看起来是连续存取内存位置(每个 thread 对一块连续的数字计算平方和)，但是我们要考虑到实际上 thread 的执行方式。前面提过，当一个 thread 在等待内存的数据时，GPU 会切换到下一个 thread。也就是说，实际上执行的顺序是类似

　　thread 0 -> thread 1 -> thread 2 -> ...

　　因此，在同一个 thread 中连续存取内存，在实际执行时反而不是连续了。要让实际执行结果是连续的存取，我们应该要让 thread 0 读取第一个数字，thread 1 读取第二个数字…依此类推。所以，我们可以把 kernel 程序改成如下：

__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
    const int tid = threadIdx.x;
    int sum = 0;
    int i;
    clock_t start;
    if(tid == 0) start = clock();
    for(i = tid; i < DATA_SIZE; i += THREAD_NUM) {
       sum += num[i] * num[i];
    }

    result[tid] = sum;
    if(tid == 0) *time = clock() - start;
}

　　编译后执行，确认结果相同。

　　仅仅是这样简单的修改，实际执行的效率就有很大的差别。在 GeForce 8800GT 上，上面的程序执行需要的频率是 2.6M cycles，又比前一版程序快了三倍。不过，这样仍只有 2.3GB/s 的带宽而已。

　　这是因为我们使用的 thread 数目还是不够多的原因。理论上 256 个 threads 最多只能隐藏 256 cycles 的 latency。但是 GPU 存取 global memory 时的 latency 可能高达 500 cycles 以上。如果增加 thread 数目，就可以看到更好的效率。例如，可以把 THREAD_NUM 改成 512。在 GeForce 8800GT 上，这可以让执行花费的时间减少到 1.95M cycles。有些改进，但是仍不够大。不幸的是，目前 GeForce 8800GT 一个 block 最多只能有 512 个 threads，所以不能再增加了，而且，如果 thread 数目增加太多，那么在 CPU 端要做的最后加总工作也会变多。

　　更多的并行化

　　前面提到了 block。在之前介绍呼叫 CUDA 函式时，也有提到 "block 数目" 这个参数。到目前为止，我们都只使用一个 block。究竟 block 是什么呢?

　　在 CUDA 中，thread 是可以分组的，也就是 block。一个 block 中的 thread，具有一个共享的 shared memory，也可以进行同步工作。不同 block 之间的 thread 则不行。在我们的程序中，其实不太需要进行 thread 的同步动作，因此我们可以使用多个 block 来进一步增加 thread 的数目。

　　首先，在 #define DATA_SIZE 的地方，改成如下：

#define DATA_SIZE   1048576
#define BLOCK_NUM   32
#define THREAD_NUM   256

　　这表示我们会建立 32 个 blocks，每个 blocks 有 256 个 threads，总共有 32*256 = 8192 个 threads。

　　接着，我们把 kernel 部份改成：

__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
    const int tid = threadIdx.x;
    const int bid = blockIdx.x;
    int sum = 0;
    int i;
    if(tid == 0) time[bid] = clock();
    for(i = bid * THREAD_NUM + tid; i < DATA_SIZE;
        i += BLOCK_NUM * THREAD_NUM) {
       sum += num[i] * num[i];
    }

    result[bid * THREAD_NUM + tid] = sum;
    if(tid == 0) time[bid + BLOCK_NUM] = clock();
}

　　blockIdx.x 和 threadIdx.x 一样是 CUDA 内建的变量，它表示的是目前的 block 编号。另外，注意到我们把计算时间的方式改成每个 block 都会记录开始时间及结束时间。

　　main 函式部份，修改成：

int* gpudata, *result;
clock_t* time;
cudaMalloc((void**) &gpudata, sizeof(int) * DATA_SIZE);
cudaMalloc((void**) &result, sizeof(int) * THREAD_NUM * BLOCK_NUM);
cudaMalloc((void**) &time, sizeof(clock_t) * BLOCK_NUM * 2);
cudaMemcpy(gpudata, data, sizeof(int) * DATA_SIZE, cudaMemcpyHostToDevice);

sumOfSquares<<<BLOCK_NUM, THREAD_NUM, 0>>>(gpudata, result, time);

int sum[THREAD_NUM * BLOCK_NUM];
clock_t time_used[BLOCK_NUM * 2];
cudaMemcpy(&sum, result, sizeof(int) * THREAD_NUM * BLOCK_NUM, cudaMemcpyDeviceToHost);
cudaMemcpy(&time_used, time, sizeof(clock_t) * BLOCK_NUM * 2, cudaMemcpyDeviceToHost);
cudaFree(gpudata);
cudaFree(result);
cudaFree(time);

int final_sum = 0;
for(int i = 0; i < THREAD_NUM * BLOCK_NUM; i++) {
    final_sum += sum[i];
}
clock_t min_start, max_end;
min_start = time_used[0];
max_end = time_used[BLOCK_NUM];
for(int i = 1; i < BLOCK_NUM; i++) {
    if(min_start > time_used[i])
        min_start = time_used[i];
    if(max_end < time_used[i + BLOCK_NUM])
        max_end = time_used[i + BLOCK_NUM];
}
printf("sum: %d time: %d\n", final_sum, max_end - min_start);

　　基本上我们只是把 result 的大小变大，并修改计算时间的方式，把每个 block 最早的开始时间，和最晚的结束时间相减，取得总运行时间。

　　这个版本的程序，执行的时间减少很多，在 GeForce 8800GT 上只需要约 150K cycles，相当于 40GB/s 左右的带宽。不过，它在 CPU 上执行的部份，需要的时间加长了(因为 CPU 现在需要加总 8192 个数字)。为了避免这个问题，我们可以让每个 block 把自己的每个 thread 的计算结果进行加总。

　　Thread 的同步

　　前面提过，一个 block 内的 thread 可以有共享的内存，也可以进行同步。我们可以利用这一点，让每个 block 内的所有 thread 把自己计算的结果加总起来。把 kernel 改成如下：

__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
    extern __shared__ int shared[];
    const int tid = threadIdx.x;
    const int bid = blockIdx.x;
    int i;
    if(tid == 0) time[bid] = clock();
    shared[tid] = 0;
    for(i = bid * THREAD_NUM + tid; i < DATA_SIZE;
        i += BLOCK_NUM * THREAD_NUM) {
       shared[tid] += num[i] * num[i];
    }

    __syncthreads();
    if(tid == 0) {
        for(i = 1; i < THREAD_NUM; i++) {
            shared[0] += shared[i];
        }
        result[bid] = shared[0];
    }

    if(tid == 0) time[bid + BLOCK_NUM] = clock();
}

　　利用 __shared__ 声明的变量表示这是 shared memory，是一个 block 中每个 thread 都共享的内存。它会使用在 GPU 上的内存，所以存取的速度相当快，不需要担心 latency 的问题。

　　__syncthreads() 是一个 CUDA 的内部函数，表示 block 中所有的 thread 都要同步到这个点，才能继续执行。在我们的例子中，由于之后要把所有 thread 计算的结果进行加总，所以我们需要确定每个 thread 都已经把结果写到 shared[tid] 里面了。

　　接下来，把 main 函式的一部份改成：

int* gpudata, *result;
clock_t* time;
cudaMalloc((void**) &gpudata, sizeof(int) * DATA_SIZE);
cudaMalloc((void**) &result, sizeof(int) * BLOCK_NUM);
cudaMalloc((void**) &time, sizeof(clock_t) * BLOCK_NUM * 2);
cudaMemcpy(gpudata, data, sizeof(int) * DATA_SIZE, cudaMemcpyHostToDevice);

sumOfSquares<<<BLOCK_NUM, THREAD_NUM, THREAD_NUM * sizeof(int)>>>(gpudata, result, time);

int sum[BLOCK_NUM];
clock_t time_used[BLOCK_NUM * 2];
cudaMemcpy(&sum, result, sizeof(int) * BLOCK_NUM, cudaMemcpyDeviceToHost);
cudaMemcpy(&time_used, time, sizeof(clock_t) * BLOCK_NUM * 2, cudaMemcpyDeviceToHost);
cudaFree(gpudata);
cudaFree(result);
cudaFree(time);
int final_sum = 0;
for(int i = 0; i < BLOCK_NUM; i++) {
    final_sum += sum[i];
}

　　可以注意到，现在 CPU 只需要加总 BLOCK_NUM 也就是 32 个数字就可以了。

　　不过，这个程序由于在 GPU 上多做了一些动作，所以它的效率会比较差一些。在 GeForce 8800GT 上，它需要约 164K cycles。

　　当然，效率会变差的一个原因是，在这一版的程序中，最后加总的工作，只由每个 block 的 thread 0 来进行，但这并不是最有效率的方法。理论上，把 256 个数字加总的动作，是可以并行化的。最常见的方法，是透过树状的加法：

　　把 kernel 改成如下：

__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
    extern __shared__ int shared[];
    const int tid = threadIdx.x;
    const int bid = blockIdx.x;
    int i;
    int offset = 1, mask = 1;
    if(tid == 0) time[bid] = clock();
    shared[tid] = 0;
    for(i = bid * THREAD_NUM + tid; i < DATA_SIZE;
        i += BLOCK_NUM * THREAD_NUM) {
       shared[tid] += num[i] * num[i];
    }

    __syncthreads();
    while(offset < THREAD_NUM) {
        if((tid & mask) == 0) {
            shared[tid] += shared[tid + offset];
        }
        offset += offset;
        mask = offset + mask;
        __syncthreads();
    }

    if(tid == 0) {
        result[bid] = shared[0]; 
        time[bid + BLOCK_NUM] = clock();
    }
}

　　后面的 while 循环就是进行树状加法。main 函式则不需要修改。

　　这一版的程序，在 GeForce 8800GT 上执行需要的时间，大约是 140K cycles(相当于约 43GB/s)，比完全不在 GPU 上进行加总的版本还快!这是因为，在完全不在 GPU 上进行加总的版本，写入到 global memory 的数据数量很大(8192 个数字)，也对效率会有影响。所以，这一版程序不但在 CPU 上的运算需求降低，在 GPU 上也能跑的更快。

　　进一步改善

　　上一个版本的树状加法是一般的写法，但是它在 GPU 上执行的时候，会有 share memory 的 bank conflict 的问题(详情在后面介绍 GPU 架构时会提到)。采用下面的方法，可以避免这个问题：

offset = THREAD_NUM / 2;
while(offset > 0) {
    if(tid < offset) {
         shared[tid] += shared[tid + offset];
    }
    offset >>= 1;
    __syncthreads();
}

　　这样同时也省去了 mask 变数。因此，这个版本的执行的效率就可以再提高一些。在 GeForce 8800GT 上，这个版本执行的时间是约 137K cycles。当然，这时差别已经很小了。如果还要再提高效率，可以把树状加法整个展开：

if(tid < 128) { shared[tid] += shared[tid + 128]; }
__syncthreads();
if(tid < 64) { shared[tid] += shared[tid + 64]; }
__syncthreads();
if(tid < 32) { shared[tid] += shared[tid + 32]; }
__syncthreads();
if(tid < 16) { shared[tid] += shared[tid + 16]; }
__syncthreads();
if(tid < 8) { shared[tid] += shared[tid + 8]; }
__syncthreads();
if(tid < 4) { shared[tid] += shared[tid + 4]; }
__syncthreads();
if(tid < 2) { shared[tid] += shared[tid + 2]; }
__syncthreads();
if(tid < 1) { shared[tid] += shared[tid + 1]; }
__syncthreads();

　　当然这只适用于 THREAD_NUM 是 256 的情形。这样可以再省下约 1000 cycles 左右(约 44GB/s)。

http://tech.it168.com/a2011/0708/1215/000001215145.shtml

3招让.NET Core“即发即弃”秒变性能怪兽？为什么你的任务还在“卡住”？！墨瑾轩 C#乐园 .netcore 网络
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣**.NETCore“即发即弃”的3大黑科技**黑科技①：Task.Run的“甩手掌柜”——“任务的‘快递员’”目标：让任务“即发即弃”，像“快递员”一样独立执行！核心思想：“像给任务装上‘火箭助推器’，执行完就消失，主线程继续干大事！”步骤1：定义阻塞任务（
‘FileNotFoundError: [Errno 2] No such file or directory:‘问题的解决 Zonda要好好学习编辑器 github python
在使用Geany编辑第一个python文件的时候，我们需要对Geany执行文件的路径先进行配置。具体步骤如下：1、点击：生成（B）2、点击设置生成命令3、在Compile一栏中输入编译命令：C:\Python39\python-mpy_compile“%f”，其中C:\Python39\python是python执行文件的绝对路径，读者可根据自己的具体情况设定。在Execute一栏中输入编译命令：
软件设计中如何画各类图之五用例图（Use Case Diagram）：系统功能需求与用户交互的图形化描述
目录1前言2用例图基本介绍3用例图的符号及说明3.1用例（UseCase）3.2参与者（Actor）3.2关系（Relationships）4画用例图的步骤4.1确定系统边界4.2识别参与者4.3定义用例4.4绘制关系4.5完善细节5用例图的用途5.1系统设计与分析5.2需求收集与验证5.3沟通与共享理解6实际场景举例6.1在线酒店预订系统6.2学生课程管理系统7结语1前言在软件工程和系统设计领域
TCL电视版本更新方式记录
最近刚好用到TCL电视需要升级版本测试功能，找到相关升级文档：TCL电视更新版本通常有两种方法：USB升级和在线升级。下面分别介绍这两种方法的具体步骤：USB升级步骤1：从TCL官方网站下载电视固件升级包（一般为zip格式），并将文件保存到格式为FAT32的U盘中。步骤2：将U盘插入电视的USB接口。在电视遥控器上依次按“菜单”、“设置”、“系统升级”，然后按“确认”键进入升级界面。步骤3：在升级
如何使用Flask构建后端的RESTful API 大厂资深架构师 Spring Boot 开发实战 flask restful python ai
如何使用Flask构建后端的RESTfulAPI关键词：Flask、RESTfulAPI、后端开发、Python、API构建摘要：本文详细介绍了如何使用Flask框架构建后端的RESTfulAPI。从背景知识入手，阐述了Flask和RESTfulAPI的核心概念及联系，深入讲解了构建API的核心算法原理与具体操作步骤，包含Python源代码示例。同时给出了数学模型和公式，通过项目实战展示代码的实际
【Linux】电脑安装 Ubuntu 系统
如何安装Linux(Ubuntu)系统文章目录前言一、Ubuntu桌面镜像二、安装步骤1.下载iso镜像2.基于balenaEtcher写入镜像文件3.U盘启动安装总结前言多数情况下，我们通过虚拟机，如Vmware安装linux系统，但有时候为了更好的分配电脑的CPU或GPU性能，我们需要将电脑直接刷成linux系统。本篇介绍如何安装Ubuntu系统。一、Ubuntu桌面镜像Linux系统多数情况
Ubuntu Gnome 安装和卸载 WhiteSur-gtk-theme 类 Mac 主题的正确方法 ghie9090 ubuntu macos linux
WhiteSur-gtk-theme是一个流行的GNOME桌面主题，可以让Ubuntu的桌面环境看起来像macOS。以下是安装和卸载WhiteSur-gtk-theme的详细步骤，包括解释每个命令的作用。一、安装WhiteSur-gtk-theme1.准备工作在安装主题之前，建议确保系统的依赖项已更新，并且已安装Git和GNOMETweaks工具。sudoaptupdate&&sudoaptupg
PostgreSQL大表创建分区实战
目录1.存储空间占用分析索引大小估算公式：具体案例计算：2.风险分析与规避措施主要风险：3.安全创建索引方案步骤1：准备阶段步骤2：分阶段并发创建索引4.分区表特别优化方案A：仅索引热分区方案B：使用部分索引5.监控与应急措施实时监控命令：应急终止：6.存储优化技巧7.最终推荐方案性能影响对比在5亿级数据量的分区表上创建索引需要谨慎操作，但不会导致数据库崩溃，只要合理规划资源和操作方式。以下是详细
数据库闪回失败怎么办？ORA-38757 修复全攻略数据库oracle
前言在Oracle数据库的恢复过程中，ORA-38757错误是一个常见的“拦路虎”。它提示你：“数据库必须处于挂载状态且未打开时才能执行FLASHBACK操作。”如果你遇到了这个错误，不要慌张。这篇文章将为你详细解析错误成因，并提供清晰的排查与修复步骤，帮助你顺利完成闪回任务。一、什么是ORA-38757？当你尝试使用FLASHBACKDATABASE命令进行数据库级别的闪回操作时，如果数据库不是
Ubuntu20.04离线安装openssh-server安装包怀盼浪Chief
Ubuntu20.04离线安装openssh-server安装包【下载地址】Ubuntu20.04离线安装openssh-server安装包此项目为Ubuntu20.04用户提供了离线安装openssh-server所需的全套安装包，解决了网络受限环境下的安装难题。通过详细的步骤说明，用户可轻松完成依赖库、客户端、SFTP服务器及主服务的安装，确保SSH功能的正常使用。项目特别适合需要在无网络或严
浅析通用文字识别OCR技术的工作过程及其应用场景 AI人工智能+ TEL18600524535 人工智能 ocr 计算机视觉图像处理文字识别
通用文字识别技术作为人工智能领域的重要分支，正深刻地改变着人们的生活与工作方式。通用文字识别技术基于光学字符识别（OCR）技术发展而来，其核心原理是通过对图像中文字的特征提取与分析，将其转化为计算机能够理解和处理的文本信息。这一过程涉及多个关键步骤：图像预处理：输入的图片可能存在光照不均、倾斜、模糊等问题，预处理阶段会对图像进行灰度化、降噪、二值化、倾斜校正等操作，以提高文字的清晰度和可识别性。例
SSH 升级避坑指南：从依赖到配置的深度优化超龄超能程序猿 linux centos
1.下载依赖并上传服务器本步骤旨在下载SSH升级所需的依赖包，并将其上传至服务器。通过yum命令，指定--downloadonly参数仅进行下载操作，--downloaddir参数设置下载路径为/ssh/install，执行以下命令：yuminstall--downloadonly--downloaddir=/ssh/installgccpam-devellibselinux-develzlib-
你确定懂冒泡排序？用动画的方式讲懂冒泡排序及其优化方式 linwu-hi 动画解析数据结构和算法前端算法排序算法
点击在线阅读，体验更好链接现代JavaScript高级小册链接深入浅出Dart链接现代TypeScript高级小册链接基本概念冒泡排序是一种基础的排序算法。其基本思想是通过不断地比较相邻元素并在必要时进行交换，将最大（或最小）的元素"冒"到序列的一端。排序步骤先来感受到冒泡排序的步骤吧以数组[5,3,8,4,6]为例，冒泡排序的步骤如下：第一轮排序：比较相邻的元素。第一次比较5和3，5大于3，交换
统信UOS官方安装HP打印机驱动说明文档
统信UOS官方安装HP打印机驱动说明文档【下载地址】统信UOS官方安装HP打印机驱动说明文档统信UOS官方HP打印机驱动安装说明文档为您提供了在统信UOS操作系统中安装HP打印机驱动程序的详细指南。无论您是初次使用还是需要重新安装，文档中的步骤清晰明了，确保您能够轻松完成驱动安装。通过这份文档，您可以快速获取驱动程序并按照指示操作，享受无缝的打印体验。简洁易懂的内容让安装过程更加顺畅，助您高效使用
python+django/flask+springboot的招聘求职系统 QQ1963288475 python django flask spring boot node.js php
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
【Python】车牌自动识别幽兰的天空 Python python opencv
实现车牌自动识别（LicensePlateRecognition,LPR）是计算机视觉和深度学习领域中的一个常见任务。用Python和OpenCV，结合其他深度学习库，可以建立一个简单的车牌识别系统。以下是一个基于这两者的基本实现思路和示例代码。实现步骤环境准备：安装必要的库：bashpipinstallopencv-pythonopencv-python-headlessnumpypillowp
网安系列【1】：黑客思维、技术与案例解析缘友一世网络安全网络安全 web安全安全架构安全
文章目录黑客世界入门指南：思维、技术与案例解析一黑客思维：从木桶原理开始理解安全二、黑客的多元身份：破坏者与创造者三、从案例学习：手机操控电脑的技术解析技术原理攻击步骤分解防御措施黑客能力等级体系四、黑客技术学习路径1.基础知识储备2.安全工具入门3.合法练习环境五、道德与法律：黑客的底线六、黑客思维的日常应用结语黑客世界入门指南：思维、技术与案例解析一黑客思维：从木桶原理开始理解安全想象一个由多
Python和OpenCV实现车牌识别的毕业设计案例媛源啊
本文还有配套的精品资源，点击获取简介：本项目通过Python和OpenCV库，实现了一个实用的车牌识别系统，包含图像捕获、预处理、车牌定位、车牌分割和字符识别等步骤。系统提供了一键运行的完整代码，使学生能够快速掌握计算机视觉和深度学习应用。遇到的挑战和解决方案也进行了讨论，比如光照变化、车牌角度不一致和污损的处理，以及数据增强技术和模型参数优化。1.车牌识别系统的基本理论和应用1.1车牌识别的背景
项目中使用Redis 配置步骤 Savannah_Wen redis
一、maven项目pom.xml文件中除了Springboot相关依赖还要加入com.alibabafastjson1.2.42org.springframework.bootspring-boot-starter-data-redis二、在resource下的application.yml配置文件中加入redis服务器地址等配置信息三、创建一个base包下的config包，写RedisConfi
Intellij IDEA中Maven的使用 hqxstudying intellij-idea maven java
在IntelliJIDEA中使用Maven进行项目开发，可按以下步骤操作：1.确认Maven已安装检查IDEA内置Maven：IDEA默认集成Maven，无需额外安装。若需自定义，可在File>Settings>Build,Execution,Deployment>BuildTools>Maven中配置路径。验证Maven版本：打开Terminal（Alt+F12），输入mvn-v，确保输出Mav
第三方软件检测：软件登记测试中承信安软件登记测试第三方软件检测软件测评机构
软件登记测试是指检测机构按照委托方提供的测试功能点，对其指定的软件产品进行功能性的检测和验证，确保这些功能都得以实现并能正常运行。其目的在于验证软件产品的基本功能是否实现，能否正常运行，并通过出具专业规范的测试报告，为企业用于软件产品登记等事务的办理和申报提供依据。一、软件登记测试的流程软件登记测试的流程通常包括以下几个步骤：前期沟通：需求对接、确认测试类型，产出测试需要的材料清单和商务合同及报价
阿里云宝塔面板安装详细教程 vpssf Linux运维教程企业运维教程宝塔面板教程运维数据库
下面稍微介绍一下如何使用阿里云服务器安装宝塔面板。概述如果还有不了解宝塔面板怎么使用的小伙伴，可以看下我总结的系列教程，保证从新手变老鸟：【建站流程科普】个人和企业搭建网站基本流程及六个主要步骤常见的VPS主机运维面板汇总—网站运维面板云服务器，VPS，虚拟主机有什么不同？如何选择？【宝塔面板精选教程汇总】宝塔面板教程（1）基于云服务器搭建宝塔面板教程最全详解宝塔面板教程（2）宝塔面板添加Word
详细描述一条 SQL 在 MySQL 中的执行过程 tsxchen 数据库 sql mysql 数据库
一条SQL在MySQL中的执行过程包括解析器解析SQL语句，优化器生成执行计划，存储引擎执行计划并返回结果，最后由MySQL服务层处理和返回给客户端。当一条SQL语句在MySQL中执行时，经历以下几个步骤：一、连接与请求阶段连接建立与认证客户端（如应用、命令行工具）通过TCP/IP或Socket协议连接到MySQL服务器。连接器验证用户名、密码及权限，若失败则返回错误（如Accessdenied）
微信小程序能不能获取物联网的上的设备数据 MonkeyKing.sun 微信小程序物联网小程序
微信小程序可以获取物联网设备的数据，主要通过以下几种方式实现：通过MQTT协议获取数据微信小程序可以通过MQTToverWebSocket连接物联网平台（如阿里云IoT、腾讯云IoT或其他支持MQTT的平台），订阅设备发布的Topic，从而实时获取设备上报的数据（如温度、湿度等传感器数据）。实现步骤包括：在物联网平台（如阿里云IoT）创建产品和设备，获取设备三元组（ProductKey、Devic
C#串口通信上位机笔记（modbus协议）指针刺客 c#笔记开发语言
C#串口通信上位机笔记（modbus协议）提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录C#串口通信上位机笔记（modbus协议）前言一、新建工程二、使用步骤1.引入库2.串口初始化总结前言提示：这里可以添加本文要记录的大概内容：记录自己工作的上位机经验
2025运维面试真题分析 KanS1 运维面试职场和发展面试试题
以下是对运维岗位面试问题的分类整理、领域占比分析及高频问题精选。创作不宜，请关注我，给与动力。如果你没时间背诵运维八股题也可以试试这个面试神器：登科及第可以增加信心和面试通过率。一、项目经验与故障处理（占比24.7%，面试核心）聚焦实际场景中的问题解决能力。优先级问题请举一个具体项目案例，描述遇到的挑战及解决步骤（4次）防护设备出口接反导致日志异常，如何发现并解决？（1次）⭐️典型故障场景上线后遇
java练习代码大全及详解咻电联盟18336067661 java 开发语言
Java练习代码大全及详解1.整体流程首先，让我们通过以下表格展示整个实现“Java练习代码大全及详解”的流程：步骤内容1创建一个Java项目2添加练习代码文件3编写练习代码4编译代码5运行代码6进行详细解释2.具体步骤及代码解释步骤1：创建一个Java项目首先，打开你的集成开发环境（IDE），如Eclipse或IntelliJIDEA，然后创建一个新的Java项目。步骤2：添加练习代码文件在项目
OpenCV图像边缘检测慕婉0307 opencv基础 opencv 人工智能计算机视觉
一、边缘检测基础概念边缘检测是图像处理中最基本也是最重要的操作之一，它能识别图像中亮度或颜色急剧变化的区域，这些区域通常对应物体的边界。OpenCV提供了多种边缘检测方法，从传统的算子到基于深度学习的现代方法。1.1为什么需要边缘检测？数据降维：将图像转换为边缘表示可大幅减少数据量特征提取：边缘是图像最重要的视觉特征之一预处理步骤：为物体识别、图像分割等高级任务做准备噪声抑制：某些边缘检测方法具有
pandas-数据清洗 qq_512720272 pandas 机器学习人工智能
数据清洗数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。数据清洗与预处理的常见步骤：缺失值处理：识别并填补缺失值，或删除含缺失值的行/列。重复数据处理：检查并删除重复数据，确保每条数据唯一。异常值处理：识别并处理异常值，如极端值、错误值。数据格式转换：转换数据类型或进行单位转换，
Blender glTF 2.0 导入导出插件技术文档花锨潜Praised
BlenderglTF2.0导入导出插件技术文档glTF-Blender-IOBlenderglTF2.0importerandexporter项目地址:https://gitcode.com/gh_mirrors/gl/glTF-Blender-IO1.安装指南1.1系统要求Blender2.8及以上版本Python3.x1.2安装步骤Blender内置插件：Blender2.8及以上版本已经内
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

CUDA: CUDA程序优化步骤

你可能感兴趣的:(CUDA: CUDA程序优化步骤)