sunmc1204953974

CUDA编程（三）评估CUDA程序的表现

CUDA编程（三）

评估CUDA程序的表现

上一篇博客我们基本上搭建起来了CUDA程序的骨架，但是其中并没有涉及到我们之前不断提到的并行加速，毕竟只有当我们的程序高并行的运行在GPU上才能大大缩短运行时间。不过在加速之前我们还有一件非常重要的事情需要考虑，那就是我们的程序到底有没有一个好的表现，也就是我们要准确计算程序的运行时间，这对之后的程序优化也有至关重要的作用，所以值得我们去仔细研究一下~

这里所谓的计算运行时间也不是单纯意义上的看运行时间，更重要的是我们要通过核函数的运行时间去计算程序实际上所使用的内存带宽，与显卡的性能进行比较，看看我们到底发挥了GPU的几成功力，像上一篇博客里的那个程序，其所使用的内存带宽大概只有 5M/s，而我们之前也提到过了，像GeForce 8800GTX这样比较老的显卡，也具有超过50GB/s 的内存带宽。所以只有学会评估程序，才能不断去优化程序，直到驾驭我们的显卡。

计算核函数运行时间

clock函数

评估程序在GPU上的运行时间我们需要使用CUDA提供的一个Clock函数，这个函数将会返回GPU执行单元的频率（timestamp），这十分适合用来判断一段程序执行所花费的时间。

我们首先来看一下之前写好的CUDA程序骨架，然后我们的任务就是加上计算程序运行时间的功能：


#include <stdio.h>
#include <stdlib.h>

//CUDA RunTime API
#include <cuda_runtime.h>

#define DATA_SIZE 1048576

int data[DATA_SIZE];

//产生大量0-9之间的随机数
void GenerateNumbers(int *number, int size)
{
    for (int i = 0; i < size; i++) {
        number[i] = rand() % 10;
    }
}

//CUDA 初始化
bool InitCUDA()
{
    int count;

    //取得支持Cuda的装置的数目
    cudaGetDeviceCount(&count);

    if (count == 0) {
        fprintf(stderr, "There is no device.\n");
        return false;
    }

    int i;

    for (i = 0; i < count; i++) {
        cudaDeviceProp prop;
        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }

    if (i == count) {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }

    cudaSetDevice(i);

    return true;
}


// __global__ 函数 (GPU上执行) 计算立方和
__global__ static void sumOfSquares(int *num, int* result)
{
    int sum = 0;

    int i;

    for (i = 0; i < DATA_SIZE; i++) {

        sum += num[i] * num[i] * num[i];

    }

    *result = sum;

}





int main()
{

    //CUDA 初始化
    if (!InitCUDA()) {
        return 0;
    }

    //生成随机数
    GenerateNumbers(data, DATA_SIZE);

    /*把数据复制到显卡内存中*/

    int* gpudata, *result;

    //cudaMalloc 取得一块显卡内存 ( 其中result用来存储计算结果 )
    cudaMalloc((void**)&gpudata, sizeof(int)* DATA_SIZE);
    cudaMalloc((void**)&result, sizeof(int));

    //cudaMemcpy 将产生的随机数复制到显卡内存中 
    //cudaMemcpyHostToDevice - 从内存复制到显卡内存
    //cudaMemcpyDeviceToHost - 从显卡内存复制到内存
    cudaMemcpy(gpudata, data, sizeof(int)* DATA_SIZE, cudaMemcpyHostToDevice);

    // 在CUDA 中执行函数 语法：函数名称<<<block 数目, thread 数目, shared memory 大小>>>(参数...);
    sumOfSquares << <1, 1, 0 >> >(gpudata, result);


    /*把结果从显示芯片复制回主内存*/

    int sum;

    //cudaMemcpy 将结果从显存中复制回内存
    cudaMemcpy(&sum, result, sizeof(int), cudaMemcpyDeviceToHost);

    //Free
    cudaFree(gpudata);
    cudaFree(result);

    printf("GPUsum: %d \n", sum);

    sum = 0;

    for (int i = 0; i < DATA_SIZE; i++) {
        sum += data[i] * data[i] * data[i];
    }

    printf("CPUsum: %d \n", sum);

    return 0;
}

首先我们需要先引入time.h，才能使用clock_t

#include <time.h>

然后我们需要先改动一下我们的核函数sumOfSquares，因为之前提到过了，核函数是不能有返回值的，我们现在不仅需要返回计算结果，还需要一个返回运行时间的参数,同时调用clock函数获取开始时间，通过做差计算出运行时间。

// __global__ 函数 (GPU上执行) 计算立方和
__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
int sum = 0;

int i;

clock_t start = clock();

for (i = 0; i < DATA_SIZE; i++) {

sum += num[i] * num[i] * num[i];

}

*result = sum;

*time = clock() - start;

}

因为需要记录时间，我们也需要为这个记录时间的变量开辟一块内存,所以开辟显存的部分也需要进行更改

/*把数据复制到显卡内存中*/

int* gpudata, *result;
clock_t* time;

//cudaMalloc 取得一块显卡内存 ( 其中result用来存储计算结果，time用来存储运行时间 )
cudaMalloc((void**)&gpudata, sizeof(int)* DATA_SIZE);
cudaMalloc((void**)&result, sizeof(int));
cudaMalloc((void**) &time, sizeof(clock_t));

调用核函数的部分也要加一个参数

sumOfSquares<<<1, 1, 0>>>(gpudata, result, time);

最后不要忘记从显存拿回时间并且输出出来

/*把结果从显示芯片复制回主内存*/

int sum;
clock_t time_used;

//cudaMemcpy 将结果从显存中复制回内存
cudaMemcpy(&sum, result, sizeof(int), cudaMemcpyDeviceToHost);
cudaMemcpy(&time_used, time, sizeof(clock_t), cudaMemcpyDeviceToHost);

//Free
cudaFree(gpudata);
cudaFree(result);
cudaFree(time);

printf("GPUsum: %d time: %d\n", sum, time_used);

经过以上改造我们就能成功的输出clock函数的结果了~

完整程序：


#include <stdio.h>
#include <stdlib.h>
#include <time.h>

//CUDA RunTime API
#include <cuda_runtime.h>

#define DATA_SIZE 1048576

int data[DATA_SIZE];

//产生大量0-9之间的随机数
void GenerateNumbers(int *number, int size)
{
    for (int i = 0; i < size; i++) {
        number[i] = rand() % 10;
    }
}

//CUDA 初始化
bool InitCUDA()
{
    int count;

    //取得支持Cuda的装置的数目
    cudaGetDeviceCount(&count);

    if (count == 0) {
        fprintf(stderr, "There is no device.\n");
        return false;
    }

    int i;

    for (i = 0; i < count; i++) {
        cudaDeviceProp prop;
        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }

    if (i == count) {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }

    cudaSetDevice(i);

    return true;
}


// __global__ 函数 (GPU上执行) 计算立方和
__global__ static void sumOfSquares(int *num, int* result, clock_t* time)
{
    int sum = 0;

    int i;

    clock_t start = clock();

    for (i = 0; i < DATA_SIZE; i++) {

        sum += num[i] * num[i] * num[i];

    }

    *result = sum;

    *time = clock() - start;

}





int main()
{

    //CUDA 初始化
    if (!InitCUDA()) {
        return 0;
    }

    //生成随机数
    GenerateNumbers(data, DATA_SIZE);

    /*把数据复制到显卡内存中*/
    int* gpudata, *result;

    clock_t* time;

    //cudaMalloc 取得一块显卡内存 ( 其中result用来存储计算结果，time用来存储运行时间 )
    cudaMalloc((void**)&gpudata, sizeof(int)* DATA_SIZE);
    cudaMalloc((void**)&result, sizeof(int));
    cudaMalloc((void**)&time, sizeof(clock_t));

    //cudaMemcpy 将产生的随机数复制到显卡内存中
    //cudaMemcpyHostToDevice - 从内存复制到显卡内存
    //cudaMemcpyDeviceToHost - 从显卡内存复制到内存
    cudaMemcpy(gpudata, data, sizeof(int)* DATA_SIZE, cudaMemcpyHostToDevice);

    // 在CUDA 中执行函数 语法：函数名称<<<block 数目, thread 数目, shared memory 大小>>>(参数...);
    sumOfSquares << <1, 1, 0 >> >(gpudata, result, time);


    /*把结果从显示芯片复制回主内存*/

    int sum;
    clock_t time_used;

    //cudaMemcpy 将结果从显存中复制回内存
    cudaMemcpy(&sum, result, sizeof(int), cudaMemcpyDeviceToHost);
    cudaMemcpy(&time_used, time, sizeof(clock_t), cudaMemcpyDeviceToHost);

    //Free
    cudaFree(gpudata);
    cudaFree(result);
    cudaFree(time);

    printf("GPUsum: %d time: %d\n", sum, time_used);

    sum = 0;

    for (int i = 0; i < DATA_SIZE; i++) {
        sum += data[i] * data[i] * data[i];
    }

    printf("CPUsum: %d \n", sum);

    return 0;
}

运行结果：

（另外说一下我的环境，这里用的是Debug，后面不说明的话也是Debug下的，Release的话还会快10倍左右。然后我的显卡是NVIDIA GeForce GT 640
也够老的，主要是因为我另一台电脑用户文件夹是中文的，所以死活用不了CUDA，我又不想重装系统，所以知道怎么改用户文件夹的同学一定要告诉我啊，555555555）

我们看到输出的时间很奇怪：679743997，其实这个地方返回的是GPU执行单元的频率，也就是GPU的时钟周期（timestamp），需要除以GPU的运行频率才能得到以秒为单位的时间。那么问题来了，我们怎么去获取准确的GPU信息呢，这对我们今后的优化也有着重大意义。

获取GPU的详细信息：

之前我们提到过CUDA的初始化过程我们要获取 CUDA 的设备数，然后利用其支持CUDA版本的属性来判断是否是仿真器，最终判断是否机器上具有完备的CUDA开发环境。其实在使用cudaGetDeviceProperties获取设备属性的时候，我们获取的是一个关于设备的属性集合，现在我们来具体的看一下这个函数：

函数说明：

以*prop形式返回设备dev的属性。

返回值：

cudaSuccess、cudaErrorInvalidDevice，注，如果之前是异步启动，该函数可能返回错误码。

cudaDeviceProp 结构定义:

struct cudaDeviceProp {

char name [256];
size_t totalGlobalMem;
size_t sharedMemPerBlock;
int regsPerBlock;
int warpSize;
size_t memPitch;
int maxThreadsPerBlock;
int maxThreadsDim [3];
int maxGridSize [3];
size_t totalConstMem;
int major;
int minor;
int clockRate;
size_t textureAlignment;
int deviceOverlap;
int multiProcessorCount;

}

cudaDeviceProp 结构中的各个变量的意义：

name
用于标识设备的ASCII字符串;
totalGlobalMem
设备上可用的全局存储器的总量,以字节为单位;
sharedMemPerBlock
线程块可以使用的共享存储器的最大值,以字节为单位;多处理器上的所有线程块可以同时共享这些存储器;
regsPerBlock
线程块可以使用的32位寄存器的最大值;多处理器上的所有线程块可以同时共享这些寄存器;
warpSize
按线程计算的warp块大小;
memPitch
允许通过cudaMallocPitch()为包含存储器区域的存储器复制函数分配的最大间距(pitch),以字节为单位;
maxThreadsPerBlock
每个块中的最大线程数
maxThreadsDim[3]
块各个维度的最大值:
maxGridSize[3]
网格各个维度的最大值;
totalConstMem
设备上可用的不变存储器总量,以字节为单位;
major,minor
定义设备计算能力的主要修订号和次要修订号;
clockRate
以千赫为单位的时钟频率;
textureAlignment
对齐要求;与textureAlignment字节对齐的纹理基址无需对纹理取样应用偏移;
deviceOverlap
如果设备可在主机和设备之间并发复制存储器,同时又能执行内核,则此值为 1;否则此值为 0;
multiProcessorCount
设备上多处理器的数量。

我们可以写一个函数来把这些信息都输出出来,这样我们就能获得我们GPU的全部信息了，更重要的是获得我们所关心的时钟频率：

void printDeviceProp(const cudaDeviceProp &prop)
{
    printf("Device Name : %s.\n", prop.name);
    printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);
    printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);
    printf("regsPerBlock : %d.\n", prop.regsPerBlock);
    printf("warpSize : %d.\n", prop.warpSize);
    printf("memPitch : %d.\n", prop.memPitch);
    printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
    printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
    printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);
    printf("totalConstMem : %d.\n", prop.totalConstMem);
    printf("major.minor : %d.%d.\n", prop.major, prop.minor);
    printf("clockRate : %d.\n", prop.clockRate);
    printf("textureAlignment : %d.\n", prop.textureAlignment);
    printf("deviceOverlap : %d.\n", prop.deviceOverlap);
    printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
}

我们把这个函数放到初始化CUDA的InitCUDA()函数中去使用，这样就能把每个设备的信息打印出来。


//CUDA 初始化
bool InitCUDA()
{
    int count;

    //取得支持Cuda的装置的数目
    cudaGetDeviceCount(&count);

    if (count == 0) {
        fprintf(stderr, "There is no device.\n");
        return false;
    }

    int i;

    for (i = 0; i < count; i++) {

        cudaDeviceProp prop;
        cudaGetDeviceProperties(&prop, i);
        //打印设备信息
        printDeviceProp(prop);

        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }

    if (i == count) {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }

    cudaSetDevice(i);

    return true;
}

运行结果：

在这里我们就很清楚的看到了GPU的各项信息，包括最大的Thread数，Grid数等等，这对后面的并行优化也是很有价值的。然后我们看到我的GPU的时钟频率是797000千赫兹，于是我们就可以计算出这次运行核函数部分的时间约为：

679680304 / (797000 * 1000) = 0.853S

计算使用的内存带宽：

我们的数据量为：DATA_SIZE 1048576，也就是1024*1024 也就是 1M

1M 个 32 bits 数字的数据量是 4MB。

因此，这个程序实际上使用的内存带宽约为：

4MB / 0.853S = 4.68MB/s

只有4.68MB/s 左右！这是非常糟糕的表现，因为我们之前也提到过了，像GeForce 8800GTX这样比较老的显卡，也具有超过50GB/s 的内存带宽，不过产生这种现象的原因和解决我们留到下次~

那么我们为什么着呢在意内存带宽呢，这里给大家补充一下写出一个优异的CUDA程序所要经过的步骤。

什么是优秀的CUDA程序：

为了短时间内完成计算，需要考虑算法、并行划分、指令吞吐量、存储器带宽等多方面因素，总的来说一个优秀的CUDA程序应该具有下面这些特征：

在给定的数据规模下，选用算法的计算复杂度不明显高于最优的算法；
Active warp的数量能够让SM满载，并且active block的数量大于2，能够有效地隐藏访存延迟（使用足够大的内存带宽）；
当瓶颈出现在运算指令时，指令流的效率已经过了充分优化；
当瓶颈出现在访问IO时，程序已经选用了恰当的存储器来储存数据，并使用了适当的存储器访问方式，以获得最大带宽；

CUDA程序编写优化步骤：

如何完成一个优秀的CUDA程序呢？这里有一份步骤给大家参考：

确定任务中的串行和并行的部分，选择合适的算法（首先将问题分解为几个步骤，确定哪些步骤可以用并行实现，并确定合适的算法）；
按照算法确定数据和任务的划分方式，将每个需要实现的步骤映射为一个满足CUDA两层并行模型的内核函数，让每个SM上至少有6个活动warp和至少2个活动block；
编写一个能正确运行的程序作为优化的起点，要确保程序能稳定运行以及其正确性，在精度不足或者发生溢出时必须使用双精度浮点或者更长的整数类型；
优化显存访问，避免显存带宽成为瓶颈。在显存带宽得到完全优化前，其他优化不会产生明显效果。
优化指令流，在误差可接受的情况下，使用CUDA算术指令集中的快速指令；避免多余的同步；在只需要少量线程进行操作的情况下，使用类似“if threaded<N”的方式，避免多个线程同时运行占用更长时间或者产生错误结果；
资源均衡，调整每个线程处理的数据量，shared memory和register和使用量；通过调整block大小，修改算法和指令以及动态分配shared memory，都可以提高shared的使用效率；register的多少是由内核程序中使用寄存器最多的时刻的用量决定的，因此减小register的使用相对困难；节约register方法是使用shared memory存储变量；使用括号明确地表示每个变量的生存周期；使用占用寄存器较小的等效指令代替原有指令；
与主机通信优化，尽量减少CPU与GPU间的传输，使用cudaMallocHost分配主机端存储器，可以获得更大带宽；一次缓存较多的数据后再一次传输，可以获得较高的带宽；需要将结果显示到屏幕的时候，直接使用与图形学API互操作的功能；使用流和异步处理隐藏与主机的通信时间；使用zero-memory技术和Write-Combined memory提高可用带宽；

由此我们可以看到我们的优化之路还很漫长，这个优化步骤中的每一步都对应了大量可以去做的优化，上面这个只是个概述，不过我们可以看到有一句非常重要的话：

在显存带宽得到完全优化前，其他优化不会产生明显效果。

所以我们就先不要想其他的了，先完成最基本的优化，去尽可能的使用显卡的内存带宽~

总结：

这篇博客主要讲解了怎么去获取核函数执行的准确时间，以及如何去根据这个时间评估CUDA程序的表现，也就是推算所谓的内存带宽，总的来说有了这些准备，我们接下来就可以尽情去优化程序了~但是优化过程也是十分复杂与漫长的，我们首先需要解决内存带宽问题。希望我的博客能帮助到大家~

参考资料：《深入浅出谈CUDA》

芯片时钟树结构（H-tree,Fishbone,FlexH,Mesh等）的对比、应用实例及未来趋势赛卡人工智能服务器云计算边缘计算
引言在先进制程芯片设计中，时钟树综合（ClockTreeSynthesis,CTS）的优化程度直接影响芯片的时序收敛、功耗分布和面积利用率。随着工艺节点演进至5nm及以下，时钟网络的复杂性和设计约束呈现指数级增长。本文将深入解析H-tree、Fishbone、FlexHtree及Clockmesh四种主流时钟树结构的技术特性，结合服务器芯片、GPU及AI芯片的实战案例，并探讨主流EDA工具对CTS
30个节点的Doris集群，每个节点有2块7TB的SSD盘，12块8TB的机械盘，分区和分桶的最佳实践 fzip Doris Doris分区分桶
针对30个节点（每个节点配备2块7TBNVMe盘+12块8TBSATA盘）的Doris集群，以下是分区与分桶的最佳实践方案：一、硬件资源规划与存储优化存储介质分层•NVMe盘：用于存储热数据分区（如最近3天数据）、元数据和高频查询表，利用其高IOPS特性提升实时查询性能。•SATA盘：存储冷数据分区（如历史数据）、大宽表和批量导入的中间数据，通过成本优势支撑海量存储。磁盘负载均衡•每个节点的14块
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏时光旅人01号人工智能剪枝算法深度学习数据挖掘人工智能
目录微调（Fine-tuning）量化（Quantization）剪枝（Pruning）梯度裁剪（GradientClipping）知识蒸馏（KnowledgeDistillation）技术对比与协同策略总结与趋势1.微调（Fine-tuning）核心思想在预训练模型（如BERT、GPT）基础上，通过领域数据调整参数，适配下游任务。方法流程预训练模型加载：加载通用模型权重（如HuggingFace
推理大模型：技术解析与未来趋势全景时光旅人01号深度学习人工智能 python pytorch 神经网络
1.推理大模型的定义推理大模型（ReasoningLLMs）是专门针对复杂多步推理任务优化的大型语言模型，具备以下核心特性：输出形式创新展示完整逻辑链条（如公式推导、多阶段分析）任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合强化学习、思维链（CoT）、测试时计算扩展等技术2.主流推理大模型图谱2.1国际前沿模型OpenAIo1系列内部生成"思维链"机制数学/代码能力标
解锁Linux命令行的终极指南：从日常操作到系统掌控领码科技技能篇 Linux命令日常操作系统管理 Shell脚本
摘要Linux操作系统凭借其开源、高效、稳定的特性，已成为开发者和运维工程师的核心工具。本文深度解析Linux命令的底层逻辑与实战技巧，涵盖文件管理、权限控制、进程监控、网络运维等高频场景，结合Shell脚本编写与正则表达式应用，助您实现从命令行基础到高阶系统管理的跃迁。精选80+核心指令详解，配合真实案例与避坑指南，让您轻松驾驭Linux系统的日常运维与深度优化。关键词：Linux命令、日常操作
董事长十几刀刺死 CTO：一个要“先发布后优化”，一个坚持先优化。。。程序员的那些事_
大家好，我是小程程。今天又是一起很刑的真实案例，也就上周的事。董事长刺死CTO3月7日，中国台湾省的云云科技公司发生一件震惊业界的命案。52岁的董事长曾志新因与51岁的梁姓CTO长期理念不合，在公司离职谈判期间持水果刀从背后猛刺CTO十余刀，最终致其身亡。曾董（左）和梁哥（右）据台北市信义区警方调查，双方在产品开发策略与管理模式上积怨已深，最终演变为暴力惨剧。梁哥是在2022年1月由前CTO引荐加
MongoDB在Spring商城用户行为记录中的应用小小初霁 mongodb spring 数据库
一、MongoDB的优势灵活Schema用户行为数据结构多变（如点击、搜索、下单），MongoDB的文档模型无需固定字段，适应快速迭代。高吞吐写入支持批量插入，适合高并发场景（如秒杀活动的用户操作记录）。复杂查询优化支持聚合管道、地理空间查询、全文索引，便于多维分析。水平扩展通过分片（Sharding）应对海量数据存储。二、用户行为数据建模1.基础行为记录集合（如user_actions）{"us
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
【AI论文】TPDiff：时序金字塔视频扩散模型东临碣石82 人工智能算法
摘要：视频扩散模型的发展揭示了一个重大挑战：巨大的计算需求。为了缓解这一挑战，我们注意到扩散的反向过程具有内在的熵减少特性。鉴于视频模态中的帧间冗余，在高熵阶段保持全帧率是不必要的。基于这一洞见，我们提出了TPDiff，一个统一的框架，用于提高训练和推理效率。通过将扩散过程分为几个阶段，我们的框架在扩散过程中逐步增加帧率，仅在最后阶段采用全帧率，从而优化计算效率。为了训练多阶段扩散模型，我们引入了
DeepSeek 与其他 AI 模型的对比：优势与特色分析 CarlowZJ 人工智能 DeepSeek
一、引言在众多AI模型中，DeepSeek凭借其独特的功能和优势脱颖而出。本文将对比DeepSeek与其他流行的AI模型，分析它的优势与特色。二、与GPT系列的对比功能多样性：DeepSeek不仅支持文本生成，还支持代码生成和对话交互。多模态能力：DeepSeek支持多种输入和输出形式，如图像和语音。行业适配性：DeepSeek提供了针对不同行业的优化方案。三、与BERT系列的对比生成能力：Dee
React Native 性能调试指南一个前端人 react-native react native react.js javascript
写在前面在开发ReactNative应用时，性能优化是一个至关重要的环节。良好的性能不仅可以提升用户体验，还能减少应用的资源消耗，提高应用的稳定性。本文将详细介绍如何对ReactNative应用进行性能调试和优化，包括性能综述、编译速度优化、列表配置优化、JavaScript加载优化以及Profiling。一、性能综述在开始性能调试之前，了解一些基本概念和工具是非常重要的。以下是一些关键点：FPS
L2-4 吉利矩阵（优化剪枝版）终相守丶空白深度优先算法图论
L2-4吉利矩阵暴力解法：L2-4吉利矩阵-CSDN博客作者陈越单位浙江大学所有元素为非负整数，且各行各列的元素和都等于7的3×3方阵称为“吉利矩阵”，因为这样的矩阵一共有666种。本题就请你统计一下，把7换成任何一个[2,9]区间内的正整数L，把矩阵阶数换成任何一个[2,4]区间内的正整数N，满足条件“所有元素为非负整数，且各行各列的元素和都等于L”的N×N方阵一共有多少种？输入格式：输入在一行
如何进行OceanBase 运维工具的部署和表性能优化! 运维
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
场景题：100G的文件里有很多id，用1G内存的机器排序，怎么做？
海量数据排序思路核心方案：外排序（分治+多路归并）MapReduce外排序是指数据量太大，无法全部加载到内存中，需要将数据分成多个小块进行排序，然后将排序后的小块合并成一个大的有序块1.分块排序（Map阶段）分块策略按1G内存容量限制，将100G文件拆分为200个500MB分块（保留内存用于排序计算和系统开销）内存排序每个分块加载至内存后：①使用快速排序（时间复杂度O(nlogn)）②去重优化：若
账本 1.01 版本：样式优化升级分享烂蜻蜓 html 前端 css
在开发账本应用的过程中，持续的样式优化对于提升用户体验起着至关重要的作用。本次账本1.02版本着重对样式进行了全面优化，让应用在视觉上更加美观、操作上更加便捷。下面就为大家分享一些关键代码及优化思路。话不多说，先上效果图。一、整体布局优化在index.vue和add.vue中，整体布局都采用了flex布局方式。以index.vue为例：.container{display:flex;flex-di
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
图片加载框架Glide与Picasso原理剖析 Ya-Jun glide android
图片加载框架Glide与Picasso原理剖析一、前言图片加载是Android应用开发中的一个重要环节，良好的图片加载机制可以提升应用性能和用户体验。Glide和Picasso是目前最流行的两个图片加载框架，本文将深入分析这两个框架的核心原理和实现机制。二、图片加载基础2.1图片加载的挑战内存管理OOM（OutOfMemory）问题内存缓存策略图片复用性能优化异步加载图片压缩缓存机制用户体验加载占
Android电量与流量优化 Ya-Jun android
Android电量与流量优化一、电量优化基础1.1电量消耗原理Android设备的电量消耗主要来源于以下几个方面：屏幕显示：屏幕是耗电量最大的硬件之一，尤其是高亮度和高刷新率的屏幕。CPU处理：CPU执行计算任务时会消耗大量电量，尤其是高负载运算。网络通信：移动数据、Wi-Fi和蓝牙等网络通信会持续消耗电量。GPS定位：GPS定位是非常耗电的操作，尤其是高精度定位。传感器使用：加速度计、陀螺仪等传
深度学习模块缝合教程：从理论到实践 RockLiu@805 深度学习模块机器视觉深度学习人工智能
深度学习模块缝合教程：从理论到实践引言随着深度学习的不断发展，模型的设计与优化成为研究者关注的核心问题之一。如何有效地“缝合”不同模块，以实现更高效的计算和更强大的功能，是当前深度学习研究中的一个重要课题。在本文中，我们将从基础概念出发，详细探讨深度学习模块缝合的方法、技巧及其应用场景。无论是理论深厚的研究者还是实验导向的实践者，都可以从中获得启发。一、深度学习基础知识详解深度学习是人工智能领域的
Stable Diffusion/DALL-E 3图像生成优化策略云端源想 stable diffusion
StableDiffusion的最新版本或社区开发的插件，可以补充这些信息以保持内容的时效性。云端源想1.硬件与部署优化（进阶）显存压缩技术使用--medvram或--lowvram启动参数（StableDiffusionWebUI），通过分层加载模型降低显存占用（适合6GB以下显卡）。分块推理（TiledDiffusion）：将图像分割为512×512区块，逐块生成后无缝拼接，支持4096×40
GPU底层优化的关键语言（深入解析PTX）；PTX相比汇编语言的核心优势 AI-AIGC-7744423 rust 开发语言后端
PTX作为英伟达GPU的底层语言，既是性能优化的利器，也是打破生态垄断的突破口。其“类汇编”特性赋予开发者对硬件的极致控制权，但高昂的开发成本与生态依赖仍制约其普及。随着AI技术的介入和开源生态的成熟，PTX或将成为下一代算力竞争的关键战场。一、PTX的技术定位与核心特性中间指令集的角色PTX（ParallelThreadExecution）是英伟达GPU架构中的中间指令集架构，介于高级编程语言（
英伟达的ptx是什么？ptx在接近汇编语言的层级运行？ AI-AIGC-7744423 人工智能
PTX（ParallelThreadeXecution）是英伟达CUDA架构中的一种中间表示形式（IR）语言。以下是关于它的介绍以及它与汇编语言层级关系的说明：PTX介绍•性质与作用：PTX是一种类似于汇编语言的指令集架构，但它更像是一种抽象的、面向并行计算的中间语言。它是CUDA编程模型中，主机代码与实际在GPU上执行的机器码之间的桥梁。开发者编写的CUDAC/C++等高级语言代码，在编译过程中
开源项目的企业级性能优化服务：高价值咨询 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
文章标题《开源项目的企业级性能优化服务：高价值咨询》关键词：开源项目、企业级性能优化、性能评估、性能瓶颈、高可用性、性能优化服务、案例研究、优化策略摘要：本文章深入探讨了开源项目在企业环境中的性能优化问题，详细介绍了企业级性能优化服务的核心概念、方法、策略和实战案例。文章结构清晰，内容丰富，旨在为企业和开发人员提供高价值的性能优化咨询。目录第一部分：背景与核心概念第1章：开源项目的企业级性能优化概
群体智能优化算法-黄金正余弦优化算法（含Matlab源代码） EOL_HRZ 算法 matlab 开发语言群体智能优化优化
摘要黄金正余弦优化算法（GoldenSineAlgorithm，GoldSA）是一种数学启发式算法，基于黄金分割系数（GoldenRatio）以及正余弦函数的随机扰动机制来更新解的位置。该算法通过在迭代过程中不断利用黄金分割比例来调整搜索范围，同时结合正弦与余弦变化，为个体提供多样化的全局搜索与局部微调能力。本文提供了GoldSA的核心思想与完整MATLAB代码，并附上中文详细注释，以帮助读者深入
GAN生成对抗网络小记文弱_书生乱七八糟生成对抗网络人工智能神经网络
生成对抗网络（GAN）深入解析：数学原理与优化生成对抗网络（GenerativeAdversarialNetwork,GAN）是一个基于博弈论的深度学习框架，通过生成器（G）和判别器（D）之间的对抗训练，生成高度逼真的数据。其核心思想是让GGG生成伪造数据以欺骗DDD，而DDD则努力分辨真实数据与伪造数据。GAN在理论上可以看作一个极小极大（Minimax）优化问题。1.GAN的数学公式1.1生成
C# 通过 CLR 调用 C++ 代码无法命中断点问题解决 qzy0621 C++调试 c++c#
C#通过CLR调用C++代码无法命中断点问题解决一、启用混合模式调试二、C++项目配置核查三、确保生成配置一致四、确认编译器配置符号路径设置，在VS调试时查看模块窗口强制附加调试器（备选方案）常见陷阱排查表C#通过CLR调用C++代码无法命中断点问题解决以下是解决C#通过CLR调用C++代码时无法命中断点的综合解决方案，结合了调试配置优化、符号加载及常见陷阱排查：一、启用混合模式调试在C#项目的属
XGBoost算法深度解析：从原理到实践彩旗工作室人工智能算法机器学习人工智能
一、算法起源与核心思想XGBoost（eXtremeGradientBoosting）由陈天奇于2014年提出，是梯度提升决策树（GBDT）的优化版本。其核心思想通过迭代集成弱学习器（CART树）逐步修正预测误差，并引入正则化机制控制模型复杂度，防止过拟合。与GBDT相比，XGBoost在目标函数中融合了损失函数（衡量预测误差）和正则化项（约束树结构与叶子权重），形成结构风险最小化框架，从而提升泛
Vim忍者速成秘卷：让你的键盘冒出残影の奥义 ivwdcwso 操作系统与云原生 vim 编辑器程序员忍道终端美学效率革命 linux
核心原理通过超低延迟配置+肌肉记忆优化+视觉欺骗技术，达成行云流水的操作体验。就像《火影忍者》结印般流畅！⚡残影生成术（基础篇）"️贴地飞行模式（.vimrc极速配置）settimeoutlen=300"快捷键响应时间压缩至300ms（武士刀级响应）setttyfast"激活终端极速传输模式setlazyredraw"执行宏时暂停界面刷新（性能提升50%）"手里剑光标追踪术autocmdCurso
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S