Bingjian-Gong

CUDA学习笔记(3) NVRTC编译库

注意，NVRTC可以高速地编译代码，但是NVRTC并不支持C++且对代码的优化也不如NVCC，在配置较差的电脑上可以用它替代NVCC作为学习用的工具，大型工程尽量避免使用。

我们在编译CUDA工程时，会发现比C++代码的编译慢上许多，这是由于NVCC（CUDA/C++编译器）造成的，它可以兼容地编译C++代码与CUDA-C代码，但是十分低效。

我们可以用CUDA学习笔记（1）中的代码实验一下，对“kernel.cu”右键→属性，可以看到编译器是“CUDA C/C++”，然后先“清理解决方案”再“重新生成解决方案”，发现这时候会等待一段不短的时间。（在我的电脑上接近30秒）显然，这大大降低了我们的编程效率！

相对于C++编译器，它可以编译核函数，并且编译地很慢！当我们不使用核函数时，完全没必要用他。

现在我们将编译器换成“C/C++ 编译器”，重复先“清理解决方案”再“重新生成解决方案”的步骤，编译几乎瞬间完成！

那么有没有什么方法可以不使用“CUDA C/C++ 编译器”，又能高效地编译CUDA C的核函数呢？ NVIDIA公司为此推出了NVRTC编译函数库。那么这个NVRTC比CUDA C编译器都有什么优点呢，NVIDIA的原话是：

NVRTC is a runtime compilation library for CUDA C++. It accepts CUDA C++ source code in character string form and creates handles that can be used to obtain the PTX. The PTX string generated by NVRTC can be loaded by cuModuleLoadData and cuModuleLoadDataEx, and linked with other modules by cuLinkAddData of the CUDA Driver API. This facility can often provide optimizations and performance not possible in a purely offline static compilation.
In the absence of NVRTC (or any runtime compilation support in CUDA), users needed to spawn a separate process to execute nvcc at runtime if they wished to implement runtime compilation in their applications or libraries, and, unfortunately, this approach has the following drawbacks:
The compilation overhead tends to be higher than necessary, and End users are required to install nvcc and related tools which make it complicated to distribute applications that use runtime compilation.
NVRTC addresses these issues by providing a library interface that eliminates overhead associated with spawning separate processes, disk I/O, etc., while keeping application deployment simple.

简单地说，我们可以用NVRTC编译库中的库函数来编译CUDA的核函数，这样就可以避免使用“CUDA C/C++ 编译器”，从而提高编译速度和编程效率。

现在我们将CUDA学习笔记(2)中的内容以C++调用NVRTC编译库的形式实现。
新建一个CUDA工程，必须添加对应的包含目录“CUDA安装目录\CUDA Samples\v9.0\common\inc”以及附加依赖项“cuda.lib”和“nvrtc.lib”。

我们在工程下添加两个文件，“main_code.cpp”和“kernel.cu”。

然后编辑这两个文件的属性，将“kernel.cu”设置为“不参与生成”，将“main_code.cpp”设置为“C/C++编译器”。

“kernel.cu”中仅存放核函数的代码，且不参与工程编译！
“main_code.cpp”中编写我们的C++代码，通过调用NVRTC编译库函数读取、编译核函数代码，并完成显存管理、重置GPU等操作。由C/C++编译器编译。

我们在“main_code.cpp”代码中包含对应的头文件。

// C/C++ IO
#include 
#include 
using namespace std;

// For the CUDA runtime routines (prefixed with "cuda_")
#include 
#include 

// helper functions and utilities to work with CUDA
#include 
// NVRTC
#include

在main()函数中，先定义数据的指针以及它们的大小。

    // Host变量（内存变量）
    const int ARRAY_LENGTH = 3 * 2 * 64;
    int *thread_index, *warp_index, *block_index;

    // Device变量（显存变量）
    CUdeviceptr dev_thread_index, dev_warp_index, dev_block_index;

先用“inline char *sdkFindFilePath(const char *filename, const char *executable_path)”找到核函数的“.cu”文件所在路径。

第一个参数“const char *filename”是存放核函数的“.cu”文件名称。
第二个参数“const char *executable_path”是程序执行的路径。
返回值是核函数“.cu”文件所在路径。

然后用“void compileFileToPTX(char *filename, int argc, char **argv, char **ptxResult, size_t *ptxResultSize, int requiresCGheaders)”来编译核函数代码。

第一个参数“char *filename”是“.cu”文件所在路径。
第二、三个参数“int argc”、“char **argv”没有作用。（我在“nvrtc_helper.h”源代码中发现这两个参数未被使用）
第四个参数“char **ptxResult”一个二重指针，用于存放编译好的PTX字符串数组（全称Parallel Thread Execution，相当于是GPU的汇编，详见NVIDIA官方手册），可以理解为一个字符串的数组，每个数组元素存放一个字符串首地址，内容对应一行PTX代码。
第五个参数“size_t *ptxResultSize”用于返回PTX代码的大小。
第六个参数“int requiresCGheaders”用于多GPU联合计算（cooperative groups），一般写0就好。

    // 读取、编译、加载CUDA核函数
    char *ptx, *kernel_file;
    size_t ptxSize;

    // 打开核函数的 .cu 文件 并编译为PTX
    kernel_file = sdkFindFilePath("kernel.cu", argv[0]);
    // 如果找不到 kernel_file 会报错：error: unable to open ./xxxx.cu for reading!
    compileFileToPTX(kernel_file, NULL, NULL, &ptx, &ptxSize, 0);

接着用“loadPTX(char *ptx, int argc, char **argv)”初始化GPU。
再用“cuModuleGetFunction(CUfunction *hfunc, CUmodule hmod, const char *name);”载入核函数的PTX到我们的Host（主机即内存）变量中。

第一个参数“CUfunction *hfunc”用于传递核函数的句柄（相当于一般函数的地址/指针）。
第二个参数“CUmodule hmod”传入我们GPU的当前状态。
第三个参数“const char *name”传入核函数的函数名，注意它必须和“kernel.cu”中的核函数名字一模一样！

    // 选择GPU设备，加载核函数到GPU设备
    CUmodule module = loadPTX(ptx, argc, argv);
    CUfunction kernel_addr;
    checkCudaErrors(cuModuleGetFunction(&kernel_addr, module, "kernel_func"));

至此，对核函数的编译工作已经全部完成了。

接下来就是对内存与显存的分配。“CUresult CUDAAPI cuMemAlloc(CUdeviceptr *dptr, size_t bytesize)”函数用于显存的分配。

第一个参数“CUdeviceptr *dptr”显存数据指针的地址。
第二个参数“size_t bytesize”是分配的显存大小，单位是字节。

    thread_index = (int*)malloc(ARRAY_LENGTH * sizeof(int));
    warp_index = (int*)malloc(ARRAY_LENGTH * sizeof(int));
    block_index = (int*)malloc(ARRAY_LENGTH * sizeof(int));

    checkCudaErrors(cuMemAlloc(&dev_thread_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemAlloc(&dev_warp_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemAlloc(&dev_block_index, ARRAY_LENGTH * sizeof(int)));

在调用核函数前，我们按照编程的一般思路，先在“kernel.cu”中编写它，代码和CUDA学习笔记（2）中的代码完全一样。只是在“__global__”的前面加上“extern “C””，表示这下面的代码是“C扩展代码”。

// CUDA kernel fucntion file !

extern "C" __global__ void kernel_func(int * thread_index_array, int * warp_index_array, int * block_index_array)
{
    int block_index = blockIdx.x + blockIdx.y * gridDim.x + blockIdx.z * gridDim.x * gridDim.y;
    int thread_index = block_index * blockDim.x * blockDim.y * blockDim.z + \
        threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;

    thread_index_array[thread_index] = thread_index;
    warp_index_array[thread_index] = thread_index / warpSize;
    block_index_array[thread_index] = block_index;
}

然后我们就继续可以在“main_code.cpp”中编译、使用它了。我们可以调用“cuLaunchKernel”来启动核函数在GPU中运行，它的参数很多，但其实很好理解：

第一个参数是我们之前得到的核函数的句柄。
第二到四个参数是线程网格（Grid）单个单元的大小。
第五到七个参数是线程块（Block）单个单元的大小。
第八个参数是每个流处理器组（Stream Multiprocessor）共享内存的大小。
第九个参数是流（Stream）的ID。
第十个参数最为重要！他是一个数组，其中的元素存放的是显存中变量的地址。例如下面代码中的“void *arr[]”。
第十一个参数是操作选项，一般设为0。

// 定义网格的大小（block_rect）、块的大小（thread_rect）
    dim3 block_rect(3, 2, 1), thread_rect(64, 1, 1);
    cout << "block_rect :\t" << block_rect.x << "\t" << block_rect.y << "\t" << block_rect.z << "\t" << endl;
    cout << "thread_rect :\t" << thread_rect.x << "\t" << thread_rect.y << "\t" << thread_rect.z << "\t" << endl;

    void *arr[] = { (void *)&dev_thread_index, (void *)&dev_warp_index, (void *)&dev_block_index};

    // 启动核函数
    checkCudaErrors(cuLaunchKernel(kernel_addr, \
        block_rect.x, block_rect.y, block_rect.z, \
        thread_rect.x, thread_rect.y, thread_rect.z, \
        0, 0,\
        &arr[0],0));

    // 同步，检查核函数计算过程
    checkCudaErrors(cuCtxSynchronize());

至此，GPU的计算已经完成了，我们可以将数据从显存拷贝回内存。用“cuMemcpyDtoH(void *dstHost, CUdeviceptr srcDevice, size_t ByteCount)”拷贝显存中的数据，并将其输出。

第一个参数“void *dstHost”即内存中存放数据的地址（指针）。
第二个参数“CUdeviceptr srcDevice”是显存中该数据的地址。
第三个参数“size_t ByteCount”是数据的大小，单位是字节。

    checkCudaErrors(cuMemcpyDtoH(thread_index, dev_thread_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemcpyDtoH(warp_index, dev_warp_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemcpyDtoH(block_index, dev_block_index, ARRAY_LENGTH * sizeof(int)));

    for (int i = 0; i < ARRAY_LENGTH; i++)
    {
        printf("thread index \t: %d\t", thread_index[i]);
        printf("warp flag \t: %d\t", warp_index[i]);
        printf("block index \t: %d\t\r\n", block_index[i]);
    }

最后，释放内存、显存。

    // 释放显存
    checkCudaErrors(cuMemFree(dev_thread_index));
    checkCudaErrors(cuMemFree(dev_warp_index));
    checkCudaErrors(cuMemFree(dev_block_index));
    // 释放内存
    free(thread_index);
    free(block_index);
    free(warp_index);

补充：
NVRTC库函数中“checkCudaErrors”可以返回CUDA错误发生的文件名及行数，以及错误信息，可以极大的方便我们Debug。源码如下：

#define checkCudaErrors(err)  __checkCudaErrors (err, __FILE__, __LINE__)

// These are the inline versions for all of the SDK helper functions
inline void __checkCudaErrors(CUresult err, const char *file, const int line)
{
    if (CUDA_SUCCESS != err)
    {
        fprintf(stderr, "checkCudaErrors() Driver API error = %04d \"%s\" from file <%s>, line %i.\n",
                err, getCudaDrvErrorString(err), file, line);
        exit(EXIT_FAILURE);
    }
}

其中“__FILE__”和“__LINE__”在Debug下，可以获得执行这个函数时，所在源码的文件名及行数。

我的“main_code.cpp”代码：

// C/C++ IO
#include 
#include 
using namespace std;

// For the CUDA runtime routines (prefixed with "cuda_")
#include 
#include 

// helper functions and utilities to work with CUDA
#include 
// NVRTC
#include 


int main(int argc, char **argv)
{
    // Host变量（内存变量）
    const int ARRAY_LENGTH = 3 * 2 * 64;
    int *thread_index, *warp_index, *block_index;

    // Device变量（显存变量）
    CUdeviceptr dev_thread_index, dev_warp_index, dev_block_index;

#pragma region(读取、编译CUDA核函数)
    // 读取、编译、加载CUDA核函数
    char *ptx, *kernel_file;
    size_t ptxSize;

    // 打开核函数的 .cu 文件 并编译为PTX
    kernel_file = sdkFindFilePath("kernel.cu", argv[0]);
    // 如果找不到 kernel_file 会报错：error: unable to open ./xxxx.cu for reading!
    compileFileToPTX(kernel_file, NULL, NULL, &ptx, &ptxSize, 0);

    // 选择GPU设备，加载核函数到GPU设备
    CUmodule module = loadPTX(ptx, argc, argv);
    CUfunction kernel_addr;
    checkCudaErrors(cuModuleGetFunction(&kernel_addr, module, "kernel_func"));
#pragma endregion


#pragma region(内存、显存分配)
    thread_index = (int*)malloc(ARRAY_LENGTH * sizeof(int));
    warp_index = (int*)malloc(ARRAY_LENGTH * sizeof(int));
    block_index = (int*)malloc(ARRAY_LENGTH * sizeof(int));

    checkCudaErrors(cuMemAlloc(&dev_thread_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemAlloc(&dev_warp_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemAlloc(&dev_block_index, ARRAY_LENGTH * sizeof(int)));
#pragma endregion


#pragma region(执行核函数，并在核函数完成时检查错误报告)
    // 定义网格的大小（block_rect）、块的大小（thread_rect）
    dim3 block_rect(3, 2, 1), thread_rect(64, 1, 1);
    cout << "block_rect :\t" << block_rect.x << "\t" << block_rect.y << "\t" << block_rect.z << "\t" << endl;
    cout << "thread_rect :\t" << thread_rect.x << "\t" << thread_rect.y << "\t" << thread_rect.z << "\t" << endl;

    void *arr[] = { (void *)&dev_thread_index, (void *)&dev_warp_index, (void *)&dev_block_index};

    // 启动核函数
    checkCudaErrors(cuLaunchKernel(kernel_addr, \
        block_rect.x, block_rect.y, block_rect.z, \
        thread_rect.x, thread_rect.y, thread_rect.z, \
        0, 0,\
        &arr[0],0));


    // 同步，检查核函数计算过程
    checkCudaErrors(cuCtxSynchronize());
#pragma endregion


#pragma region(传出数据并输出)
    checkCudaErrors(cuMemcpyDtoH(thread_index, dev_thread_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemcpyDtoH(warp_index, dev_warp_index, ARRAY_LENGTH * sizeof(int)));
    checkCudaErrors(cuMemcpyDtoH(block_index, dev_block_index, ARRAY_LENGTH * sizeof(int)));

    for (int i = 0; i < ARRAY_LENGTH; i++)
    {
        printf("thread index \t: %d\t", thread_index[i]);
        printf("warp flag \t: %d\t", warp_index[i]);
        printf("block index \t: %d\t\r\n", block_index[i]);
    }
#pragma endregion


#pragma region(释放内存、显存)
    // 释放显存
    checkCudaErrors(cuMemFree(dev_thread_index));
    checkCudaErrors(cuMemFree(dev_warp_index));
    checkCudaErrors(cuMemFree(dev_block_index));
    // 释放内存
    free(thread_index);
    free(block_index);
    free(warp_index);
#pragma endregion


    return 0;
}

我的“kernel.cu”代码：

// CUDA kernel fucntion file !

extern "C" __global__ void kernel_func(int * thread_index_array, int * warp_index_array, int * block_index_array)
{
    int block_index = blockIdx.x + blockIdx.y * gridDim.x + blockIdx.z * gridDim.x * gridDim.y;
    int thread_index = block_index * blockDim.x * blockDim.y * blockDim.z + \
        threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;

    thread_index_array[thread_index] = thread_index;
    warp_index_array[thread_index] = thread_index / warpSize;
    block_index_array[thread_index] = block_index;
}

运行结果：

参考：

1.NVIDIA官方NVRTC说明文档

2.CUDA Toolkit Documation

小程序学习笔记：判断分页数据边界，优化性能 you4580 学习笔记小程序
在小程序开发过程中，数据分页展示是常见的功能需求。但如果处理不当，可能会出现无效的数据请求，影响程序性能。今天咱们就来深入探讨如何在小程序开发里精准判断是否还有下一页数据，并避免发起多余请求。一、问题引入假设有80条美食数据，每页展示10条，理论上8页就能展示完。但在实际操作时，你有没有想过，会不会出现请求第9页、第10页数据这种情况呢？答案是肯定的。就像在开发美食类小程序时，用户不断上拉加载新数
小程序学习笔记：实现分页加载商铺列表数据并渲染 UI you4580 学习笔记小程序
在微信小程序开发中，实现分页加载指定分类下的商铺列表数据，并进行UI渲染是常见的功能需求。本文将详细介绍这一功能的实现过程，包括API接口调用、数据请求、数据处理以及UI渲染和样式美化，同时附上相应代码，帮助大家更好地理解和实践。一、API接口与数据请求（一）API接口地址我们要调用的API接口地址包含一个动态参数:cat_id，这个参数用于指定分类的ID。例如，如果要请求美食分类下的所有商铺列表
【学习】《算法图解》第十章学习笔记：贪婪算法程序员
一、贪婪算法概述贪婪算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。贪婪算法不从整体最优上加以考虑，它所做出的选择只是在某种意义上的局部最优选择。（一）算法适用场景贪婪算法适用于具有"贪心选择性质"的问题，即局部最优选择能导致全局最优解的问题。主要应用于：需要求解最优化问题问题具有贪心选择性质问题具有最优子结构性质（二
剑指offer第二版学习笔记（一）前言虚空来袭剑指offer第二版剑指Offer 第2版
久闻剑指offer大名，如今我也到了要找工作的时候了，趁现在还有时间，多学一点是一点，在此开一个分集记录一下在学习剑指offer过程中的一些经验和想法。注：使用的书籍是剑指offer第二版。本期内容书籍内容书籍内容简介结语本期仅写了书籍内容介绍，作者还总结了书籍特色、对创作过程中家人、朋友等进行了感谢，我略去了这些部分。下期应该是接着看第一部分。
【Spring AI】 1接入 Ollama实践占星安啦 springai java springai ollama
SpringAI接入Ollama实践学习笔记Ollama官方文档SpringAI快速开始SpringAIOllama集成文档1.pom.xml依赖配置前置条件：请确保你已安装好Java17+、Maven、Ollama，并已下载好所需大模型。在pom.xml中添加SpringAI及Ollama相关依赖：org.springframework.bootspring-boot-starter-webor
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-torch_utils.py 红色的山茶花 YOLO 笔记深度学习
torch_utils.pyultralytics\utils\torch_utils.py目录torch_utils.py1.所需的库和模块2.defsmart_inference_mode():3.defautocast(enabled:bool,device:str="cuda"):4.deftime_sync():5.deffuse_conv_and_bn(conv,bn):6.deffu
YOLOV10的tensorrt C++部署 dddccc1234 YOLO
根据博客进行python版本安装YOLOv10最全使用教程（含ONNX和TensorRT推理）-CSDN博客并将pt转为onnx：yoloexportmodel=yolov10s.ptformat=onnxopset=13simplify然后采用：https://github.com/hamdiboukamcha/yolov10-tensorrt.git进行c++编译配置好cuda11.7tens
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
PCIe学习笔记（26） IC纯小白学习笔记网络
ErrorForwarding（错误转发）错误转发(也称为数据中毒)，通过设置EP位表示。下面是一些使用错误转发的例子:•例#1:从主存读取遇到不可纠正的错误•例#2:PCI写到主存的奇偶校验错误•例#3:内部数据缓冲区或缓存上的数据完整性错误错误转发使用模型•错误转发仅用于读取完成数据，AtomicOp完成数据，AtomicOp请求数据或写数据，从不用于错误在“头”(请求阶段，地址/命令等)的情
SapphireRapids NVMe Aggregate Performance with灵活IO测试--学习笔记（二）向阳生活学习笔记网络
4.主机系统配置由于NVMe控制器使用队列和数据缓冲区，这些队列和数据缓冲区可以托管在主机系统内存空间的任何位置，因此假设主机系统具有足够的内存容量和内存带宽来同时处理多个NVMe访问，以避免受到内存带宽限制。主机系统是Sapphire-Rapid2S系统，每个插槽上配置了8个DDR564GB,1DPC,运行在每个插槽上的速度为4800MTS（例如，共1TB内存容量）。4.1根端口的硬盘数量Sap
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
UBOOT学习笔记（六）：UBOOT启动--CPU架构及板级初始化阶段 ZH_2025 uboot &linux启动篇 linux arm
3.1、_mainENTRY(_main)#ifdefined(CONFIG_TPL_BUILD)&&defined(CONFIG_TPL_NEEDS_SEPARATE_STACK)ldrr0,=(CONFIG_TPL_STACK)/*TPL（三级引导）使用独立栈*/#elifdefined(CONFIG_SPL_BUILD)&&defined(CONFIG_SPL_STACK)ldrr0,=(C
FOC学习笔记（3）结构性凸极与饱和性凸极的区别及其在无感FOC中的影响 desssq FOC记录笔记单片机嵌入式硬件 foc算法
电机凸极性(Saliency)是指由于转子磁路不对称性导致的直轴(d轴)和交轴(q轴)磁阻或电感存在差异的特性。这种不对称性表现为d轴(与转子永磁体磁场方向一致)磁阻通常较大(电感较小)，而与之正交的q轴磁阻通常较小(电感较大)。凸极性是无位置传感器控制(特别是高频注入法)实现转子位置估算的关键物理基础，尤其在零速和低速工况下至关重要。凸极性主要来源于两种机制：结构性凸极和饱和性凸极。结构性凸极是
学习笔记2：redis基本操作
学习笔记2：redis基本操作启动服务在命令行中输入以下指令即可启动redis服务：[redis-server文件的路径][redis.conf文件的路径]进入客户端在命令行中输入以下指令即可进入操作redis的客户端：[redis-cli文件的路径]常用操作redis服务的指令#启动redis服务systemctlstartredis#重启redis服务systemctlrestartredis
【学习】《算法图解》第九章学习笔记：迪杰斯特拉算法程序员
一、迪杰斯特拉算法概述迪杰斯特拉算法（Dijkstra'salgorithm）是一种解决带权有向图上单源最短路径问题的贪心算法，由荷兰计算机科学家艾兹赫尔·迪杰斯特拉（EdsgerW.Dijkstra）于1956年提出。该算法常用于路由协议，也可以用作其他图算法的子程序。（一）算法适用场景迪杰斯特拉算法适用于：带权有向图（每条边都有权重）所有权重都为非负值（不能有负权边）需要找出从一个顶点到图中所
CNN-GRU混合模型学习笔记 weixin_54372988 cnn gru 学习
GRU学习笔记CNN：卷积神经网络GRU（GateRecurrentUnit），门控循环单元CNN：卷积神经网络3个组成部分：1.卷积层——提取图像局部特征2.池化层——降维（防止过拟合）3.全连接层——输出结果一个卷积核扫完整张图片，得到每个小区域的特征值具体应用中通常有多个卷积核CNN可能有多层结构，如LeNet-5：卷积层–池化层–卷积层–池化层–卷积层–全连接层处理时间序列（1D序列）：（
Kyle的天机学堂学习笔记 Z2475269074 学习笔记
本文将展示一个小白从0->1完成项目的全部历练已经心得PS:要求做到真正的自我思考而不是对着教程敲代码，并借用AI进行辅佐与思考DAY1Maven子工程会继承父工程所有依赖有三套生命周期，互不干扰且同一生命周期内执行命令会以此完成之前的命令1.clean2.default(compile,test，package,install)3.site(deploy)对象DTO数据传输对象，用于服务端与客户
WPF学习笔记（6）——WPF+Stylet+MVVM：ListBox添加项、获取所选项、删除项、删除所选项 billy_gisboy #WPF/MVVM wpf mvvm c#
功能描述使用Stylet框架，对WPF进行MVVM模式下的开发。不在xaml.cs中写业务逻辑，业务逻辑均在VM中，且业务逻辑只针对属性，不涉及ListBox控件。实现功能：（1）ListBox添加一个项，项具有图片、信息（2）展示一个所选项的信息（3）删除一个项（4）删除所选项实现效果首先创建学生类namespaceStyletTest.Model{publicclassStudent{////
WPF学习笔记（8）数据绑定方向与INotifyPropertyChanged 三千道应用题 WPF学习笔记 wpf
数据绑定方向与INotifyPropertyChanged一、数据绑定方向1.OneWayToSource2.OneWay3.TwoWay二、INotifyPropertyChanged总结一、数据绑定方向Binding类的Mode属性可以指定数据绑定的方向：官方文档：https://learn.microsoft.com/zh-cn/dotnet/api/system.windows.data.
Deepfacelive安装报错解决记录 matouxiao conda
去c盘：windows/system32目录下面找不能load的文件比如kernel132.dll，然后copy到.\DeepFaceLive_NVIDIA\_internal\CUDA\bin目录下就能运行
Qt 各种功能学习笔记栈不收 qt 学习笔记
目录1.Qt关于数据库1.1Qt链接数据库1.2将数据库的模型显示在控件中2.Qt关于控件2.1用正则表达式设置输入框只能输入正浮点数2.2设置QDateTimeEdit的时间格式和设置为当前时间1.Qt关于数据库1.1Qt链接数据库基础教学：使用Qt链接MySql数据库_qt连接mysql_栈不收的博客-CSDN博客需要注意的问题：在链接MySQL的时候，首先要确保MySQL已经安装成功在目录Q
【学习】《算法图解》第八章学习笔记：平衡树自学也学好编程程序人生
前言在上一章中，我们学习了二叉搜索树(BST)的基本概念和操作。虽然BST在平均情况下提供了O(logn)的搜索、插入和删除效率，但在最坏情况下（如按顺序插入数据），它可能退化为链表，导致操作效率降为O(n)。为了解决这个问题，《算法图解》第八章介绍了平衡树的概念和几种主要的平衡树结构，这些结构能够在各种情况下保持较好的平衡性，确保操作的高效性。一、平衡树的基本概念（一）什么是平衡树平衡树是一种特
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇）
2.人物运动图（只展示第一帧）2.方块纹理图将资源准备完成之后，就能开始代码的开发了五.开始实现！1.资源管理在上一篇文章中我们将纹理和着色器分别封装成了两个类，这里我们创建一个资源管理类对这两个类进行管理，由于golang中是没有静态变量的，需要用包内变量对其进行模拟shader.gopackageresourceimport(“github.com/go-gl/gl/v4.1-core/gl”
tensorRT 与 torchserve-GPU性能对比 joker-G 计算机视觉 pytorch python
实验对比前端时间搭建了TensorRT、Torchserve-GPU，最近抽时间将这两种方案做一个简单的实验对比。实验数据Cuda11.0、Xeon®62423.1*80、RTX309024G、Resnet50TensorRT、Torchserve-GPU各自一张卡搭建10进程接口，感兴趣的可以查看我个人其他文章。30进程并发、2000张1200*720像素图像的总量数据TensorRT的部署使用
Git 学习笔记笑衬人心。 git 学习笔记
Git简介Git是一个分布式版本控制系统，用于跟踪文件更改，协作开发软件项目。特点：分布式：每个开发者本地都有完整仓库。高效：分支和合并操作快速。安全：数据通过哈希存储，不易被篡改。安装GitWindows:下载地址：https://git-scm.com/安装后可使用GitBash。macOS:brewinstallgitLinux:sudoaptupdatesudoaptinstallgitG
AD20学习笔记——BOM表输出 Fz@ EDA学习学习笔记
BOM表输出脚本链接GitHub上-lianlian33/InteractiveHtmlBomForAD网盘链接链接：https://pan.baidu.com/s/1uGpwDyWKNgzghY5EH1Aj8A?pwd=72tx提取码：72tx1、下载文件并解压2、复制文件路径3、将脚本导入AD①点击设置中的ScriptingSystem中的GlobalProjects，选择从文件夹安装。②粘贴
141G显存H20单机DeepSeek-R1满血FP8版性能测试
#环境参数#H20141G单机8卡，CUDA12.4，vLLMv0.8.3，flashinferv0.2.2#服务化命令#基于知乎大神的推荐出装与前期H800双机生产环境测试，在H20上开启EP、MLA等核心优化参数，实现推理吞吐性能最优吞吐量破10000tokens/s，VLLM0.8.1版本驱动下的Deepseek-r1671Bhttps://zhuanlan.zhihu.com/p/1887
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

CUDA学习笔记(3) NVRTC编译库

你可能感兴趣的:(CUDA学习笔记)