tangjunjun-owen

cuda系列详细教程

　　随着人工智能的发展与人才的内卷，很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备，往往想更好的提速，满足更高时效性，必将更多类似矩阵相关运算交给CUDA处理。同时，面对市场诸多教程与诸多博客岑子不起的教程或高昂教程费用，使读者(特别是小白)容易迷糊，无法快速入手CUDA编程，实现工程化。
因此，我将结合我的工程实战经验，我将在本专栏实现CUDA系列教程，帮助读者(或小白)实现CUDA工程化，掌握CUDA编程能力。学习我的教程专栏，你将绝对能实现CUDA工程化，完全从环境安装到CUDA核函数编程，从核函数到使用相关内存优化，从内存优化到深度学习算子开发(如：nms)，从算子优化到模型(以yolo系列为基准)部署。最重要的是，我的教程将简单明了直切主题，CUDA理论与实战实例应用，并附相关代码，可直接上手实战。我的想法是掌握必要CUDA相关理论，去除非必须繁杂理论，实现CUDA算法应用开发，待进一步提高，将进一步理解更高深理论。

链接：https://blog.csdn.net/weixin_38252409/category_12383040.html?spm=1001.2014.3001.5482

一、核函数index寻找

cuda通过线程执行并行运算，理所当然，我们需要知道如何使用每个线程实现自己的计算逻辑。而线程操作通过索引(index)操作，索引和block与grid挂钩，自然我们需要知晓如何在grid与block中确定索引。为此，我写了索引寻找规律，可以通过公式直接计算，我在此不细说，仅展示以下展示部分代码，其详细内容和附件可点击我的链接。

部分展示代码如下：

3d grid与1d block寻找索引代码：

blockSize = blockDim.x(一维 block 的大小)
blockId = Dx * Dy * z + Dx * y + x (三维 grid 中 block 的 id，用公式)
　　= gridDim.x * gridDim.y * blockIdx.z + gridDim.x * blockIdx.y + blockIdx.x
threadId = threadIdx.x (一维 block 中 thread 的 id)
Id = (gridDim.x * gridDim.y * blockIdx.z + gridDim.x * blockIdx.y + blockIdx.x ) * blockDim.x + threadIdx.x

1d grid, 2d block寻找索引代码：

blockSize = blockDim.x * blockDim.y(二维 block 的大小)
blockId = blockIdx.x(一维 grid 中 block id)
threadId = Dx * y + x (二维 block 中 thread 的 id)
　　= blockDim.x * threadIdx.y + threadIdx.x
Id = blockIdx.x * (blockDim.x * blockDim.y) + blockDim.x * threadIdx.y + threadIdx.x

二、kernel函数实例

　　如上所说，我们知道kernel函数索引寻找方法，我们自然想通过索引实现各种运算，多数为矩阵运算。为此，我写了大量实例cuda代码，并用不同实例说明其cuda编码规律，我将以其中一个实例矩阵加法代码作为展示，此代码使用多种途径求其结果，其详细内容和附件代码可点击我的链接。

__global__ void gpu_matrix_plus_thread(int* a, int* b, int* c)
{   
    //方法一：通过id方式计算
    //grid为2维度，block为2维度,使用公式id=blocksize * blockid + threadid
    int blocksize = blockDim.x*blockDim.y;
    int blockid = gridDim.x*blockIdx.y+blockIdx.x;
    int threadid = blockDim.x*threadIdx.y+threadIdx.x;
    int id = blocksize * blockid + threadid;    
    c[id] = a[id] + b[id];
}
__global__ void gpu_matrix_plus1(int* a, int* b, int* c, int m, int n)
{   //方法二：通过row与col的方式计算-->通过变换列给出id
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    c[row*n  + col] = a[row*n  + col] + b[row*n  + col];
}
__global__ void gpu_matrix_plus2(int* a, int* b, int* c, int m, int n)
{   //方法三：通过row与col的方式计算-->通过变换行给出id
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    c[row  + col*m] = a[row  + col*m] + b[row  + col*m];
}

三、性能优化(内存)

　　既然我们已可自如实现自己计算逻辑，那么我么也需兼顾运行效率，运行速度提升可通过更好pipeline逻辑实现，也可通过内存方式实现，而逻辑架构因人而异，我将不在细说，内存实现可通过对cuda内存理解便可掌握。为此，我也写了内存相关实例代码，介绍其内存使用方法，如纹理内存、共享内存等，我将以纹理内存代码作为展示，其更多详细内容和附件代码可点击我的链接。

//核心代码，在gpu端执行的kernel，  
__global__ void Textureone(unsigned int* listTarget, int size)
{
    unsigned int texvalue = 0;
    int index = blockIdx.x * blockDim.x + threadIdx.x; //通过线程ID得到数组下标 
    if (index < size)
        texvalue= tex1Dfetch(texone, index)*100; //通过索引获得纹理值再乘100 
        listTarget[index] = texvalue;
}

四、原子操作

　　在 CUDA 中，原子操作是一种用于确保多个线程同时访问同一内存地址时的同步机制。原子操作可以确保只有一个线程可以访问内存地址，并且可以避免数据竞争和不确定的结果。我将已实例代码展示原子操作，以下为原子操作实例，其更多详细内容和附件代码可点击我的链接。

部分原子操作代码如下：

__global__ void kernel(int* data) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    // 对共享内存中的数据执行原子加操作
    atomicAdd(&data[tid], 1);
}

int main() {
    int size = 1024; int* data = new int[size]; int* d_data; cudaMalloc(&d_data, size * sizeof(int)); cudaMemcpy(d_data, data, size * sizeof(int), cudaMemcpyHostToDevice); kernel<<<1, size>>>(d_data); cudaMemcpy(data, d_data, size * sizeof(int), cudaMemcpyDeviceToHost); cudaFree(d_data); delete[] data; return 0; }

五、流stream

六、cuda处理nms编码

大量算法的后处理逻辑均会使用NMS算法去重，然CPU算法较慢，为此我写了cuda的NMS算法处理，以下将部分展示，其详细代码可点击我的链接。

部分代码如下：

// 定义CUDA核函数，用于执行NMS算法
__global__ void nms_kernel(nms_box* boxes, int* indices, int* num_indices, float nms_thr)
{
    /*
    boxes:输入nms信息，为结构体
    indices:输入为列表序列，记录所有box，如[0,1,2,3,4,5,...]，后续将不需要会变成-1。
    num_indices:记录有多少个box数量
    float nms_thr:nms的阈值，实际为iou阈值
    */
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i >= *num_indices) { return; }
    int index = indices[i];
    if (index == -1) { return; }
    nms_box box = boxes[index];
    for (int j = i + 1; j < *num_indices; j++) {
        int other_index = indices[j];
        if (other_index == -1) { continue; }
        nms_box other_box = boxes[other_index];
        float iou_value = iou(box, other_box);
        printf("iou value:%f\n", iou_value);
        if (iou_value > nms_thr) { indices[j] = -1; }
    }
}

输出结果如下：

七、cuda处理yolo算法输出编码

在tensorrt部署中，yolo算法输出在gpu设备上且数据较为庞大(如：640输入将有25200*(class_num+5)*batch数据)，使用cpu处理，需将值从gpu端复制host端，复制过程会花费很多时间。因此，我为此我写了cuda的yolo输出数据处理，以下将部分展示，其详细代码可点击我的链接。

代码如下：

__global__ void decode_yolo_kernel(float* prob, float* parray, int max_objects, int cls_num, float conf_thr, int* d_count) {
    int idx = blockDim.x * blockIdx.x + threadIdx.x; 
    int tmp_idx = idx * (cls_num + 5); 
    float left = prob[tmp_idx + 0]; 
    float top = prob[tmp_idx + 1];
    float right = prob[tmp_idx + 2];
    float bottom = prob[tmp_idx + 3];
    float conf = prob[tmp_idx + 4]; 
    float class_score = prob[tmp_idx + 5];
    float tmp_conf = conf * class_score;
    int class_id = 0;
    for (int j = 0; j < cls_num; j++) {
        int cls_idx = tmp_idx + 5 + j;
        if (tmp_conf < conf * prob[cls_idx]) {
            class_id = j;
            tmp_conf = conf * prob[cls_idx];
        }
    }
    if (tmp_conf < conf_thr) { return; }
    int index = atomicAdd(d_count, 1);
    if (index >= max_objects) { return; } 
    int out_index = index * 6; 
    parray[out_index + 0] = left;   
    parray[out_index + 1] = top;    
    parray[out_index + 2] = right;  
    parray[out_index + 3] = bottom;         parray[out_index + 4] = tmp_conf;   
    parray[out_index + 5] = class_id;   

}

代码解释：

目的：简化模拟yolo输出结果于cuda核函数中处理

假设：置信度阀值为0.45，类别为2，最大目标数为3，

下图数据说明：左边为核函数实现代码展示；右边每一含为一个目标预测结果，分别表示box值[x,y,w,h]、置信度conf、类别预测值[c1_score,c2_score]；右下角为cuda核函数选择目标结果，其中conf为类别score*conf；

实现方法：利用核函数与原子操作完成目标筛选。

运行结果如下：

八、cuda处理yolo算法整个过程

在tensorrt部署中，yolo算法输出使用gpu处理已在上面涉及，然如何去重box与yolo整套后处理呢？为此，我也写了基于cuda处理yolo的整个过程，以下将部分代码展示，其详细代码可点击我的链接。

代码如下：

void imitate_yolo_postprocess_convert() {
   
    const int block = 32;
    /*************************************************开始cuda计算***********************************************/
    cudaStream_t stream;
    cudaStreamCreate(&stream);

    h_count = 0;
    cudaMemcpy(d_count, &h_count, sizeof(int), cudaMemcpyHostToDevice);  //初始化记录有效变量d_count与h_count
    int grid = (anchor_output_num + block - 1) / block;
    decode_yolo_kernel << < grid, block, 0, stream >> > (gpu_input, gpu_output, max_object, cls_num, conf_thr, d_count);
    cudaMemcpy(&h_count, d_count, sizeof(int), cudaMemcpyDeviceToHost);
    if (h_count > max_object) { h_count = max_object; };


    /****************************************打印模型输出输出数据结果--》通过置信度已过滤不满足要求和给出类别**********************************/

    float* host_decode = nullptr; // 保存gpu处理的变量 
    cudaMallocHost((void**)&host_decode, sizeof(float) * max_object * 6);
    cudaMemcpy(host_decode, gpu_output, sizeof(float) * max_object * 6, cudaMemcpyDeviceToHost);
    std::cout << "\n\n打印输出结果-gpu_output\n" << endl;
    if (h_count == 0) { std::cout << "\n无检测结果" << endl; }
    for (int i = 0; i < h_count; i++) {
        int idx = i * 6;
        std::cout << "x1:" << host_decode[idx] << "\ty1:" << host_decode[idx + 1] << "\tx2:" << host_decode[idx + 2]
            << "\ty2:" << host_decode[idx + 3] << "\tconf:" << host_decode[idx + 4] << "\tclass_id:" << host_decode[idx + 5] << endl;

    }
    /******************************************************************************************************************************/

    int grid_max = (max_object + block - 1) / block;
    data_format_convert << < grid_max, block, 0, stream >> > (d_boxes, gpu_output, h_count); // gpu_output格式为[x1,y1,conf,cls_id]

    /****************************************将数据转换为带有nms_box格式数据******************************************************/
    nms_box* h_boxes_format = nullptr;
    cudaMallocHost(&h_boxes_format, anchor_output_num * sizeof(nms_box));
    cudaMemcpy(h_boxes_format, d_boxes, anchor_output_num * sizeof(nms_box), cudaMemcpyDeviceToHost);
    std::cout << "\n\n打印格式转换输出-h_boxes_format\n" << endl;
    if (h_count == 0) { std::cout << "\n无检测结果" << endl; }
    for (int i = 0; i < h_count; i++) {
        nms_box bb = h_boxes_format[i];
        std::cout << "x1:" << bb.x1 << "\ty1:" << bb.y1 << "\tx2:" << bb.x2 << "\ty2:" << bb.y2 << "\tconf:" << bb.score << "\tclass_id:" << bb.cls_id << endl;
    }
    /******************************************************************************************************************************/


    cudaMemcpy(d_nms_indices, h_nms_indices_init, max_object * sizeof(int), cudaMemcpyHostToDevice); //初始化nms处理的索引-->很重要

    /****************************************查看d_nms_indices数据******************************************************/
    int* d_nms_indices_visual = nullptr;
    cudaMallocHost(&d_nms_indices_visual, max_object * sizeof(int));
    cudaMemcpy(d_nms_indices_visual, d_nms_indices, max_object * sizeof(int), cudaMemcpyDeviceToHost);
    std::cout << "\n\nd_nms_indices:\n" << endl;
    for (int i = 0; i < max_object; i++) { std::cout << "\t" << d_nms_indices_visual[i] << endl; }

    /******************************************************************************************************************************/

    nms_yolo_kernel << > > (d_boxes, d_nms_indices, h_count, nms_thr);

    /*******将yolo的gpu上结果转host端，然后保存结果处理-->最终结果保存在keep_boxes中**********/
    cudaMemcpy(h_boxes, d_boxes, anchor_output_num * sizeof(nms_box), cudaMemcpyDeviceToHost);
    cudaMemcpy(h_nms_indices, d_nms_indices, max_object * sizeof(int), cudaMemcpyDeviceToHost);  //保存处理后的indice

    vector keep_boxes(h_count);
    for (int i = 0; i < h_count; i++) {
        if (h_nms_indices[i] > -1) {
            keep_boxes[i] = h_boxes[i];
        }
    }


    /****************************************查看nms处理后的-d_nms_indices******************************************************/
    std::cout << "nms处理后，保留box索引，-1表示排除obj，>-1表示保存obj" << endl;
    for (int i = 0; i < max_object; i++) { std::cout << h_nms_indices[i] << "\t"; }
    /**********************************************************************************************/

    /****************************************随便一张图为背景-显示结果于图上******************************************************/
    cv::Mat image = cv::imread("image.jpg");

    for (nms_box box : keep_boxes) {

        cv::Point p1(box.x1, box.y1);
        cv::Point p2(box.x2, box.y2);
        cv::rectangle(image, p1, p2, cv::Scalar(0, 255, 0), 4, 1, 0);//矩形的两个顶点，两个顶点都包括在矩形内部
    }


    cv::resize(image, image, cv::Size(600, 400), 0, 0, cv::INTER_NEAREST);
    cv::imshow("www", image);
    cv::waitKey(100000);
    cv::destroyAllWindows();
    /**********************************************************************************************/


}

注：以上代码有删减，完整代码可点击链接

结果显示如下：

九、yolo的tensorrt部署(前后处理的cpu版与gpu版)

cuda教程目录
第一章指针篇
第二章 CUDA原理篇
第三章 CUDA编译器环境配置篇
第四章 kernel函数基础篇
第五章 kernel索引(index)篇
第六章 kenel矩阵计算实战篇
第七章 kenel实战强化篇
第八章 CUDA内存应用与性能优化篇
第九章 CUDA原子(atomic)实战篇
第十章 CUDA流(stream)实战篇
第十一章 CUDA的NMS算子实战篇
第十二章 YOLO的部署实战篇
第十三章基于CUDA的YOLO部署实战篇

cuda教程内容
第一章到第三章探索指针在cuda函数中的作用与cuda相关原理及环境配置；

第四章初步探索cuda相关函数编写(global、device、__host__等)，实现简单入门；

第五章探索不同grid与block配置，如何计算kernel函数的index，以便后续通过index实现各种运算；

第六、七章由浅入深探索核函数矩阵计算，深入探索grid、block与thread索引对kernel函数编写作用与影响，并实战多个应用列子(如：kernel函数实现图像颜色空间转换)；

第八章探索cuda内存纹理内存、常量内存、全局内存等分配机制与内存实战应用(附代码)，通过不同内存的使用来优化cuda计算性能；

第九章探索cuda原子(atomic)相关操作，并实战应用(如:获得某些自加索引等)；

第十章探索cuda流stream相关应用，并给出相关实战列子(如:多流操作等)；

第十一到十三章探索基于tensorrt部署yolo算法，我们首先将给出通用tensorrt的yolo算法部署，该部署的前后处理基于C++语言的host端实现，然后给出基于cuda的前后处理的算子核函数编写，最后数据无需在gpu与host间复制操作，实现gpu处理，提升算法性能。

目前，以上为我们的cuda教学全部内容，若后续读者有想了解知识，可留言，我们将根据实际情况，更新相关教学内容。

链接：https://blog.csdn.net/weixin_38252409/category_12383040.html?spm=1001.2014.3001.5482

【RK3576】【Android14】Android平台构建 Evan_ZGYF丶 android RK3576 Android14 驱动开发
获取更多相关的【RK3576】【Android14】驱动开发，可收藏系列博文，持续更新中：【RK3576】Android14驱动开发实战指南目录简介Android构建设置构建环境lunch选择平台配置关联UBOOT配置关联DTS配置简介Android14源码下载后，通过如下命令编译SDK：sourcebuild/envsetup.shlunchrk3576_u-userdebug./build.s
断舍离的魅力所在2019年12月11日星期三，晴天。别来无恙朱梅
今天去重庆参加了一个断舍离的分享活动学习会，受益非浅。断舍离，它不单单是指闲置不用多余的物品，它还包涵了怨，恨，脑，怒，烦以及做人做事交友等一系列之类的断舍离。终究其因，它就是修心，修行的一个过程。这些道理都懂，最重要的是要落地，去践行，知行合一，落到实处，这才是实现断舍离真正的价值和意义。大道至简，万法归一。接下来，先把物品的断舍离落到实处，一天一点，一下子断舍离掉不适应，循序渐进，慢慢的来，断
从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 chatgpt AIGC 神经网络 python 大模型思维链
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列十六从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？引言：当AI从“快
2020-11-13 ddc4080e3a18
《小小城市探索者》是一系列的活动,在今天之前我们老师在幼儿园和孩子们一起围绕着泉城济南进行了讨论，做探索计划，绘制藏宝图等活动，孩子们对探索泉城济南的秘密有非常强的兴趣,在今天的活动中，孩子们拿着藏宝图去寻宝，其实是从平面图到立体空间的转换，需要孩子们通过观察，对比，思考等多种能力来完成寻宝活动，到最后再结合宝藏和同伴共筑一幅画，其实是探索后的艺术表达。俗话说“兴趣是最好的老师”，孩子们在小小城市
Python从入门到弃坑学习笔记——第一章 Python入门 youweilong033 Python学习学习笔记 python pycharm
笔主趁着假期闲的蛋疼，打算开始学习一下Python，主要是之前就有很多朋友问我Python问题，甚至还有新闻学专业的，但我Python从没学过，还挺尴尬的。打算从现在开坑写一系列的Python学习笔记（flag立下了，乐。毕竟是从零开始学，在我的系列文章中，你将会看到包括但不限于：根据自己的想法命名东西，各种概念胡言乱语，shi一样的排版，某网课上的内容拿来主义。希望大佬们海涵，批评指正，有问题可
图论篇--代码随想录算法训练营第五十九天打卡|Bellman_ford 算法精讲，SPFA算法，Bellman ford之判断负权回路，Bellman ford之单源有限最短路無量空所 leetcode 算法图论 c++
本系列算法用来解决有负权边的情况Bellman_ford算法精讲题目链接：94.城市间货物运输I题目描述：某国为促进城市间经济交流，决定对货物运输提供补贴。共有n个编号为1到n的城市，通过道路网络连接，网络中的道路仅允许从某个城市单向通行到另一个城市，不能反向通行。网络中的道路都有各自的运输成本和政府补贴，道路的权值计算方式为：运输成本-政府补贴。权值为正表示扣除了政府补贴后运输货物仍需支付的费用
初代网红系列之五十三-丁贝莉鱼爷的道场
构思这期人物的时候，我脑子里突然就闪现出了这么一个名字，她就是丁贝莉。对互联网文化有些研究的我来说写她本身就是一招险棋，因为现在还记得她的人可能已经少之又少，即使那些资深的互联网考古学家能说出她名字的人都是凤毛麟角，对于常人来说没有印象就再正常不过，所以在还未动笔的时候我就已经有了这期内容可能会扑街的觉悟。对于盘点初代网红的历史来说如果少了她的这段历史绝对不算完整，她虽然没有像凤姐、芙蓉姐姐、程琳
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署 Liudef06小白 AIGC 人工智能特殊专栏人工智能魔搭 AIGC LLM
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署1.AIGC技术演进与魔搭社区生态解析人工智能生成内容（AIGC）正在重塑内容创作、软件开发和人机交互的边界。从OpenAI的GPT系列到StabilityAI的StableDiffusion，生成式AI技术正以惊人的速度发展。在这场技术革命中，魔搭社区（ModelScope）作为中国领先的AI模型开源平台，正成为开发者探索AI
基于单片机的点阵式汉字电子显示屏的设计 weixin_112233 单片机 AT89C51单片机单片机嵌入式硬件
2核心元器件的选用2.1AT89C51单片机AT89C51单片机具有快速8051内核、4KBFlashPEROM和128BIDATARAM，完全符合该汉字显示的硬件要求[9]。芯片共有40个引脚，使用CMOS工艺制造的DIP技术进行封装，是电压控制型的8位单片微型计算机。2.1.1单片机芯片内部结构MCS-51系列单片机结构大致相同，它主要包括中断系统、I/O端口、定时器等。其内部结构框图如图1所
嵌入式学习-PyTorch（8）-day24 LGGGGGQ 学习 pytorch 深度学习
torch.optim优化器torch.optim是PyTorch中用于优化神经网络参数的模块，里面实现了一系列常用的优化算法，比如SGD、Adam、RMSprop等，主要负责根据梯度更新模型的参数。️核心组成1.常用优化器优化器作用典型参数torch.optim.SGD标准随机梯度下降，支持momentumlr,momentum,weight_decaytorch.optim.Adam自适应学习
解密Claude系列：从原理到实践的全方位解析软考和人工智能学堂强化学习人工智能 Claude快速入门 Claude
引言：Claude系列模型的崛起在人工智能领域，大型语言模型(LLM)的发展日新月异。OpenAI的GPT系列和Anthropic的Claude系列无疑是这一领域的双子星。Claude系列模型以其独特的"ConstitutionalAI"理念和强大的对话能力，正在重塑人机交互的未来。本文将深入探讨Claude系列的技术原理、架构特点，并通过实践代码展示其强大能力。Claude系列的技术演进1.Cl
Libevent(3)之使用教程(2)创建事件 Once-Day #Linux实践记录 #十年代码训练开发语言 C libevent
Libevent(3)之使用教程(2)创建事件Author:OnceDayDate:2025年6月29日一位热衷于Linux学习和开发的菜鸟，试图谱写一场冒险之旅，也许终点只是一场白日梦…漫漫长路，有人对你微笑过嘛…本文档翻译于：Fastportablenon-blockingnetworkprogrammingwithLibevent全系列文章可参考专栏:十年代码训练_Once-Day的博客-C
2021:乐早起|遇见更好的自己|（180/365）Ⅰ如胶如漆的爱情，却被它所拆散梦想加油站
每日语录强则易折，柔弱才会赢。——曾仕强（处事篇）导语早起已经很多年，以前早起没有固定的时间点，有的时候会四点起来，有的时候会六点起来，虽然都在“早起”，但早起的效率和质量并不如所愿。2020年09月20日开始，自己发起“在路上”早起习惯养成圈子，经过一系列实践和调整，最终把自己的早起时间点定为04:00。我发起的早起圈子，注重的是早起之后做什么，也就是说，每个人都有一个适合自己的早起点。根据自己
2022-04-03 英雄用武
雅尼斯或不该被指责，因为吉林男篮绝杀之前，北京队至少错失了三次机会4月2日晚，CBA季后赛首轮12进8的比赛中，北京首钢被吉林男篮绝杀。比赛最后时刻，琼斯的上篮绝杀首钢，帮助球队在系列赛1-0领先对手，接下来只要再胜一场，就可以晋级到八强。由此，吉林队在三局两胜的比赛中占得先机。要知道这是时隔6618天，吉林男篮再次在CBA季后赛取得胜利，而且是以下克上，战胜了在常规赛中，两场输60分的对手。而对
《进击的智人》凛冽的南北朝Vs明末的地狱小乔非乔
周-秦（嬴政统一）-汉-（公元220年）三国两晋南北朝（三分天下-晋-少数民族纷立政权）-隋再次统一（公元589）公元225年开始一系列气候剧变拉开了帷幕，寒冷伴随着干旱，280-291年持续干旱。同时蝗灾对农业造成重创1）繁殖能力强2）以农作物为主3）食量巨大——天下大饥。气候转冷-北方农田变成草原-农牧交界线南移-少数民族大批进入中原-民族矛盾轰然爆发-特别在道德伦理上的矛盾显著，如匈奴的“收
《目标检测模块实践手册：从原理到落地的尝试与分享》第一期加油吧zkf 目标检测模块解析与实践目标检测目标跟踪人工智能
大家好，欢迎来到《目标检测模块实践手册》系列的第一篇。从今天开始，我想以一种“实践记录者”的身份，和大家聊聊在目标检测任务中那些形形色色的模块。这些内容没有权威结论，更多的是我在实际操作中的一些尝试、发现和踩过的坑。至于这些模块在大家的具体网络应用中是否可行，还需要大家自己去验证，也非常期待能和大家交流不同的经验。目标检测任务的本质与模块的作用目标检测，简单来说，就是从输入的图像中，准确地找出我们
双减政策学习体会蜗牛的旅行_03c8
白沙小学吕雅丽随着“双减”政策出台，我看到了教师价值的更大化。我们应该投身教研，提升自己业务素养。知识丰富，幽默风趣，互动和谐的课堂是学生喜欢的课堂，知识底蕴深厚，教学功底扎实的老师才能呈现高效的课堂。因此，每一个老师都要自觉修炼，努力提升有效备课，提高课堂教学效率。作业要减负，教研组要提前备课，集体研讨，改变教学设计，形成一套行之有效的教学设计、课件，同时教研组分工开发阅读教材、开出系列化的阅读
Pycharm开发Djnago项目部署详细教程（2021更新） af9f873c915c
项目部署：这里用的是非常干净的ubuntu16.04系统环境，没有使用任何云服务器，原因是因为不同的云服务器环境都不一样。我们就从零开始来完成部署。在开发机上的准备工作：确认项目没有bug。用pipfreeze>requirements.txt将当前环境的包导出到requirements.txt文件中，方便部署的时候安装。把dysms_python文件准备好。因为短信验证码的这个包必须通过将项目上
人脸识别闸机系统解决方案亿晟人脸识别
需求分析针对人脸识别通行管理项目，亿晟科技Eface人脸识别通行管理解决方案，是结合亿晟Yface系列人脸识别闸机专用主板，3D双目摄像头、以及闸机核验APP和Eface智慧考勤系统于一体的软硬件整体解决方案、该方案无缝对接各类闸机、考勤机等实现一站式成品落地，并且支持口罩识别，结合Eface智慧云服务器，或者局域网版本EFace管理平台。方便客户各种使用场景。方案架构硬件推荐方案特点人脸识别闸机
【0314践行笔记】创造多样性，你的世界因此会变得与众不同正本
学习一件新鲜事物，是要经过了解、熟悉、精致、深入拓展这一系列步骤。是一个逐渐探索、积累、完善循序渐进的过程。学习的越深入，就越会感觉到乐趣兴趣信心所在，也会与已有认知建立起一套完整的思维网络，这些网络充斥在头脑中，我们经常称之为“智慧”。我们判断一个人学习成效如何，主要是看他是否主动拓展自己的知识面以及是否有多样性的新想法。那么用何种办法提高学习成效？今天就与大家探讨三点，希望能给予你帮助。001
HTML和HTML5的区别半生凉忆 html html5
HTML和HTML5的区别什么是HTML？HTML全称为超文本标记语言(HyperTextMarkupLanguage)，它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。什么是HTML5?HTML5是HTML的第五个版本，HTML5已经远远超越了标记语言的范畴，它的设计目的是在移动设备上支持多媒体，和HTML比起来，深度和广度上都做了进一步
小架构step系列17：getter-setter-toString 秋千码途架构 java 开发语言
1概述在写代码的时候，有两类bean：一类是专门承载数据而无业务逻辑的bean，如DTO；另外一类是业务模型bean，其既要承载数据也要提供业务逻辑，在DDD中它们就对应于领域模型对象和值对象。这些bean里面可能要提供getter、setter、equals、hashCode、toString，甚至构造方法，这些代码写起来比较无聊，基本都是根据字段来的，属于非常机械化而无技术含量的操作，而这些操
目标检测-YOLOv5 wydxry 深度学习目标检测 YOLO 人工智能深度学习
YOLOv5介绍YOLOv5是YOLO系列的第五个版本，由Ultralytics团队发布。虽然YOLOv5并非JosephRedmon原团队发布，但它在YOLOv4的基础上进行了重要的优化和改进，成为了深度学习目标检测领域中的热门模型之一。YOLOv5的优势不仅体现在其性能上，还包括其简洁易用、部署便捷的特点。相较于YOLOv4，YOLOv5对于代码框架的重构、推理速度的提升，以及模型的轻量化等方
Matlab实现的二维框架非线性动力学求解器：几何非线性应用悦闻闻
本文还有配套的精品资源，点击获取简介：二维框架非线性动力学求解器Matlab工具用于分析复杂结构在动态载荷作用下的行为，特别是在几何非线性效应显著的情况下。求解器采用Newmark方法进行数值积分，并通过多个Matlab脚本文件，如Newmark_Nonlinear.m和Analysis.m等，实现从加载条件到结果可视化的一系列计算流程。用户可以通过各种分析功能和示例深入了解结构在动态载荷下的响应
ros订阅相机深度信息_基于深度相机 RealSense D435i 的 ORB SLAM 2
相比于上一篇文章，这里我们将官方给的rosbag数据包替换为来自深度相机的实时数据。之所以选择IntelRealSense这款深度相机，仅仅是因为它是最容易买到的。。。在京东上搜“深度相机”，符合要求的几乎都是这个系列的。具体到D435i这个型号，它可以提供深度和RGB图像，而且带有IMU，未来如果我们继续做视觉+惯导的SLAM也够用了。深度相机RealSenseD435i简介Intel官方给出了
【RK3576】Android 14 驱动开发实战指南 Evan_ZGYF丶 RK3576 Android14 驱动开发
获取更多相关的【RK3576】【Android14】驱动开发，可收藏系列博文，持续更新中：【RK3576】Android14驱动开发实战指南文章目录开发准备开发调试写这篇文章，主要是正好在做RK3576开发，网上相关的开发资料较少，因此想将开发过程中的一些实践经验记录下来，方便后续查找，顺便分享过程中很多章节会先搭个框架，后续开发过程中再逐步完善…开发准备【RK3576】【Android14】开发
致小风铃教室家长的一封信坚持_ing
本周晨诵课程开始了应景的冬之歌单元中的四篇晨诵，分别是:《小红花》、《下雪了》、《冬爷爷捏红了弟弟的鼻子》、《冬爷爷来啦》，《冬天真快活》。这几篇晨诵都充满趣味，纯洁的冬天，可爱的冬天真的是个魔术师，它能够改变很多事物，从天上纷纷飘落的雪花比鹅毛还轻盈，比玉石还要纯洁，活泼可爱的小精灵正悄悄地打扮着我们的大千世界！绘本课程继续进行弗洛格系列--《冬天的弗洛格》讲述了在寒冷的冬天，因为有朋友们的关爱
100天（57）||知识的边界真的很远，它真的有边界吗？慕子清蒸
昨天也是我试工的第1天，是一个韩国的品牌。中文名名字霹雳霸，英文名字Rapido然后发现了两个问题：第1个是WPS必须好好学起来，还有英文必须学起来。好多介绍都是英文的。还发现rapido的设计师是非常非常有名气，英文名字叫wrong，这个名字叫李长荣。它其中涉及的一个系列是根据中国的敦煌石窟，结合韩国的进口面料元素设计的几款衣服。01那个品牌，是一个工作还是一个学习的机会我并不知道我有没有设计方
前后端分离式项目架构流程（爆肝三万字）信计2102罗铠威 javaEE系列专栏前后端分离式架构 servlet 后端前端框架项目开发流程
文章目录个人主页：信计2102罗铠威JavaEE系列专栏前言：【前端】先创建Vue-cli项目，请选择此项目【创建路由】打开命令行工具，进入你的项目目录，输入下面命令。1.创建router目录~创建index.js文件,在其中配置路由2.在APP.vue中添加路由视图3.在main.js中配置路由【配置ElementUI】【如何使背景图片最大自适应】【登录组件模板】【注册组件模板】【创建后端项目+
UGUI 性能优化系列：第二篇——Canvas 与 UI 元素管理吉良吉影NeKoSuKi 性能优化 ui unity 游戏引擎 c#开发语言
UGUI性能优化系列：第一篇——基础优化与资源管理UGUI性能优化系列：第二篇——Canvas与UI元素管理UGUI性能优化系列：第三篇——渲染与像素填充率优化在UGUI性能优化中，Canvas是一个核心概念，它像一块画板，承载着所有的UI元素。对Canvas的理解和管理，是优化UGUI性能的关键。同时，单个UI元素的生命周期和属性管理也会直接影响性能。本篇文章将深入探讨Canvas的重建机制、分
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

cuda系列详细教程

你可能感兴趣的:(cuda系列详细教程)