Cuda编程

CUDA 编程入门（2）：CUDA 调度模型

参考：CUDA编程入门（2）：CUDA编程模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM，也就是说SM负责block中线程的执行，SM会为每个block

知识搬运工人·2024-09-12 02:33

【CUDA编程笔记】如何使用CUDA统一内存来优化多进程多线程程序的性能？

理解统一内存统一内存是CUDA编程模型的一个组件，它定义了一个所有处理器都可访问的单一连贯内存映像，允许数据在CPU和GPU之间透明迁移，无需显式复制。

qq2108462953·2024-08-26 23:26

ChatGPT引领的AI面试攻略系列：cuda和tensorRT

系列文章目录cuda和tensorRT（本文）AI全栈工程师文章目录系列文章目录一、前言二、面试题1.CUDA编程基础2.CUDA编程进阶3.性能优化4.TensorRT基础5.TensorRT进阶6.

梦想的理由·2024-03-05 12:04

[CUDA手搓]从零开始用C++ CUDA搭建一个卷积神经网络(LeNet)，了解神经网络各个层背后算法原理

格式导出训练结果(模型的各个层权重偏置等参数)2.3(可选)以pth格式导出训练结果，以方便后期调试2.4C++CUDA要做的事三、C++CUDA具体实现3.1新建.cu文件并填好框架3.2C++实现各网络层3.0CUDA

Bartender_Jill·2024-02-08 14:09

CUDA编程学习笔记（三）

本篇记录学习cuda的执行模式，主要有几个方面的内容：理解jetsonnano上的gpu架构；理解线程束执行的本质；分支化与避免分支化；展开循环；其他；一、理解jetsonnano的gpu架构这块内容在上一篇笔记中有学习到一些，本篇就进行一个补充和复习。jetsonnano上的gpu是Maxwell架构的，整个gpu上面只有一个SM（流多处理器）。该SM上包含128个处理核心，这128个计算核心被

HHHANG___·2024-02-08 03:07

Cuda编程注意小事项

1、函数执行空间标识符用__global__修饰的函数称为核函数，般由主机调用,在设备中执行。如果使用动态并行，则也可以在核函数中调用自己或其他核函数。用__device__修饰的函数称为设备函数，只能被核函数或其他设备函数调用，在设备中执行。用__host__修饰的函数就是主机端的普通C++函数，在主机中被调用，在主机中执行。对于主机端的函数，该修饰符可省略。之所以提供这样一个修饰符，是因为有时

混元太极马保国·2024-02-07 08:26

【GPU】GPU CUDA 编程的基本原理是什么?

【GPU】GPUCUDA编程的基本原理是什么?

Hcoco_me·2024-01-28 16:44

【cuda编程】CUDA的运行方式以及grid、block结构关系

文章目录1.CUDA基础知识1.1程序基本运行顺序1.2grid与block1.3dim类型定义2.CUDA的第一个程序3.CUDA线程的组织结构——grid与block关系1.CUDA基础知识1.1程序基本运行顺序一般来说，一个cpu+gpu的程序运行如下所示：1.2grid与block从GPU至线程的关系依次为：显卡（GPU）->网格（grid）->线程块（block）->线程（thread）

非晚非晚·2024-01-28 05:49

CUDA编程- - GPU线程的理解 thread,block,grid - 再次学习

GPU线程的理解thread,block,grid一、从cpu多线程角度理解gpu多线程1、cpu多线程并行加速2、gpu多线程并行加速2.1、cpu线程与gpu线程的理解（核函数）2.1.1、第一步：编写核函数2.1.2、第二步：调用核函数（使用内核函数）2.1.3、第三步：编写CMakeLists&编译代码二、重要概念&与线程索引的直观理解2.1、重要概念2.2、dim3与启动内核2.3、如何

Nice_cool.·2024-01-28 05:17

CUDA笔记3

CUDA编程-入门、加法、乘法例子1：入门#include__global__voidhello_from_gpu(){constintbid=blockIdx.x;constinttid=threadIdx.x

tensor.shape·2024-01-25 15:01

【CUDA】零基础入门教程合集

本系列用于cuda编程的基础入门，详细介绍各种相关技术。这是系列连载的入口，还可以关注我的专栏CUDA编程。

prinTao·2024-01-17 14:51

CUDA动态并行

一、简介1.综述动态并行是CUDA编程模型的扩展，使CUDA内核能够直接在GPU上创建新工作并与其同步。在程序中任何需要的地方动态创建并行性都提供了令人兴奋的功能。

m0_46521579·2024-01-13 04:10

2.5 KERNEL FUNCTIONS AND THREADING

由于所有这些线程执行相同的代码，CUDA编程是众所周知的单程序多数据（SPMD）[Ata1998]并行编程风格的实例，这是一种大规模并行计算系统的流行编程风格。

王莽v2·2024-01-10 18:34

undefined reference to `cuInit‘

最近在入门学习cuda编程，刚开始编译cuda就报错，在此记录一下错误信息与解决方案。

鲤鱼不懂·2024-01-07 22:40

CUDA编程

第一个程序：用GPU输出HelloWorld写一个CUDAC程序步骤用专用扩展名.cu来创建一个源文件使用CUDAnvcc编译器来编译程序从命令行运行可执行文件，这个文件有可在GPU上运行的内核代码hello.cu#include"../common/common.h"#include/**AsimpleintroductiontoprogramminginCUDA.Thisprogramprin

兔子牙丫丫·2024-01-04 18:52

CUDA线程模型

了解如何组织线程是CUDA编程的一个关键部分。CUDA明确了线程层次抽象的概念以便于你组织线程。这是一个两层的线程层次结构，由线程块和线程块网格构成，如图2-5所示。CUDA可以组织三维的网格和块。

兔子牙丫丫·2024-01-04 18:52

CUDA编程第五章: 共享内存&常量内存

前言:本章内容：了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中,已经介绍了几种全局内存的访问模式.通过安排全局内存访问模式,我们学会了如何实现良好的性能并且避免了浪费事务.未对齐的内存访问是没

Janus_V·2024-01-01 17:11

matlab 使用gpu绘图,使用MATLAB轻松享受GPU的强大功能

MATLAB的GPU支持为活跃于许多学科的大量研究人员(不一定是CUDA编程专家)提供了一种加速科学计算的新方法。考虑到MATLAB主要是用于

stellagugu·2023-12-30 06:02

基于矩阵乘的CUDA编程优化过程

背景：网上很多关于矩阵乘的编程优化思路，本着看理论分析万遍，不如实际代码写一遍的想法，大概过一下优化思路。矩阵乘的定义如下，约定矩阵的形状及存储方式为:A[M,K],B[K,N],C[M,N]。CPU篇朴素实现方法按照常规的思路，实现矩阵乘时如下的3层for循环。#defineOFFSET(row,col,ld)((row)*(ld)+(col))voidcpuSgemm(float*a,floa

Briwisdom·2023-12-30 06:57

Win11+Docker搭建CUDA开发环境

最近入门了CUDA编程，先记录下搭建环境过程。由于在windows和wsl上折腾了好久，装cuda、cudnn、cmake、gcc等软件，还经常遇到依赖、版本许多问题，最终污染了系统环境。

transformer_WSZ·2023-12-29 17:15

cuda编程（示例，topk问题，代码解读与cuda基础概念）

文章声明：本文代码来自于扫地的小和尚，CUDA编程模型系列九(topK问题/规约/2_Pass核函数)_cudatopk-CSDN博客这篇文章，以及b站的视频CUDA编程模型系列九(topK问题/规约/

grace 1314·2023-12-23 19:34

CUDA编程（十三） CUDA标准库与Thrust库

CUDA标准库简介Thrust库Thrust是一个实现了众多基本并行算法的C++模板库，类似于C++的标准模板库（standardtemplatelibrary，STL）。该库自动包含在CUDA工具箱中。这是一个模板库，仅仅由一些头文件组成。在使用该库的某个功能时，包含需要的头文件即可。该库中的所有类型与函数都在名字空间（namespace）thrust中定义，所以都以thrust::开头。用名字

grace 1314·2023-12-23 19:03

CUDA编程示例：CPU预处理-＞GPU处理-＞CPU后处理

CUDA编程示例：CPU预处理->GPU处理->CPU后处理在GPU编程中，一种常见的模式是将工作负载分为CPU预处理、GPU处理和CPU后处理阶段。

独行侠影·2023-12-21 00:09

【高性能计算】Cpp + Eigen + Intel MKL + 函数写成传引用

CUDA加速原理：CUDA编程学习：自定义Pytorch+cpp/cudaextension高质量C++进阶[2]：如何让线性代数加速1000倍？

dataloading·2023-12-17 21:15

如何通过Clion配置cuda编程

方法ubutu中用clion创建的cuda项目，在终端编译一般没有什么问题，但是用Clion本身在配置cmake确经常报些找不到cuda等类似的错。解决方法有以下步骤：在.bashrc文件追加exportPATH=/usr/local/cuda/bin:$PATH在CMakeLists.txt中追加set(CMAKE_CUDA_ARCHITECTURESxx),xx为显卡的CUDA架构，一般可以用

梦想的理由·2023-12-14 19:12

记录 | CUDA编程中使用#ifdef指令控制生成CPU和GPU代码

CUDA编程中使用#ifdef指令控制生成CPU和GPU代码比如：#include#include__host____device__voidsay_hello(){#ifdef__CUDA_ARCH_

极智视界·2023-12-06 10:59

记录 | CUDA编程中用constexpr替代host&device

比如用__host__&__device__的情况如下：#include#include__host____device__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cudaDeviceSynchronize();say_hello();ret

极智视界·2023-12-05 22:30

记录 | CUDA编程中声明内联函数的方法

下面将say_hello()声明为内联函数：#include#include__device____inline__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cudaDeviceSynchronize();return0;}需要注意的点：●in

极智视界·2023-12-05 22:00

记录 | CUDA编程中的 host & device 双重修饰

通过__host__和__device__双重修饰符，可以把函数同时定义在CPU和GPU上，这样CPU和GPU都可以调用比如：#include#include__host____device__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cuda

极智视界·2023-12-05 22:00

记录 | CUDA编程中 host 标识符可以省略的情况

CUDA完全兼容C++，因此任何函数如果没有指明修饰符，则默认就是__host__，而如果是CPU上的函数，由于本身就是host的，所以__host__是可以省略的。比如：#include#include__device__voidsay_hello(){printf("Hello,worldfromGPU!\n");}__host__voidsay_hello_host(){printf("He

极智视界·2023-12-05 22:24

CMAKE：方便CUDA与其他语言（C、C++、RUST）联合编程

在CUDA编程中，尤其是涉及多语言混合编程时，如C/C++和CUDA或者RUST和CUDA等，使用NVCC编译器在编译一些大项目时，还是比较麻烦的。使用cmake配置编译选项还是比较简单并且强大的。

HIT夜枭·2023-11-27 10:35

深度学习部署笔记(二): g++, makefile语法，makefile自己的CUDA编程模板

对作者的尊重这是一篇学习笔记，repo来自(https://github.com/shouxieai/makefile_tutorial_project)如果您觉得我这个笔记好，请去给原作者点赞作者还有一个挺好的工程模板，(https://github.com/shouxieai/cpp-proj-template)作者的知乎:https://zhuanlan.zhihu.com/p/396448

智障学AI·2023-11-26 20:41

makefile 学习(5)完整的makefile模板

参考自：(1）深度学习部署笔记(二):g++,makefile语法，makefile自己的CUDA编程模板(2）https://zhuanlan.zhihu.com/p/396448133(3)一个挺好的工程模板

@BangBang·2023-11-26 20:10

【CUDA编程--编程模型简介&算子开发流程】

官方文档：https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html什么是CUDACUDA全称（ComputeUnifiedDeviceArchitecture）统一计算架构，是NVIDIA推出的并行计算平台深度学习加速：对于神经网络，无论是离线训练还是在线推理，都有巨量的矩阵、归一化、softmax等运算，且其中有非常多的并行

Mr.Lee jack·2023-11-19 11:33

CUDA编程之矩阵乘法

文章目录一、矩阵乘法回顾二、CUDA内存架构CUDA中的共享内存CUDA中的共享内存使用方法静态申请内存动态申请内存三、分解矩阵乘法/平铺矩阵乘法四、实战代码DS_M和DS_N的索引方式解释一、矩阵乘法回顾CPU版本：GPU版本：核函数如下：C=AB([mk],[kn])的矩阵乘法运算，每个线程都要读取A的一整行和B的一整列。A矩阵中的每个点需要被读N次，B矩阵中的每个点需要被读M次。因此我们可以

NUS_Ryan·2023-11-17 07:05

cuda编程

参考资料https://nyu-cds.github.io/python-gpu/02-cuda/https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.htmlhttps://docs.nvidia.com/cuda/cuda-c-best-practices-guide/thread执行过程：https://docs.nvidia

武小胖儿·2023-11-16 06:16

第八章 CUDA共享内存的合理使用

其中在CUDA中数组规约是一个非常适合学习CUDA编程的例子，通过他可以了解到CUD

布林组-？·2023-11-12 17:14

异构融合计算技术白皮书（2023年）研读1

1灵活性：GPU>FPGA>DSA>ASIC（1）GPU：CUDA编程模型（英伟达），（OpenCL编程模型Xilinxintel）这点叫平台支持（2）FPGA：基于FPGA的并行运算（csdn一个文章

danxutj·2023-11-06 16:10

CUDA、HIP、OpenCL和oneAPI编程模型总结及比较

目录如下：目录目录背景众核处理器NVIDIA加速卡AMD加速卡Intel加速卡国产加速卡AI加速卡众核处理器的发展趋势GPU异构计算编程模型CUDA编程模型OpenCL编程模型HIP编程模型

张小殊.·2023-11-05 21:27

CUDA编程出现calling a host function("sqrt ") from a global function("judgeIsTouche...

Errorcallinga__host__function("sqrt")froma__global__function("judgeIsTouched")isnotallowedcuda07E:\program\cplus\cuda07\cuda07\kernel.cu255错误的代码如下floatdistanceM=std::sqrt(2)*LENGTH;做出如下更改floatdistance

hTangle·2023-11-01 15:01

YOLOV8的tensorrt部署详解(目标检测模型-CUDA)

提示：基于cuda的yolov8的tensorrt部署方法(纯cuda编程处理)，文中附有源码链接！！！

tangjunjun-owen·2023-10-29 01:30

CUDA编程第一章：windows下安装visual studio 2019+CUDA10.2的整体图文流程

目录简介下载链接及参考文章注意事项Visualstudio2019安装流程CUDA安装流程环境搭建结果验证自己进行CUDA编程验证总结简介去年虽然看了CUDA编程的基础知识（没学完つ﹏⊂），但是没有整理成笔记

玉堃·2023-10-25 19:25

CUDA学习笔记（二）CUDA简介

CUDA编程CUDA编程允许你的程序执行在异构系统上，即CUP和

我来了！！！·2023-10-22 22:20

CUDA学习笔记（LESSON1/2）——架构、通信模式与GPU硬件

最近在看视频拼接的代码，师兄说要用CUDA加速，于是开始学习CUDA编程，课程链接：UdacityCS344CUDA系列笔记CUDA学习笔记（LESSON1/2）——架构、通信模式与GPU硬件CUDA学习笔记

Veropatrinica·2023-10-22 06:24

【CUDA编程】学习笔记（二） GPU硬件架构

一、CPU与GPU的链接模型在计算机的硬件架构中，CPU与GPU有多种链接模式，下面介绍几种典型的架构北桥多CPU（SMP）多CPU（NUMA）多CPU（NUMA）多总线具有集成PCIExpress的多CPU集成GPU集成GPU与独立GPU多个插槽中的GPU多GPU板简化了CPU/GPU架构二、开普勒架构下面这张图是各代GPU架构的迭代顺序，目前最新的架构是Turing开普勒微架构以GTX680为

Swocky·2023-10-22 06:21

CUDA编程模型与GPU硬件结构关系

目录一、CUDA编程模型1、线程管理2、内存管理二、GPU硬件结构1、SM硬件2、硬件逻辑抽象2.1共享内存的逻辑划分2.2寄存器的逻辑划分2.3GPU内存分级3、CUDA程序的一些优化点3.1一个core

Hunter_pcx·2023-10-22 06:50

CUDA编程- 瓦片（Tiling）技术

瓦片（Tiling）技术是CUDA编程中的一个常见策略，用于优化内存访问模式，特别是在矩阵乘法这类计算密集型操作中。

青衫客36·2023-10-21 22:27

CUDA编程- __syncthreads()函数

基本概念__syncthreads()是CUDA编程中非常关键的一个同步原语。它的功能是确保在某个线程块中的所有线程在执行到这个函数之前都已完成它们之前的所有指令。