E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【CUDA编程】
CUDA 编程入门(2):CUDA 调度模型
参考:
CUDA编程
入门(2):
CUDA编程
模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM,也就是说SM负责block中线程的执行,SM会为每个block
知识搬运工人
·
2024-09-12 02:33
CUDA
GPU
CUDA
【
CUDA编程
笔记】如何使用CUDA统一内存来优化多进程多线程程序的性能?
理解统一内存统一内存是
CUDA编程
模型的一个组件,它定义了一个所有处理器都可访问的单一连贯内存映像,允许数据在CPU和GPU之间透明迁移,无需显式复制。
qq2108462953
·
2024-08-26 23:26
CUDA编程笔记
笔记
人工智能
ChatGPT引领的AI面试攻略系列:cuda和tensorRT
系列文章目录cuda和tensorRT(本文)AI全栈工程师文章目录系列文章目录一、前言二、面试题1.
CUDA编程
基础2.
CUDA编程
进阶3.性能优化4.TensorRT基础5.TensorRT进阶6.
梦想的理由
·
2024-03-05 12:04
深度学习
c++
chatgpt
人工智能
面试
[CUDA手搓]从零开始用C++ CUDA搭建一个卷积神经网络(LeNet),了解神经网络各个层背后算法原理
格式导出训练结果(模型的各个层权重偏置等参数)2.3(可选)以pth格式导出训练结果,以方便后期调试2.4C++CUDA要做的事三、C++CUDA具体实现3.1新建.cu文件并填好框架3.2C++实现各网络层3.0
CUDA
Bartender_Jill
·
2024-02-08 14:09
Graphics图形学笔记
神经网络
c++
cnn
性能优化
vscode
CUDA编程
学习笔记(三)
本篇记录学习cuda的执行模式,主要有几个方面的内容:理解jetsonnano上的gpu架构;理解线程束执行的本质;分支化与避免分支化;展开循环;其他;一、理解jetsonnano的gpu架构这块内容在上一篇笔记中有学习到一些,本篇就进行一个补充和复习。jetsonnano上的gpu是Maxwell架构的,整个gpu上面只有一个SM(流多处理器)。该SM上包含128个处理核心,这128个计算核心被
HHHANG___
·
2024-02-08 03:07
学习
笔记
Cuda编程
注意小事项
1、函数执行空间标识符用__global__修饰的函数称为核函数,般由主机调用,在设备中执行。如果使用动态并行,则也可以在核函数中调用自己或其他核函数。用__device__修饰的函数称为设备函数,只能被核函数或其他设备函数调用,在设备中执行。用__host__修饰的函数就是主机端的普通C++函数,在主机中被调用,在主机中执行。对于主机端的函数,该修饰符可省略。之所以提供这样一个修饰符,是因为有时
混元太极马保国
·
2024-02-07 08:26
CUDA
cuda
c++
【GPU】GPU CUDA 编程的基本原理是什么?
【GPU】GPU
CUDA编程
的基本原理是什么?
Hcoco_me
·
2024-01-28 16:44
GPU
GPU
CUDA
【
cuda编程
】CUDA的运行方式以及grid、block结构关系
文章目录1.CUDA基础知识1.1程序基本运行顺序1.2grid与block1.3dim类型定义2.CUDA的第一个程序3.CUDA线程的组织结构——grid与block关系1.CUDA基础知识1.1程序基本运行顺序一般来说,一个cpu+gpu的程序运行如下所示:1.2grid与block从GPU至线程的关系依次为:显卡(GPU)->网格(grid)->线程块(block)->线程(thread)
非晚非晚
·
2024-01-28 05:49
GPU&CUDA
c++
c语言
CUDA
GPU
CPU
CUDA编程
- - GPU线程的理解 thread,block,grid - 再次学习
GPU线程的理解thread,block,grid一、从cpu多线程角度理解gpu多线程1、cpu多线程并行加速2、gpu多线程并行加速2.1、cpu线程与gpu线程的理解(核函数)2.1.1、第一步:编写核函数2.1.2、第二步:调用核函数(使用内核函数)2.1.3、第三步:编写CMakeLists&编译代码二、重要概念&与线程索引的直观理解2.1、重要概念2.2、dim3与启动内核2.3、如何
Nice_cool.
·
2024-01-28 05:17
Cuda与TensorRT
学习
算法
人工智能
CUDA笔记3
CUDA编程
-入门、加法、乘法例子1:入门#include__global__voidhello_from_gpu(){constintbid=blockIdx.x;constinttid=threadIdx.x
tensor.shape
·
2024-01-25 15:01
CUDA
笔记
算法
【CUDA】零基础入门教程合集
本系列用于
cuda编程
的基础入门,详细介绍各种相关技术。这是系列连载的入口,还可以关注我的专栏
CUDA编程
。
prinTao
·
2024-01-17 14:51
cuda
c++
CUDA动态并行
一、简介1.综述动态并行是
CUDA编程
模型的扩展,使CUDA内核能够直接在GPU上创建新工作并与其同步。在程序中任何需要的地方动态创建并行性都提供了令人兴奋的功能。
m0_46521579
·
2024-01-13 04:10
linux
运维
服务器
2.5 KERNEL FUNCTIONS AND THREADING
由于所有这些线程执行相同的代码,
CUDA编程
是众所周知的单程序多数据(SPMD)[Ata1998]并行编程风格的实例,这是一种大规模并行计算系统的流行编程风格。
王莽v2
·
2024-01-10 18:34
并行计算
CUDA
undefined reference to `cuInit‘
最近在入门学习
cuda编程
,刚开始编译cuda就报错,在此记录一下错误信息与解决方案。
鲤鱼不懂
·
2024-01-07 22:40
tensorrt
c++
CUDA编程
第一个程序:用GPU输出HelloWorld写一个CUDAC程序步骤用专用扩展名.cu来创建一个源文件使用CUDAnvcc编译器来编译程序从命令行运行可执行文件,这个文件有可在GPU上运行的内核代码hello.cu#include"../common/common.h"#include/**AsimpleintroductiontoprogramminginCUDA.Thisprogramprin
兔子牙丫丫
·
2024-01-04 18:52
cuda编程
深度学习
人工智能
c语言
CUDA线程模型
了解如何组织线程是
CUDA编程
的一个关键部分。CUDA明确了线程层次抽象的概念以便于你组织线程。这是一个两层的线程层次结构,由线程块和线程块网格构成,如图2-5所示。CUDA可以组织三维的网格和块。
兔子牙丫丫
·
2024-01-04 18:52
cuda编程
深度学习
神经网络
人工智能
CUDA编程
第五章: 共享内存&常量内存
前言:本章内容:了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中,已经介绍了几种全局内存的访问模式.通过安排全局内存访问模式,我们学会了如何实现良好的性能并且避免了浪费事务.未对齐的内存访问是没
Janus_V
·
2024-01-01 17:11
CUDA
matlab 使用gpu绘图,使用MATLAB轻松享受GPU的强大功能
MATLAB的GPU支持为活跃于许多学科的大量研究人员(不一定是
CUDA编程
专家)提供了一种加速科学计算的新方法。考虑到MATLAB主要是用于
stellagugu
·
2023-12-30 06:02
matlab
使用gpu绘图
基于矩阵乘的
CUDA编程
优化过程
背景:网上很多关于矩阵乘的编程优化思路,本着看理论分析万遍,不如实际代码写一遍的想法,大概过一下优化思路。矩阵乘的定义如下,约定矩阵的形状及存储方式为:A[M,K],B[K,N],C[M,N]。CPU篇朴素实现方法按照常规的思路,实现矩阵乘时如下的3层for循环。#defineOFFSET(row,col,ld)((row)*(ld)+(col))voidcpuSgemm(float*a,floa
Briwisdom
·
2023-12-30 06:57
性能测试
CUDA编程
matmul
矩阵乘
Win11+Docker搭建CUDA开发环境
最近入门了
CUDA编程
,先记录下搭建环境过程。由于在windows和wsl上折腾了好久,装cuda、cudnn、cmake、gcc等软件,还经常遇到依赖、版本许多问题,最终污染了系统环境。
transformer_WSZ
·
2023-12-29 17:15
LLM
docker
容器
运维
cuda编程
(示例,topk问题,代码解读与cuda基础概念)
文章声明:本文代码来自于扫地的小和尚,
CUDA编程
模型系列九(topK问题/规约/2_Pass核函数)_cudatopk-CSDN博客这篇文章,以及b站的视频
CUDA编程
模型系列九(topK问题/规约/
grace 1314
·
2023-12-23 19:34
c语言
c++
CUDA编程
(十三) CUDA标准库与Thrust库
CUDA标准库简介Thrust库Thrust是一个实现了众多基本并行算法的C++模板库,类似于C++的标准模板库(standardtemplatelibrary,STL)。该库自动包含在CUDA工具箱中。这是一个模板库,仅仅由一些头文件组成。在使用该库的某个功能时,包含需要的头文件即可。该库中的所有类型与函数都在名字空间(namespace)thrust中定义,所以都以thrust::开头。用名字
grace 1314
·
2023-12-23 19:03
人工智能
深度学习
CUDA编程
示例:CPU预处理->GPU处理->CPU后处理
CUDA编程
示例:CPU预处理->GPU处理->CPU后处理在GPU编程中,一种常见的模式是将工作负载分为CPU预处理、GPU处理和CPU后处理阶段。
独行侠影
·
2023-12-21 00:09
算法
人工智能
linux
编程
【高性能计算】Cpp + Eigen + Intel MKL + 函数写成传引用
CUDA加速原理:
CUDA编程
学习:自定义Pytorch+cpp/cudaextension高质量C++进阶[2]:如何让线性代数加速1000倍?
dataloading
·
2023-12-17 21:15
线性代数
矩阵
c++
如何通过Clion配置
cuda编程
方法ubutu中用clion创建的cuda项目,在终端编译一般没有什么问题,但是用Clion本身在配置cmake确经常报些找不到cuda等类似的错。解决方法有以下步骤:在.bashrc文件追加exportPATH=/usr/local/cuda/bin:$PATH在CMakeLists.txt中追加set(CMAKE_CUDA_ARCHITECTURESxx),xx为显卡的CUDA架构,一般可以用
梦想的理由
·
2023-12-14 19:12
python
linux
开发语言
记录 |
CUDA编程
中使用#ifdef指令控制生成CPU和GPU代码
CUDA编程
中使用#ifdef指令控制生成CPU和GPU代码比如:#include#include__host____device__voidsay_hello(){#ifdef__CUDA_ARCH_
极智视界
·
2023-12-06 10:59
踩坑记录
CUDA
CUDA编程
#ifdef
CPU
GPU
记录 |
CUDA编程
中用constexpr替代__host__&__device__
比如用__host__&__device__的情况如下:#include#include__host____device__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cudaDeviceSynchronize();say_hello();ret
极智视界
·
2023-12-05 22:30
踩坑记录
CUDA
CUDA编程
constexpr
host
device
记录 |
CUDA编程
中声明内联函数的方法
下面将say_hello()声明为内联函数:#include#include__device____inline__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cudaDeviceSynchronize();return0;}需要注意的点:●in
极智视界
·
2023-12-05 22:00
踩坑记录
CUDA
内联
内联函数
C++
记录 |
CUDA编程
中的 __host__ & __device__ 双重修饰
通过__host__和__device__双重修饰符,可以把函数同时定义在CPU和GPU上,这样CPU和GPU都可以调用比如:#include#include__host____device__voidsay_hello(){printf("Hello,world!\n");}__global__voidkernel(){say_hello();}intmain(){kernel>>();cuda
极智视界
·
2023-12-05 22:00
踩坑记录
CUDA
C++
host
device
CUDA编程
记录 |
CUDA编程
中 __host__ 标识符可以省略的情况
CUDA完全兼容C++,因此任何函数如果没有指明修饰符,则默认就是__host__,而如果是CPU上的函数,由于本身就是host的,所以__host__是可以省略的。比如:#include#include__device__voidsay_hello(){printf("Hello,worldfromGPU!\n");}__host__voidsay_hello_host(){printf("He
极智视界
·
2023-12-05 22:24
踩坑记录
CUDA
CUDA编程
__host__
标识符
CPU
CMAKE:方便CUDA与其他语言(C、C++、RUST)联合编程
在
CUDA编程
中,尤其是涉及多语言混合编程时,如C/C++和CUDA或者RUST和CUDA等,使用NVCC编译器在编译一些大项目时,还是比较麻烦的。使用cmake配置编译选项还是比较简单并且强大的。
HIT夜枭
·
2023-11-27 10:35
CUDA
与硬件加速
经验分享
c++
深度学习部署笔记(二): g++, makefile语法,makefile自己的
CUDA编程
模板
对作者的尊重这是一篇学习笔记,repo来自(https://github.com/shouxieai/makefile_tutorial_project)如果您觉得我这个笔记好,请去给原作者点赞作者还有一个挺好的工程模板,(https://github.com/shouxieai/cpp-proj-template)作者的知乎:https://zhuanlan.zhihu.com/p/396448
智障学AI
·
2023-11-26 20:41
部署
深度学习
c++
算法
makefile 学习(5)完整的makefile模板
参考自:(1)深度学习部署笔记(二):g++,makefile语法,makefile自己的
CUDA编程
模板(2)https://zhuanlan.zhihu.com/p/396448133(3)一个挺好的工程模板
@BangBang
·
2023-11-26 20:10
C++
学习
【
CUDA编程
--编程模型简介&算子开发流程】
官方文档:https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html什么是CUDACUDA全称(ComputeUnifiedDeviceArchitecture)统一计算架构,是NVIDIA推出的并行计算平台深度学习加速:对于神经网络,无论是离线训练还是在线推理,都有巨量的矩阵、归一化、softmax等运算,且其中有非常多的并行
Mr.Lee jack
·
2023-11-19 11:33
Ai
机器学习
深度学习
人工智能
cuda
nvcc
CUDA编程
之矩阵乘法
文章目录一、矩阵乘法回顾二、CUDA内存架构CUDA中的共享内存CUDA中的共享内存使用方法静态申请内存动态申请内存三、分解矩阵乘法/平铺矩阵乘法四、实战代码DS_M和DS_N的索引方式解释一、矩阵乘法回顾CPU版本:GPU版本:核函数如下:C=AB([mk],[kn])的矩阵乘法运算,每个线程都要读取A的一整行和B的一整列。A矩阵中的每个点需要被读N次,B矩阵中的每个点需要被读M次。因此我们可以
NUS_Ryan
·
2023-11-17 07:05
矩阵
线性代数
cuda编程
参考资料https://nyu-cds.github.io/python-gpu/02-cuda/https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.htmlhttps://docs.nvidia.com/cuda/cuda-c-best-practices-guide/thread执行过程:https://docs.nvidia
武小胖儿
·
2023-11-16 06:16
GPU
GPU
第八章 CUDA共享内存的合理使用
其中在CUDA中数组规约是一个非常适合学习
CUDA编程
的例子,通过他可以了解到CUD
布林组-?
·
2023-11-12 17:14
CUDA从入门到实践
算法
数据结构
windows
c++
人工智能
异构融合计算技术白皮书(2023年)研读1
1灵活性:GPU>FPGA>DSA>ASIC(1)GPU:
CUDA编程
模型(英伟达),(OpenCL编程模型Xilinxintel)这点叫平台支持(2)FPGA:基于FPGA的并行运算(csdn一个文章
danxutj
·
2023-11-06 16:10
FPGA
异构计算
fpga开发
CUDA、HIP、OpenCL和oneAPI编程模型总结及比较
目录如下:目录目录背景众核处理器NVIDIA加速卡AMD加速卡Intel加速卡国产加速卡AI加速卡众核处理器的发展趋势GPU异构计算编程模型
CUDA编程
模型OpenCL编程模型HIP编程模型
张小殊.
·
2023-11-05 21:27
并行编程模型-入门
c++
OpenCL编程
CUDA编程
DPC++编程
HIP编程
并行编程
人工智能
CUDA编程
出现calling a __host__ function("sqrt
") from a __global__ function("judgeIsTouche...
Errorcallinga__host__function("sqrt")froma__global__function("judgeIsTouched")isnotallowedcuda07E:\program\cplus\cuda07\cuda07\kernel.cu255错误的代码如下floatdistanceM=std::sqrt(2)*LENGTH;做出如下更改floatdistance
hTangle
·
2023-11-01 15:01
YOLOV8的tensorrt部署详解(目标检测模型-CUDA)
提示:基于cuda的yolov8的tensorrt部署方法(纯
cuda编程
处理),文中附有源码链接!!!
tangjunjun-owen
·
2023-10-29 01:30
CUDA
YOLO
目标检测
人工智能
深度学习
opencv
边缘计算
yolov8
CUDA编程
第一章:windows下安装visual studio 2019+CUDA10.2的整体图文流程
目录简介下载链接及参考文章注意事项Visualstudio2019安装流程CUDA安装流程环境搭建结果验证自己进行
CUDA编程
验证总结简介去年虽然看了
CUDA编程
的基础知识(没学完つ﹏⊂),但是没有整理成笔记
玉堃
·
2023-10-25 19:25
CUDA编程
visual
studio
c++
windows
CUDA学习笔记(二)CUDA简介
CUDA编程
CUDA编程
允许你的程序执行在异构系统上,即CUP和
我来了!!!
·
2023-10-22 22:20
学习
笔记
CUDA学习笔记(LESSON1/2)——架构、通信模式与GPU硬件
最近在看视频拼接的代码,师兄说要用CUDA加速,于是开始学习
CUDA编程
,课程链接:UdacityCS344CUDA系列笔记CUDA学习笔记(LESSON1/2)——架构、通信模式与GPU硬件CUDA学习笔记
Veropatrinica
·
2023-10-22 06:24
CUDA
GPU
CUDA编程
并行计算
thread
kernel
【
CUDA编程
】学习笔记(二) GPU硬件架构
一、CPU与GPU的链接模型在计算机的硬件架构中,CPU与GPU有多种链接模式,下面介绍几种典型的架构北桥多CPU(SMP)多CPU(NUMA)多CPU(NUMA)多总线具有集成PCIExpress的多CPU集成GPU集成GPU与独立GPU多个插槽中的GPU多GPU板简化了CPU/GPU架构二、开普勒架构下面这张图是各代GPU架构的迭代顺序,目前最新的架构是Turing开普勒微架构以GTX680为
Swocky
·
2023-10-22 06:21
CUDA编程
GPU
NVIDIA
Kepler
Fermi
CUDA编程
模型与GPU硬件结构关系
目录一、
CUDA编程
模型1、线程管理2、内存管理二、GPU硬件结构1、SM硬件2、硬件逻辑抽象2.1共享内存的逻辑划分2.2寄存器的逻辑划分2.3GPU内存分级3、CUDA程序的一些优化点3.1一个core
Hunter_pcx
·
2023-10-22 06:50
工程技能
人工智能
python
深度学习
CUDA编程
- 瓦片(Tiling)技术
瓦片(Tiling)技术是
CUDA编程
中的一个常见策略,用于优化内存访问模式,特别是在矩阵乘法这类计算密集型操作中。
青衫客36
·
2023-10-21 22:27
CUDA
CUDA编程
- __syncthreads()函数
基本概念__syncthreads()是
CUDA编程
中非常关键的一个同步原语。它的功能是确保在某个线程块中的所有线程在执行到这个函数之前都已完成它们之前的所有指令。
青衫客36
·
2023-10-21 22:27
算法
CUDA
CUDA编程
入门系列(九)CUDA程序执行与硬件映射
一、GPU流式多处理器1.kernel的线程组织层次,一个kernel实际上会启动很多线程,这些线程时逻辑上并行的,但是在物理层上不一定是并行的。2.GPU硬件的一个核心组件时SM,streamingmultiprocessor流式多处理器3.SM的核心组件包括CUDA核心即SP,共享内存,寄存器等,SM可以并发地执行数百个线程,并发能力取决于SM所拥有地资源数4.当一个kernel被执行时,它地
我来了!!!
·
2023-10-20 04:46
硬件架构
CUDA编程
入门系列(七) GPU内存如何管理
一、内存使用1.CUDA程序会使用GPU内存与CPU内存2.CPU内存的分配与释放是标准的,例如new和delete,malloc与free3.GPU上内存涉及分配和释放使用CUDA提供的库函数实现4.CUDA/GPU内存与CPU内存的互相传输这里主要讲全局内存与共享内存的管理二、CPU内存栈:有编译器自动分配释放堆:用户自己分配释放C:malloc,calloc,freeC++:new,dele
我来了!!!
·
2023-10-20 04:16
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他