E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【CUDA编程】
cuda编程
背景
CUDA是NVIDIA于2006年11月推出的,用于发挥NVIDIAGPU通用计算能力的编程环境,目前支持CUDAC和OpenCL(OpenComputingLanguage)语言,计算效率高,常可加速十几倍到几十倍。相比OpenCL和Brook+,CUDAC更易于使用。另外NVIDIA对CUDA的大力支持是其他厂商所不能比拟的。CUDA认为系统上可以用于计算的硬件包含两个部分:一个是CPU(称为
Pitfalls
·
2017-11-17 13:03
CUDA By Example CUDA实战学习
刚开始学习GPU编程,看大家推荐CUDAByExample,刚开始看会觉得有些困惑,毕竟没啥基础知识,所以先找了本《高性能CUDA应用设计与开发》,看了其中几章对于GPU和
CUDA编程
的基础知识讲解,有了大概了解以后开始学习
answer_gusz
·
2017-11-13 20:49
GPU
CUDA
PARALLEL
无CUDA从入门到精通标题文章(转)
CUDA从入门到精通(零):写在前面本文原版链接:在老板的要求下,本博主从2012年上高性能计算课程开始接触
CUDA编程
,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择
Pitfalls
·
2017-10-23 22:23
CUDA从入门到精通
CUDA从入门到精通(零):写在前面在老板的要求下,本博主从2012年上高性能计算课程开始接触
CUDA编程
,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择
安静平和
·
2017-08-23 17:54
cuda
高性能计算
并行计算
三维(OpenGl
D3D)
CUDA小记(4)something before programming(一)
GPU,图像处理单元,但我使用
CUDA编程
最主要的想法是使GPU能把强大的计算能力应用到通用并行计算里。我们将CPU以及系统的内存称为主机,而将GPU以及其内存称为设备。
喵小醉
·
2017-06-20 11:13
CUDA
CUDA 编程 之并行计算思想
那么
CUDA编程
中,并行计算的思想是SIMT,simpleinstructionmultiplethread。你可以分配好多线程给GPU,无所谓其中的SP有多少,但是最好还是根据S
Chuanqi‘z
·
2017-05-31 21:53
CUDA并行编程
CUDA编程
系列学习-从入门到放弃
本文主要从代码方面进行CUDA系列知识的学习,基础知识就不一一细讲了,毕竟很多大牛已经介绍得很详细了,,,,bongbongbong开始吧!一、整数相加由GPU计算两个整数求和,使用一个Block一个thread就可以解决问题了。代码如下:__global__voidadd(int*a,int*b,int*c){*c=*a+*b;}voidfirstDemo(){//hostvalueofabci
DreamerZhang123
·
2017-05-26 11:51
CUDA
CUDA学习进阶史
CUDA编程
的错误处理
转载于
CUDA编程
的错误处理关于错误处理无论是基于CPU的编程还是基于GPU的编程,当我们调用了一个API运行程序产生了错误,就会导致程序运行结果有悖于理论结果,甚至导致程序崩溃。
黑帽子和猫
·
2017-04-21 01:37
CUDA
【CUDA】学习记录(2)-编程模型
CUDA编程
结构
CUDA编程
CUDA显存管理CPUvsGPU分配显存cudaError_tcudaMalloc(void**devPtr,size_tsize)传输数据cudaError_tcudaMemcpy
不会code的程序猿
·
2017-04-17 20:30
CUDA编程
优化及学习心得(持续更新)
针对在实时选帧算法并行开发中,总结如下:1.实现共享内存优化,规约法求和(再优化,单遍规约、注意二次调用规约时要考虑块内线程数是否为2的指数)。2.代码中,再global内部写global实现多级并行策略。3.4.由于并行不方便调试,在调试时,可以在核函数中限制输出一个线程执行下的变量值,进行验证。5.6.核函数调用核函数,多级并行(已试验很慢,100帧的数据量效果特别差。另外,100帧图像的fo
LeeLi_1992
·
2017-04-10 21:24
cuda
gpu
并行计算
CUDA
并行计算
CUDA编程
—通过shared memory优化矩阵相乘
1、矩阵乘的CPU代码下面的所有均亲自测试,可直接运行#includeusingnamespacestd;voidMatrixMulOnHost(intm,intn,intk,float*A,float*B,float*C){for(intRow=0;Rowusingnamespacestd;cudaError_taddWithCuda(int*c,constint*a,constint*b,un
i_chaoren
·
2017-03-10 21:50
CUDA编程
CUDA 初体验
CUDAVisualProfiler
CUDA编程
指导sharedmemoryPagelockedoutmemoryCCUDA调用
CUDA编程
介绍CUDA数据同步CUDAVisualProfiler在上180645
Snail_Walker
·
2017-02-22 22:06
CMU:
How
to
Write
Fast
Code
cuda《学习笔记三》——共享内存和同步
一、前言本文介绍
CUDA编程
的共享内存和同步。
ForeverYang2015
·
2017-02-06 00:46
CUDA
CUDA软件架构—网格(Grid)、线程块(Block)和线程(Thread)的组织关系以及线程索引的计算公式
Thread)组成,相当于把GPU上的计算单元分为若干(2~3)个网格,每个网格内包含若干(65535)个线程块,每个线程块包含若干(512)个线程,三者的关系如下图:Thread,block,grid是
CUDA
-牧野-
·
2017-02-04 23:53
Grid
Block
Thread
CUDA软件架构
线程索引计算公式
CUDA
并发计算 VS 并行计算
关于CUDA并行计算的所有博客,我已迁移至segmentfault社区-
CUDA编程
专栏,这里是本文的链接:https://segmentfault.com/a/1190000008186637。
奋斗的小鸟lcy
·
2017-01-21 14:14
CUDA并行计算
caffe+
cuda编程
核函数核函数的特点cuda代码文件的后缀为”.cu”,由单独的编译器进行编译核函数是cu文件中的一部分代码,是运行在显存中的程序代码,是实现并行计算的载体核函数一般放在cu文件中的前面,函数定义之前需要添加__global__关键字,函数体中包含CUDA_KERNEL_LOOP循环体CUDA_KERNEL_LOOP循环体有两个参数,第一个是迭代器,第二个是总迭代数CUDA_KERNEL_LOOP循
锦鲤与自然语言处理
·
2017-01-04 00:10
caffe
cuda编程
深度学习
cuda编程
入门示例18-1
#include#include#include#include#include#defineBLOCK_SIZE16staticvoidHandleError(cudaError_terr,constchar*file,intline){if(err!=cudaSuccess){printf("%sin%satline%d\n",cudaGetErrorString(err),file,line
龚慧林
·
2016-11-20 15:03
cuda编程常用代码示例
c/c++
cuda编程
入门示例21
#include#include#include#include#include#defineBLOCK_SIZE16staticvoidHandleError(cudaError_terr,constchar*file,intline){if(err!=cudaSuccess){printf("%sin%satline%d\n",cudaGetErrorString(err),file,line
龚慧林
·
2016-11-19 20:41
cuda编程常用代码示例
c/c++
cuda编程
入门示例9
#include#include#include#include#defineBLOCK_SIZE16staticvoidHandleError(cudaError_terr,constchar*file,intline){if(err!=cudaSuccess){printf("%sin%satline%d\n",cudaGetErrorString(err),file,line);exit(E
龚慧林
·
2016-11-19 16:17
cuda编程常用代码示例
c/c++
cuda编程
入门示例8
#include#include#include#include#defineBLOCK_SIZE16staticvoidHandleError(cudaError_terr,constchar*file,intline){if(err!=cudaSuccess){printf("%sin%satline%d\n",cudaGetErrorString(err),file,line);exit(E
龚慧林
·
2016-11-19 16:40
cuda编程常用代码示例
c/c++
cuda编程
入门示例5
#include#include#include#include#defineBLOCK_SIZE16staticvoidHandleError(cudaError_terr,constchar*file,intline){if(err!=cudaSuccess){printf("%sin%satline%d\n",cudaGetErrorString(err),file,line);exit(E
龚慧林
·
2016-11-19 15:56
cuda编程常用代码示例
c/c++
cuda编程
入门示例1---两个向量对应元素相乘
#include#include#include#include#include#defineMIN(a,b)((a)>>(d_A,d_B,d_C,N);cudaEventRecord(finish,0);cudaEventSynchronize(finish);cudaEventElapsedTime(&costTime,start,finish);//copyresultfromdevicet
龚慧林
·
2016-11-19 11:44
cuda编程常用代码示例
【CUDA】grid、block、thread的关系及thread索引的计算
由于项目需要用到GPU,所以最近开始学习
CUDA编程
模型,刚开始接触,先搞清楚线程关系和内存模型是非常重要的,但是发现书上和许多博客关于线程这些关系没讲明白,所以就着自己的理解,做点笔记,欢迎讨论。
hujingshuang
·
2016-11-09 11:49
CUDA
线程
线程格
线程块
CUDA
【CUDA】grid、block、thread的关系及thread索引的计算
由于项目需要用到GPU,所以最近开始学习
CUDA编程
模型,刚开始接触,先搞清楚线程关系和内存模型是非常重要的,但是发现书上和许多博客关于线程这些关系没讲明白,所以就着自己的理解,做点笔记,欢迎讨论
hujingshuang
·
2016-11-09 11:00
线程
CUDA
线程格
线程块
CUDA中编译时显示helper_functions.h:No such file的解决办法
看到网上不少人说自己在
CUDA编程
时会遇到这样一个问题,对拷贝过来的.cu文件执行nvcc命令时会显示errorhelper_functions.h:Nosuchfile的错误。
GabrielGu
·
2016-10-30 11:05
并行计算
CUDA编程
(三):线程模型
一.CUDA线程模型概览首先要搞清楚的就是线程网格(grid),线程块(block)和线程(thread)之间的关系.在前面的文章里面就已经看到了核函数kernel>>但是并不知道这个核函数启动的背后的一些原理,接下来就结合这幅图来说一说基础的东西.图中有一个线程网格,网格中有2*3=6个线程块,而每一个线程块里面又有3*4=12个线程.这时候注意他们的索引.很容易算出这里一共有6*12=72个线
谢小小XH
·
2016-10-06 20:22
GPU编程
Caffe 初学拾遗(六) CUDA 线程通信
OriginalSource:http://blog.csdn.net/augusdi/article/details/12833235一些
CUDA编程
的简单示例程序,笔者在此进行了整理说明:1.线程通信
CodeCold
·
2016-09-22 10:46
CNN
caffe
CUDA
GPU
Caffe 初学拾遗(五) CUDA 并行化示例
OriginalSource:http://blog.csdn.net/augusdi/article/details/12833235一些
CUDA编程
的简单示例程序,笔者在此进行了整理说明:在此之前,
CodeCold
·
2016-09-21 15:09
CNN
caffe
CUDA
GPU
CUDA编程
入门
一 首先看一下CPU和GPU的微架构和计算能力对比。例如我的笔记本lenovoY480,4核CPU,NVIDIAGT650M显卡384个CUDA核。计算能力对比:CPU: 4*2.5=10GFLOPSGPU: 384*0.88= 337.92GFLOPS 显卡计算性能是4核i5CPU的33.792倍,因此我们可以充分利用这一资源来对一些耗时的应用进行加速。二GPU的设计初衷是为
zyazky
·
2016-09-07 09:00
CUDA
GPU
CUDA(五)用deviceQuery看GPU属性
在CUDA安装好后可以用DeviceQuery看一下GPU的相关属性,从而对GPU有一定了解,有助于今后的
CUDA编程
。
night李
·
2016-08-22 22:55
cuda
gpu
编程
CUDA
CUDA(9)之并行计算之CUDA
摘要本文主要谈谈
CUDA编程
的一些特点。1.CUDA擅长做什么?CUDA主要擅长可并行性的计算,以及浮点计算。
林微
·
2016-06-19 16:53
GPU编程
深度学习(三十六)异构计算CUDA学习笔记(1)
学习笔记(1)原文地址:http://blog.csdn.net/hjimce/article/details/51506207作者:hjimce近日因为感觉自己在深度学习工程化之路比较薄弱,故此开始学习
CUDA
hjimce
·
2016-05-26 12:10
深度学习
深度学习
深度学习(三十六)异构计算CUDA学习笔记(1)
学习笔记(1)原文地址:http://blog.csdn.net/hjimce/article/details/51506207作者:hjimce近日因为感觉自己在深度学习工程化之路比较薄弱,故此开始学习
CUDA
hjimce
·
2016-05-26 12:00
深度学习(三十五)异构计算GLSL学习笔记(1)
所以只能老老实实的学习opengl的shader编程,进行gpu通用计算加速,总的感觉shader编程比
cuda编程
难,还
hjimce
·
2016-05-22 17:00
vs2013下编写你的第一个CUDA程序
因在学习caffe的过程中,接触了下GPU编程,故自学了点
CUDA编程
,写点学习笔记,方便以后自己复习。
捉妖怪的唐生
·
2016-05-16 12:13
CUDA
CUDA学习笔记一
CUDA编程
CUDA编程
允许你的程序执行在异构系统上,即CUP和GPU,二者有各自的存储空间,并由PCI
langb2014
·
2016-05-08 23:00
CUDA学习笔记(1)
CUDA从入门到精通(零):写在前面在老板的要求下,本博主从2012年上高性能计算课程开始接触
CUDA编程
,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择
u011534057
·
2016-05-06 20:00
CUDA 入门学习(一)
cuda编程
步骤1、先设置Device,使用的函数cudaError_tcudaStatus=cudaSetDevice(0);2、分配GPU内存使用的函数第一个参数是指向指针的指针,第二个参数是分配内存的大小
小_小_杨_
·
2016-04-28 15:15
cuda
CUDA 入门学习(一)
cuda编程
步骤1、先设置Device,使用的函数cudaError_tcudaStatus=cudaSetDevice(0);2、分配GPU内存使用的函数第一个参数是指向指针的指针,第二个参数是分配内存的大小
u012235274
·
2016-04-28 15:00
CUDA
Cuda学习笔记(三)——
Cuda编程
Tips
Cuda中对内核函数的调用>>,m表示线程块的个数,n表示每个线程块的线程数,m个线程块构成一个线程格。M和n可以是一维的或者二维(三维)的,即使n是一维的,那么m也可以是二维的。共享内存对于每个线程块创建一个副本,但是共享内存对于所有的线程块中的线程都是相同的。线程同步语句-syncthreads()在cuda的架构中,cuda会确保所有的线程都执行完同步才会继续往下执行,因此当线程发散,有些线
朂嘼
·
2016-04-10 22:52
Cuda系列
CUDA编程
(十)使用Kahan's Summation Formula提高精度
CUDA编程
(十)使用Kahan’sSummationFormula提高精度上一次我们准备去并行一个矩阵乘法,然后我们在GPU上完成了这个程序,当然是非常单纯的把任务分配给各个线程,也没有经过优化。
sunmc1204953974
·
2016-04-10 16:00
CUDA
加速
并行编程
计算机视觉
GPU加速
CUDA编程
(九)并行矩阵乘法
CUDA编程
(九)矩阵乘法在之前我们一直围绕着一个非常简单的求立方和的小程序学习CUDA,从编写到优化,学习了很多,包括CUDAGPU的架构,如何评估程序,并行优化,内存优化,等等,把程序的运行时间从679680304
sunmc1204953974
·
2016-04-09 17:00
优化
CUDA
并行编程
计算机视觉
GPU加速
CUDA编程
(八)树状加法
CUDA编程
(八)树状加法上一篇博客我们介绍了ShareMemory和Thread同步,最后利用这些知识完成了block内部线程结果的加和,减轻了CPU的负担,结果还是比较令人满意的,但是block的加和工作是使用一个
sunmc1204953974
·
2016-04-08 14:00
CUDA
并行编程
计算机视觉
GPU加速
树状加法
CUDA编程
(七)共享内存与Thread的同步
CUDA编程
(七)共享内存与Thread的同步在之前我们通过block,继续增大了线程的数量,结果还是比较令人满意的,但是也产生了一个新的问题,即,我们在CPU端的加和压力变得很大,所以我们想到能不能从
sunmc1204953974
·
2016-04-07 19:00
优化
CUDA
并行编程
计算机视觉
GPU加速
CUDA编程
(六)进一步并行
CUDA编程
(六)进一步并行在之前我们使用Thread完成了简单的并行加速,虽然我们的程序运行速度有了50甚至上百倍的提升,但是根据内存带宽来评估的话我们的程序还远远不够,在上一篇博客中给大家介绍了一个访存方面非常重要的优化
sunmc1204953974
·
2016-04-06 15:00
优化
CUDA
并行编程
计算机视觉
GPU加速
CUDA编程
(五)关注内存的存取模式
CUDA编程
(五)关注内存的存取模式上一篇博客我们使用Thread完成了简单的并行加速,虽然我们的程序运行速度有了50甚至上百倍的提升,但是根据内存带宽来评估的话我们的程序还远远不够,除了通过Block
sunmc1204953974
·
2016-04-05 19:00
优化
CUDA
并行
计算机视觉
GPU加速
CUDA编程
(四)并行化我们的程序
CUDA编程
(四)
CUDA编程
(四)并行化我们的程序上一篇博客主要讲解了怎么去获取核函数执行的准确时间,以及如何去根据这个时间评估CUDA程序的表现,也就是推算所谓的内存带宽,博客的最后我们计算了在GPU
sunmc1204953974
·
2016-03-31 19:00
CUDA
GPU
并行编程
计算机视觉
CUDA编程
(三)评估CUDA程序的表现
CUDA编程
(三)评估CUDA程序的表现上一篇博客我们基本上搭建起来了CUDA程序的骨架,但是其中并没有涉及到我们之前不断提到的并行加速,毕竟只有当我们的程序高并行的运行在GPU上才能大大缩短运行时间。
sunmc1204953974
·
2016-03-31 13:00
优化
CUDA
并行
GPU
计算机视觉
CUDA编程
(二) CUDA初始化与核函数
CUDA编程
(二)CUDA初始化与核函数CUDA初始化在上一次中已经说过了,CUDA安装成功之后,新建一个工程还是十分简单的,直接在新建项目的时候选择NVIDIACUDA项目就可以了,我们先新建一个MyCudaTest
sunmc1204953974
·
2016-03-30 19:00
CUDA
并行
加速
计算机视觉
GPU编程
CUDA编程
(一)第一个CUDA程序
CUDA编程
(一)第一个CUDA程序Kernel.cuCUDA是什么?CUDA(ComputeUnifiedDeviceArchitecture),是显卡厂商NVIDIA推出的运算平台。
sunmc1204953974
·
2016-03-28 22:00
CUDA
并行计算
GPU
图像处理
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他