E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Gpu
CUDA学习笔记(七)Kernel性能调节
代码准备下面是我们的kernel函数sumMatrixOn
GPU
D:__global__voidsumMatrixOn
GPU
2D(fl
我来了!!!
·
2023-10-22 15:22
学习
笔记
影响stable diffusion的embedding训练效率的部分问题和拟解决办法
(小细节)关于图片大小影响未知,电脑配置不够,试过云环境:配置是13RAM,15
GPU
,78G磁盘以微量关键词,使用一个训练的model做正向,没有反向关键词,面部以及高清修复,39采样,8.5相关
羽墨link
·
2023-10-22 14:44
stable
diffusion
ai绘画
stable
diffusion
人工智能
flash attention 2论文学习
优化点主要如下:一、减少non-matmulFLOPsA00中由于tensorcore的存在,使得
gpu
对于浮点矩阵运算吞吐很高,如FP16/BF16可以达到312TFLOPs/s,而对于非矩阵乘的浮点运算吞吐较低
KIDGINBROOK
·
2023-10-22 13:13
cuda
gpu
cuda
NVIDIA NCCL 源码学习(一)- 初始化及ncclUniqueId的产生
NCCL是英伟达开源的
GPU
通信库,支持集合通信和点对点通信看下官方给的一个demo#include#include"cuda_runtime.h"#include"nccl.h"#include"mpi.h
KIDGINBROOK
·
2023-10-22 13:42
nccl
nccl
gpu
cuda
NVIDIA NCCL 源码学习(十一)- ring allreduce
单机搜索ring在nccl初始化的过程中会分析机内拓扑,建立CPU,
GPU
,网卡等PCI节点的拓扑图,并基于这个图搜索一系列的channel,假设单机内执行ncc
KIDGINBROOK
·
2023-10-22 13:41
nccl
nccl
gpu
cuda
机器学习——利用jupyter-notebook实现工资预测
本文开发环境tensorflow-
gpu
-2.6.0miniconda但其实大家一般都在pycharm里面写,这个只是为了了解一下这种写法
重邮研究森
·
2023-10-22 13:35
深度学习
人工智能
自然语言处理---Transformer模型
Transformer概述相比LSTM和GRU模型,Transformer模型有两个显著的优势:Transformer能够利用分布式
GPU
进行并行训练,提升模型训练效率。
lichunericli
·
2023-10-22 13:28
自然语言处理
自然语言处理
transformer
人工智能
如何将PyTorch模型迁移到昇腾平台
PyTorch是业界流行的深度学习框架,用于开发深度学习训练脚本,默认运行在CPU/
GPU
上。为了使这些脚本能够利用昇腾AI处理器的强大算力执行训练,需要对PyTorch的训练脚本进行迁移。
昇腾CANN
·
2023-10-22 13:51
pytorch
深度学习
人工智能
昇腾CANN
迁移学习
『ARM』和『x86』处理器架构解析指南
但是如果继续问大家是否了解ARM和X86架构,他们的区别又是什么,相信可能部分人就会哑口无言了目前随着深度学习、高性能计算、NLP、AIGC、GLM、AGI的技术迭代,助力大模型快速发展,对于多元算力结合(CPU+
GPU
ReturnTmp
·
2023-10-22 13:04
随笔摘录
CPU
x86
ARM
处理器
1 - 进程 - Windows 10 - Python - multiprocessing - 简单多进程切换、进程传参、异步进程、守护进程(进程睡眠/堵塞和线程堵塞的区别)、主/子进程区分
七、关于多进程必须加上`if__name__=="__main__"`的理由(进程区分):八、JupyterNotebook与进程区分的关联九、关于多进程与
GPU
的关系参考链接测试环境:操作系统:Window10
沐 修
·
2023-10-22 12:18
Python
python
开发语言
学习
经验分享
后端
使用恒源云
GPU
进行远程训练
最近同学参加比赛需要使用云
GPU
,经过比对多个云
GPU
平台,从价格和
GPU
可用稳定性上,最终选择了恒源云,我购买使用了一下,可以支持一场Kaggle比赛或者实验论文没有问题,大家可以按照步骤进行操作,记录下来
cskywit
·
2023-10-22 12:54
深度学习
深度学习
人工智能
nvcc -V和nvidia-smi的关系
nvcc-V和nvidia-smi都与NVIDIA
GPU
相关,但它们提供的信息和功能有所不同。nvcc-V:nvcc是NVIDIACUDA编译器的命令,用于获取CUDA工具包的版本信息。
重剑DS
·
2023-10-22 12:36
杂项
深度学习
深度学习
笔记
nvcc
-V
nvidia-smi
拨开算力的迷雾:聊聊不同
GPU
计算能力的上限
文|卜居@知乎编|兔子酱通过深入了解自己手头
GPU
的计算能力上限,能够在买新卡时做出更理性判断。本文深入
GPU
架构,重点介绍了其中的ampere架构。
夕小瑶
·
2023-10-22 10:22
编程语言
并行计算
cuda
opengl
xhtml
java 异构类型_TornadoVM:在异构硬件上运行Java程序
java异构类型几乎所有计算系统中都存在异构硬件:我们的智能手机包含中央处理器(CPU)和具有多个内核的图形处理单元(
GPU
);我们的笔记本电脑很可能包含带有集成
GPU
和专用
GPU
的多核CPU;数据中心正在向其系统添加附加的现场可编程门阵列
diluan6799
·
2023-10-22 10:16
大数据
编程语言
python
人工智能
深度学习
Linux & Windows 的Tensorflow 配置: Nvidia 老显卡运算能力低于3.0
实测成功配置信息1:Windows10,GT755m,Capability3.0Ana(Mini)conda管理,环境Python3.6(.13)Cuda=9.0Cudnn=7.0Tensorflow_
gpu
Zhenghaowencsdn
·
2023-10-22 10:14
tensorflow
问题记录:
GPU
显卡提高后,代码总体运行效率没有提高
问题:
GPU
显卡提高后,代码总体运行效率没有提高原先显卡NIVIDAT400换成NVIDIARTXA4000,CUDA核心(物理
GPU
线程单位)从三百多提升到了六千多,但是程序总体运行的时间没有变化。
魔法自动机
·
2023-10-22 10:43
GPU编程
GPU
CUDA
nvprof
nvvp
GitHub 上排名前 100 的 IOS 开源库简介
这个便是其中之一,AFNetworking采用NSURLConnection+NSOperation,主要方便与服务端API进行数据交换,操作简单,功能强大,现在许多人都用它取代ASIHTTPRequest
GPU
Image
孙卓卓
·
2023-10-22 08:07
UserWarning: Failed to load image Python extension: warn(f“Failed to load image Python extension: {e
EmbeddedSystems/JetsonAGXOrin-NVIDIADeveloperForums原因可能是从yolo5内文件requirements.txt下载的下载的并且无法支持nvidia定制的
gpu
pip3install-rrequirements.txtWARNING
无证驾驶梁嗖嗖
·
2023-10-22 06:27
Jetson
torch
嵌入式
python
matplotlib
numpy
pytorch
CUDA学习笔记(LESSON5)——
GPU
优化
CUDA系列笔记CUDA学习笔记(LESSON1/2)——架构、通信模式与
GPU
硬件CUDA学习笔记(LESSON3)——
GPU
基本算法(PartI)CUDA学习笔记(LESSON4)——
GPU
基本算法
Veropatrinica
·
2023-10-22 06:25
CUDA
GPU
CUDA编程
并行计算
优化
APOD
CUDA学习笔记(LESSON1/2)——架构、通信模式与
GPU
硬件
最近在看视频拼接的代码,师兄说要用CUDA加速,于是开始学习CUDA编程,课程链接:UdacityCS344CUDA系列笔记CUDA学习笔记(LESSON1/2)——架构、通信模式与
GPU
硬件CUDA学习笔记
Veropatrinica
·
2023-10-22 06:24
CUDA
GPU
CUDA编程
并行计算
thread
kernel
CUDA学习笔记(四)device管理
device管理NVIDIA提供了集中凡是来查询和管理
GPU
device,掌握
GPU
信息查询很重要,因为这可以帮助你设置kernel的执行配置。
我来了!!!
·
2023-10-22 06:24
学习
笔记
cuda学习笔记
一、cuda的替代选择OpenCL:允许使用多种计算设备的开放标准,计算设备可以是
GPU
,CPU或者其他存在OpenCL驱动程序的专业设备DirectCompute:微软开发的可替代Cuda和OpenCl
renlubo-qingdao
·
2023-10-22 06:24
学习
【CUDA编程】学习笔记(二)
GPU
硬件架构
一、CPU与
GPU
的链接模型在计算机的硬件架构中,CPU与
GPU
有多种链接模式,下面介绍几种典型的架构北桥多CPU(SMP)多CPU(NUMA)多CPU(NUMA)多总线具有集成PCIExpress的多
Swocky
·
2023-10-22 06:21
CUDA编程
GPU
NVIDIA
Kepler
Fermi
CUDA编程模型与
GPU
硬件结构关系
目录一、CUDA编程模型1、线程管理2、内存管理二、
GPU
硬件结构1、SM硬件2、硬件逻辑抽象2.1共享内存的逻辑划分2.2寄存器的逻辑划分2.3
GPU
内存分级3、CUDA程序的一些优化点3.1一个core
Hunter_pcx
·
2023-10-22 06:50
工程技能
人工智能
python
深度学习
CUDA并行程序设计
GPU
硬件架构与线程 学习笔记
GPU
硬件架构
GPU
实际上是一个SM的阵列,每个SM包含若干个SP。一个SP可以执行一个thread,但是实际上并不是所有的thread能够在同一时刻执行。
Morizen
·
2023-10-22 06:50
并行计算
Cuda
多线程
cuda
gpu
并行计算
硬件
CUDA学习笔记(五)
GPU
架构
GPU
架构SM(StreamingMultiprocessors)是
GPU
架构中非常重要的部分,
GPU
硬件的并行性就是由SM决定的。
我来了!!!
·
2023-10-22 06:17
学习
笔记
架构
小土堆-pytorch-神经网络-完整的验证套路16_笔记
模型的保存:当你在cpu上使用
gpu
训练的模型时model=torch.load(r"E:\pycharm\Py_Projects\logs\tudui_2.pth")改为(就是把
gpu
训练完的东西映射到
Beginner x_u
·
2023-10-22 06:46
小土堆-pytorch-笔记
pytorch
神经网络
笔记
人工智能
深度学习
Spring Boot使用@Scheduled定时器任务
importorg.springframework.scheduling.annotation.EnableScheduling;@SpringBootApplication@EnableSchedulin
gpu
blicclassApplication
尔卿
·
2023-10-22 05:45
定时任务
@Scheduled定时器任务
SpringBoot中@Scheduled定时器的时间
一启动类中@EnableScheduling开启定时器@SpringBootApplication@EnableCaching@EnableSchedulin
gpu
blicclassRedisApplication
啦啦啦咯咯咯
·
2023-10-22 05:15
SpringBoot
spring
Linux下安装LightGBM-
GPU
版本
no-install-recommendsgitcmakebuild-essentiallibboost-devlibboost-system-devlibboost-filesystem-dev安装库pipinstallsetuptoolswheelnumpyscipyscikit-learn-U安装
GPU
loserChen.
·
2023-10-22 05:34
踩坑之路
linux
lightgbm
gpu
安装
cuda
今日思考(2) — 训练机器学习模型用
GPU
还是NUP更有优势(基于文心一言的回答)
前言深度学习用
GPU
,强化学习用NPU。1.训练深度学习模型,强化学习模型用NPU还是
GPU
更有优势在训练深度学习模型时,
GPU
相比NPU有优势。
笑傲江湖2023
·
2023-10-22 04:24
机器学习
文心一言
人工智能
浏览器的渲染机制
调用
GPU
绘制,合成图层,显示在屏幕上。在构建CSSOM树时,会阻塞渲染,直至CSSOM树构建完成。
嚣张农民
·
2023-10-22 00:28
面试题
网络服务
前端
缓存
网络协议
pytorch一机多卡训练
1.一机多卡(onematchinemulti-
GPU
)1.1DataParallelDataParallel(DP):ParameterServer模式,一张卡位reducer,实现也超级简单,一行代码
绛洞花主敏明
·
2023-10-22 00:46
Pytorch框架
Pytorch 实现 DistributedDataParallel 操作
一、DataParalle缺点Pytorch单机多卡(
GPU
)运行的基本方法是使用torch.DataParlle()函数,具体操作参考:其主要原理:假设有四个
GPU
,batch_size=64,input_dim
Cosmos Tan
·
2023-10-22 00:44
Pytorch
pytorch
深度学习
人工智能
DistributedDataParallel数据不均衡
问题在进行模型训练时,由于数据不均衡,导致不同
GPU
weixin_43870390
·
2023-10-22 00:44
pytorch
ddp
CUDA编程- 瓦片(Tiling)技术
这些小块的大小通常与
GPU
的共享内存大小相匹配,以便可以完全加载到共享内存中。2.为什么使用瓦片技术?共享内存比全局内存访问速度要快得多,但它是有限的和宝贵的资源。利用共享内存可以减少全局内存的访
青衫客36
·
2023-10-21 22:27
CUDA
Unity3D 在做性能优化时怎么准确判断是内存、CPU、
GPU
瓶颈详解
Unity3D是一款广泛应用于游戏开发的跨平台游戏引擎,但在开发过程中,我们经常会遇到性能瓶颈问题,如内存、CPU和
GPU
瓶颈。
Clank的游戏栈
·
2023-10-21 19:22
性能优化
前端
人工智能
【CUDA】nvcc和nvidia-smi显示的版本不一致?
CWForeword:CW近日在自己的机子上发现,nvcc--version和nvidia-smi显示出来的CUDA版本不一致,其中前者显示的版本是10.2,而后者是11.0,但是深度学习相关的程序是能正常跑的,期间
GPU
CW不要无聊的风格
·
2023-10-21 19:32
大模型必备算力:CPU&
GPU
天梯图(2023年最新版)
在当今计算机世界,CPU、
GPU
和显卡的性能成为了衡量计算机性能的重要指标。今天深入了解CPU、
GPU
和显卡天梯图。首先,CPU作为计算机的大脑,负责处理各种任务。
机器学习社区
·
2023-10-21 18:35
机器学习
人工智能
算法
机器学习
大模型
基于Pytorch的CNN手写数字识别
首先导入必要的库,设置训练的设备(
gpu
或cpu),设置训练的轮次(epoch),然后设置数据集train_data、test_data,并使用torchvisi
nice-wyh
·
2023-10-21 17:29
pytorch实战
pytorch
cnn
人工智能
2018-08-23
摇啊摇,摇到外婆桥5、沪上著名作家畸笔叟(微信号:bi
gpu
mpkins)做客《筷樂書房》,趣谈上海名堂经6、来宾欢快互动,筷樂一刻,畸笔叟应邀签售他的新作《
筷樂書房
·
2023-10-21 15:23
【技术分享】RK356X Ubuntu 推流USB摄像头
研发的一款高性能低功耗的智能主板,采用四核A55,主频高达1.8GHz,专为个人移动互联网设备和AIOT设备而设计,内置了多种功能强大的嵌入式硬件引擎,为高端应用提供了优异的性能,支持几乎全格式的4K编解码,内置3D
GPU
Industio_触觉智能
·
2023-10-21 14:28
ubuntu
linux
嵌入式硬件
安卓
debian
pytorch 入门 (三)案例一:mnist手写数字识别
本文为小白入门Pytorch内部限免文章本文为小白入门Pytorch中的学习记录博客参考文章:【小白入门Pytorch】mnist手写数字识别原作者:K同学啊目录一、前期准备1.设置
GPU
2.导入数据3
大地之灯
·
2023-10-21 12:08
pytorch
学习
数据分析实战
pytorch
人工智能
python
lombok 基础注解之 @CustomLog
默认值为“”,方法默认参数为当前类的全限定名三、实战演练@CustomLo
gpu
blicclass陈钰琪{publicstaticvoidmain(String[]args){log.inf
笑看烟雨红尘
·
2023-10-21 12:33
Java
lombok
1024程序员节
java
lombok
深度学习 Day26——利用Pytorch实现天气识别
深度学习Day26——利用Pytorch实现天气识别文章目录深度学习Day26——利用Pytorch实现天气识别一、前言二、我的环境三、前期工作1、导入依赖项和设置
GPU
2、导入数据3、划分数据集四、构建
-北天-
·
2023-10-21 12:49
深度学习
pytorch
python
python联邦学习syft实现线性回归
16001615:17@Auth:yeqc"""'''基于信任的联邦线性回归案例'''importtorchimportsyftassyfromtorchimportnn#TODO:目前是CPU模式,等以后会用到
GPU
安心不心安
·
2023-10-21 10:38
python学习
python
线性回归
pytorch
提示:The size of tensor a (3) must match the size of tensor b (9) at non-singleton dimension 0 #165
一、背景:执行BLIPblip_model.generate(
gpu
_image,sample=True,num_beams=3,max_length=20,min_length=5)生成提示时候产生错误提示如上二
君臣Andy
·
2023-10-21 09:05
error
fix
cuda PyTorch
1.
GPU
对应的CUDA版本nvidia-smiCUDAVersion:12.2
GPU
diver大于cudatoolkit,pytorch版本根据cudatoolkit2.查看nvcc的版本(即cudatoolkit
破壁者-燕
·
2023-10-21 07:24
pytorch
人工智能
python
解决报错:RuntimeError: “LayerNormKernelImpl“ not implemented for ‘Half‘
2.解决办法2.1方法1使用更高精度的数据类型:如果可能的话,尝试使用更高精度的数据类型,如’Float’(32位浮点数)或’Double’(64位浮点数)2.2方法2将模型迁移到
GPU
上进行。mod
莫余
·
2023-10-21 06:09
多模态
stable
diffusion
Half
精度
解决chrome浏览器不能播放H265视频播放问题(1是windows系统显卡不支持H265硬件解码,2是浏览器和操作系统之间可能存在兼容性问题(浏览器版本太旧))DXVA Checker、
GPU
-Z
**
GPU
-Z**3.
Dontla
·
2023-10-21 05:56
windows
PC
chrome
音视频
前端
上一页
67
68
69
70
71
72
73
74
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他