ME_Seraph

Horovod分布式深度学习训练框架

文|Seraph

01 | Horovod介绍

Horovod是一个分布式训练框架（针对TensorFlow/Keras/PyTorch/MXNet)。Horovod目标是使分布式深度学习更快更简单地使用。
由于Tensorflow集群太不友好，业内也一直在尝试新的集群方案。 2017年Facebook发布了《Accurate, large minibatch SGD: Training ImageNet in 1 hour 》验证了大数据并行的高效性，同年百度发表了《Bringing HPC techniques to deep learning 》，验证了全新的梯度同步和权值更新算法的可行性。受这两篇论文的启发，Uber开发了Horovod集群方案。
Horovod几个亮点：不依托于某个框架，使用MPI构建一套分布式系统；Tensor Fusion可以在梯度传递过程中，将小的Tensor合并成大的Tensor，减少每一次的额外开销。

02 | Horovod安装

一、安装Python和Tensorflow、Pytorch

这里需要的是Python3，如仅有Python2，请使用以下命令安装。

apt-get update
apt-get install python3-pip

由于我们基本只会使用python3，我们可以通过版本切换设置将python，pip默认为python3，pip3.

使用版本切换命令update-alternatives --install /usr/local/bin/python python /usr/bin/python3 150更新Python自动转Python3的优先级为150，数字越大，越优先。
update-alternatives --config python查看Python版本优先级。
同样的方法更新pip版本切换优先级update-alternatives --install /usr/bin/pip pip /usr/local/bin/pip3 150

安装TensorFlow

pip install --upgrade pip
pip install tensorflow==1.14.0
pip install tensorflow-gpu==1.14.0
pip install torch==1.2.0 torchvision==0.4.0 -f https://download.pytorch.org/whl/torch_stable.html

Pytorch版本关系详见PREVIOUS VERSIONS OF PYTORCH
如遇见pip下载慢的情况，可以使用国内镜像源。
比如pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip。
常用国内镜像源：

清华：https://pypi.tuna.tsinghua.edu.cn/simple

阿里云：http://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

华中理工大学：http://pypi.hustunique.com/

山东理工大学：http://pypi.sdutlinux.org/ 

豆瓣：http://pypi.douban.com/simple/

note：新版ubuntu要求使用https源，要注意。

二、安装CUDA

卸载CUDA10.1

使用apt-get remove cuda*卸载10.1
使用apt-get autoremove自动卸载未卸载干净的的包
使用rm -rf cuda cuda-10.1删除/usr/local目录下的cuda及cuda-10.1文件夹

打开链接cuda-10.0-download-archive下载相应系统版本的CUDA，我们这里使用runfile安装。

ubuntu系统可以使用wget下载，下载链接获取方式：右键Download按钮复制链接地址即可。记得补丁包也要下载。
下载完后，使用sh cuda_10.0.130_410.48_linux.run执行安装包，不想看EULA，可以键盘输入Ctrl+C停止，直接进入安装选项。

Do you accept the previously read EULA?
accept/decline/quit: accept

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48?
(y)es/(n)o/(q)uit: n

Install the CUDA 10.0 Toolkit?
(y)es/(n)o/(q)uit: y

Enter Toolkit Location
 [ default is /usr/local/cuda-10.0 ]: 
 
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y

Install the CUDA 10.0 Samples?
(y)es/(n)o/(q)uit: y

Enter CUDA Samples Location
 [ default is /root ]:

如你已经安装NVIDIA Accelerated Graphics Driver，一定要向上面一样选择no，否则半天时间就过了。。。切记。。。

配置CUDA环境变量，打开~/.bashrc文件添加如下内容：

export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:${CUDA_HOME}/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:${CUDA_HOME}/lib64

然后保存，执行source ~/.bashrc。

装完成后使用nvcc --version查询CUDA版本信息如下：

三、安装cuDNN

从cudnn-archive下载相应的cuDNN版本，注意我们使用的是CUDA10.0，所以也要下载对应可用的版本。我这里分别下载的是：
cuDNN Runtime Library for Ubuntu16.04 (Deb)
cuDNN Developer Library for Ubuntu16.04 (Deb)
执行dpkg -i libcudnn7_7.6.5.32-1+cuda10.0_amd64.deb及
dpkg -i libcudnn7-dev_7.6.5.32-1+cuda10.0_amd64.deb即可。
查询已安装的cuDNN版本：cat /usr/include/cudnn.h | grep CUDNN_MAJOR -A 2
详细步骤参考cuDNN install

四、安装NCCL2

打开NVIDIA Collective Communications Library (NCCL) Download Page下载相应的版本文件，需要登陆，可以用社交账号（微信）扫码登陆。
我这里下载的
nccl-repo-ubuntu1604-2.5.6-ga-cuda10.0_1-1_amd64.deb
nvidia-machine-learning-repo-ubuntu1604_1.0.0-1_amd64.deb
分别输入如下命令

dpkg -i nccl-repo-ubuntu1604-2.5.6-ga-cuda10.0_1-1_amd64.deb
dpkg -i nvidia-machine-learning-repo-ubuntu1604_1.0.0-1_amd64.deb
apt update
apt install libnccl2=2.5.6-1+cuda10.0 libnccl-dev=2.5.6-1+cuda10.0

如提示

The public CUDA GPG key does not appear to be installed.
To install the key, run this command:
sudo apt-key add /var/nccl-repo-2.5.6-ga-cuda10.0/7fa2af80.pub

输入apt-key add /var/nccl-repo-2.5.6-ga-cuda10.0/7fa2af80.pub即可。
详细步骤参考Installing NCCL

五、OpenMPI安装

因为我们要演示的是TensorFlow训练，安装前，确认g++版本，必须是g++-4.8.5或g++-4.9。否则执行如下命令apt-get install g++-4.8。（这部及其重要，否则，安装Horovod会报错，如果我们使用的是Pytorch，则安装g++-4.9）
新建一个文件目录openmpi，将OpenMPI 4.0.0版本下载至该目录。
wget https://download.open-mpi.org/release/open-mpi/v4.0/openmpi-4.0.0.tar.gz
解压文件:tar -zxvf openmpi-4.0.0.tar.gz
进入解压后的文件目录，配置：./configure (必须保证以及安装了g++、gcc) ，默认配置安装路径为/usr/local/lib，也可以使用--prefix=路径参数指定安装路径
编译：make
安装：make all install
~/.bashrc文件末尾加上：export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
永久化环境变量：source ~/.bashrc
测试，进入example目录，然后make，最后输入mpirun --allow-run-as-root -oversubscribe -np 2 hello_c
这里需要解释一下两个参数：--allow-run-as-root和-oversubscribe，一般不需要这两个参数便能执行。

--allow-run-as-root：一般不建议root执行该命令，所以如果要在root下执行，需要加上这个参数;
-oversubscirbe：执行命令前，mpi会当前的CPU资源是否适合运行，如不管这个判断，需要-oversubscirbe。

六、安装Horovod

执行pip install horovod即能完成horovod安装。
执行如果没有安装任何东西，显示包都已安装，请执行pip install --upgrade horovod即可。
由于我们需要使用NCCL2中的算法库，所以我们安装horovod的时候需要添加如下参数：
HOROVOD_GPU_ALLREDUCE=NCCL pip install --no-cache-dir horovod
或
HOROVOD_GPU_ALLREDUCE=NCCL pip install --no-cache-dir --upgrade horovod
如果要额外安装Pytorch版本，则运行下面命令：
HOROVOD_WITH_TENSORFLOW=1 HOROVOD_WITH_PYTORCH=1 HOROVOD_GPU_ALLREDUCE=NCCL pip install --no-cache-dir horovod
测试example

使用git工具将horovod库clone下来。
进入examples目录，输入命令horovodrun -np 1 -H localhost:1 python tensorflow_mnist.py便能运行tensorflow_mnist.py示例。
这里的localhost表示本机，输入主机名也可以，当不同的机器，以，号隔开，输入不同的主机名与GPU数量即可。

03 | Horovod使用

一、单机单卡训练脚本改为多机多卡步骤

初始化
hvd.init()
每个进程分别与指定的GPU绑定

config = tf.ConfigProto()
config.gpu_options.visible_device_list = str(hvd.local_rank())

根据GPU数量放大学习率
opt = tf.train.AdagradOptimizer(learningrate * hvd.size())
因为BatchSize会根据GPU数量放大，所以学习率也应该放大。
封装optimizer
opt = hvd.DistributedOptimizer(opt)
广播初始变量值给所有进程
hooks = [hvd.BroadcastGlobalVariablesHook(0)]
设置只在worker 0上保持checkpoint
hooks = [hvd.BroadcastGlobalVariablesHook(0)]

04 | 问题解决

更换Tensorflow版本后，horovodrun有问题，说没有安装MPI或Gloo。
解决：按步骤全部重新安装一遍。
理解：不知道Horovod到tensorflow有什么依赖关系。可能也和版本有关系，我尝试了多遍。目前使用tensorflow 1.14.0版本/MPI 4.0.0版本安装环境没有问题。
当使用两台机器进行GPU训练时，报如下错误：
WARNING: Open MPI accepted a TCP connection from what appears to be a another Open MPI process but cannot find a corresponding process entry for that peer.
解决：使用ifconfig查找通信使用的网卡，我这里是eno1

然后给mpirun命令添加-mca btl_tcp_if_include eno1参数即能正常运行。
我的执行命令如下：
mpirun --allow-run-as-root -np 2 -H ubuntu90:1,sugon92:1 -bind-to none -map-by slot -mca plm_rsh_args "-p 31028" -x NCCL_DEBUG=INFO -x LD_LIBRARY_PATH -x PATH -mca pml ob1 -mca btl ^openib -mca btl_tcp_if_include eno1 python tensorflow_mnist.py
因为我的环境是docker，监听端口不是22，所以还额外加了-mca plm_rsh_args "-p 31028"参数以表示ssh连接使用31028端口。
当然你也可以尝试下GitHub上Run Horovod with Open MPI文章Hangs due to non-routed network interfaces章节中提供方法。（虽然我没试通。。。）
运行训练脚本时提示Failed to find dynamic library: libnccl.so ( libnccl.so: cannot open shared object file: No such file or directory )等错误信息。
解决：NCCL2未正确安装。
我在安装NCCL2中执行apt update提示

E: The method driver /usr/lib/apt/methods/https could not be found.
N: Is the package apt-transport-https installed?

执行apt install apt-transport-https安装apt-transport-https即能正确安装。
安装过程中，一定要注意提示信息，确保每步执行正确。由于安装软件时，都有依赖包，有些执行步骤不会自动安装依赖包。

多机GPU训练脚本提示：NCCL INFO NET/IB : Using interface ib0 for sideband communication
解决：这里表示的意思是使用ib0接口进行通信，这里的ib0指得是infiniband网卡，用于高性能计算的一种通信网卡。默认设置为NCCL默认设置infiniband进行通信，但如果双机的infibiband不能通信，则会导致多机并行计算失败。我们可以将NCCL使用的网卡设置为我们正常使用的以太网卡即能成功运行，给mpirun命令添加如下参数：
-x NCCL_SOCKET_IFNAME=eno1
多机GPU训练脚本提示：NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
解决：我理解是能接入外部的网络通信实现包，如果没有使用内部实现。例如外部包AWS OFI NCCL。所以这个提示是不影响正常运行的。
运行某些脚本时，提示：failed to allocate 3.21G (3452305408 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY: out of memory
解决：提示明显时是显存申请失败，使用nvidia-smi命令查看N卡的信息，关注固有显存以及使用情况。
尝试使用config = tf.ConfigProto()控制GPU的显存使用。

    config.gpu_options.allow_growth = True   #设置成动态申请
    config.gpu_options.per_process_gpu_memory_fraction = 0.3   #设置成最大使用多少比例的显存

尝试无效果的话，使用添加代码os.environ["CUDA_VISIBLE_DEVICES"] = "1"来选择哪个GPU，也许有的GPU显存被占用，亦不能释放。可以指定一个完全空闲的GPU进行训练。
或者可以在执行命令前加CUDA_VISIBLE_DEVICES=1来指定GPU。但这种对多机情况不适用，其他机器不能同步该参数。当然也可以将这个写进~/.bashrc中，便可以了。
当整个卡都无法满足显存需求时，可以修改batch_size以适当减少显存需求。

多机GPU训练脚本提示：misc/ibvwrap.cc:212 NCCL WARN Call to ibv_open_device failed。
解决：IB卡的infiniband设备未找到。当我们利用MPI在IB卡做通信时，可以使用两种协议进行通信，一种是TCP，一种是infiniband协议（RDMA）。这里错误是指的是未找到infiniband协议设备，使用ibv_devices指令查看当前机器的IB卡设备。
因为我是在容器内使用的，所以在创建容器时，需要加上--cap-add=IPC_LOCK --device=/dev/infiniband参数，具体见问题19。
代码错误提示：RuntimeError: Global step should be created to use StepCounterHook.
解决：使用global_step = tf.train.get_or_create_global_step()生成global_step。
代码错误提示：RuntimeError: Run called even after should_stop requested.
解决：
使用docker容器，训练代码时，提示Read -1, expected 7329, errno = 1。
解决：官方文档说明这是因为权限问题，但可以忽略，不影响训练执行。
使用docker容器执行多机GPU训练，提示：A process or daemon was unable to complete a TCP connection to another process: Local host: fe31b0df9223 Remote host: 0f5f1d90a597 This is usually caused by a firewall on the remote host. Please check that any firewall (e.g., iptables) has been disabled and try again.
解决：有可能时网卡问题，新建Docker容器时，默认时以Bridge的模式。指定为Host模式即可。
在docker run运行命令后面加上--network host参数。
多卡训练时，出现如下错误：
tensorflow.python.framework.errors_impl.FailedPreconditionError: Mismatched ALLREDUCE CPU/GPU device selection: One rank specified device CPU, but another rank specified device GPU. [[node DistributedAdamOptimizer_Allreduce/HorovodAllreduce_gradients_dense_1_BiasAdd_grad_tuple_control_dependency_1_0 (defined at :80) ]]
解决：卸载horovod，使用HOROVOD_GPU_ALLREDUCE=NCCL pip install --no-cache-dir horovod安装。
多卡训练时，出现如下错误：
NCCL INFO Call to connect returned Connection refused, retrying
解决：新建一个docker环境，重新搭整个环境。（我试过重新安装cuda/cuDNN/NCCL等，但是没有效果）。
多机训练时，出现如下错误：

hvd1:60423:60555 [1] NCCL INFO NET/IB : No device found.
hvd1:60422:60554 [0] NCCL INFO NET/Socket : Using [0]ib0:192.168.1.200<0>
hvd1:60423:60555 [1] NCCL INFO NET/Socket : Using [0]ib0:192.168.1.200<0>
hvd:27943:28074 [1] NCCL INFO Setting affinity for GPU 1 to ff00ff00
hvd1:60422:60554 [0] NCCL INFO Setting affinity for GPU 0 to ff00ff
hvd1:60423:60555 [1] NCCL INFO Setting affinity for GPU 1 to ff00ff00

hvd1:60422:60554 [0] include/socket.h:397 NCCL WARN Connect to 192.168.1.50<49823> failed : No route to host
hvd1:60422:60554 [0] NCCL INFO bootstrap.cc:95 -> 2
hvd1:60422:60554 [0] NCCL INFO bootstrap.cc:308 -> 2
hvd1:60422:60554 [0] NCCL INFO init.cc:443 -> 2
hvd1:60422:60554 [0] NCCL INFO init.cc:732 -> 2
hvd1:60422:60554 [0] NCCL INFO init.cc:771 -> 2
hvd1:60422:60554 [0] NCCL INFO init.cc:782 -> 2

解决：添加mpirun运行指令-x NCCL_SOCKET_IFNAME=eno1参数，由于我们IB卡没有通，这里告诉NCCL指定eno1进行通信。如果你的IB卡的RDMA通信正常，NCCL会默认使用infiniband协议进行通信。

安装CUDA时，出错：gpgkeys: protocol https’ not supported
解决：apt install gnupg-curl。
如安装CUDA后，使用nvcc命令显示：nvcc: command not found
解决：配置CUDA环境变量。

export LD_LIBRARY_PATH=/usr/local/cuda/lib:$LD_LIBRARY_PATH
export PATH=$PATH:/usr/local/cuda/bin

多机训练时，出错：Unable to load libnccl-net.so : libnccl-net.so: cannot open shared object file: No such file or directory
解决：提示其实不影响训练进行，NCCL可提供给第三方开发库，但不是必须。如没有这个库，会自动选择内部实现进行通信。详细情况见Issues 162
docker容器下，Pytorch多卡训练报错：ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).
解决：新建容器时，添加--ipc=host参数。
docker容器下，欲使用IB卡的RMDA，出错：

A process failed to create a queue pair. This usually means either
the device has run out of queue pairs (too many connections) or
there are insufficient resources available to allocate a queue pair
(out of memory). The latter can happen if either 1) insufficient
memory is available, or 2) no more physical memory can be registered
with the device.

For more information on memory registration see the Open MPI FAQs at:
http://www.open-mpi.org/faq/?category=openfabrics#ib-locked-pages

Local host:             laser045
Local device:           qib0
Queue pair type:        Reliable connected (RC)

解决：首先做分布式GPU训练，推荐使用nvidia-docker，这个命令起始就是基于英伟达的显卡配置信息上给原装的docker添加了一些配置参数。
解决本问题在于新建容器时命令如下：nvidia-docker run -it --network=host -v /mnt/share/ssh:/root/.ssh --cap-add=IPC_LOCK --device=/dev/infiniband horovod:latest。
关键参数为：--cap-add=IPC_LOCK --device=/dev/infiniband，表示关联主机上的IB卡设备。

RuntimeError: Global step should be created to use StepCounterHook.
解决：使用global_step = tf.train.get_or_create_global_step()生成Global_step。
RuntimeError: Run called even after should_stop requested.。
解决：

05 | 解决方案

多机GPU运行
答：将SSH连接设置成无需密码就能访问的模式即可。
同时注意可以在/ect/hosts文件中添加主机名和IP地址的映射关系。
参考 SSH login without password
非22端口ssh连接运行
答：不能直接使用horovodrun命令，需要使用mpirun添加相关端口参数。
参考 Run Horovod with Open MPI文章中的Custom SSH ports章节。
只能找到统一端口的配置方式，未找到不同机不同监听端口配置方式。

06 | 其他

CUDA/MPI等环境变量参考
PATH
/usr/local/mpi/bin:/usr/local/nvidia/bin:/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/opt/tensorrt/bin
LD_LIBRARY_PATH /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/compat/lib:/usr/local/nvidia/lib:/usr/local/nvidia/lib64:/usr/local/lib/tensorflow

你可能感兴趣的:(并行计算)

Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
Python | 使用Joblib模块加快任务处理速度 python收藏家 python python
在本文中，我们将了解如何通过使用Joblib模块在Python中并行执行代码来大幅减少大型代码的执行时间。Joblib模块简介Joblib是一个用于Python的开源库，它提供了一些用于并行计算和内存映射的工具，旨在提高科学计算和数据分析的效率。Python中的Joblib模块特别用于使用Pipelines并行执行任务，而不是一个接一个地顺序执行任务。Joblib模块允许用户通过利用设备中存在的所
【并行计算】Strong scaling和weak Scaling 栏杆拍遍看吴钩 pytorch 并行计算
可以从这个角度来区分：StrongScaling在扩展时是壮壮的，即使增加负载，也不需要调整机器。WeakScaling在扩展时是弱弱的，如果要增加负载，也要同步增加机器。Strong的目的是为了知道当前的机器所能够提供的最大并行能力。Weak的目的是为了保证当前的负载均衡性一致的情况下比较不同数量机器的并行效果。
NUMA架构 weixin_34220623 数据库内存管理操作系统
最近在学习.NET的并行计算技术，学到一个服务器NUMA架构，NUMA架构在中大型系统上一直非常盛行，也是高性能的解决方案，在系统延迟方面表现都很优秀。Windows一向都没有在NUMA架构上有多少表现机会，AMD的多路系统大多也会用在UNIX/Linux上。Intel如期进入了NUMA架构的怀抱，英特尔最新的服务器处理器至强5500是一项重大的结构变革。与上一代至强处理器相比，至强5500采用了
模式转变-并行编程方面的设计注意事项 guoxiaoqian8028 并行计算
本文以VisualStudio工具的预发布版为基础。文中的所有信息均有可能发生变更。本文将介绍以下内容：并行计算并发编程性能提高本文使用了以下技术：多线程目录并发和并行结构化多线程数据并行性数据流数据并行性单程序，多数据并发数据结构总结从1986到2002年，微处理器的性能每年提高了52%。这一惊人的技术进步源自晶体管成本依据摩尔法则不断地缩减，以及处理器厂商在工程方面的出色表现。微软的研究员Ji
CPU服务器如何应对大规模并行计算需求？ Jtti 服务器运维
大规模并行计算是指利用多个处理单元同时处理计算任务，以提高计算效率和缩短完成时间。这种计算方式常用于科学计算、数据分析、机器学习、图像处理等领域，面对海量数据与复杂计算时，传统的串行计算往往显得无能为力。现代CPU通常具备多个核心，这使得它们能够在同一时间内并行执行多个线程或任务。多核处理器可以大幅提升并行计算能力，适合处理大型计算任务。CPU服务器通常配备多级高速缓存(L1、L2、L3)，有效减
环境安装-1：Python3.8+CUDA11.6.1+cuDNN8.6+Tensorflow-gpu2.6.1 w坐看云起时环境安装 tensorflow python 人工智能
环境配置建议多看几个别人的安装过程的图文，不要着急，慢慢来，我们肯定行，加油！一、知识储备1.CUDACUDA是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。（来自百度词条）2.cuDNNNVIDIACUDA深度神经网络库(cuDNN)是一个GPU加速的深度神经网络基元库，能够以高度优化的方式实现标准例程（如前向和反
ISP(图像信号处理器)是什么？ FoGoiN 嵌入式硬件单片机物联网
由于刚接触到开发版，认识到了图像处理器（imageprocessor）,又名imageprocessingengine,imageprocessingunit(IPU),imagesignalprocessor(ISP)。和电脑的GPU类似，通常采并行计算。功能：Bayertransformation图像传感器（就是光电转换器）中的光电二极管（吸收光子产生电流）其实是无法识别颜色的，为了能够识别颜
深度学习(二) 小泽爱刷题深度学习人工智能
CuDNN（CUDADeepNeuralNetworklibrary）是NVIDIA为加速深度学习计算而开发的高性能GPU加速库，专门优化了深度神经网络（DNN）的常见操作，如卷积、池化、归一化和激活函数等。CuDNN的主要作用是通过利用GPU的并行计算能力，提高深度学习模型在GPU上的运行效率。CuDNN的作用加速卷积操作：卷积操作是深度学习中特别是在卷积神经网络（CNN）中最重要且最计算密集的
Python 多线程和多进程用法 SmallerFL Python相关 python 服务器 linux 多进程多线程
文章目录1.Python多进程1.1常见用法1.创建进程2.进程池3.进程间通信4.进程同步1.2结合进度条显示2.Python多线程2.1常见用法1.使用线程池2.2结合进度条显示1.Python多进程1.1常见用法multiprocessing是Python标准库中的一个模块，用于在多核或多处理器环境中并行执行任务。它提供了一种便捷的方法来创建和管理多个进程，以实现并行计算。multiproc
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Unity3D UI Toolkit数据动态绑定详解 Thomas_YXQ ui java 开发语言 Unity 游戏开发前端 c#
前言在Unity3D中，ComputeShader是一种强大的工具，用于在GPU上执行并行计算任务，这些任务通常涉及大量的数据处理，如图像处理、物理模拟等。然而，由于GPU的并行特性，ComputeShader中的线程（也称为工作项）之间默认是不进行同步的。这意味着每个线程都是独立运行的，且无法直接访问其他线程的数据或执行状态，除非通过特定的机制进行通信。对惹，这里有一个游戏开发交流小组，大家可以
PyTorch深度学习实战（26）—— PyTorch与Multi-GPU shangjg3 PyTorch深度学习实战深度学习 pytorch 人工智能
当拥有多块GPU时，可以利用分布式计算（DistributedComputation）与并行计算（ParallelComputation）的方式加速网络的训练过程。在这里，分布式是指有多个GPU在多台服务器上，并行指一台服务器上的多个GPU。在工作环境中，使用这两种方式加速模型训练是非常重要的技能。本文将介绍PyTorch中分布式与并行的常见方法，读者需要注意这二者的区别，并关注它们在使用时的注意
C语言中的多线程编程：POSIX线程库（Pthreads）入门与实战（一） JJJ69 学习C语言吧开发语言 c语言
目录一、引言背景介绍文章目的与读者定位二、夽线程基础概念线程与进程的关系并发与并行的区别多线程的优势与挑战三、POSIX线程库（Pthreads）简介POSIX标准与Pthreads规范Pthreads的兼容性与移植性总结一、引言背景介绍随着计算机硬件技术的飞速发展，多核处理器已经成为现代计算设备的标准配置。这种架构变革使得单个处理器芯片能够容纳多个执行核心，从而显著提升了并行计算能力。面对这样的
并行计算的艺术：PyTorch中torch.cuda.nccl的多GPU通信精粹 2401_85763639 pytorch 人工智能 python
并行计算的艺术：PyTorch中torch.cuda.nccl的多GPU通信精粹在深度学习领域，模型的规模和复杂性不断增长，单GPU的计算能力已难以满足需求。多GPU并行计算成为提升训练效率的关键。PyTorch作为灵活且强大的深度学习框架，通过torch.cuda.nccl模块提供了对NCCL（NVIDIACollectiveCommunicationsLibrary）的支持，为多GPU通信提供
HPC&AI并行计算集群Slurm作业调度系统对通用资源（GRES）的调度技术瘾君子1573 并行计算 AI并行计算 Slurm调度系统 MPS管理 GPU管理 MIG多实例管理 GPU切片
一、概述Slurm支持定义和调度任意通用RESources的功能（GRES）。为特定GRES类型启用了其他内置功能，包括图形处理单元（GPU）、CUDA多进程服务（MPS）设备，并通过可扩展的插件机制进行分片。二、配置默认情况下，群集的配置中未启用任何GRES。您必须在slurm.conf配置文件中明确指定要管理的GRES。的配置参数兴趣是GresTypes和Gres。有关详细信息，请参见slur
CUDA指南-CUDA简介与开发环境搭建小虾米欸 CUDA指南 CUDA
CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的并行计算平台和编程模型，它允许开发者利用NVIDIAGPU进行高效的通用计算任务。以下是对CUDA的详细介绍：GPU与CPU的不同GPU（图形处理单元）与CPU（中央处理单元）在设计和功能上有所不同。GPU拥有更多的处理核心，专为并行处理设计，适合执行大量数据的并行计算任务。相比之下，CPU拥有较少的
【赵渝强老师】Spark中的RDD 赵渝强老师大数据技术 spark 大数据分布式
RDD（ResilientDistributedDataset）叫做弹性分布式数据集，它是Spark中最基本、也是最重要的的数据模型。它由分区组成，每个分区被一个Spark的Worker从节点处理，从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式提供自动容错的功能，并且具有位置感知性调度和可伸缩的特性。通过RDD也提供缓存的机制，可以极大地提高数据处理的速度。视频讲解如
曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？ Chauvin912 大模型行业调研科普 transformer 架构深度学习
曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？Mamba是一种新兴的深度学习架构，旨在解决长序列数据的建模问题。它通过将状态空间模型(StateSpaceModels,SSM)与选择性机制、并行计算等方法相结合，实现了高效的长序列处理。这篇博客将深入探讨Mamba架构的各个组成部分，解释其背后的原理。1.状态空间模型（SSM）1.1状态空间模型的基本原理状态空间模型是
深入了解OpenCVSharp中常见的图像处理功能仰望大佬007 图像处理 opencv 计算机视觉 c#
深入了解OpenCVSharp中常见的图像处理功能前言1.图像加载与保存2.图像基本操作3.图像滤波4.边缘检测5.图像分割6.特征检测与描述子7.目标识别与跟踪8.图像融合与拼接9.形状匹配与模板匹配10.颜色空间转换与直方图11.图像转换与绘制12.图像分类与机器学习13.高级图像处理算法14.GPU加速与并行计算前言OpenCVSharp是C#语言中用于图像处理和计算机视觉的开源库，它提供了
【GPU驱动开发】-GPU架构简介怪怪王 GPU驱动驱动开发 GPU AI chatgpt 架构
前言不必害怕未知，无需恐惧犯错，做一个Creator！GPU（GraphicsProcessingUnit，图形处理单元）是一种专门用于处理图形和并行计算的处理器。GPU系统架构通常包括硬件和软件层面的组件。一、总体流程应用程序请求图形操作：应用程序通过图形API（如OpenGL、Vulkan）发送图形操作请求。图形API调用GPU驱动程序：图形API将请求传递给GPU驱动程序。GPU驱动程序解释
Transformer结构介绍和Pyotrch代码实现肆十二 Pytorch语法 transformer 深度学习人工智能
Transformer结构介绍和Pyotrch代码实现关注B站查看更多手把手教学：肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频(bilibili.com)基本结构介绍Transformer结构是近年来自然语言处理（NLP）领域的重要突破，它完全基于注意力机制（AttentionMechanism）来实现，克服了传统RNN模型无法并行计算以及容易丢失长距离依赖信息的问题。Transformer
什么是Rust 语言 chunmiao3032 rust 开发语言后端
Rust是一种专注于性能和内存安全的系统编程语言，其设计目标包括提供：零开销抽象、移动语义、内存安全、线程无数据竞争、类型安全和实时gc等功能。Rust使用RAII（ResourceAcquisitionIsInitialization）管理资源，通过所有权系统以编译时检查内存安全。它强调零开销的抽象和安全的并行计算。Rust语言的前景非常广阔，包括以下几个方面：系统编程：由于Rust的出色性能和
CUDA与CUDNN 关系 XF鸭小知识 caffe 深度学习人工智能
CUDA与cuDNN1、什么是CUDACUDA(ComputeUnifiedDeviceArchitecture)，是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。2、什么是CUDNNNVIDIAcuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。NVIDIAcuDNN可以集成到更高级别的机器学
Unity中的Compute Shader popcorn丶渲染游戏开发 unity 图像处理
Unity中的ComputeShader前言一、定义二、创建三、computer代码解析四、c#调用方式五、计算关系六、平台支持七、引用前言游戏开发中，dot编程在处理大数量级的运算应用已经越来越广泛了，而GPU本身对大规模数据的并行计算已经越来越强了，因此现在许多游戏处理大量物体的计算可以利用GPU这一特性，加快并发计算速度，ComputeShader就是专门利用这一特性的。提示：以下是本篇文章
TiDB 7.5.0 LTS 高性能数据批处理方案 TiDB_PingCAP tidb 分布式云原生数据库
过去，TiDB由于不支持存储过程、大事务的使用也存在一些限制，使得在TiDB上进行一些复杂的数据批量处理变得比较复杂。TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升○到了TiDB6.1版本，引入了BATCHDML(https://docs.pi
AI芯片技术架构有哪些？FPGA芯片定义及结构分析 Hack电子人工智能架构 fpga开发
点击蓝字关注我们关注、星标公众号，精彩内容每日送达来源：网络素材ai芯片技术架构有哪些？AI芯片的技术架构可以根据其设计方式和特点进行分类。以下是几种常见的AI芯片技术架构：GPU（图形处理器）架构：GPU最初是用于图形渲染和游戏处理的，但由于其高度并行的特性，逐渐被应用于深度学习计算。GPU架构采用多个计算单元（CUDA核心）进行并行计算，能够高效地执行浮点运算和矩阵计算。NVIDIA的Tens
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep