ME_Seraph

Horovod运行的示例源码解析

文|Serpah

01 | tensorflow_mnist.py

import os
import errno
import tensorflow as tf
import horovod.tensorflow as hvd
import numpy as np

from tensorflow import keras

layers = tf.layers

tf.logging.set_verbosity(tf.logging.INFO)


def conv_model(feature, target, mode):
    """2-layer convolution model."""
    # Convert the target to a one-hot tensor of shape (batch_size, 10) and
    # with a on-value of 1 for each one-hot vector of length 10.
    target = tf.one_hot(tf.cast(target, tf.int32), 10, 1, 0)

    # Reshape feature to 4d tensor with 2nd and 3rd dimensions being
    # image width and height final dimension being the number of color channels.
    feature = tf.reshape(feature, [-1, 28, 28, 1])

    # First conv layer will compute 32 features for each 5x5 patch
    with tf.variable_scope('conv_layer1'):
        h_conv1 = layers.conv2d(feature, 32, kernel_size=[5, 5],
                                activation=tf.nn.relu, padding="SAME")
        h_pool1 = tf.nn.max_pool(
            h_conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

    # Second conv layer will compute 64 features for each 5x5 patch.
    with tf.variable_scope('conv_layer2'):
        h_conv2 = layers.conv2d(h_pool1, 64, kernel_size=[5, 5],
                                activation=tf.nn.relu, padding="SAME")
        h_pool2 = tf.nn.max_pool(
            h_conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
        # reshape tensor into a batch of vectors
        h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])

    # Densely connected layer with 1024 neurons.
    h_fc1 = layers.dropout(
        layers.dense(h_pool2_flat, 1024, activation=tf.nn.relu),
        rate=0.5, training=mode == tf.estimator.ModeKeys.TRAIN)

    # Compute logits (1 per class) and compute loss.
    logits = layers.dense(h_fc1, 10, activation=None)
    loss = tf.losses.softmax_cross_entropy(target, logits)

    return tf.argmax(logits, 1), loss


def train_input_generator(x_train, y_train, batch_size=64):
    assert len(x_train) == len(y_train)
    while True:
        p = np.random.permutation(len(x_train))
        x_train, y_train = x_train[p], y_train[p]
        index = 0
        while index <= len(x_train) - batch_size:
            yield x_train[index:index + batch_size], \
                  y_train[index:index + batch_size],
            index += batch_size


def main(_):
    # Horovod: initialize Horovod.
    hvd.init()

    # Keras automatically creates a cache directory in ~/.keras/datasets for
    # storing the downloaded MNIST data. This creates a race
    # condition among the workers that share the same filesystem. If the
    # directory already exists by the time this worker gets around to creating
    # it, ignore the resulting exception and continue.
    cache_dir = os.path.join(os.path.expanduser('~'), '.keras', 'datasets')
    if not os.path.exists(cache_dir):
        try:
            os.mkdir(cache_dir)
        except OSError as e:
            if e.errno == errno.EEXIST and os.path.isdir(cache_dir):
                pass
            else:
                raise

    # Download and load MNIST dataset.
    (x_train, y_train), (x_test, y_test) = \
        keras.datasets.mnist.load_data('MNIST-data-%d' % hvd.rank())

    # The shape of downloaded data is (-1, 28, 28), hence we need to reshape it
    # into (-1, 784) to feed into our network. Also, need to normalize the
    # features between 0 and 1.
    x_train = np.reshape(x_train, (-1, 784)) / 255.0
    x_test = np.reshape(x_test, (-1, 784)) / 255.0

    # Build model...
    with tf.name_scope('input'):
        image = tf.placeholder(tf.float32, [None, 784], name='image')
        label = tf.placeholder(tf.float32, [None], name='label')
    predict, loss = conv_model(image, label, tf.estimator.ModeKeys.TRAIN)

    # Horovod: adjust learning rate based on number of GPUs.
    opt = tf.train.AdamOptimizer(0.001 * hvd.size())

    # Horovod: add Horovod Distributed Optimizer.
    opt = hvd.DistributedOptimizer(opt)

    global_step = tf.train.get_or_create_global_step()
    train_op = opt.minimize(loss, global_step=global_step)

    hooks = [
        # Horovod: BroadcastGlobalVariablesHook broadcasts initial variable states
        # from rank 0 to all other processes. This is necessary to ensure consistent
        # initialization of all workers when training is started with random weights
        # or restored from a checkpoint.
        hvd.BroadcastGlobalVariablesHook(0),

        # Horovod: adjust number of steps based on number of GPUs.
        tf.train.StopAtStepHook(last_step=20000 // hvd.size()),

        tf.train.LoggingTensorHook(tensors={'step': global_step, 'loss': loss},
                                   every_n_iter=10),
    ]

    # Horovod: pin GPU to be used to process local rank (one GPU per process)
    config = tf.ConfigProto()
    config.gpu_options.allow_growth = True
    config.gpu_options.visible_device_list = str(hvd.local_rank())

    # Horovod: save checkpoints only on worker 0 to prevent other workers from
    # corrupting them.
    checkpoint_dir = './checkpoints' if hvd.rank() == 0 else None
    training_batch_generator = train_input_generator(x_train,
                                                     y_train, batch_size=100)
    # The MonitoredTrainingSession takes care of session initialization,
    # restoring from a checkpoint, saving to a checkpoint, and closing when done
    # or an error occurs.
    with tf.train.MonitoredTrainingSession(checkpoint_dir=checkpoint_dir,
                                           hooks=hooks,
                                           config=config) as mon_sess:
        while not mon_sess.should_stop():
            # Run a training step synchronously.
            image_, label_ = next(training_batch_generator)
            mon_sess.run(train_op, feed_dict={image: image_, label: label_})


if __name__ == "__main__":
    tf.app.run()

layters = tf.layers
tf.layers是提供用于深度学习的更高层次封装的 API，主要提供全连接和卷积等基本操作。
提供的方法有：

方法	含义
Input(…)	用于实例化一个输入 Tensor，作为神经网络的输入。
average_pooling1d(…)	一维平均池化层
average_pooling2d(…)	二维平均池化层
average_pooling3d(…)	三维平均池化层
batch_normalization(…)	批量标准化层
conv1d(…)	一维卷积层
conv2d(…)	二维卷积层
conv2d_transpose(…)	二维反卷积层
conv3d(…)	三维卷积层
conv3d_transpose(…)	三维反卷积层
dense(…)	全连接层
dropout(…)	Dropout层
flatten(…)	Flatten层，即把一个 Tensor 展平
max_pooling1d(…)	一维最大池化层
max_pooling2d(…)	二维最大池化层
max_pooling3d(…)	三维最大池化层
separable_conv2d(…)	二维深度可分离卷积层

tf.logging.set_verbosity(tf.logging.INFO)
设置日志输出级别为INFO。
TensorFlow使用五个不同级别的日志消息。按照上升的顺序，它们是DEBUG，INFO，WARN，ERROR和FATAL。
当您在任何这些级别配置日志记录时，TensorFlow将输出与该级别相对应的所有日志消息以及比当前级别的更严重的级别信息。
TensorFlow在WARN的日志记录级别进行配置，但是在跟踪模型训练时，您需要将级别调整为INFO，这将提供适合操作正在进行的其他反馈。
os.path
os.path.join 路径拼接
os.path.exists 路径是否存在
os.path.mkdir 用于以数字权限模式创建目录。默认的模式为 0777 (八进制)。
os.path.isdir 判断路径是否为目录
pass
语句占位符，不作任何操作
raise
程序出现错误，会自动引发异常，Python也允许使用raise语句自行引发异常。
keras.datasets.mnist.load_data
keras自带的加载MNIST数据集
np.reshape
在不改变数据内容的情况下，改变一个数组的格式。注意这里是引用修改，如果改变了原数据，新数组的内容也会随之改变。
-1标识，以其它的维度去改变数组的格式
x_train = np.reshape(x_train, (-1, 784)) / 255.0将x_train数据改变为每行有784元素的数组，且数据归一化到0~1之间。
tf.name_scope
指定的区域中定义的所有对象及各种操作，他们的“name”属性上会增加该命名区的区域名，用以区别对象属于哪个区域；
tf.estimator.ModeKeys
model 模式的标准名称.
定义了以下的标准键：
TRAIN：训练模式.
EVAL：计算模式.
PREDICT：推理模式.
tf.train.AdamOptimizer()
Adam优化算法：是一个寻找全局最优点的优化算法，引入了二次方梯度校正。

11.tf.train.get_or_create_global_step()
这个函数主要用于返回或者创建（如果有必要的话）一个全局步数的tensor。

optimizer.minimize()
minimize的内部存在两个操作：(1)计算各个变量的梯度 (2)用梯度更新这些变量的值
MonitoredTrainingSession()
监控训练的回话.
tf.train.StopAtStepHook钩子，这个钩子定义了训练的最后一步，之后参数服务器和worker服务器会被关闭。
tf.train.LoggingTensorHook钩子，以每N步或者N秒打印给定的张量，张量以INFO信息输出日志。
config=tf.ConfigProto()
用在创建session的时候，用来对session进行参数配置
config.gpu_options.allow_growth #True表示允许动态申请显存
config.gpu_options.visible_device_list #指定使用GPU列表
Numpy.random.permutation
对原来的数组进行重新洗牌（即随机打乱原来的元素顺序）。
区别在于shuffle直接在原来的数组上进行操作，改变原来数组的顺序，无返回值。而permutation不直接在原来的数组上进行操作，而是返回一个新的打乱顺序的数组，并不改变原来的数组。
Next
返回迭代器的下一个项目。
tf.cast
tf.cast()函数的作用是执行 tensorflow 中张量数据类型转换。
tf.one_hot
使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对对应欧式空间的某个点。
将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。
例如：

tf.one_hot([0, 1, 2],    3, on_value=7, off_value=4)
#[7 4 4]
#[4 7 4]
#[4 4 7]]

model.evaluate
评估训练的模型，输入数据和标签，输出损失和精确度。
model.predict
预测测试结果，输入测试数据，输出预测结果。

02 | tensorflow_synthetic_benchmark.py

from __future__ import absolute_import, division, print_function

import argparse
import os
import numpy as np
import timeit

import tensorflow as tf
import horovod.tensorflow as hvd
from tensorflow.keras import applications

# Benchmark settings
parser = argparse.ArgumentParser(description='TensorFlow Synthetic Benchmark',
                                 formatter_class=argparse.ArgumentDefaultsHelpFormatter)
parser.add_argument('--fp16-allreduce', action='store_true', default=False,
                    help='use fp16 compression during allreduce')

parser.add_argument('--model', type=str, default='ResNet50',
                    help='model to benchmark')
parser.add_argument('--batch-size', type=int, default=32,
                    help='input batch size')

parser.add_argument('--num-warmup-batches', type=int, default=10,
                    help='number of warm-up batches that don\'t count towards benchmark')
parser.add_argument('--num-batches-per-iter', type=int, default=10,
                    help='number of batches per benchmark iteration')
parser.add_argument('--num-iters', type=int, default=10,
                    help='number of benchmark iterations')

parser.add_argument('--eager', action='store_true', default=False,
                    help='enables eager execution')
parser.add_argument('--no-cuda', action='store_true', default=False,
                    help='disables CUDA training')

args = parser.parse_args()
args.cuda = not args.no_cuda

hvd.init()

# Horovod: pin GPU to be used to process local rank (one GPU per process)
config = tf.ConfigProto()
if args.cuda:
    config.gpu_options.allow_growth = True
    config.gpu_options.visible_device_list = str(hvd.local_rank())
else:
    os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
    config.gpu_options.allow_growth = False
    config.gpu_options.visible_device_list = ''

if args.eager:
    tf.enable_eager_execution(config)

# Set up standard model.
model = getattr(applications, args.model)(weights=None)

opt = tf.train.GradientDescentOptimizer(0.01)

# Horovod: (optional) compression algorithm.
compression = hvd.Compression.fp16 if args.fp16_allreduce else hvd.Compression.none

# Horovod: wrap optimizer with DistributedOptimizer.
opt = hvd.DistributedOptimizer(opt, compression=compression)

init = tf.global_variables_initializer()
bcast_op = hvd.broadcast_global_variables(0)

data = tf.random_uniform([args.batch_size, 224, 224, 3])
target = tf.random_uniform([args.batch_size, 1], minval=0, maxval=999, dtype=tf.int64)


def loss_function():
    probs = model(data, training=True)
    return tf.losses.sparse_softmax_cross_entropy(target, probs)


def log(s, nl=True):
    if hvd.rank() != 0:
        return
    print(s, end='\n' if nl else '')


log('Model: %s' % args.model)
log('Batch size: %d' % args.batch_size)
device = 'GPU' if args.cuda else 'CPU'
log('Number of %ss: %d' % (device, hvd.size()))


def run(benchmark_step):
    # Warm-up
    log('Running warmup...')
    timeit.timeit(benchmark_step, number=args.num_warmup_batches)

    # Benchmark
    log('Running benchmark...')
    img_secs = []
    for x in range(args.num_iters):
        time = timeit.timeit(benchmark_step, number=args.num_batches_per_iter)
        img_sec = args.batch_size * args.num_batches_per_iter / time
        log('Iter #%d: %.1f img/sec per %s' % (x, img_sec, device))
        img_secs.append(img_sec)

    # Results
    img_sec_mean = np.mean(img_secs)
    img_sec_conf = 1.96 * np.std(img_secs)
    log('Img/sec per %s: %.1f +-%.1f' % (device, img_sec_mean, img_sec_conf))
    log('Total img/sec on %d %s(s): %.1f +-%.1f' %
        (hvd.size(), device, hvd.size() * img_sec_mean, hvd.size() * img_sec_conf))


if tf.executing_eagerly():
    with tf.device(device):
        run(lambda: opt.minimize(loss_function, var_list=model.trainable_variables))
else:
    with tf.Session(config=config) as session:
        init.run()
        bcast_op.run()

        loss = loss_function()
        train_opt = opt.minimize(loss)
        run(lambda: session.run(train_opt))

from future import
做法的作用就是将新版本的特性引进当前版本中。
absolute_import 绝对引用包
division 精确除法
print_function Python3打印
import argparse
argparse模块是Python用来处理命令行参数模块。
argparse.ArgumentParser生成一个parser对象（参数解析器）
parse.add_argument增加参数
parse.parse_args获取解析的参数
import timeit
timeit模块是Python计时工具。
timeit.timeit 第一个参数为执行表达式或函数，number参数为执行次数。
from tensorflow.keras import applications
tensorflow.keras.application模块里有多个预训练的模型类。
os.environ[“CUDA_VISIBLE_DEVICES”] = “-1”
指定使用的GPU，序号从0开始，以,隔开多个。“-1”表示不使用。
tensorflow eager
动态图特性，使Tensorflow可以立刻执行运算：并返回具体值。
tf.enable_eager_execution 启动eager
tf.executing_eagerly() 判断eager是否启动
getattr返回指定模块的属性
源码中model = getattr(applications, args.model)(weights=None)表示返回applications模块中的args.model属性（默认输入参数为ResNet50），后面为参数。
hvd.broadcast_global_variables(0)
在没有使用MonitoredTrainingSession的情况下，可以初始化初始值后使用这个函数广播初始值。
tf.random_uniform
构造均匀分布数据
numpy.std()
计算标准差
--fp16-allreduce
该参数的意思使将梯度转换为fp16类型的数据，即双字节的float，以减少传输过程中数据的量。
即对梯度进行压缩(gradient compression)。

Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
Python | 使用Joblib模块加快任务处理速度 python收藏家 python python
在本文中，我们将了解如何通过使用Joblib模块在Python中并行执行代码来大幅减少大型代码的执行时间。Joblib模块简介Joblib是一个用于Python的开源库，它提供了一些用于并行计算和内存映射的工具，旨在提高科学计算和数据分析的效率。Python中的Joblib模块特别用于使用Pipelines并行执行任务，而不是一个接一个地顺序执行任务。Joblib模块允许用户通过利用设备中存在的所
【并行计算】Strong scaling和weak Scaling 栏杆拍遍看吴钩 pytorch 并行计算
可以从这个角度来区分：StrongScaling在扩展时是壮壮的，即使增加负载，也不需要调整机器。WeakScaling在扩展时是弱弱的，如果要增加负载，也要同步增加机器。Strong的目的是为了知道当前的机器所能够提供的最大并行能力。Weak的目的是为了保证当前的负载均衡性一致的情况下比较不同数量机器的并行效果。
NUMA架构 weixin_34220623 数据库内存管理操作系统
最近在学习.NET的并行计算技术，学到一个服务器NUMA架构，NUMA架构在中大型系统上一直非常盛行，也是高性能的解决方案，在系统延迟方面表现都很优秀。Windows一向都没有在NUMA架构上有多少表现机会，AMD的多路系统大多也会用在UNIX/Linux上。Intel如期进入了NUMA架构的怀抱，英特尔最新的服务器处理器至强5500是一项重大的结构变革。与上一代至强处理器相比，至强5500采用了
模式转变-并行编程方面的设计注意事项 guoxiaoqian8028 并行计算
本文以VisualStudio工具的预发布版为基础。文中的所有信息均有可能发生变更。本文将介绍以下内容：并行计算并发编程性能提高本文使用了以下技术：多线程目录并发和并行结构化多线程数据并行性数据流数据并行性单程序，多数据并发数据结构总结从1986到2002年，微处理器的性能每年提高了52%。这一惊人的技术进步源自晶体管成本依据摩尔法则不断地缩减，以及处理器厂商在工程方面的出色表现。微软的研究员Ji
CPU服务器如何应对大规模并行计算需求？ Jtti 服务器运维
大规模并行计算是指利用多个处理单元同时处理计算任务，以提高计算效率和缩短完成时间。这种计算方式常用于科学计算、数据分析、机器学习、图像处理等领域，面对海量数据与复杂计算时，传统的串行计算往往显得无能为力。现代CPU通常具备多个核心，这使得它们能够在同一时间内并行执行多个线程或任务。多核处理器可以大幅提升并行计算能力，适合处理大型计算任务。CPU服务器通常配备多级高速缓存(L1、L2、L3)，有效减
环境安装-1：Python3.8+CUDA11.6.1+cuDNN8.6+Tensorflow-gpu2.6.1 w坐看云起时环境安装 tensorflow python 人工智能
环境配置建议多看几个别人的安装过程的图文，不要着急，慢慢来，我们肯定行，加油！一、知识储备1.CUDACUDA是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。（来自百度词条）2.cuDNNNVIDIACUDA深度神经网络库(cuDNN)是一个GPU加速的深度神经网络基元库，能够以高度优化的方式实现标准例程（如前向和反
ISP(图像信号处理器)是什么？ FoGoiN 嵌入式硬件单片机物联网
由于刚接触到开发版，认识到了图像处理器（imageprocessor）,又名imageprocessingengine,imageprocessingunit(IPU),imagesignalprocessor(ISP)。和电脑的GPU类似，通常采并行计算。功能：Bayertransformation图像传感器（就是光电转换器）中的光电二极管（吸收光子产生电流）其实是无法识别颜色的，为了能够识别颜
深度学习(二) 小泽爱刷题深度学习人工智能
CuDNN（CUDADeepNeuralNetworklibrary）是NVIDIA为加速深度学习计算而开发的高性能GPU加速库，专门优化了深度神经网络（DNN）的常见操作，如卷积、池化、归一化和激活函数等。CuDNN的主要作用是通过利用GPU的并行计算能力，提高深度学习模型在GPU上的运行效率。CuDNN的作用加速卷积操作：卷积操作是深度学习中特别是在卷积神经网络（CNN）中最重要且最计算密集的
Python 多线程和多进程用法 SmallerFL Python相关 python 服务器 linux 多进程多线程
文章目录1.Python多进程1.1常见用法1.创建进程2.进程池3.进程间通信4.进程同步1.2结合进度条显示2.Python多线程2.1常见用法1.使用线程池2.2结合进度条显示1.Python多进程1.1常见用法multiprocessing是Python标准库中的一个模块，用于在多核或多处理器环境中并行执行任务。它提供了一种便捷的方法来创建和管理多个进程，以实现并行计算。multiproc
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Unity3D UI Toolkit数据动态绑定详解 Thomas_YXQ ui java 开发语言 Unity 游戏开发前端 c#
前言在Unity3D中，ComputeShader是一种强大的工具，用于在GPU上执行并行计算任务，这些任务通常涉及大量的数据处理，如图像处理、物理模拟等。然而，由于GPU的并行特性，ComputeShader中的线程（也称为工作项）之间默认是不进行同步的。这意味着每个线程都是独立运行的，且无法直接访问其他线程的数据或执行状态，除非通过特定的机制进行通信。对惹，这里有一个游戏开发交流小组，大家可以
PyTorch深度学习实战（26）—— PyTorch与Multi-GPU shangjg3 PyTorch深度学习实战深度学习 pytorch 人工智能
当拥有多块GPU时，可以利用分布式计算（DistributedComputation）与并行计算（ParallelComputation）的方式加速网络的训练过程。在这里，分布式是指有多个GPU在多台服务器上，并行指一台服务器上的多个GPU。在工作环境中，使用这两种方式加速模型训练是非常重要的技能。本文将介绍PyTorch中分布式与并行的常见方法，读者需要注意这二者的区别，并关注它们在使用时的注意
C语言中的多线程编程：POSIX线程库（Pthreads）入门与实战（一） JJJ69 学习C语言吧开发语言 c语言
目录一、引言背景介绍文章目的与读者定位二、夽线程基础概念线程与进程的关系并发与并行的区别多线程的优势与挑战三、POSIX线程库（Pthreads）简介POSIX标准与Pthreads规范Pthreads的兼容性与移植性总结一、引言背景介绍随着计算机硬件技术的飞速发展，多核处理器已经成为现代计算设备的标准配置。这种架构变革使得单个处理器芯片能够容纳多个执行核心，从而显著提升了并行计算能力。面对这样的
PyTorch深度学习实战（27）—— PyTorch分布式训练 shangjg3 PyTorch深度学习实战深度学习 pytorch 分布式 python
本节将详细介绍如何进行神经网络的分布式训练。其中1.1将结合MPI介绍分布式训练的基本流程，1.2与1.3将分别介绍如何使用torch.distributed以及Horovod进行神经网络的分布式训练。1PyTorch分布式训练1.1使用MPI进行分布式训练下面讲解如何利用MPI进行PyTorch的分布式训练。这里主要介绍的是数据并行的分布式方法：每一块GPU都有同一个模型的副本，仅加载不同的数据
并行计算的艺术：PyTorch中torch.cuda.nccl的多GPU通信精粹 2401_85763639 pytorch 人工智能 python
并行计算的艺术：PyTorch中torch.cuda.nccl的多GPU通信精粹在深度学习领域，模型的规模和复杂性不断增长，单GPU的计算能力已难以满足需求。多GPU并行计算成为提升训练效率的关键。PyTorch作为灵活且强大的深度学习框架，通过torch.cuda.nccl模块提供了对NCCL（NVIDIACollectiveCommunicationsLibrary）的支持，为多GPU通信提供
HPC&AI并行计算集群Slurm作业调度系统对通用资源（GRES）的调度技术瘾君子1573 并行计算 AI并行计算 Slurm调度系统 MPS管理 GPU管理 MIG多实例管理 GPU切片
一、概述Slurm支持定义和调度任意通用RESources的功能（GRES）。为特定GRES类型启用了其他内置功能，包括图形处理单元（GPU）、CUDA多进程服务（MPS）设备，并通过可扩展的插件机制进行分片。二、配置默认情况下，群集的配置中未启用任何GRES。您必须在slurm.conf配置文件中明确指定要管理的GRES。的配置参数兴趣是GresTypes和Gres。有关详细信息，请参见slur
CUDA指南-CUDA简介与开发环境搭建小虾米欸 CUDA指南 CUDA
CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的并行计算平台和编程模型，它允许开发者利用NVIDIAGPU进行高效的通用计算任务。以下是对CUDA的详细介绍：GPU与CPU的不同GPU（图形处理单元）与CPU（中央处理单元）在设计和功能上有所不同。GPU拥有更多的处理核心，专为并行处理设计，适合执行大量数据的并行计算任务。相比之下，CPU拥有较少的
【赵渝强老师】Spark中的RDD 赵渝强老师大数据技术 spark 大数据分布式
RDD（ResilientDistributedDataset）叫做弹性分布式数据集，它是Spark中最基本、也是最重要的的数据模型。它由分区组成，每个分区被一个Spark的Worker从节点处理，从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式提供自动容错的功能，并且具有位置感知性调度和可伸缩的特性。通过RDD也提供缓存的机制，可以极大地提高数据处理的速度。视频讲解如
曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？ Chauvin912 大模型行业调研科普 transformer 架构深度学习
曼巴大战变形金刚：号称超越Transformer架构的Mamba架构是什么？Mamba是一种新兴的深度学习架构，旨在解决长序列数据的建模问题。它通过将状态空间模型(StateSpaceModels,SSM)与选择性机制、并行计算等方法相结合，实现了高效的长序列处理。这篇博客将深入探讨Mamba架构的各个组成部分，解释其背后的原理。1.状态空间模型（SSM）1.1状态空间模型的基本原理状态空间模型是
深入了解OpenCVSharp中常见的图像处理功能仰望大佬007 图像处理 opencv 计算机视觉 c#
深入了解OpenCVSharp中常见的图像处理功能前言1.图像加载与保存2.图像基本操作3.图像滤波4.边缘检测5.图像分割6.特征检测与描述子7.目标识别与跟踪8.图像融合与拼接9.形状匹配与模板匹配10.颜色空间转换与直方图11.图像转换与绘制12.图像分类与机器学习13.高级图像处理算法14.GPU加速与并行计算前言OpenCVSharp是C#语言中用于图像处理和计算机视觉的开源库，它提供了
【GPU驱动开发】-GPU架构简介怪怪王 GPU驱动驱动开发 GPU AI chatgpt 架构
前言不必害怕未知，无需恐惧犯错，做一个Creator！GPU（GraphicsProcessingUnit，图形处理单元）是一种专门用于处理图形和并行计算的处理器。GPU系统架构通常包括硬件和软件层面的组件。一、总体流程应用程序请求图形操作：应用程序通过图形API（如OpenGL、Vulkan）发送图形操作请求。图形API调用GPU驱动程序：图形API将请求传递给GPU驱动程序。GPU驱动程序解释
Transformer结构介绍和Pyotrch代码实现肆十二 Pytorch语法 transformer 深度学习人工智能
Transformer结构介绍和Pyotrch代码实现关注B站查看更多手把手教学：肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频(bilibili.com)基本结构介绍Transformer结构是近年来自然语言处理（NLP）领域的重要突破，它完全基于注意力机制（AttentionMechanism）来实现，克服了传统RNN模型无法并行计算以及容易丢失长距离依赖信息的问题。Transformer
什么是Rust 语言 chunmiao3032 rust 开发语言后端
Rust是一种专注于性能和内存安全的系统编程语言，其设计目标包括提供：零开销抽象、移动语义、内存安全、线程无数据竞争、类型安全和实时gc等功能。Rust使用RAII（ResourceAcquisitionIsInitialization）管理资源，通过所有权系统以编译时检查内存安全。它强调零开销的抽象和安全的并行计算。Rust语言的前景非常广阔，包括以下几个方面：系统编程：由于Rust的出色性能和
CUDA与CUDNN 关系 XF鸭小知识 caffe 深度学习人工智能
CUDA与cuDNN1、什么是CUDACUDA(ComputeUnifiedDeviceArchitecture)，是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。2、什么是CUDNNNVIDIAcuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。NVIDIAcuDNN可以集成到更高级别的机器学
Unity中的Compute Shader popcorn丶渲染游戏开发 unity 图像处理
Unity中的ComputeShader前言一、定义二、创建三、computer代码解析四、c#调用方式五、计算关系六、平台支持七、引用前言游戏开发中，dot编程在处理大数量级的运算应用已经越来越广泛了，而GPU本身对大规模数据的并行计算已经越来越强了，因此现在许多游戏处理大量物体的计算可以利用GPU这一特性，加快并发计算速度，ComputeShader就是专门利用这一特性的。提示：以下是本篇文章
TiDB 7.5.0 LTS 高性能数据批处理方案 TiDB_PingCAP tidb 分布式云原生数据库
过去，TiDB由于不支持存储过程、大事务的使用也存在一些限制，使得在TiDB上进行一些复杂的数据批量处理变得比较复杂。TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升○到了TiDB6.1版本，引入了BATCHDML(https://docs.pi
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

Horovod运行的示例源码解析

01 | tensorflow_mnist.py

02 | tensorflow_synthetic_benchmark.py

你可能感兴趣的:(并行计算,horovod)