老虎福

TensorFlow 原生分布式训练机制探究

标签（空格分隔）：未分类

文章目录

TensorFlow 原生分布式训练机制探究
- - 分布式训练代码解析
  - - 构建estimator封装模型定义
  - input_fn (dataset的使用)
  - experiment

憋屈了三个月，公司招来了个牛逼的数据科学家(遗憾：还是走了)，终于公司还是配了4条V100部署在两台服务器上，可把我兴奋坏了(原谅我小农，没见过大GPU集群)。有了资源当然是要充分的利用起来啦，今天小菜带同学们一起探究TensorFlow的跨卡跨机分布式训练。
TensorFlow的更新可谓是日新月异啊，15年开源以来，到现在已经有很多旧的API被遗弃了。这不，TensorFlow2.0 Alpha 版本已经在2019年3月发布，主打AI民主化，各媒体或者教育机构开始吹嘘，TensorFlow2.0 没有graph，没有Tensor，没有session，eager execution和keras能像numpy一样简单使用、调试，是入门AI的最佳时机。我去官网逛了一圈，计算架构还是那个计算架构，TensorFlow 当年之所以能够在caffe风靡一时的期间后来居上，凭借着优秀的计算图架构，灵活的计算子，现在有在原来基础上多封装了一层keras使得TensorFlow更加容易入门，所有原来的东西还在，最大的改变就是主打keras和eager execution。
不扯了，今天的主题是分布式训练，网上的资料都很“古老”了，包括TensorFlow1.13源码中的https://github.com/tensorflow/tensorflow/blob/r1.13/tensorflow/tools/dist_test/python/mnist_replica.py 还是使用旧的API，到TensorFlow1.93往后就开始删除了（1.13就到1.93了）。
TensorFlow发布有个趋势，尽量轻量化源码，把很多东西从原来的源码中剥离出来，重立一个项目。

其中model，example中有很多例子，ecosystem是大型分布式训练的例子，包括用kubernetes 管理资源的案例。今天给同学们解读的是在model里的一个用cifar10的数据分布式训练resnet的例子(https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10_estimator)(这种连接随着github仓库的更新，很容易就失效，如果失效，在tensorflow/model 仓库找以前的版本可能找到)：

这里用的不是最新的api，但是tensorflow2.0以前版本都是支持的，而且对于理解最新的2.0往后的api很有帮助。这里用到了tensorflow比较高级的api构件，包括Estimator（估算器）、Experiment（实验）和Dataset（数据集）。值得注意的是，你可以独立地使用Estimator，Experiment和Dataset。

贴出训练代码组织结构图，让同学们更好的理解下面的内容。这些高级api构件单独拿出来都能是很多内容可写，今天只是粗略的讲解一下，未能透彻清楚的请移步官方网站单独学习。
dataset : 是tf 提供专门为训练准备数据的，避免开发者使用低级的api 读数造成数据读取瓶颈，dataset 提供高效的队列机制，shuffle打撒功能，batch读取功能，还有高级初始化功能等，极易于开发。结合相应的Iterator来为高速度训练不间断地输送数据。
experiment ： 目前是在tf.contrib 包里，2.0以后将被废弃，封装了训练过程。将来被tf.estimator.train_and_evaluate 代替。
estimator ： 这个api将是tf的重点高级api，包括实现训练、评估和预测的所有功能，包括导出save-model 格式的trained模型，供tensorflow serving使用。各位同学要重点关注这个类。

分布式训练代码解析

整个项目文件功能如下，以下重点选cifar10_main.py 讲解：

构建estimator封装模型定义

查看estimator的api：

__init__(
    model_fn,
    model_dir=None,
    config=None,
    params=None,
    warm_start_from=None
)

Estimator对象包装了一个由模型指定的模型函数model_fn，该模型函数给定input和许多其他参数(封在params中)，该函数返回的是执行训练、评估或预测所需的操作(封装在tf.estimator.EstimatorSpec里返回)。
所有日志输出（检查点、事件文件等）都写入model_dir或其子目录。如果没有设置model_dir，则使用临时目录。
config可以传递参数tf.estimator.runconfig对象，该对象包含有关执行环境的信息。如果模型有一个名为config的参数（以相同的方式输入函数），则它将被传递给定义好的模型。如果未传递config参数，则由estimastor实例化。不传递配置意味着使用对本地执行有用的默认值。Estimator使配置对模型可用。
params参数包含超参数。如果模型有一个名为params的参数，它将以相同的方式传递给model_fn和输入函数。估计量只传递参数，不检查参数。因此，参数的结构完全取决于开发人员。
Estimator的任何方法都不能在子类中被重写（其构造函数强制这样做）。子类应该使用model_fn来配置基类，并且可以添加实现特定功能的方法。
以上是estimator的构造器，我们来详细看看构造其中model_fn的定义，然后一层一层的剖析这个案例的源码，先看cifar10_main.py(https://github.com/tensorflow/models/blob/master/tutorials/image/cifar10_estimator/cifar10_main.py) 的38-352行：

    classifier = tf.estimator.Estimator(
        model_fn=get_model_fn(num_gpus, variable_strategy,
                              run_config.num_worker_replicas or 1),
        config=run_config,
        params=hparams)

这是一个estimator的构建，追溯下去，找model_fn的定义，看47-206行，是一个嵌套函数，返回一个model_fn，我在源码中加注释说明：

def get_model_fn(num_gpus, variable_strategy, num_workers):
  """返回一个model_fn模型函数，在本例中返回的是resnet模型"""

  def _resnet_model_fn(features, labels, mode, params):
    """Resnet model body.
    支持单GPU，多GPU训练，参数更新模式可实现两种模式.
    1. 在CPU中控制梯度更新变量，在CPU中实现参数服务器 (parameter server)
    2. 参数分布在GPU中更新，第一个GPU担任参数服务器
    Args: model_fn固定的三个输入
      features: a list of tensors, one for each tower ：这个可以是封装Tensor的字典，也可以直接是Tensor，我比较喜欢当做字典用，因为比较适用范围比较广，可以有多个输入的情况
      labels: a list of tensors, one for each tower 同理
      mode: ModeKeys.TRAIN or EVAL   
      params: Hyperparameters suitable for tuning
    Returns:
      A EstimatorSpec object.
    """
    is_training = (mode == tf.estimator.ModeKeys.TRAIN)  # 获取执行模式，在我estimator的调用方式中可以指定是训练，评估和预测
    weight_decay = params.weight_decay   # 正则项参数
    momentum = params.momentum   # 学习率的参数

    tower_features = features  #网络模型的输入数据就在这个feature中带进来，是从input_fn中实现的，往后会讲到
    tower_labels = labels    # 标签也是在input_fn 来
    tower_losses = []    # 这些数组是为了收集分布在各个GPU上执行后返回的结果数据，包括loss，gradient等等
    tower_gradvars = []
    tower_preds = []

    # channels first (NCHW) is normally optimal on GPU and channels last (NHWC)
    # on CPU. The exception is Intel MKL on CPU which is optimal with
    # channels_last.
    data_format = params.data_format  # 数据格式主要是图像中通道那一维在第二维还是最后一维
    if not data_format:
      if num_gpus == 0:
        data_format = 'channels_last'
      else:
        data_format = 'channels_first'

    if num_gpus == 0:
      num_devices = 1      # 用于计算的设备的个数
      device_type = 'cpu'
    else:
      num_devices = num_gpus  # 用GPU的计算的个数
      device_type = 'gpu'

    for i in range(num_devices):   把数据分摊到不同的GPU上执行，然后在收集结果，每个GPU上跑的是同一个模型
      worker_device = '/{}:{}'.format(device_type, i)
      if variable_strategy == 'CPU':      # 这个是参数变量策略，在CPU上还在GPU上更新参数
        device_setter = cifar10_utils.local_device_setter(
            worker_device=worker_device)
      elif variable_strategy == 'GPU':
        device_setter = cifar10_utils.local_device_setter( # local_device_setter会自动的分配各个计算节点到相应的设备上，GPU                         #或CPU
            ps_device_type='gpu',
            worker_device=worker_device,
            ps_strategy=tf.contrib.training.GreedyLoadBalancingStrategy(  # 这个是参数负载均衡实现
                num_gpus, tf.contrib.training.byte_size_load_fn))
      with tf.variable_scope('resnet', reuse=bool(i != 0)):  
        with tf.name_scope('tower_%d' % i) as name_scope:
          with tf.device(device_setter):
            loss, gradvars, preds = _tower_fn(  # 调用模型函数，跑网络，这里是一次pass-forward  待会会详细讲解这个函数
                is_training, weight_decay, tower_features[i], tower_labels[i],
                data_format, params.num_layers, params.batch_norm_decay,
                params.batch_norm_epsilon)
            tower_losses.append(loss)  # 在各个计算设备上收集一次跑网络的结果
            tower_gradvars.append(gradvars)
            tower_preds.append(preds)
            if i == 0:
              # Only trigger batch_norm moving mean and variance update from
              # the 1st tower. Ideally, we should grab the updates from all
              # towers but these stats accumulate extremely fast so we can
              # ignore the other stats from the other towers without
              # significant detriment.
              update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS,
                                             name_scope)  # 这个是 batch——normalization的更新平均值和方差的地方，resnet用到了BN
    ## 接下来就是计算收集到各个设备上计算的结果的平均值，做汇总
    # Now compute global loss and gradients.
    gradvars = [] 
    with tf.name_scope('gradient_averaging'):
      all_grads = {}
      for grad, var in itertools.chain(*tower_gradvars):
        if grad is not None:
          all_grads.setdefault(var, []).append(grad)
      for var, grads in six.iteritems(all_grads):
        # Average gradients on the same device as the variables
        # to which they apply.
        with tf.device(var.device):
          if len(grads) == 1:
            avg_grad = grads[0]
          else:
            avg_grad = tf.multiply(tf.add_n(grads), 1. / len(grads))  # 求平均梯度
        gradvars.append((avg_grad, var))

    # Device that runs the ops to apply global gradient updates.
    consolidation_device = '/gpu:0' if variable_strategy == 'GPU' else '/cpu:0'
    with tf.device(consolidation_device): ## 在那一设备上更新网络参数
      # Suggested learning rate scheduling from
      # https://github.com/ppwwyyxx/tensorpack/blob/master/examples/ResNet/cifar10-resnet.py#L155
      # 以下这几行只是为了用到tf.train.piecewise_constant 的学习率递减器所需要的数据，其他递减器不需要的
      num_batches_per_epoch = cifar10.Cifar10DataSet.num_examples_per_epoch(
          'train') // (params.train_batch_size * num_workers)
      boundaries = [
          num_batches_per_epoch * x
          for x in np.array([82, 123, 300], dtype=np.int64)
      ]
      staged_lr = [params.learning_rate * x for x in [1, 0.1, 0.01, 0.002]]

      learning_rate = tf.train.piecewise_constant(tf.train.get_global_step(),
                                                  boundaries, staged_lr)

      loss = tf.reduce_mean(tower_losses, name='loss')  # 损失函数

      examples_sec_hook = cifar10_utils.ExamplesPerSecondHook(  ## 监控训练的频次
          params.train_batch_size, every_n_steps=10)

      tensors_to_log = {'learning_rate': learning_rate, 'loss': loss} ##这个是监控的时候应该答应出来的log

      logging_hook = tf.train.LoggingTensorHook(
          tensors=tensors_to_log, every_n_iter=100) # 没100步打印上面的日志

      train_hooks = [logging_hook, examples_sec_hook]

      optimizer = tf.train.MomentumOptimizer(
          learning_rate=learning_rate, momentum=momentum)

      if params.sync:
        optimizer = tf.train.SyncReplicasOptimizer(  # 把优化器封装在一个分布式的优化器中，使训练得以分布式进行
            optimizer, replicas_to_aggregate=num_workers)
        sync_replicas_hook = optimizer.make_session_run_hook(params.is_chief)
        train_hooks.append(sync_replicas_hook)

      # Create single grouped train op
      train_op = [
          optimizer.apply_gradients(
              gradvars, global_step=tf.train.get_global_step())
      ]
      train_op.extend(update_ops)
      train_op = tf.group(*train_op)

      predictions = {  ## 预测阶段 输出的结果
          'classes':
              tf.concat([p['classes'] for p in tower_preds], axis=0),
          'probabilities':
              tf.concat([p['probabilities'] for p in tower_preds], axis=0)
      }
      stacked_labels = tf.concat(labels, axis=0)
      metrics = { ## 评估阶段 输出的结果
          'accuracy':
              tf.metrics.accuracy(stacked_labels, predictions['classes']) ## 这里必须是一个tf.metrics定义的东西，我曾经掉在这个坑里
      }

    return tf.estimator.EstimatorSpec(  # model_fn 就是要返回一个tf.estimator.EstimatorSpec，封装训练、评估和预测的返回值
        mode=mode,
        predictions=predictions,
        loss=loss,
        train_op=train_op,
        training_hooks=train_hooks,
        eval_metric_ops=metrics)

  return _resnet_model_fn

详细的解析我都注释在代码中了，在接下来的讲解中，突然想起不知大家是否有TensorFlow分布式训练的基本架构，还需要补充一下：
在分布式模式中，Client 负责计算图的构造，然后通过调用Session.run，启动计算图的执行过程。
Master 进程收到计算图执行的消息后，启动计算图的剪枝，分裂，优化等操作；最终将子图分发注册到各个Worker 进程上，然后触发各个Worker 进程并发执行子图。
Worker 进程收到子图注册的消息后，根据本地计算设备资源，再将计算子图实施二次分裂，将子图分配在各个计算设备上，最后启动各个计算设备并发地执行子图；如果Worker 之间存在数据交换，可以通过进程间通信完成交互。

我要继续贴代码了（209-250行）这个一个封装了resnet的pass-forward函数，这个不属于estimator范畴，完全可以自定义：

def _tower_fn(is_training, weight_decay, feature, label, data_format,
              num_layers, batch_norm_decay, batch_norm_epsilon):
  """Build computation tower (Resnet).
  Args:
    is_training: true if is training graph.
    weight_decay: weight regularization strength, a float.
    feature: a Tensor.
    label: a Tensor.
    data_format: channels_last (NHWC) or channels_first (NCHW).
    num_layers: number of layers, an int.
    batch_norm_decay: decay for batch normalization, a float.
    batch_norm_epsilon: epsilon for batch normalization, a float.
  Returns:
    A tuple with the loss for the tower, the gradients and parameters, and
    predictions.
  """
  model = cifar10_model.ResNetCifar10(   ## 这个函数的实现在另一个文件cifar10_model中
      num_layers,
      batch_norm_decay=batch_norm_decay,
      batch_norm_epsilon=batch_norm_epsilon,
      is_training=is_training,
      data_format=data_format)
  logits = model.forward_pass(feature, input_data_format='channels_last')
  tower_pred = {
      'classes': tf.argmax(input=logits, axis=1),
      'probabilities': tf.nn.softmax(logits)
  }

  tower_loss = tf.losses.sparse_softmax_cross_entropy(
      logits=logits, labels=label)
  tower_loss = tf.reduce_mean(tower_loss)

  model_params = tf.trainable_variables()
  tower_loss += weight_decay * tf.add_n(
      [tf.nn.l2_loss(v) for v in model_params])

  tower_grad = tf.gradients(tower_loss, model_params)

  return tower_loss, zip(tower_grad, model_params), tower_pred

使用这个分布式训练框架主要就是修改着以上这两个函数，改成你自己的模型函数。

input_fn (dataset的使用)

使用estimator训练模型，就鄙视定义好input_fn，可以使train_input_fn和eval_input_fn。（253-292行）这里非常值得借鉴的地方就是多GPU的使用，划分数据。

def input_fn(data_dir,
             subset,
             num_shards,
             batch_size,
             use_distortion_for_training=True):
  """Create input graph for model.
  Args:
    data_dir: Directory where TFRecords representing the dataset are located.
    subset: one of 'train', 'validate' and 'eval'.
    num_shards: num of towers participating in data-parallel training.
    batch_size: total batch size for training to be divided by the number of
    shards.
    use_distortion_for_training: True to use distortions.
  Returns:
    two lists of tensors for features and labels, each of num_shards length.
  """
  with tf.device('/cpu:0'):
    use_distortion = subset == 'train' and use_distortion_for_training
    dataset = cifar10.Cifar10DataSet(data_dir, subset, use_distortion)
    image_batch, label_batch = dataset.make_batch(batch_size)
    if num_shards <= 1:
      # No GPU available or only 1 GPU.
      return [image_batch], [label_batch]

    # Note that passing num=batch_size is safe here, even though
    # dataset.batch(batch_size) can, in some cases, return fewer than batch_size
    # examples. This is because it does so only when repeating for a limited
    # number of epochs, but our dataset repeats forever.
    image_batch = tf.unstack(image_batch, num=batch_size, axis=0)
    label_batch = tf.unstack(label_batch, num=batch_size, axis=0)
    feature_shards = [[] for i in range(num_shards)]
    label_shards = [[] for i in range(num_shards)]
    for i in xrange(batch_size):
      idx = i % num_shards
      feature_shards[idx].append(image_batch[i])
      label_shards[idx].append(label_batch[i])
    feature_shards = [tf.parallel_stack(x) for x in feature_shards]
    label_shards = [tf.parallel_stack(x) for x in label_shards]
    return feature_shards, label_shards

experiment

experiment这种训练方式在tf.contrib包里实现，在新的TensorFlow中终将废弃，会被estimator的trian_and_eval代替，但这里尊重源码直接讲解(直至TensorFlow1.13版本都是可用的)，先看源码(381-387行)

tf.contrib.learn.learn_runner.run(
      get_experiment_fn(data_dir, num_gpus, variable_strategy,
                        use_distortion_for_training),
      run_config=config,
      hparams=tf.contrib.training.HParams(
          is_chief=config.is_chief,
          **hparams))

tf.contrib.learn.learn_runner.run 把experiment调起来，完成分布式训练， experiment在get_experiment_fnd的嵌套函数中返回。
源码()

def get_experiment_fn(data_dir,
                      num_gpus,
                      variable_strategy,
                      use_distortion_for_training=True):
  """Returns an Experiment function.
  Experiments perform training on several workers in parallel,
  in other words experiments know how to invoke train and eval in a sensible
  fashion for distributed training. Arguments passed directly to this
  function are not tunable, all other arguments should be passed within
  tf.HParams, passed to the enclosed function.
  Args:
      data_dir: str. Location of the data for input_fns.
      num_gpus: int. Number of GPUs on each worker.
      variable_strategy: String. CPU to use CPU as the parameter server
      and GPU to use the GPUs as the parameter server.
      use_distortion_for_training: bool. See cifar10.Cifar10DataSet.
  Returns:
      A function (tf.estimator.RunConfig, tf.contrib.training.HParams) ->
      tf.contrib.learn.Experiment.
      Suitable for use by tf.contrib.learn.learn_runner, which will run various
      methods on Experiment (train, evaluate) based on information
      about the current runner in `run_config`.
  """

  def _experiment_fn(run_config, hparams):
    """Returns an Experiment."""
    # Create estimator.
    train_input_fn = functools.partial(
        input_fn,
        data_dir,
        subset='train',
        num_shards=num_gpus,
        batch_size=hparams.train_batch_size,
        use_distortion_for_training=use_distortion_for_training)

    eval_input_fn = functools.partial(
        input_fn,
        data_dir,
        subset='eval',
        batch_size=hparams.eval_batch_size,
        num_shards=num_gpus)

    num_eval_examples = cifar10.Cifar10DataSet.num_examples_per_epoch('eval')
    if num_eval_examples % hparams.eval_batch_size != 0:
      raise ValueError(
          'validation set size must be multiple of eval_batch_size')

    train_steps = hparams.train_steps
    eval_steps = num_eval_examples // hparams.eval_batch_size
 
    classifier = tf.estimator.Estimator(
        model_fn=get_model_fn(num_gpus, variable_strategy,
                              run_config.num_worker_replicas or 1),
        config=run_config,
        params=hparams)

    # Create experiment.
    return tf.contrib.learn.Experiment(
        classifier,
        train_input_fn=train_input_fn,
        eval_input_fn=eval_input_fn,
        train_steps=train_steps,
        eval_steps=eval_steps)

  return _experiment_fn

我的公众号会有更多学习笔记哦，欢迎关注：

三十四、领域驱动设计DDD（DDD 与微服务架构结合）伯牙碎琴架构架构微服务运维
在现代企业应用中，领域驱动设计（DDD）与微服务架构的结合被认为是应对复杂业务系统和大规模分布式系统的有效方法。两者的结合既能发挥DDD在业务建模和复杂业务管理中的优势，也能利用微服务架构的灵活性和可扩展性，帮助企业更好地应对技术和业务的双重需求。以下是两者结合的详细分析：1.DDD与微服务架构的契合点限界上下文（BoundedContext）与微服务的契合：在DDD中，限界上下文定义了业务模型的
华为余承东鸿蒙系统随时可以上线,华为发布鸿蒙系统，余承东称随时可替换安卓... 温列来华为余承东鸿蒙系统随时可以上线
8月9日，在2019华为全球开发者大会上，备受用户关注的鸿蒙系统正式亮相。鸿蒙有四大特点：分布架构、天生流畅、内核安全、生态共享。华为消费者业务CEO余承东在发布会现场表示，这是基于微内核的全场景分布式OS系统，这也是世界第一个基于微内核的OS。得益于微内核架构，鸿蒙OS可以灵活适配全场景丰富终端形态，涵盖了GB级别、MB级别、KB级别的设备终端。在华为看来，目前在国际上众多巨头企业致力于发展新O
k8s网络架构图_kubernetes搭建高可用集群架构图沈千越 k8s网络架构图
LoadBalancer一般使用HaProxy。如果你在其他云平台上搭建，可以利用云平台上的负载均衡器：例如aws采用elb;aliyun...参考：Kubernetes采用主从分布式架构，包括MasterNode(主节点)、WorkerNode(从节点或工作节点)，以及客户端命令行工具kubectl和其它附加项。MasterNode：主控节点，对集群进行调度管理。由APIServer、Sched
tensorflow和python不兼容_tensorflow与numpy的版本兼容性问题的解决 li旭旭
tensorflow与numpy的版本兼容性问题的解决,版本,站长站,错误,文章,较高tensorflow与numpy的版本兼容性问题的解决易采站长站，站长之家为您整理了tensorflow与numpy的版本兼容性问题的解决的相关内容。在Python交互式窗口导入tensorflow出现了下面的错误：root@ubuntu:~#python3Python3.6.8(default,Oct72019
自然语言编程：用 Cursor 将需求转化为代码 drebander AI 编程 Cursor
引言在传统编程中，开发者需要精确掌握语法规则、API接口和框架特性才能实现功能需求。然而，随着人工智能技术的发展，以自然语言交互为核心的编程方式正在颠覆这一流程。Cursor作为一款智能编程助手，通过其自然语言编程功能，允许开发者直接通过文本描述生成代码，将模糊的需求快速转化为可执行的程序。本文将深入探讨Cursor的自然语言交互能力，并通过实际案例（如生成React组件、Python脚本等），展
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型实现男女分类 CV视界模式识别机器学习与图像处理机器学习 python 人工智能
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和pazen窗方法实现男女分类欢迎大家来到安静到无声的《模式识别与人工智能（程序与算法）》，如果对所写内容感兴趣请看模式识别与人工智能（程序与算法）系列讲解-总目录，同时这也可以作为大家学习的参考。欢迎订阅，优惠价只需9.9元，请多多支持！目录标题模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和paz
分布式架构中的事务管理：需要了解的常见解决方案四七伵 Java 面试宝典分布式架构后端分布式事务
前言在现代互联网应用中，分布式架构越来越常见。随着系统规模的扩大，越来越多的业务和数据被分布到不同的服务和数据库中。虽然分布式架构带来了诸多优势，但也引入了一个新的问题：分布式事务。一、什么是分布式事务？在单体应用中，事务管理通常比较简单，操作仅涉及单一数据库。只要保证ACID（原子性、一致性、隔离性、持久性）特性，数据的一致性和可靠性就能得到保证。但在分布式系统中，事务跨多个服务或数据库，这就带
️ 在 Windows WSL 上部署 Ollama 和大语言模型的完整指南20241206 Narutolxy 技术干货分享智浪初航 windows 语言模型人工智能
️在WindowsWSL上部署Ollama和大语言模型的完整指南引言随着大语言模型（LLM）和人工智能的飞速发展，越来越多的开发者尝试在本地环境中部署大模型进行实验。然而，由于资源需求高、网络限制多以及工具复杂性，部署过程常常充满挑战。本指南基于实际经验，详细讲解如何在WindowsWSL（WindowsSubsystemforLinux）上部署Ollama和大语言模型，同时解决端口转发等常见痛点
Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码 weixin_30777913 音视频语言模型大数据人工智能
ApacheIceberg在处理海量实时数据、支持实时特征工程和模型训练方面的强大能力。Iceberg支持实时特征工程和模型训练，特别适用于需要处理海量实时数据的机器学习工作流。Iceberg作为数据湖，以支持其机器学习平台中的特征存储。Iceberg的分层结构、快照机制、并发读写能力以及模式演进等特性，使得它能够高效地处理海量数据，并且保证数据的一致性和可用性。特别是在特征工程和模型训练方面，I
基于Stackelberg博弈的光伏用户群优化定价模型(Matlab代码实现）然哥爱编程 matlab
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3文献来源4Matlab代码、数据、文章下载1概述文献来源：摘要：在由多主体组成的光伏用户群中,用户间存在光伏电量共享。然而,在现有的分布式光伏上网政策下,用户间的共享水平很低。为了提高用户间光伏电量共享水平,根据用户的用电特性,构建了光伏用
分布式之消息中间件 CatalpaFlat 分布式消息队列
分布式之消息中间件目录*1.消息中间件概述*2.消息中间件使用场景*3.消息中间件原理*4.消息中间件传递模式 *4.1点对点模式（PTP） *4.2发布-订阅模型（Pub/Sub）1.消息中间件概述消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流，并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型，它可以在分布式环境下扩展进程间的通信。消息中间件就是用在消息队
HarmonyOS开发：生命周期详解三掌柜666 HarmonyOS开发 harmonyos 华为
目录前言生命周期的概念HarmonyOS生命周期最后前言随着移动端操作系统的多样化发展，HarmonyOS作为华为推出的一款面向全场景的分布式操作系统，受到了业内外的广泛关注。其实HarmonyOS的设计和开发模式，与传统的移动端操作系统有着显著的区别，特别是在应用的生命周期管理上，它引入了新的设计理念来适应多种设备和使用场景。对于开发者而言，深入理解HarmonyOS的生命周期对于开发高效、稳定
线性回归的简单实现 SkaWxp 深度学习深度学习机器学习 mxnet gluon
本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了mxnet中的自动求导和数组结构frommxnetimportautograd,ndimportrandom生成随机数据集只有这个是用了自己造的数据，因为线
初入机器学习辰尘_星启机器学习人工智能深度学习 python mxnet
写在前面本专栏专门撰写深度学习相关的内容，防止自己遗忘，也为大家提供一些个人的思考一切仅供参考概念辨析深度学习：本质是建模，将训练得到的模型作为系统的一部分使用侧重于发现样本集中隐含的规律难点是认识并了解模型，合理设置初始模型，要对建模对象有比较深刻的认识依赖大量的准确训练样本强化学习：本质是系统，直接将训练得到的模型视作系统本身（激进的像“端到端”）侧重于最大化当前环境下的奖励，最终目标是寻找环
Hive 分区和分桶总结 Stray_Lambs 大数据 hive
目录分区和分桶总结1、分区1、分区介绍2、分区表的操作3、动态分区2、分桶表1、分桶表介绍2、分桶表的操作3、分区表和分桶表的区别参考分区和分桶总结1、分区1、分区介绍由于数据量过于庞大，使用分区，可以并行的进行处理数据，有点类似于Hadoop当中的切片操作，将数据分开，然后并行去处理，避免去全表扫描。分区表在生产环境当中用的非常多。分区表实际上就是对应一个在HDFS(或者是其他分布式文件系统)文
基于Stackelberg博弈的光伏用户群优化定价模型(Matlab代码实现）砌墙_2301 matlab
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3文献来源4Matlab代码、数据、文章下载1概述文献来源：摘要：在由多主体组成的光伏用户群中,用户间存在光伏电量共享。然而,在现有的分布式光伏上网政策下,用户间的共享水平很低。为了提高用户间光伏电量共享水平,根据用户的用电特性,构建了光伏用
深度学习：基于MindNLP的RAG应用开发 Landy_Jay 深度学习人工智能
什么是RAG？RAG（Retrieval-AugmentedGeneration，检索增强生成）是一种结合检索（Retrieval）和生成（Generation）的技术，旨在提升大语言模型（LLM）生成内容的准确性、相关性和时效性。基本思想：通过外部知识库动态检索与用户查询相关的信息，并将检索结果作为上下文输入生成模型，辅助生成更可靠的回答。与传统LLM的区别：传统LLM仅依赖预训练参数中的静态知
深度学习篇---张量&数据流动处理 Ronin-Lotus 深度学习篇深度学习人工智能 python TensorFlow Pytorch 张量数据流动处理
文章目录前言第一部分：张量张量的基本概念1.维度标量（0维）向量（1维）矩阵（2维）三维张量2.形状张量运算1.基本运算加法减法乘法除法2.广播3.变形4.转置5.切片6.拼接7.矩阵分解8.梯度运算：深度学习框架中的张量运算1.自动求导2.硬件加速3.高度优化第二部分：数据流动与处理1.磁盘（硬盘或固态硬盘）读取数据写入数据2.内存（RAM）加载程序和数据数据交换3.缓存CPU缓存磁盘缓存4.数
跟李沐学AI：视频生成类论文精读（Movie Gen、HunyuanVideo） Landy_Jay 人工智能
MovieGen：ACastofMediaFoundationModels简介MovieGen是Meta公司提出的一系列内容生成模型，包含了3.2.1预训练数据MovieGen采用大约100M的视频-文本对和1B的图片-文本对进行预训练。图片-文本对的预训练流程与Meta提出的Emu:Enhancingimagegenerationmodelsusingphotogenicneedlesinaha
tensrflow+Python TypeError问题及解决方案（后续持续更新） my_chen_smile tensorflow python typeError tensorflow
TypeError:intreturnednon-int(typeNoneType)错误代码yl是tensorflow里的tensor数据类型ifint(yl.shape.dims[1])%2==1andint(yl.shape.dims[2])%2==1:yl=tf.pad(yl,tf.constant([[0,0],[sz,sz+1],[sz,sz+1],[0,0]]),mode='refle
TensorFlow：tensorflow.keras.Model.fit（）报错： TypeError: Failed to convert elements of xxx 向小凯同学学习 tensorflow keras 人工智能
一、问题在使用TensorFlow进行数据训练的时候，报了下面这样的一个错误。代码如下：importtensorflowastffromutilzimport*importnumpyasnpacoustic=load_features('C:/Test/MSADatasets/data/acoustic_wav2vec.pkl')label=load_features('C:/Test/MSADa
PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络
神经常微分方程（NeuralODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同，NeuralODEs将变换过程视为深度（或时间）的连续函数。这种方法为机器学习开创了新的研究方向，尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。本文将基于Torchdyn（一个专门用于连续深度学习和平衡模型的PyTorch扩展库）
拼多多2025届校招开起，无拼不青春，欢迎加入！！！愤怒的小青春 java
上海微电子装备SMEE社招C++面经流程：总共三面，一面是项目经理，二面是部门经理，三面是人力资源。公司是做光刻机整机的。部门是做硅片对专项练习训练营打卡第一天专项练习训练营打卡第一天实习大家好，我现在是大三暑假，刚刚找到一个实习Linux开发工程师，是第一份实习，现在有必要去吗？我在笔试专项训练营打卡第一天#牛客社群专项练习训练营#那是废物，宝宝~格力一面结构设计记录一下我紧张的人生第一面，面试
Mixture of Experts（MoE）学习笔记南七小僧人工智能网站开发医疗器械研发学习笔记人工智能 MoE 大模型
1学习动机第一次了解到MoE（Mixtureofexperts），是在GPT-4模型架构泄漏事件，听说GPT-4的架构是8个GPT-3级别大小的模型以MoE架构（8*220B）组合成一个万亿参数级别的模型。不过在这之后开源社区并没有对MoE架构进行很多的探索，更多的工作还是聚焦在预训练新的大模型，在Llama2或其他模型上做Fine-tune，以及扩展大模型的ContextLength。12月8号
解决：AttributeError: module ‘tensorflow‘ has no attribute ‘variable_scope‘ 小桥流水---人工智能 Python程序代码 Python常见bug 算法 tensorflow neo4j 人工智能
AttributeError:module'tensorflow'hasnoattribute'variable_scope'报错的原因是，tf.variable_scope在TensorFlow2.x中已经被移除，而它是TensorFlow1.x的一种构建静态图的特性。在TensorFlow2.x中，可以通过tf.name_scope或者直接使用函数和KerasAPI来替代。解决方法（最推荐方法
解决：tf.placeholder(“float“, [None, width]) AttributeError: module ‘tensorflow‘ has no attribute ‘plac 小桥流水---人工智能 Python常见bug 算法 Python程序代码 tensorflow neo4j 人工智能
这个错误表明正在使用TensorFlow2.x，而代码是基于TensorFlow1.x编写的。tf.placeholder是TensorFlow1.x中的特性，在TensorFlow2.x中已经被移除，因为即时执行模式（EagerExecution）取代了静态图的机制。解决方法1.修改代码以兼容TensorFlow2.x在TensorFlow2.x中，可以直接使用普通的Python张量或tf.ke
基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版) 矩阵猫咪 cnn lstm pytorch 注意力机制卷积神经网络长短期记忆网络 Attention
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。在深度学习的众多模型中，卷积神经网络（CNN）和长短期记忆网络（LSTM）因其独特的优势
完美解决TypeError: Unable to convert function return value to a Python type! The signature was () -＞小桥流水---人工智能算法深度学习 Python程序代码 python 开发语言
从报错信息来看，这个问题主要是由于TensorFlow与NumPy版本不兼容引起的。以下是解决这个问题的步骤：问题分析报错信息提到：AmodulethatwascompiledusingNumPy1.xcannotberuninNumPy2.0.2asitmaycrash.表明NumPy版本是2.0.2，而TensorFlow是为NumPy1.x编译的。报错还提到：AttributeError:_
Java RabbitMQ 的作用是什么? 使用场景有哪些？有哪些优缺点? 学习资源网 java-rabbitmq java rabbitmq
JavaRabbitMQ的作用是什么?使用场景有哪些？有哪些优缺点?RabbitMQ是一个开源的消息队列系统，用于在分布式系统中传递消息。它实现了AMQP（AdvancedMessageQueuingProtocol）协议，为应用提供了可靠的消息传递机制。以下是RabbitMQ的作用、使用场景以及优缺点：作用：消息队列：RabbitMQ提供了消息队列的功能，允许应用程序之间异步地传递消息。解耦：R
Ollama 部署 DeepSeek - r1 教程：Windows 与 Linux 篇 Fgaoxing windows linux 人工智能
在人工智能技术飞速发展的今天，能够在本地部署并使用先进的模型成为许多技术爱好者和专业人士的追求。DeepSeek-r1以其出色的性能备受关注，借助Ollama工具，我们可以方便地在Windows和Linux系统上完成部署。下面就为大家详细介绍具体步骤。一、准备工作在开始部署之前，需要确保已经安装了Ollama。如果尚未安装，请按照以下对应系统的安装方法进行操作。（一）Windows系统安装Olla
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

TensorFlow 原生分布式训练机制探究