罗西的思考

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)
- 0x00 摘要
- 0x01 总体流程
  - 1.1 概述
  - 1.2 如何调用
- 0x02 Session
  - 2.1 Session 定义
  - 2.2 构造函数
    - 2.2.1 ResourceManager
      - 2.2.1.1 接口
      - 2.2.1.2 Core
      - 2.2.1.3 拓展
- 0x03 Parser
  - 3.1 定义
  - 3.2 如何组织网络
    - 3.2.1 输入
    - 3.2.2 嵌入层
    - 3.2.3 其它层
      - 3.2.3.1 Reshape层
      - 3.2.3.2 Slice 层
      - 3.2.3.3 Loss
      - 3.2.3.4 简略模型图
  - 3.3 全貌
- 0x04 建立流水线
  - 4.3.1 create_pipeline_internal
  - 4.3.2 create_allreduce_comm
  - 4.3.3 create_datareader
    - 4.3.3.1 建立哪些内容
    - 4.3.3.2 建立reader
    - 4.3.3.3 DataReaderWorkerGroupNorm
    - 4.3.4 小结
  - 4.4 建立嵌入
  - 4.5 建立网络
    - 4.5.1 create_layers
    - 4.5.2 层实现
    - 4.5.3 层与层之间如何串联
- 0x05 训练
- 0xFF 参考

0x00 摘要

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

本文以GitHub 源码文档 https://github.com/NVIDIA-Merlin/HugeCTR/blob/master/docs/python_interface.md 的翻译为基础，并且结合源码进行分析。其中借鉴了HugeCTR源码阅读这篇大作，特此感谢。

为了更好的说明，下面类定义之中，只保留其成员变量，成员函数会等到分析时候才会给出。

本系列其他代码为：

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器 --(1)

0x01 总体流程

1.1 概述

HugeCTR 训练的过程可以看作是数据并行+模型并行。

数据并行是：每张 GPU卡可以同时读取不同的数据来做训练。
模型并行是：Sparse 参数可以被分布式存储到不同 GPU，不同 Node 之上，每个 GPU 分配部分 Sparse 参数。

训练流程如下：

首先构建三级流水线，初始化模型网络。初始化参数和优化器状态。
Reader 会从数据集加载一个 batch 的数据，放入 Host 内存之中。
开始解析数据，得到 sparse 参数，dense 参数，label 等等。
嵌入层进行前向传播，即从参数服务器读取 embedding，进行处理。
对于网络层进行前向传播和后向传播，具体区分是多卡，单卡，多机，单机等。
嵌入层反向操作。
多卡之间交换 dense 参数的梯度。
嵌入层更新 sparse 参数。就是把反向计算得到的参数梯度推送到参数服务器，由参数服务器根据梯度更新参数。

1.2 如何调用

我们从一个例子中可以看到，总体逻辑和单机很像，就是解析配置，使用 session 来读取数据，训练等等，其中 vvgpu 是 device map。

# train.py
import sys
import hugectr
from mpi4py import MPI

def train(json_config_file):
  solver_config = hugectr.solver_parser_helper(batchsize = 16384,
                                               batchsize_eval = 16384,
                                               vvgpu = [[0,1,2,3,4,5,6,7]],
                                               repeat_dataset = True)
  sess = hugectr.Session(solver_config, json_config_file)
  sess.start_data_reading()
  for i in range(10000):
    sess.train()
    if (i % 100 == 0):
      loss = sess.get_current_loss()

if __name__ == "__main__":
  json_config_file = sys.argv[1]
  train(json_config_file)

0x02 Session

既然知道了 Session 是核心，我们就通过 Session 看看如何构建 HugeCTR。

2.1 Session 定义

我们首先看看Session的定义，只保留其成员变量，可以看到其主要是：

networks_ ：模型网络信息。
embeddings_ ：模型嵌入层信息。
ExchangeWgrad ：交换梯度的类。
evaluate_data_reader_ ：读取 evalution。
train_data_reader_ ：读取训练数据到嵌入层。
resource_manager_ ：GPU 资源，比如 handle 和 Stream。

class Session {
 public:
  Session(const SolverParser& solver_config, const std::string& config_file);
  Session(const Session&) = delete;
  Session& operator=(const Session&) = delete;

 private:
  std::vector> networks_;      /**< networks (dense) used in training. */
  std::vector> embeddings_; /**< embedding */
  std::shared_ptr init_data_reader_;
  std::shared_ptr
      train_data_reader_; /**< data reader to reading data from data set to embedding. */
  std::shared_ptr evaluate_data_reader_; /**< data reader for evaluation. */
  std::shared_ptr
      resource_manager_; /**< GPU resources include handles and streams etc.*/
  std::shared_ptr parser_;
  std::shared_ptr exchange_wgrad_;

  metrics::Metrics metrics_;
  SolverParser solver_config_;

  struct HolisticCudaGraph {
    std::vector initialized;
    std::vector instance;
    std::vector fork_event;
  } train_graph_;

  // TODO: these two variables for export_predictions.
  // There may be a better place for them.
  bool use_mixed_precision_;
  size_t batchsize_eval_;
};

2.2 构造函数

构造函数大致分为以下步骤：

使用 create_pipeline 创建流水线。
初始化模型网络。
初始化参数和优化器状态。

Session::Session(const SolverParser& solver_config, const std::string& config_file)
    : resource_manager_(ResourceManagerExt::create(solver_config.vvgpu, solver_config.seed,
                                                   solver_config.device_layout)),
      solver_config_(solver_config) {
        
  // 检查设备      
  for (auto dev : resource_manager_->get_local_gpu_device_id_list()) {
    if (solver_config.use_mixed_precision) {
      check_device(dev, 7,
                   0);  // to support mixed precision training earliest supported device is CC=70
    } else {
      check_device(dev, 6, 0);  // earliest supported device is CC=60
    }
  }

  // 生成 Parser，用来解析配置      
  parser_.reset(new Parser(config_file, solver_config.batchsize, solver_config.batchsize_eval,
                           solver_config.num_epochs < 1, solver_config.i64_input_key,
                           solver_config.use_mixed_precision, solver_config.enable_tf32_compute,
                           solver_config.scaler, solver_config.use_algorithm_search,
                           solver_config.use_cuda_graph));

  // 建立流水线      
  parser_->create_pipeline(init_data_reader_, train_data_reader_, evaluate_data_reader_,
                           embeddings_, networks_, resource_manager_, exchange_wgrad_);

#ifndef DATA_READING_TEST
#pragma omp parallel num_threads(networks_.size())
  {
    // 多线程并行初始化模型
    size_t id = omp_get_thread_num();
    networks_[id]->initialize();
    if (solver_config.use_algorithm_search) {
      networks_[id]->search_algorithm();
    }
    CK_CUDA_THROW_(cudaStreamSynchronize(resource_manager_->get_local_gpu(id)->get_stream()));
  }
#endif

  // 加载dense feature需要的参数      
  init_or_load_params_for_dense_(solver_config.model_file);
  // 加载sparse feature需要的参数
  init_or_load_params_for_sparse_(solver_config.embedding_files);

  // 加载信息      
  load_opt_states_for_sparse_(solver_config.sparse_opt_states_files);
  load_opt_states_for_dense_(solver_config.dense_opt_states_file);

  int num_total_gpus = resource_manager_->get_global_gpu_count();
  for (const auto& metric : solver_config.metrics_spec) {
    metrics_.emplace_back(
        std::move(metrics::Metric::Create(metric.first, solver_config.use_mixed_precision,
                                          solver_config.batchsize_eval / num_total_gpus,
                                          solver_config.max_eval_batches, resource_manager_)));
  }

  if (solver_config_.use_holistic_cuda_graph) {
    train_graph_.initialized.resize(networks_.size(), false);
    train_graph_.instance.resize(networks_.size());
    for (size_t i = 0; i < resource_manager_->get_local_gpu_count(); i++) {
      auto& gpu_resource = resource_manager_->get_local_gpu(i);
      CudaCPUDeviceContext context(gpu_resource->get_device_id());
      cudaEvent_t event;
      CK_CUDA_THROW_(cudaEventCreateWithFlags(&event, cudaEventDisableTiming));
      train_graph_.fork_event.push_back(event);
    }
  }

  if (embeddings_.size() == 1) {
    auto lr_scheds = embeddings_[0]->get_learning_rate_schedulers();
    for (size_t i = 0; i < lr_scheds.size(); i++) {
      networks_[i]->set_learning_rate_scheduler(lr_scheds[i]);
    }
  }
}

这里有几个相关类需要注意一下。

2.2.1 ResourceManager

我们首先看看 ResourceManager。

2.2.1.1 接口

首先是两个接口，ResourceManagerBase 是最顶层接口，ResourceManager 进行了扩展。

/**
 * @brief Top-level ResourceManager interface
 *
 * The top level resource manager interface shared by various components
 */
class ResourceManagerBase {
 public:
  virtual void set_local_gpu(std::shared_ptr gpu_resource, size_t local_gpu_id) = 0;
  virtual const std::shared_ptr& get_local_gpu(size_t local_gpu_id) const = 0;
  virtual size_t get_local_gpu_count() const = 0;
  virtual size_t get_global_gpu_count() const = 0;
};

/**
 * @brief Second-level ResourceManager interface
 *
 * The second level resource manager interface shared by training and inference
 */
class ResourceManager : public ResourceManagerBase {
   // 省略了函数定义
}

2.2.1.2 Core

然后是核心实现：ResourceManagerCore，这里记录了各种资源。

/**
 * @brief GPU resources manager which holds the minimal, essential set of resources
 *
 * A core GPU Resource manager
 */
class ResourceManagerCore : public ResourceManager {
 private:
  int num_process_;
  int process_id_;
  DeviceMap device_map_;
  std::shared_ptr cpu_resource_;
  std::vector> gpu_resources_; /**< GPU resource vector */
  std::vector> p2p_matrix_;

  std::vector> base_cuda_mr_;
  std::vector> memory_resource_;
}

2.2.1.3 拓展

ResourceManagerExt 是在 ResourceManagerCore 基础之上进行再次封装，其核心就是 core_，这是一个 ResourceManagerCore 类型。我们用 ResourceManagerExt 来分析。

/**
 * @brief GPU resources manager which holds all the resources required by training
 *
 * An extended GPU Resource manager
 */
class ResourceManagerExt : public ResourceManager {
  std::shared_ptr core_;

#ifdef ENABLE_MPI
  std::unique_ptr ib_comm_ = NULL;
#endif
  std::shared_ptr ar_comm_ = NULL;
};

其创建代码如下，可以看到其利用 MPI 做了一些通信上的配置：

std::shared_ptr ResourceManagerExt::create(
    const std::vector>& visible_devices, unsigned long long seed,
    DeviceMap::Layout layout) {
  
  int size = 1, rank = 0;

#ifdef ENABLE_MPI
  HCTR_MPI_THROW(MPI_Comm_size(MPI_COMM_WORLD, &size));
  HCTR_MPI_THROW(MPI_Comm_rank(MPI_COMM_WORLD, &rank));
#endif

  DeviceMap device_map(visible_devices, rank, layout);

  std::random_device rd;
  if (seed == 0) {
    seed = rd();
  }

#ifdef ENABLE_MPI
  HCTR_MPI_THROW(MPI_Bcast(&seed, 1, MPI_UNSIGNED_LONG_LONG, 0, MPI_COMM_WORLD));
#endif

  std::shared_ptr core(
      new ResourceManagerCore(size, rank, std::move(device_map), seed));

  return std::shared_ptr(new ResourceManagerExt(core));
}

ResourceManagerExt::ResourceManagerExt(std::shared_ptr core) : core_(core) {
#ifdef ENABLE_MPI
  int num_process = get_num_process();
  if (num_process > 1) {
    int process_id = get_process_id();
    ib_comm_ = std::make_unique();
    ib_comm_->init(num_process, get_local_gpu_count(), process_id, get_local_gpu_device_id_list());
  }
#endif
}

void ResourceManagerExt::set_ar_comm(AllReduceAlgo algo, bool use_mixed_precision) {
  int num_process = get_num_process();
#ifdef ENABLE_MPI
  ar_comm_ = AllReduceInPlaceComm::create(num_process, algo, use_mixed_precision, get_local_gpus(),
                                          ib_comm_.get());
#else
  ar_comm_ = AllReduceInPlaceComm::create(num_process, algo, use_mixed_precision, get_local_gpus());
#endif
}

具体资源上的配置还是调用了 core_ 来完成。

// from ResourceManagerBase
void set_local_gpu(std::shared_ptr gpu_resource, size_t local_gpu_id) override {
  core_->set_local_gpu(gpu_resource, local_gpu_id);
}
const std::shared_ptr& get_local_gpu(size_t local_gpu_id) const override {
  return core_->get_local_gpu(local_gpu_id);
}
size_t get_local_gpu_count() const override { return core_->get_local_gpu_count(); }
size_t get_global_gpu_count() const override { return core_->get_global_gpu_count(); }

// from ResourceManager
int get_num_process() const override { return core_->get_num_process(); }
int get_process_id() const override { return core_->get_process_id(); }

0x03 Parser

前面提到了Parser，我们接下来就看看。Parser 负责解析配置文件，建立流水线。其类似的支撑文件还有 SolverParser，Solver，InferenceParser 等等。可以说，Parser 是自动化运作的关键，是支撑系统的灵魂。

3.1 定义

/**
 * @brief The parser of configure file (in json format).
 *
 * The builder of each layer / optimizer in HugeCTR.
 * Please see User Guide to learn how to write a configure file.
 * @verbatim
 * Some Restrictions:
 *  1. Embedding should be the first element of layers.
 *  2. layers should be listed from bottom to top.
 * @endverbatim
 */
class Parser {
 private:
  nlohmann::json config_;  /**< configure file. */
  size_t batch_size_;      /**< batch size. */
  size_t batch_size_eval_; /**< batch size. */
  const bool repeat_dataset_;
  const bool i64_input_key_{false};
  const bool use_mixed_precision_{false};
  const bool enable_tf32_compute_{false};

  const float scaler_{1.f};
  const bool use_algorithm_search_;
  const bool use_cuda_graph_;
  bool grouped_all_reduce_ = false;
}

我们接下来的这些分析，其实都是调用了 Parser 或者其相关类。

3.2 如何组织网络

我们首先看看配置文件，看看其中是如何组织一个模型网络，这里以 test/scripts/deepfm_8gpu.json 为例。

这里需要说明一下 json 字段的作用：

bottom_names: 本层的输入张量名字。
top_names: 本层的输出张量名字。

所以，模型就是通过 bottom 和 top 从下往上组织起来的。

3.2.1 输入

输入层如下，dense 是 slice 层的输入，Sparse 是sparse_embedding1 的输入，其中包含了 26 个 slots。

{
  "name": "data",
  "type": "Data",
  "source": "./file_list.txt",
  "eval_source": "./file_list_test.txt",
  "check": "Sum",
  "label": {
    "top": "label",
    "label_dim": 1
  },
  "dense": {
    "top": "dense",
    "dense_dim": 13
  },
  "sparse": [
    {
      "top": "data1",
      "slot_num": 26,
      "is_fixed_length": false,
      "nnz_per_slot": 2
    }
  ]
},

此时模型图如下：

3.2.2 嵌入层

我们看看其定义：

embedding_vec_size 是向量维度。
combiner ：查找得到向量之后，如何做pooling，是做sum还是avg。
workspace_size_per_gpu_in_mb ：每个GPU之上的内存大小。

{
  "name": "sparse_embedding1",
  "type": "DistributedSlotSparseEmbeddingHash",
  "bottom": "data1",
  "top": "sparse_embedding1",
  "sparse_embedding_hparam": {
    "embedding_vec_size": 11,
    "combiner": "sum",
    "workspace_size_per_gpu_in_mb": 10
  }
},

此时模型如下：

3.2.3 其它层

这里我们把其它层也包括进来，就是目前输入数据和嵌入层的再上一层，我们省略了很多层，这里只是给大家一个大致的逻辑。

3.2.3.1 Reshape层

Reshape 层把一个 3D 输入转换为 2D 形状。此层是嵌入层的消费者。

{
  "name": "reshape1",
  "type": "Reshape",
  "bottom": "sparse_embedding1",
  "top": "reshape1",
  "leading_dim": 11
},

3.2.3.2 Slice 层

Slice 层把一个bottom分解成多个top。

{
  "name": "slice2",
  "type": "Slice",
  "bottom": "dense",
  "ranges": [
    [
      0,
      13
    ],
    [
      0,
      13
    ]
  ],
  "top": [
    "slice21",
    "slice22"
  ]
},

3.2.3.3 Loss

这就是我们最终的损失层，label直接会输出到这里。

{
  "name": "loss",
  "type": "BinaryCrossEntropyLoss",
  "bottom": [
    "add",
    "label"
  ],
  "top": "loss"
}

3.2.3.4 简略模型图

目前逻辑如下，是从下往上组织的模型，我们省略了其他部分：

3.3 全貌

我们对每个层进行精简，省略内部标签，把配置文件中所有层都整理出来，看看一个DeepFM在HugeCTR之中的整体架构。

0x04 建立流水线

我们接着看如何建立流水线。Create_pipeline 函数是用来构建流水线的，其就是转移给了create_pipeline_internal 方法。

void Parser::create_pipeline(std::shared_ptr& init_data_reader,
                             std::shared_ptr& train_data_reader,
                             std::shared_ptr& evaluate_data_reader,
                             std::vector>& embeddings,
                             std::vector>& networks,
                             const std::shared_ptr& resource_manager,
                             std::shared_ptr& exchange_wgrad) {
  if (i64_input_key_) {
    create_pipeline_internal(init_data_reader, train_data_reader, evaluate_data_reader,
                                        embeddings, networks, resource_manager, exchange_wgrad);
  } else {
    create_pipeline_internal(init_data_reader, train_data_reader,
                                           evaluate_data_reader, embeddings, networks,
                                           resource_manager, exchange_wgrad);
  }
}

4.3.1 create_pipeline_internal

create_pipeline_internal 主要包含了四步：

create_allreduce_comm ：建立allreduce通信相关机制。
建立 Data Reader。
建立嵌入层相关机制。
建立网络相关机制，在每张GPU卡之中构建一个network副本。
对梯度交换类进行分配。

template 
void Parser::create_pipeline_internal(std::shared_ptr& init_data_reader,
                                      std::shared_ptr& train_data_reader,
                                      std::shared_ptr& evaluate_data_reader,
                                      std::vector>& embeddings,
                                      std::vector>& networks,
                                      const std::shared_ptr& resource_manager,
                                      std::shared_ptr& exchange_wgrad) {
  try {
    // 建立allreduce通信相关
    create_allreduce_comm(resource_manager, exchange_wgrad);

    std::map> sparse_input_map;
    std::vector train_tensor_entries_list[resource_manager->get_local_gpu_count()];
    std::vector evaluate_tensor_entries_list[resource_manager->get_local_gpu_count()];
    {
      if (!networks.empty()) {
        CK_THROW_(Error_t::WrongInput, "vector network is not empty");
      }

      // 校验网络
      auto j_layers_array = get_json(config_, "layers");
      auto j_optimizer = get_json(config_, "optimizer");
      check_graph(tensor_active_, j_layers_array);

      // Create Data Reader
      // 建立 Data Reader
      {
        // TODO: In using AsyncReader, if the overlap is disabled,
        // scheduling the data reader should be off.
        // THe scheduling needs to be generalized.
        auto j_solver = get_json(config_, "solver");
        auto enable_overlap = get_value_from_json_soft(j_solver, "enable_overlap", false);

        const nlohmann::json& j = j_layers_array[0];
        create_datareader()(j, sparse_input_map, train_tensor_entries_list,
                                     evaluate_tensor_entries_list, init_data_reader,
                                     train_data_reader, evaluate_data_reader, batch_size_,
                                     batch_size_eval_, use_mixed_precision_, repeat_dataset_,
                                     enable_overlap, resource_manager);
      }  // Create Data Reader

      // Create Embedding
      {
        for (unsigned int i = 1; i < j_layers_array.size(); i++) {
          // 网路配置的每层是从底到上，因此只要遇到非嵌入层，就不检查其后的层了          
          // if not embedding then break
          const nlohmann::json& j = j_layers_array[i];
          auto embedding_name = get_value_from_json(j, "type");
          Embedding_t embedding_type;
          if (!find_item_in_map(embedding_type, embedding_name, EMBEDDING_TYPE_MAP)) {
            Layer_t layer_type;
            if (!find_item_in_map(layer_type, embedding_name, LAYER_TYPE_MAP) &&
                !find_item_in_map(layer_type, embedding_name, LAYER_TYPE_MAP_MP)) {
              CK_THROW_(Error_t::WrongInput, "No such layer: " + embedding_name);
            }
            break;
          }

          // 建立嵌入层
          if (use_mixed_precision_) {
            create_embedding()(
                sparse_input_map, train_tensor_entries_list, evaluate_tensor_entries_list,
                embeddings, embedding_type, config_, resource_manager, batch_size_,
                batch_size_eval_, exchange_wgrad, use_mixed_precision_, scaler_, j, use_cuda_graph_,
                grouped_all_reduce_);
          } else {
            create_embedding()(
                sparse_input_map, train_tensor_entries_list, evaluate_tensor_entries_list,
                embeddings, embedding_type, config_, resource_manager, batch_size_,
                batch_size_eval_, exchange_wgrad, use_mixed_precision_, scaler_, j, use_cuda_graph_,
                grouped_all_reduce_);
          }
        }  // for ()
      }    // Create Embedding

      // 建立网络层
      // create network
      int total_gpu_count = resource_manager->get_global_gpu_count();
      if (0 != batch_size_ % total_gpu_count) {
        CK_THROW_(Error_t::WrongInput, "0 != batch_size\%total_gpu_count");
      }
      
      // create network，在每张GPU卡之中构建一个network副本
      for (size_t i = 0; i < resource_manager->get_local_gpu_count(); i++) {
        networks.emplace_back(Network::create_network(
            j_layers_array, j_optimizer, train_tensor_entries_list[i],
            evaluate_tensor_entries_list[i], total_gpu_count, exchange_wgrad,
            resource_manager->get_local_cpu(), resource_manager->get_local_gpu(i),
            use_mixed_precision_, enable_tf32_compute_, scaler_, use_algorithm_search_,
            use_cuda_graph_, false, grouped_all_reduce_));
      }
    }
    exchange_wgrad->allocate(); // 建立梯度交换类

  } catch (const std::runtime_error& rt_err) {
    std::cerr << rt_err.what() << std::endl;
    throw;
  }
}

4.3.2 create_allreduce_comm

create_allreduce_comm 的功能是设置通信算法，比如建立 AllReduceInPlaceComm，构建 GroupedExchangeWgrad。

void Parser::create_allreduce_comm(const std::shared_ptr& resource_manager,
                                   std::shared_ptr& exchange_wgrad) {
  auto ar_algo = AllReduceAlgo::NCCL;
  bool grouped_all_reduce = false;
  
  // 获取通信算法配置
  if (has_key_(config_, "all_reduce")) {
    auto j_all_reduce = get_json(config_, "all_reduce");
    std::string ar_algo_name = "Oneshot";
    if (has_key_(j_all_reduce, "algo")) {
      ar_algo_name = get_value_from_json(j_all_reduce, "algo");
    }
    if (has_key_(j_all_reduce, "grouped")) {
      grouped_all_reduce = get_value_from_json(j_all_reduce, "grouped");
    }
    if (!find_item_in_map(ar_algo, ar_algo_name, ALLREDUCE_ALGO_MAP)) {
      CK_THROW_(Error_t::WrongInput, "All reduce algo unknown: " + ar_algo_name);
    }
  }

  // 设置通信算法，比如建立 AllReduceInPlaceComm
  resource_manager->set_ar_comm(ar_algo, use_mixed_precision_);

  // 构建 GroupedExchangeWgrad
  grouped_all_reduce_ = grouped_all_reduce;
  if (grouped_all_reduce_) {
    if (use_mixed_precision_) {
      exchange_wgrad = std::make_shared>(resource_manager);
    } else {
      exchange_wgrad = std::make_shared>(resource_manager);
    }
  } else {
    if (use_mixed_precision_) {
      exchange_wgrad = std::make_shared>(resource_manager);
    } else {
      exchange_wgrad = std::make_shared>(resource_manager);
    }
  }
}

其中 GroupedExchangeWgrad 是用来交换梯度的。

template 
class GroupedExchangeWgrad : public ExchangeWgrad {
 public:
  const BuffPtrs& get_network_wgrad_buffs() const { return network_wgrad_buffs_; }
  const BuffPtrs& get_embed_wgrad_buffs() const { return embed_wgrad_buffs_; }
  void allocate() final;
  void update_embed_wgrad_size(size_t size) final;
  void allreduce(size_t device_id, cudaStream_t stream);
  GroupedExchangeWgrad(const std::shared_ptr& resource_manager);
  ~GroupedExchangeWgrad() = default;

 private:
  BuffPtrs network_wgrad_buffs_;
  BuffPtrs embed_wgrad_buffs_;
  std::vector>> bufs_;
  std::shared_ptr resource_manager_;

  AllReduceInPlaceComm::Handle ar_handle_;

  size_t network_wgrad_size_ = 0;
  size_t embed_wgrad_size_ = 0;
  size_t num_gpus_ = 0;
};

比如通过allreduce进行交换：

template 
void GroupedExchangeWgrad::allreduce(size_t device_id, cudaStream_t stream) {
  auto ar_comm = resource_manager_->get_ar_comm();
  ar_comm->all_reduce(ar_handle_, stream, device_id);
}

4.3.3 create_datareader

DataReader 是流水线的主体，它实际包含了流水线的前两级：data reader worker 与 data collector。

4.3.3.1 建立哪些内容

create_datareader 的调用如下，

create_datareader()(j, sparse_input_map, train_tensor_entries_list,
                                 evaluate_tensor_entries_list, init_data_reader,
                                 train_data_reader, evaluate_data_reader, batch_size_,
                                 batch_size_eval_, use_mixed_precision_, repeat_dataset_,
                                 enable_overlap, resource_manager);

回忆一下，在下面代码之中会调用到create_datareader创建了几个 reader。

parser_->create_pipeline(init_data_reader_, train_data_reader_, evaluate_data_reader_,
                         embeddings_, networks_, resource_manager_, exchange_wgrad_);

其实就是 Session 之中的几个成员变量，比如：

std::shared_ptr init_data_reader_;
std::shared_ptr train_data_reader_; /**< data reader to reading data from data set to embedding. */
std::shared_ptr evaluate_data_reader_; /**< data reader for evaluation. */

分别用于训练，评估。

4.3.3.2 建立reader

因为代码太长，我们只保留部分关键代码。我们先看create_datareader里面做了什么：这里有两个 reader，一个train_data_reader和一个evaluate_data_reader，也就是一个用于训练，一个用于评估。然后会为他们建立workgroup。

对于Reader，HugeCTR 提供了三种实现：

Norm：普通文件读取。
Parquet ：parquet格式的文件。
Raw：Raw 数据集格式与 Norm 数据集格式的不同之处在于训练数据出现在一个二进制文件中。

template 
void create_datareader::operator()(

    switch (format) {
      case DataReaderType_t::Norm: {
        bool start_right_now = repeat_dataset;
        train_data_reader->create_drwg_norm(source_data, check_type, start_right_now);
        evaluate_data_reader->create_drwg_norm(eval_source, check_type, start_right_now);
        break;
      }
      case DataReaderType_t::Raw: {
        const auto num_samples = get_value_from_json(j, "num_samples");
        const auto eval_num_samples = get_value_from_json(j, "eval_num_samples");
        std::vector slot_offset = f();
        bool float_label_dense = get_value_from_json_soft(j, "float_label_dense", false);
        train_data_reader->create_drwg_raw(source_data, num_samples, float_label_dense, true,
                                           false);
        evaluate_data_reader->create_drwg_raw(eval_source, eval_num_samples, float_label_dense,
                                              false, false);

        break;
      }
      case DataReaderType_t::Parquet: {
        // @Future: Should be slot_offset here and data_reader ctor should
        // be TypeKey not long long
        std::vector slot_offset = f();
        train_data_reader->create_drwg_parquet(source_data, slot_offset, true);
        evaluate_data_reader->create_drwg_parquet(eval_source, slot_offset, true);
        break;
      }
    }
}

我们以 norm 为例进行解析，首先提一下，其内部建立了 WorkerGroup。

void create_drwg_norm(std::string file_name, Check_t check_type,
                      bool start_reading_from_beginning = true) override {
  source_type_ = SourceType_t::FileList;
  worker_group_.reset(new DataReaderWorkerGroupNorm(
      thread_buffers_, resource_manager_, file_name, repeat_, check_type, params_,
      start_reading_from_beginning));
  file_name_ = file_name;
}

4.3.3.3 DataReaderWorkerGroupNorm

在 DataReaderWorkerGroupNorm 之中，建立了DataReaderWorker，其中 file_list_ 是需要读取的数据文件。

template 
class DataReaderWorkerGroupNorm : public DataReaderWorkerGroup {
  
  std::string file_list_; /**< file list of data set */

  std::shared_ptr create_source(size_t worker_id, size_t num_worker,
                                        const std::string &file_name, bool repeat) override {
    return std::make_shared(worker_id, num_worker, file_name, repeat);
  }

 public:
  // Ctor
  DataReaderWorkerGroupNorm(const std::vector> &output_buffers,
                            const std::shared_ptr &resource_manager_,
                            std::string file_list, bool repeat, Check_t check_type,
                            const std::vector ¶ms,
                            bool start_reading_from_beginning = true)
      : DataReaderWorkerGroup(start_reading_from_beginning, DataReaderType_t::Norm) {

    int num_threads = output_buffers.size();
    size_t local_gpu_count = resource_manager_->get_local_gpu_count();

    // create data reader workers
    int max_feature_num_per_sample = 0;
    for (auto ¶m : params) {
      max_feature_num_per_sample += param.max_feature_num;
    }

    set_resource_manager(resource_manager_);
    for (int i = 0; i < num_threads; i++) {
      std::shared_ptr data_reader(new DataReaderWorker(
          i, num_threads, resource_manager_->get_local_gpu(i % local_gpu_count),
          &data_reader_loop_flag_, output_buffers[i], file_list, max_feature_num_per_sample, repeat,
          check_type, params));
      data_readers_.push_back(data_reader);
    }
    create_data_reader_threads();
  }
};

然后创建了多个线程 data_reader_threads_ 分别运行这些 woker。

  /**
   * Create threads to run data reader workers
>>>>>>> v3.1_preview
   */
  void create_data_reader_threads() {

    size_t local_gpu_count = resource_manager_->get_local_gpu_count();

    for (size_t i = 0; i < data_readers_.size(); ++i) {
      auto local_gpu = resource_manager_->get_local_gpu(i % local_gpu_count);
      data_reader_threads_.emplace_back(data_reader_thread_func_, data_readers_[i],
                                        &data_reader_loop_flag_, local_gpu->get_device_id());
    }
  }

4.3.4 小结

我们总结一下。DataReader 包含了流水线的前两级，目前分析之涉及到了第一级。在 Reader之中，有一个 worker group，里面包含了若干worker，也有若干对应线程来运行这些 worker， Data Reader worker 就是流水线第一级。第二级 collecotr 我们会暂时跳过去在下一章进行介绍。

4.4 建立嵌入

我们直接调过来看流水线第三级，如下代码建立了嵌入。

create_embedding()(
            sparse_input_map, train_tensor_entries_list, evaluate_tensor_entries_list,
            embeddings, embedding_type, config_, resource_manager, batch_size_,
            batch_size_eval_, exchange_wgrad, use_mixed_precision_, scaler_, j, use_cuda_graph_,
            grouped_all_reduce_);

这里建立了一些embedding，比如DistributedSlotSparseEmbeddingHash。

如前文所述，HugeCTR 包含了若干 Hash，比如：

LocalizedSlotEmbeddingHash：同一个槽（特征域）中的特征会存储在一个GPU中，这就是为什么它被称为“本地化槽”，根据槽的索引号，不同的槽可能存储在不同的GPU中。
DistributedSlotEmbeddingHash：所有特征都存储于不同特征域/槽上，不管槽索引号是多少，这些特征都根据特征的索引号分布到不同的GPU上。这意味着同一插槽中的特征可能存储在不同的 GPU 中，这就是将其称为“分布式插槽”的原因。

以下代码省略了很多，有兴趣的读者可以深入源码进行阅读。

template 
void create_embedding::operator()(
    std::map>& sparse_input_map,
    std::vector* train_tensor_entries_list,
    std::vector* evaluate_tensor_entries_list,
    std::vector>& embeddings, Embedding_t embedding_type,
    const nlohmann::json& config, const std::shared_ptr& resource_manager,
    size_t batch_size, size_t batch_size_eval, std::shared_ptr& exchange_wgrad,
    bool use_mixed_precision, float scaler, const nlohmann::json& j_layers, bool use_cuda_graph,
    bool grouped_all_reduce) {
  
#ifdef ENABLE_MPI
  int num_procs = 1, pid = 0; // 建立 MPI相关
  MPI_Comm_rank(MPI_COMM_WORLD, &pid);
  MPI_Comm_size(MPI_COMM_WORLD, &num_procs);
#endif

  // 从配置文件之中读取
  auto j_optimizer = get_json(config, "optimizer");
  auto embedding_name = get_value_from_json(j_layers, "type");
  auto bottom_name = get_value_from_json(j_layers, "bottom");
  auto top_name = get_value_from_json(j_layers, "top");
  auto j_hparam = get_json(j_layers, "sparse_embedding_hparam");
  size_t workspace_size_per_gpu_in_mb =
      get_value_from_json_soft(j_hparam, "workspace_size_per_gpu_in_mb", 0);
  auto embedding_vec_size = get_value_from_json(j_hparam, "embedding_vec_size");
  size_t max_vocabulary_size_per_gpu =
      (workspace_size_per_gpu_in_mb * 1024 * 1024) / (sizeof(float) * embedding_vec_size);
  auto combiner_str = get_value_from_json(j_hparam, "combiner");

  int combiner; // 设定combiner方法
  if (combiner_str == "sum") {
    combiner = 0;
  } else if (combiner_str == "mean") {
    combiner = 1;
  } else {
    CK_THROW_(Error_t::WrongInput, "No such combiner type: " + combiner_str);
  }

  // 设定slot配置
  std::vector slot_size_array;
  if (has_key_(j_hparam, "slot_size_array")) {
    auto slots = get_json(j_hparam, "slot_size_array");
    assert(slots.is_array());
    for (auto slot : slots) {
      slot_size_array.emplace_back(slot.get());
    }
  }

  SparseInput sparse_input;
  
  // 设定优化器配置
  OptParams embedding_opt_params;
  if (has_key_(j_layers, "optimizer")) {
    embedding_opt_params = get_optimizer_param(get_json(j_layers, "optimizer"));
  } else {
    embedding_opt_params = get_optimizer_param(j_optimizer);
  }
  embedding_opt_params.scaler = scaler;

  // 建立不同的hash
  switch (embedding_type) {
    case Embedding_t::DistributedSlotSparseEmbeddingHash: {
      const SparseEmbeddingHashParams embedding_params = {batch_size,
                                                          batch_size_eval,
                                                          max_vocabulary_size_per_gpu,
                                                          {},
                                                          embedding_vec_size,
                                                          sparse_input.max_feature_num_per_sample,
                                                          sparse_input.slot_num,
                                                          combiner,  // combiner: 0-sum, 1-mean
                                                          embedding_opt_params};

      embeddings.emplace_back(new DistributedSlotSparseEmbeddingHash(
          sparse_input.train_sparse_tensors, sparse_input.evaluate_sparse_tensors, embedding_params,
          resource_manager));
      break;
    }
    case Embedding_t::LocalizedSlotSparseEmbeddingHash: {
      const SparseEmbeddingHashParams embedding_params = {batch_size,
                                                          batch_size_eval,
                                                          max_vocabulary_size_per_gpu,
                                                          slot_size_array,
                                                          embedding_vec_size,
                                                          sparse_input.max_feature_num_per_sample,
                                                          sparse_input.slot_num,
                                                          combiner,  // combiner: 0-sum, 1-mean
                                                          embedding_opt_params};

      embeddings.emplace_back(new LocalizedSlotSparseEmbeddingHash(
          sparse_input.train_sparse_tensors, sparse_input.evaluate_sparse_tensors, embedding_params,
          resource_manager));

      break;
    }
    case Embedding_t::LocalizedSlotSparseEmbeddingOneHot: {
      const SparseEmbeddingHashParams embedding_params = {...};
      embeddings.emplace_back(new LocalizedSlotSparseEmbeddingOneHot(
          sparse_input.train_sparse_tensors, sparse_input.evaluate_sparse_tensors, embedding_params,
          resource_manager));

      break;
    }
    case Embedding_t::HybridSparseEmbedding: {
      const HybridSparseEmbeddingParams embedding_params = {...};
      embeddings.emplace_back(new HybridSparseEmbedding(
          sparse_input.train_sparse_tensors, sparse_input.evaluate_sparse_tensors, embedding_params,
          embed_wgrad_buff, get_gpu_learning_rate_schedulers(config, resource_manager), graph_mode,
          resource_manager));
      break;
    }

  }  // switch
  
}

4.5 建立网络

接下来是建立网络环节，这部分过后，hugeCTR系统就正式建立起来，可以进行训练了，大体逻辑是：

进行GPU内存分配，这里大量使用了 create_block，其中就是 BufferBlockImpl。
建立训练网络层。
建立评估网络层。
建立优化器。
初始化网络其他信息。

Network* Network::create_network(const nlohmann::json& j_array, const nlohmann::json& j_optimizer,
                                 std::vector& train_tensor_entries,
                                 std::vector& evaluate_tensor_entries,
                                 int num_networks_in_global,
                                 std::shared_ptr& exchange_wgrad,
                                 const std::shared_ptr& cpu_resource,
                                 const std::shared_ptr& gpu_resource,
                                 bool use_mixed_precision, bool enable_tf32_compute, float scaler,
                                 bool use_algorithm_search, bool use_cuda_graph,
                                 bool inference_flag, bool grouped_all_reduce) {
  Network* network = new Network(cpu_resource, gpu_resource, use_mixed_precision, use_cuda_graph);

  auto& train_layers = network->train_layers_;
  auto* bottom_layers = &network->bottom_layers_;
  auto* top_layers = &network->top_layers_;
  auto& evaluate_layers = network->evaluate_layers_;
  auto& train_loss_tensor = network->train_loss_tensor_;
  auto& evaluate_loss_tensor = network->evaluate_loss_tensor_;
  auto& train_loss = network->train_loss_;
  auto& evaluate_loss = network->evaluate_loss_;
  auto& enable_cuda_graph = network->enable_cuda_graph_;
  auto& raw_metrics = network->raw_metrics_;

  // 会进行GPU内存分配，这里大量使用了 create_block，其中就是 BufferBlockImpl
  std::shared_ptr> blobs_buff =
      GeneralBuffer2::create();

  std::shared_ptr> train_weight_buff = blobs_buff->create_block();
  std::shared_ptr> train_weight_buff_half = blobs_buff->create_block<__half>();
  std::shared_ptr> wgrad_buff = nullptr;
  std::shared_ptr> wgrad_buff_half = nullptr;

  if (!inference_flag) {
    if (use_mixed_precision) {
      auto id = gpu_resource->get_local_id();
      wgrad_buff_half =
          (grouped_all_reduce)
              ? std::dynamic_pointer_cast>(exchange_wgrad)
                    ->get_network_wgrad_buffs()[id]
              : std::dynamic_pointer_cast>(exchange_wgrad)
                    ->get_network_wgrad_buffs()[id];
      wgrad_buff = blobs_buff->create_block();  // placeholder
    } else {
      auto id = gpu_resource->get_local_id();
      wgrad_buff = (grouped_all_reduce)
                       ? std::dynamic_pointer_cast>(exchange_wgrad)
                             ->get_network_wgrad_buffs()[id]
                       : std::dynamic_pointer_cast>(exchange_wgrad)
                             ->get_network_wgrad_buffs()[id];
      wgrad_buff_half = blobs_buff->create_block<__half>();  // placeholder
    }
  } else {
    wgrad_buff = blobs_buff->create_block();
    wgrad_buff_half = blobs_buff->create_block<__half>();
  }

  std::shared_ptr> evaluate_weight_buff = blobs_buff->create_block();
  std::shared_ptr> evaluate_weight_buff_half =
      blobs_buff->create_block<__half>();
  std::shared_ptr> wgrad_buff_placeholder = blobs_buff->create_block();
  std::shared_ptr> wgrad_buff_half_placeholder =
      blobs_buff->create_block<__half>();
  std::shared_ptr> opt_buff = blobs_buff->create_block();
  std::shared_ptr> opt_buff_half = blobs_buff->create_block<__half>();

  // 建立训练网络层
  if (!inference_flag) {
    // create train layers
    create_layers(j_array, train_tensor_entries, blobs_buff, train_weight_buff,
                  train_weight_buff_half, wgrad_buff, wgrad_buff_half, train_loss_tensor,
                  gpu_resource, use_mixed_precision, enable_tf32_compute, num_networks_in_global,
                  scaler, enable_cuda_graph, inference_flag, train_layers, train_loss, nullptr,
                  top_layers, bottom_layers);
  }

  // 建立评估网络层
  // create evaluate layers
  create_layers(j_array, evaluate_tensor_entries, blobs_buff, evaluate_weight_buff,
                evaluate_weight_buff_half, wgrad_buff_placeholder, wgrad_buff_half_placeholder,
                evaluate_loss_tensor, gpu_resource, use_mixed_precision, enable_tf32_compute,
                num_networks_in_global, scaler, enable_cuda_graph, inference_flag, evaluate_layers,
                evaluate_loss, &raw_metrics);

  // 建立优化器
  // create optimizer
  if (!inference_flag) {
    if (use_mixed_precision) {
      auto opt_param = get_optimizer_param(j_optimizer);

      network->optimizer_ = std::move(Optimizer::Create(opt_param, train_weight_buff->as_tensor(),
                                                        wgrad_buff_half->as_tensor(), scaler,
                                                        opt_buff_half, gpu_resource));
    } else {
      auto opt_param = get_optimizer_param(j_optimizer);

      network->optimizer_ =
          std::move(Optimizer::Create(opt_param, train_weight_buff->as_tensor(),
                                      wgrad_buff->as_tensor(), scaler, opt_buff, gpu_resource));
    }
  } else {
    try {
      TensorEntry pred_tensor_entry = evaluate_tensor_entries.back();
      if (use_mixed_precision) {
        network->pred_tensor_half_ = Tensor2<__half>::stretch_from(pred_tensor_entry.bag);
      } else {
        network->pred_tensor_ = Tensor2::stretch_from(pred_tensor_entry.bag);
      }
    } catch (const std::runtime_error& rt_err) {
      std::cerr << rt_err.what() << std::endl;
      throw;
    }
  }

  // 初始化网络其他信息
  network->train_weight_tensor_ = train_weight_buff->as_tensor();
  network->train_weight_tensor_half_ = train_weight_buff_half->as_tensor();
  network->wgrad_tensor_ = wgrad_buff->as_tensor();
  network->wgrad_tensor_half_ = wgrad_buff_half->as_tensor();
  network->evaluate_weight_tensor_ = evaluate_weight_buff->as_tensor();
  network->evaluate_weight_tensor_half_ = evaluate_weight_buff_half->as_tensor();
  network->opt_tensor_ = opt_buff->as_tensor();
  network->opt_tensor_half_ = opt_buff_half->as_tensor();

  CudaDeviceContext context(gpu_resource->get_device_id());
  blobs_buff->allocate();

  return network;
}

4.5.1 create_layers

create_layers 有两个版本，分别是HugeCTR/src/parsers/create_network.cpp 和 HugeCTR/src/cpu/create_network_cpu.cpp，我们使用 create_network.cpp 的代码来看看。

其实就是遍历从配置读取的json数组，然后建立每一层，因为层类型太多，所以我们只给出了两个例子。

void create_layers(const nlohmann::json& j_array, std::vector& tensor_entries,
                   const std::shared_ptr>& blobs_buff,
                   const std::shared_ptr>& weight_buff,
                   const std::shared_ptr>& weight_buff_half,
                   const std::shared_ptr>& wgrad_buff,
                   const std::shared_ptr>& wgrad_buff_half,
                   Tensor2& loss_tensor, const std::shared_ptr& gpu_resource,
                   bool use_mixed_precision, bool enable_tf32_compute, int num_networks_in_global,
                   float scaler, bool& enable_cuda_graph, bool inference_flag,
                   std::vector>& layers, std::unique_ptr& loss,
                   metrics::RawMetricMap* raw_metrics, std::vector* top_layers = nullptr,
                   std::vector* bottom_layers = nullptr) {
  
  for (unsigned int i = 1; i < j_array.size(); i++) { // 遍历json数组
    const nlohmann::json& j = j_array[i];
    const auto layer_type_name = get_value_from_json(j, "type");
    Layer_t layer_type;


    std::vector output_tensor_entries;
    // 这里获得本层的输入和输出
    auto input_output_info = get_input_tensor_and_output_name(j, tensor_entries);
    
    switch (layer_type) {
      // 建立对应的每一层
      case Layer_t::ReduceMean: {
        int axis = get_json(j, "axis").get();
        // 本层输入
        Tensor2 in_tensor = Tensor2::stretch_from(input_output_info.inputs[0]);
        Tensor2 out_tensor;
        emplaceback_layer(
            new ReduceMeanLayer(in_tensor, out_tensor, blobs_buff, axis, gpu_resource));
        // 本层输出
        output_tensor_entries.push_back({input_output_info.output_names[0], out_tensor.shrink()});
        break;
      }

      case Layer_t::Softmax: {
        // 本层输入
        Tensor2 in_tensor = Tensor2::stretch_from(input_output_info.inputs[0]);
        Tensor2 out_tensor;
        blobs_buff->reserve(in_tensor.get_dimensions(), &out_tensor);
        // 本层输出
        output_tensor_entries.push_back({input_output_info.output_names[0], out_tensor.shrink()});
        emplaceback_layer(new SoftmaxLayer(in_tensor, out_tensor, blobs_buff, gpu_resource));
        break;
      }
    }  // end of switch
    
  }  // for layers
}

4.5.2 层实现

HugeCTR 属于一个具体而微的深度学习系统，它实现的具体层类型如下：

enum class Layer_t {
  BatchNorm,
  BinaryCrossEntropyLoss,
  Reshape,
  Concat,
  CrossEntropyLoss,
  Dropout,
  ELU,
  InnerProduct,
  FusedInnerProduct,
  Interaction,
  MultiCrossEntropyLoss,
  ReLU,
  ReLUHalf,
  GRU,
  MatrixMultiply,
  Scale,
  FusedReshapeConcat,
  FusedReshapeConcatGeneral,
  Softmax,
  PReLU_Dice,
  ReduceMean,
  Sub,
  Gather,
  Sigmoid,
  Slice,
  WeightMultiply,
  FmOrder2,
  Add,
  ReduceSum,
  MultiCross,
  Cast,
  DotProduct,
  ElementwiseMultiply
};

我们使用 SigmoidLayer 作为例子，大家来看看。

/**
 * Sigmoid activation function as a derived class of Layer
 */
template 
class SigmoidLayer : public Layer {
  /*
   * stores the references to the input tensors of this layer.
   */
  Tensors2 in_tensors_;
  /*
   * stores the references to the output tensors of this layer.
   */
  Tensors2 out_tensors_;

 public:
  /**
   * Ctor of SigmoidLayer.
   * @param in_tensor the input tensor
   * @param out_tensor the output tensor which has the same dim with in_tensor
   * @param device_id the id of GPU where this layer belongs
   */
  SigmoidLayer(const Tensor2& in_tensor, const Tensor2& out_tensor,
               const std::shared_ptr& gpu_resource);

  /**
   * A method of implementing the forward pass of Sigmoid
   * @param stream CUDA stream where the foward propagation is executed
   */
  void fprop(bool is_train) override;
  /**
   * A method of implementing the backward pass of Sigmoid
   * @param stream CUDA stream where the backward propagation is executed
   */
  void bprop() override;
};

其前向传播如下：

template 
void SigmoidLayer::fprop(bool is_train) {
  CudaDeviceContext context(get_device_id());

  int len = in_tensors_[0].get_num_elements();

  auto fop = [] __device__(T in) { return T(1) / (T(1) + exponential(-in)); };

  MLCommon::LinAlg::unaryOp(out_tensors_[0].get_ptr(), in_tensors_[0].get_ptr(), len, fop,
                            get_gpu().get_stream());

#ifndef NDEBUG
  cudaDeviceSynchronize();
  CK_CUDA_THROW_(cudaGetLastError());
#endif
}

其后向传播如下：

template 
void SigmoidLayer::bprop() {
  CudaDeviceContext context(get_device_id());

  int len = in_tensors_[0].get_num_elements();

  auto bop = [] __device__(T d_out, T d_in) {
    T y = T(1) / (T(1) + exponential(-d_in));
    return d_out * y * (T(1) - y);
  };

  MLCommon::LinAlg::binaryOp(in_tensors_[0].get_ptr(), out_tensors_[0].get_ptr(),
                             in_tensors_[0].get_ptr(), len, bop, get_gpu().get_stream());

#ifndef NDEBUG
  cudaDeviceSynchronize();
  CK_CUDA_THROW_(cudaGetLastError());
#endif
}

至此，HugeCTR 已经初始化完毕，接下来可以开始训练了，我们摘录官方HugeCTR_Webinar 之中的图来给大家做一个梳理，这里CSR是嵌入层依赖的数据格式，我们下文会分析。

4.5.3 层与层之间如何串联

我们尚且有一个疑问，那就是层与层之间如何串联起来？

在create_layers之中有如下代码：

// 获取本层的输入和输出
auto input_output_info = get_input_tensor_and_output_name(j, tensor_entries);

get_input_tensor_and_output_name 的代码如下，可以看到，每一层都会记录自己的输入和输出，结合内部解析模块，这些层就建立其了逻辑关系。

static InputOutputInfo get_input_tensor_and_output_name(
    const nlohmann::json& json, const std::vector& tensor_entries) {
  auto bottom = get_json(json, "bottom");
  auto top = get_json(json, "top");

  // 从jason获取输入，输出名字
  std::vector bottom_names = get_layer_names(bottom);
  std::vector top_names = get_layer_names(top);

  std::vector bottom_bags;
  // 把输出组成一个向量列表
  for (auto& bottom_name : bottom_names) {
    for (auto& top_name : top_names) {
      if (bottom_name == top_name) {
        CK_THROW_(Error_t::WrongInput, "bottom and top include a same layer name");
      }
    }
    TensorBag2 bag;
    if (!get_tensor_from_entries(tensor_entries, bottom_name, &bag)) {
      CK_THROW_(Error_t::WrongInput, "No such bottom: " + bottom_name);
    }
    bottom_bags.push_back(bag);
  }
  return {bottom_bags, top_names}; // 返回
}

最终，建立流水线逻辑关系如下：

0x05 训练

具体训练代码逻辑如下：

需要 reader 先读取一个 batchsize 的数据。
开始解析数据。
嵌入层进行前向传播，即从参数服务器读取embedding，进行处理。
对于网络层进行前向传播和后向传播，具体区分是多卡，单卡，多机，单机等。
嵌入层反向操作。
多卡之间交换dense参数的梯度。
嵌入层更新sparse参数。
各个流进行同步。

bool Session::train() {
  try {
    // 确保 train_data_reader_ 已经启动
    if (train_data_reader_->is_started() == false) {
      CK_THROW_(Error_t::IllegalCall,
                "Start the data reader first before calling Session::train()");
    }

#ifndef DATA_READING_TEST
    // 需要 reader 先读取一个 batchsize 的数据。
    long long current_batchsize = train_data_reader_->read_a_batch_to_device_delay_release();
    if (!current_batchsize) {
      return false; // 读不到就退出，没有数据了
    }
    #pragma omp parallel num_threads(networks_.size()) //其后语句将被networks_.size()个线程并行执行
    { 
      
      size_t id = omp_get_thread_num();
      CudaCPUDeviceContext ctx(resource_manager_->get_local_gpu(id)->get_device_id());
      cudaStreamSynchronize(resource_manager_->get_local_gpu(id)->get_stream());
    }
    // reader 可以开始解析数据
    train_data_reader_->ready_to_collect();
#ifdef ENABLE_PROFILING
    global_profiler.iter_check();
#endif

    // If true we're gonna use overlaping, if false we use default
    if (solver_config_.use_overlapped_pipeline) {
      train_overlapped();
    } else {
      for (const auto& one_embedding : embeddings_) {
        one_embedding->forward(true); // 嵌入层进行前向传播，即从参数服务器读取embedding，进行处理
      }

      // Network forward / backward
      if (networks_.size() > 1) { // 因为之前是把模型分别拷贝到GPU之上，所以size大于1，就说明多卡
        // 单机多卡或多机多卡
        // execute dense forward and backward with multi-cpu threads
        #pragma omp parallel num_threads(networks_.size())
        {
          // dense网络的前向反向
          size_t id = omp_get_thread_num();
          long long current_batchsize_per_device =
              train_data_reader_->get_current_batchsize_per_device(id);
          networks_[id]->train(current_batchsize_per_device); // 前向操作
          const auto& local_gpu = resource_manager_->get_local_gpu(id);
          local_gpu->set_compute_event_sync(local_gpu->get_stream());
          local_gpu->wait_on_compute_event(local_gpu->get_comp_overlap_stream());
        }
      } else if (resource_manager_->get_global_gpu_count() > 1) {
        // 多机单卡
        long long current_batchsize_per_device =
            train_data_reader_->get_current_batchsize_per_device(0);
        networks_[0]->train(current_batchsize_per_device); // 前向操作
        const auto& local_gpu = resource_manager_->get_local_gpu(0);
        local_gpu->set_compute_event_sync(local_gpu->get_stream());
        local_gpu->wait_on_compute_event(local_gpu->get_comp_overlap_stream());
      } else {
        // 单机单卡
        long long current_batchsize_per_device =
            train_data_reader_->get_current_batchsize_per_device(0);
        networks_[0]->train(current_batchsize_per_device); // 前向操作
        const auto& local_gpu = resource_manager_->get_local_gpu(0);
        local_gpu->set_compute_event_sync(local_gpu->get_stream());
        local_gpu->wait_on_compute_event(local_gpu->get_comp_overlap_stream());
        networks_[0]->update_params();
      }

      // Embedding backward
      for (const auto& one_embedding : embeddings_) {
        one_embedding->backward(); // 嵌入层反向操作
      }

      // Exchange wgrad and update params
      if (networks_.size() > 1) {
        #pragma omp parallel num_threads(networks_.size())
        {
          size_t id = omp_get_thread_num();
          exchange_wgrad(id); // 多卡之间交换dense参数的梯度
          networks_[id]->update_params();
        }
      } else if (resource_manager_->get_global_gpu_count() > 1) {
        exchange_wgrad(0);
        networks_[0]->update_params(); 
      } 
      for (const auto& one_embedding : embeddings_) {
        one_embedding->update_params(); // 嵌入层更新sparse参数
      }

      // Join streams 各个流进行同步
      if (networks_.size() > 1) {
        #pragma omp parallel num_threads(networks_.size())
        {
          size_t id = omp_get_thread_num();
          const auto& local_gpu = resource_manager_->get_local_gpu(id);
          local_gpu->set_compute2_event_sync(local_gpu->get_comp_overlap_stream());
          local_gpu->wait_on_compute2_event(local_gpu->get_stream());
        }
      }
      else {
        const auto& local_gpu = resource_manager_->get_local_gpu(0);
        local_gpu->set_compute2_event_sync(local_gpu->get_comp_overlap_stream());
        local_gpu->wait_on_compute2_event(local_gpu->get_stream());
      }
      return true;
    }
#else
      data_reader_->read_a_batch_to_device();
#endif

  } catch (const internal_runtime_error& err) {
    std::cerr << err.what() << std::endl;
    throw err;
  } catch (const std::exception& err) {
    std::cerr << err.what() << std::endl;
    throw err;
  }
  return true;
}

训练流程如下：

至此，我们大体知道了 HugeCTR如何初始化和训练，下一篇我们介绍如何读取数据。

0xFF 参考

https://developer.nvidia.com/blog/introducing-merlin-hugectr-training-framework-dedicated-to-recommender-systems/

https://developer.nvidia.com/blog/announcing-nvidia-merlin-application-framework-for-deep-recommender-systems/

https://developer.nvidia.com/blog/accelerating-recommender-systems-training-with-nvidia-merlin-open-beta/

HugeCTR源码阅读

embedding层如何反向传播

https://web.eecs.umich.edu/~justincj/teaching/eecs442/notes/linear-backprop.html

HugeCTR_Webinar

你可能感兴趣的:([源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2))

MySQL数据库安装 dsliang12 MySQL 数据库 mysql
MySQL数据库安装首次接触数据库,在学习数据库的过程中希望能把学习的心得和过程都通过博客的形式记录下来.首先是方便自己日后有需要可以翻查,其次作为学习过程中的总结和积累.下载安装包访问MySQL官网发现网站看起来很乱并且全英文感觉都不知道应该下载哪一个版本.在下载之前来点科普知识MySQLCommunityServer-社区版MySQLEnterpriseServer-企业版MySQLClust
P8649 [蓝桥杯 2017 省 B] k 倍区间 qystca 蓝桥杯
P8649[蓝桥杯2017省B]k倍区间-洛谷题目描述给定一个长度为N的数列，A1,A2,…,AN，如果其中一段连续的子序列Ai,Ai+1,…,Aj(i≤j)之和是K的倍数，我们就称这个区间[i,j]是K倍区间。你能求出数列中总共有多少个K倍区间吗？输入格式第一行包含两个整数N和K(1≤N,K≤105)。以下N行每行包含一个整数Ai(1≤Ai≤105)。输出格式输出一个整数，代表K倍区间的数目。输
全网最全，软件测试-adb常用命令/日志命令（汇总）测试追风软件测试软件测试工程师 App测试 adb 软件测试自动化测试功能测试 App测试 App自动化测试软件测试工程师
目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜）前言adb基本语法adb[-d|-e|-s]命令行参数：-d：指定当前唯一通过USB连接的Android设备为命令目标；-e：指定当前唯一运行的模拟器为命令目标；-s：指定相
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现） @橘柑橙柠桔柚 python 算法人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献4Python代码、数据、文章1概述文献来源：根据微电网或微能源网是否与主电网相连接，可将其分为并网型和独立型2种。本文以并网型微能源网为研究对象，研究其并网运行的能量管理与优化问题。目前，
小知识：电机转速知道，怎么算基频？你造吗？天天爱吃肉8218 研发测试学习笔记科普汽车集成测试嵌入式硬件
功率分析仪设备商过来了，问到需不需要滤波（有低通滤波，高通滤波，带通滤波，滤波的目的是为了去除杂波，减少对功率计算过程中的影响，具体可以看本文注解），要解决这个问题，我们需要理解电机转速、极对数和基频之间的关系。1.了解基本概念电机转速(n)：电机每分钟的旋转次数，单位是转每分钟（rpm）。极对数(p)：电机内部的磁极对数。基频(f)：电源频率，单位是赫兹（Hz）。2.公式关系电机的同步转速n与电
在C 语言 Win32API中实现窗口的步骤 Kurbaneli c语言开发语言
在C语言的世界里，使用Win32API构建窗口是迈向Windows应用程序开发的关键一步。窗口作为用户与程序交互的重要界面，其创建过程蕴含着诸多细节与技巧。下面，让我们逐步深入探索如何在C语言中通过Win32API创建一个窗口。一、准备工作：包含必要头文件在编写Win32窗口程序时，首先要在代码开头包含至关重要的头文件。头文件犹如一把万能钥匙，它收纳了大量Win32API函数的声明、丰富的数据类型
小程序分包优化 shaoin_2 小程序小程序 javascript
1.分包的核心概念主包：包含小程序启动页面（如首页）和公共代码（如全局组件、工具类库等）。分包：开发者划分的独立功能模块，按需加载。例如：商品详情页、用户中心等。体积限制：主包大小不超过2MB（微信小程序）。所有分包总大小不超过20MB（微信小程序）。分包可以独立配置（如支付宝小程序的分包策略可能略有不同）。2.分包配置方法在app.json中通过subpackages（或subPackages）
图片生成Prompt编写技巧赫萝的红苹果 prompt
1.图片情绪（场景氛围）一张图片一般都会有一个情绪基调，因为作画本质上也是在传达一些情绪，一般都会借助图片的氛围去转达。例如：比如家庭聚会一般是欢乐、喜乐融融。断壁残垣一般是悲凉。还有萧瑟、孤寂等。2.补充细节，多使用描述性的形容词描述图片中涉及到的所有元素。使用形容词补充元素的细节，和扩句差不多。例如一条狗，可以加上体型、颜色、种类，一条黄色的很可爱的小小个的中华田园犬。3.指定视角相同的景色，
如何使用pyenv-win来管理和使用不同版的python weixin_40625159 python 开发语言
使用pyenv-win来管理和使用不同版本的Python可以简化多版本共存和切换的过程。以下是详细的安装和使用步骤：步骤1：安装pyenv-win安装Chocolatey（可选）：如果尚未安装包管理器Chocolatey，打开命令提示符（以管理员身份）并运行以下命令进行安装：Powershell1Set-ExecutionPolicyBypass-ScopeProcess-Force;iex((N
php 读取excel大文件,php 如何读大excel 特大号豆腐 php 读取excel大文件
phper需要处理excel的时候基本上都会考虑PhpSpreadsheet，但是用过这个库的人都知道，这个库所需要的内存很大，关键是随着文件的增大，所需要的内存不断增大。测试过，导入2M的文excel文件，get_memory_usage显示消耗了128M。那么对于较大文件的excel该如何处理呢，本文试着给出一个解决方案(前提：你的业务允许你分行处理文件，如果不允许，可以不用往下看了)。为什么
LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
完美隐藏滚动条方案 (2024 最新验证) AF01 javascript
完美隐藏滚动条方案(2024最新验证)css/*全局隐藏竖直滚动条但保留滚动功能*/html{overflow:-moz-scrollbars-none;/*Firefox旧版*/scrollbar-width:none;/*Firefox64+*/-ms-overflow-style:none;/*IE/Edge*/overflow-y:overlay;/*防止布局偏移*/width:100vw
以下是自定义针对 Vite + TypeScript 项目的完整路径别名配置流程： AF01 typescript javascript 前端
以下是针对Vite+TypeScript项目的完整路径别名配置流程：1.安装必要依赖bashnpminstall-D@types/node2.配置vite.config.tstypescript//vite.config.tsimport{defineConfig}from'vite'importvuefrom'@vitejs/plugin-vue'importpathfrom'path'//需要
【力扣Hot100】128. 最长连续序列：哈希集合高效解法小付爱coding 力扣Hot100 leetcode 哈希算法算法
题目描述给定一个未排序的整数数组nums，找出其中最长连续子序列的长度。要求时间复杂度为O(n)。示例输入：nums=[100,4,200,1,3,2]输出：4解释：最长连续序列是[1,2,3,4]，长度为4。思路分析核心思路是利用哈希集合存储所有元素，遍历每个元素时，仅检查其是否为连续序列的左边界（即不存在比它小1的元素）。若是左边界，则向右扩展，统计连续序列的长度。此方法确保每个元素最多被访问
【力扣Hot100】11. 盛最多水的容器小付爱coding 力扣Hot100 leetcode 算法职场和发展
1、题目链接11.盛最多水的容器2、题目描述给定一个长度为n的整数数组height。有n条垂线，第i条线的两个端点是(i,0)和(i,height[i])。找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。示例1：输入：[1,8,6,2,5,4,8,3,7]输出：49解释：图中垂直线代表输入数组[1,8,6,2,5,4,8,3,7]。
第十四届蓝桥杯JavaB组省赛真题 - 蜗牛 _OLi_ 蓝桥杯算法题合集蓝桥杯 java
dp[i][0]状态转移方程：1.从上一个竹竿的底部转移过来，即：dp[i][0]=dp[i−1][0]+x[i]−x[i−1];2.从上一个竹竿的传送门转移过来，即：dp[i][0]=dp[i−1][1]+b[i]/1.3;dp[i][1]状态转移方程：1.从上一个竹竿的底部转移过来，即：dp[i][1]=dp[i−1][0]+x[i]−x[i−1]+a[i]/0.7;2.从上一个竹杠传送门过来
Anaconda Pyenv nvm笔记看见我书了吗个人心得 python
增加环境condacreate--namepy3.6.3python=3.6.3设置/取消终端默认使用condacondaconfig--setauto_activate_basetrue/false默认使用conda特定环境vi~/.zshrccondaactivatepy37查看conda环境condainfo--env为什么要使用pyenv公司超过200人规模的时候anaconda就是收费的
蓝桥杯第四届javaB组失败才是人生常态算法竞赛算法 java
（1）标题：世纪末的星期标题:世纪末的星期曾有邪教称1999年12月31日是世界末日。当然该谣言已经不攻自破。还有人称今后的某个世纪末的12月31日，如果是星期一则会....有趣的是，任何一个世纪末的年份的12月31日都不可能是星期一!!于是，“谣言制造商”又修改为星期日......1999年的12月31日是星期五，请问：未来哪一个离我们最近的一个世纪末年（即xx99年）的12月31日正好是星期天
python的并发执行（多线程详解上）（针对小白2）西瓜6 python 代码加速的思路和建议 python thread 多线程
python的并发执行（多线程详解上）（针对小白2）前言这一篇详细说下python的多线程。多线程原计划是一篇写完的，写着写着发觉内容有点多，所以决定把剩下的部分放到下一篇。（写后吐槽：感觉只需要看完简单使用和复杂理解的最前面部分就行了。）python的并发执行的专栏：https://blog.csdn.net/qq_37924224/category_9852410.html上一章：《pytho
Python中Excel文件的批量合并和拆分 pumpkin84514 python相关 python excel 服务器
Python中Excel文件的批量合并和拆分在Python中处理Excel文件的批量合并和拆分任务，通常涉及使用pandas、openpyxl和pathlib等库。以下是详细的说明，包括如何安装这些库，主要功能，API的具体用法，以及高级用法和示例。1.库概述1.1pandas主要功能：数据处理和分析，支持读取、合并、拆分Excel文件。适用场景：数据分析、批量处理、文件合并和拆分。1.2open
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
Ubuntu部署node.js和MySQL基础服务环境（包含MySQL的root密码的重置）一个搞全栈的躺平选手 ubuntu node.js mysql
因为有需求，但是在网上没找到比较完整的部署文档，所以有了这篇文章。1、安装node.js版本是16.*的1）创建一个脚本(个人喜欢vim，需要vim的自行安装一下)viminstall_nodejs.sh2)在里面写入以下内容#!/bin/bash#安装更新Node.js和Npm所需要的软件echo"updateaptpackge..."sudoaptupdate#添加NodeSourceAPT存
联核CPD10平衡重型无人AGV叉车产品介绍/参数/优势/应用场景 m0_66581510 机器人自动化自动驾驶人工智能科技
产品介绍联核科技CPD10无人AGV叉车以其高精度导航与定位、强大的负载能力、灵活的行驶性能以及持久续航能力脱颖而出。其搭载的高精度激光导航雷达，确保导航精度高达±4mm，满足绝大多数货架等高位精密搬运需求。核心参数联核科技CPD10是一款高性能的平衡重型激光导航自动叉车AGV，CPD10自动AGV叉车的额定负载能力达到1000kg。联核CPD10AGV无人叉车采用德国进口高精度激光导航，能够精准
Linux 测试必须知道的命令那片海还在吗 test linux
Linux测试必须知道的命令一、系统信息查看命令1.1uname-查看系统基本信息作用：用于显示系统的相关信息，如内核名称、主机名、内核版本等。常用参数及示例-a：显示所有信息。uname-a#输出示例：Linuxtest-server5.4.0-109-generic#123-UbuntuSMPFriApr2116:52:16UTC2023x86_64x86_64x86_64GNU/Linux1
Day9 洛谷真题讲解流星雨.又来临算法
我们来看一下这道题，其实刚开始看见这道题，我的第一想法是直接利用一个表格，然后给每一个字母覆上值，但是我一想到要是真写26个我都得疯，所以我~~~~看了题解，发现其实可以#include#includeusingnamespacestd;intmain(){strings;getline(cin,s);intres=0;intnum[26]={1,2,3,1,2,3,1,2,3,1,2,3,1,2
USART串口接收双雄争霸：查询法与中断法深度解析 | 零基础入门STM32第三十五步触角01010001 STM32 stm32 嵌入式硬件单片机
主题内容教学目的/扩展视频串口通信重点课程什么是USART串口，电路原理，单片机内部寄存器，固件库说明。加载相关文件，驱动程序分析，printf的使用。什么是中断，中断的程序设计，还有哪些中断。熟悉串口的使用，熟练使用printf函数。介绍printf函数的高级使用方法，介绍各中断。师从洋桃电子，杜洋老师文章目录一、USART接收原理速览1.核心寄存器说明2.数据接收三要素二、查询接收法实战教学1
python拆分excel文件 badly1226 python python excel 拆分
当我们遇到一些很大的文件时，如果把所有的数据全部加入到内存当中处理，当文件比较小时还好，但是问价你很大时，这种方式是很不好的，当超过十几个G的文件时，我们该如何处理呢？python可以很好的处理这个问题，可以把大文件给一个个拆分成小文件，然后我们再一次去处理小文件即可，本篇博客小主就写一个简单拆分excel方法供大家参考这里我随便找了一个文件，里面有26行数据，我们把每10行数据拆分成一个exce
python：记录调用微信OCR进行文字识别的一个错误的代码 knighthood2001 调用微信本地OCR进行文字识别 python 微信 ocr
博客主页：knighthood2001✨公众号：认知up吧（目前正在带领大家一起提升认知，感兴趣可以来围观一下）知识星球：【认知up吧|成长|副业】介绍❤️感谢大家点赞收藏⭐评论✍，您的三连就是我持续更新的动力❤️笔者水平有限，欢迎各位大佬指点，相互学习进步！本代码我想实现了这样一个功能：运行代码后，除非按下esc键，否则程序一直执行，然后按下ctrl+c，将剪切板中的图片通过微信OCR识别文字并
JAVA基础-类型转换王依华 java 开发语言
隐式类型转换当两种数据类型兼容，且转换前的数据类型的取值范围小于转换后的数据类型的取值范围，Java会自动进行类型转换。1.比int小的数据类型进行运算的时候，都提升为int类型去运算。publicclassDemo{publicstaticvoidmain(String[]args){bytea=10;shortb=20;//bytec=a+b;//编译报错,因为a+b的结果是int类型，如需要
MySQL—密码设置相关裁二尺秋风 mysql 数据库
一、忘记密码方法一：以安全模式启动mysql步骤一：停止mysql服务停止MySQL服务：打开终端，输入以下命令停止MySQL服务（根据你的系统和MySQL版本，命令可能有所不同）：systemctlstopmysqld步骤二：以安全模式启动MySQL输入以下命令以安全模式启动MySQL，跳过权限验证：sudomysqld_safe--skip-grant-tables&&符号表示在后台运行该进程
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S