罗西的思考

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器 --(1)

文章目录

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器 --(1)
- 0x00 摘要
- 0x01 背景
- - 1.1 推荐系统中的点击率估计
  - 1.2 点击率估算训练的挑战
- 0x02 HugeCtr
- 0x03 架构
- - 3.1 CTR DL 模型
  - 3.2 HugeCTR 架构
  - 3.3 基于GPU的参数服务器
- 0x04 核心功能
- - 4.1 模型并行训练
  - - 4.1.1 in-memory GPU hash table
    - 4.1.2 Multi-slot embedding
    - 4.1.3 具体实现
  - 4.2 多节点训练
  - 4.3 混合精度训练
  - 4.4 SGD 优化器和学习率调度
  - 4.5 嵌入训练缓存
  - 4.6 HugeCTR 到 ONNX 转换器
  - 4.7 分层参数服务器
  - 4.8 异步多线程数据管道
  - 4.9 灵活模型配置
- 0xEE 个人信息
- 0xFF 参考

0x00 摘要

本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

本文以Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems，GitHub 源码文档 https://github.com/NVIDIA-Merlin/HugeCTR 的翻译为基础，并且结合源码进行分析。

其中借鉴了HugeCTR源码阅读这篇大作，特此感谢，期望能在此篇大作基础之上，再丰富一下对HugeCTR的理解。

0x01 背景

我们将简要讨论 CTR 估计在现代推荐系统中的作用及其训练中的主要挑战。

1.1 推荐系统中的点击率估计

从在线广告和电子商务到流媒体服务，推荐系统无处不在，同时对服务提供商的收入产生巨大影响。推荐系统找到给定用户最可点击的项目，然后对它们进行排名并向用户显示前 N 个项目。为了实现这个目标，推荐系统首先必须估计特定用户点击项目的可能性。此任务通常称为 CTR 估计。

如何估算点击率？这里没有巫术，一般是获取包含用户-物品交互的富数据集，并使用它来训练 ML 模型。数据集中的每条记录都可以包含来自用户（年龄、工作），商品（类型、价格）和用户商品点击（0 或 1）的特征。例如，如果用户 A 从一系列书籍中购买或点击了几本传记，那么模型为传记分配高概率值是有意义的。

CTR 的系统结构大致如下：

下图展示了CTR推理流程。

图来自HugeCTR_Webinar

1.2 点击率估算训练的挑战

首先，推荐系统之中的特征有如下性质：高维，稀疏。大规模推荐系统会面临用户和物品的频繁变化，因此识别用户点击背后的隐式特征交互至关重要，这样推荐系统可以提供更高质量的更通用的推荐。例如，30 岁以下的已婚人士和孩子未满 2 岁的人可能倾向于购买高 ABV 的啤酒。对这些隐式特征交互进行建模需要领域专家进行复杂的特征工程。更糟糕的是，由于特征极其复杂且不直观，即使是人类专家也常常无法发现这些交互。为了代替这种对专家的依赖，人们研究出了一些基于深度学习的方法，例如 Wide & Deep，DeepFM 和 DLRM，这些模型可以捕获这些复杂的交互。

训练 CTR 估计模型的另一个挑战是用户和物品几乎每天都在变化，因此训练出来的模型其生命周期可能很短。此外，由于数据集的大小的增加，维数和稀疏性因素，CTR 模型通常包含一个很大的嵌入表，其可能无法放入单个 GPU 甚至多个 GPU 的节点中。因此，数据加载，嵌入表查找和 GPU 间通信可以占据模型训练时间的很大一部分。

这些因素，再加上缺乏用于 CTR 估算的标准化建模方法，通常导致服务在吞吐量和延迟方面经常只能达到次优性能。所以在单个或多个 GPU 上完成模型的更快迭代训练是非常重要的。

0x02 HugeCtr

HugeCTR 是一个开源框架，用于在 NVIDIA GPU 上加速 CTR 估计模型的训练，并针对 NVIDIA GPU 的性能进行了高度优化，同时允许用户以 JSON 格式自定义模型。它是用 CUDA C++ 编写的，并且高度利用了 GPU 加速库，例如cuBLAS、cuDNN和NCCL。它最初是作为内部原型来评估 GPU 在 CTR 估计问题上的潜力，但是其很快成为基于 GPU 的推荐系统的参考设计。由于它自然而然地成为了专用于 CTR 估算的更通用的框架，因此 NVIDIA 于 2019 年 9 月开源了其初始版本，以接受外部反馈，同时与一些客户保持互动。

HugeCTR 也是 NVIDIA Merlin的支柱，这是一个框架和生态系统，用于构建需要大量数据集进行训练的大规模推荐系统，旨在促进推荐系统开发的所有阶段，并在 NVIDIA GPU 上加速。

图来自源码 https://github.com/NVIDIA-Merlin/Merlin

HugeCTR 在单个 NVIDIA V100 GPU 上的速度比 TensorFlow 在 40 核 CPU 节点上提高了 114 倍，在同一个 V100 GPU 上实现了 TensorFlow 的 8.3 倍提高。由于由线性模型和深度模型组成的混合模型已变得普遍，因此 HugeCTR 架构 2.1 版扩展为支持 Wide & Deep、DCN 和 DeepFM 等模型。更新包括新的数据读取器，它可以同时读取连续和分类输入数据；以及新的层，包括因子分解机和交叉层。为了实现更灵活的设计空间探索，还添加了 Dropout、L1/L2 正则化器等。

0x03 架构

3.1 CTR DL 模型

下图描绘了用于 CTR 估计的 DL 模型的步骤：

按批次读取数据记录，每个记录都由高维、极其稀疏（或 categorical 类型）的特征组成。每个记录还可以包含密集的数字特征，这些特征可以直接馈送到全连接层。
使用嵌入层将输入稀疏特征压缩为低维密集嵌入向量。例如，如果有 N 个稀疏特征，嵌入维度为 K，则嵌入表生成 N 个 K 维密集向量。
使用前馈神经网络来估计点击率。

图上显示了一个典型的 CTR 模型，包括数据读取器、嵌入和全连接层。图来自Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems

3.2 HugeCTR 架构

HugeCTR 不仅支持 CTR DL 所有三个步骤，而且还增强了端到端的性能，比如：

为了防止数据加载成为训练中的主要瓶颈，它实现了一个专用的数据读取器，该读取器是异步和多线程的。它将读取一组批处理数据记录，其中每条记录都由高维、极度稀疏或分类特征（categorical features）组成。每个记录还可以包含密集的数字特征（dense numerical features），这些特征可以直接馈送到全连接层。
嵌入层用于将稀疏输入特征压缩为低维、密集的嵌入向量。共有三个 GPU 加速的嵌入阶段：
- 表查找
- 每个插槽（slot）内的权重规约。
- 跨插槽的权重拼接（concatenation）。
通过利用高效的 CUDA 优化技术和支持 CUDA 的库来支持前向和后向传播中的所有层，优化器和损失函数都是在 CUDA C++ 中实现的。

为了训练大规模 CTR 估计模型，HugeCTR 中的嵌入表是模型并行的，并分布在同构集群中的所有 GPU 上，该集群由多个节点组成。每个 GPU 都有自己的：

前馈神经网络（数据并行）来估计点击率。
哈希表使数据预处理更容易并启用动态插入。

所以，可以扩展到多个 GPU 和节点的HugtCTR的架构总结如下：

3.3 基于GPU的参数服务器

HugeCTR 实现的是一个基于GPU的参数服务器，其将embedding层放到GPU之中，worker通过与参数服务器的交互来获取embedding。

图来自HugeCTR_Webinar

0x04 核心功能

在本节中，我们将介绍 HugeCTR 的关键特性，这些特性有助于其高性能和可用性。注意：多节点训练和混合精度训练可以同时使用。

4.1 模型并行训练

HugeCTR 原生支持模型并行和数据并行训练，使得在 GPU 上训练非常大的模型成为可能。

4.1.1 in-memory GPU hash table

在 CTR 估计中，嵌入（embedding）对于获得不错的模型精度几乎是必不可少的。它通常会导致对内存容量和带宽的高需求以及相当数量的并行性。如果embedding分布在多个 GPU 或多个节点上，则通信开销也可能很大。由于用户和物品数量庞大且不断增加，庞大的嵌入表在所难免。

为了克服这些挑战并实现更快的训练，HugeCTR实现了自己的嵌入层，其中包括一个 GPU 加速的哈希表，并利用NCCL 作为其 GPU 间通信原语。哈希表的实现基于RAPIDS cuDF 的实现，RAPIDS cuDF 是来自 NVIDIA 的 GPU DataFrame 库。cuDF GPU 哈希表可以比 Threading Building Blocks (TBB) 的 concurrent_hash_map 多出高达 35 倍的加速。

总之，HugeCTR 支持跨越同构计算集群中的多个 GPU 和多个节点的模型并行嵌入表。嵌入的特征和类别可以分布在多个 GPU 和节点上。例如，如果您有两个具有 8xA100 80GB GPU 的节点，则可以完全在 GPU 上训练大至 1TB 的模型。通过使用嵌入训练缓存，您可以在相同节点上训练更大的模型。

4.1.2 Multi-slot embedding

嵌入表可以被分割成多个槽（或feature fields）。在嵌入查找过程中，属于同一槽的稀疏特征输入在分别转换为相应的密集嵌入向量后，被简化为单个嵌入向量。然后，来自不同槽的嵌入向量连接在一起。

多槽（multi-slot）嵌入通过以下方式提高了 GPU 间带宽利用率：

当数据集中有很多特征时，它有助于将每个槽中有效特征的数量减少到可管理的程度。
通过拼接不同插槽的输出，它减少了 GPU 之间的事务数量，从而促进了更高效的通信。

下图显示了操作序列和 GPU 间通信 ( all2all) 是如何发生的。

该图显示了一个跨越 4 个 GPU 的模型并行嵌入，以及它如何与这些 GPU 的神经网络进行交互。它还显示了如何减少每个插槽的输入特征并跨两个插槽连接。图来自Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems

多槽嵌入对线性模型也很有用，它基本上是特征的加权和，只需将槽数和嵌入维度都设置为 1 即可。有关更多信息，请参阅Wide & Deep 示例。

4.1.3 具体实现

为了在不同的嵌入上获得最佳性能，可以选择不同的嵌入层实现。这些实现中的每一个都针对不同的实际培训案例，例如：

LocalizedSlotEmbeddingHash：同一个槽（特征域）中的特征会存储在一个GPU中，这就是为什么它被称为“本地化槽”，根据槽的索引号，不同的槽可能存储在不同的GPU中。LocalizedSlotEmbedding 针对每个embedding 小于 GPU 内存大小的实例进行了优化。由于在 LocalizedSlotEmbedding 中使用了每个插槽的局部规约（查完 embedding 得到向量之后，因为已经拿到了这个slot 的所有 embedding，可以做完pooling之后再做多GPU卡通信），而在 GPU 之间没有全局规约，因此 LocalizedSlotEmbedding 中的整体数据传输量远小于 DistributedSlotEmbedding。

注意：确保输入数据集中没有任何重复的键。
DistributedSlotEmbeddingHash：所有特征都存储于不同特征域/槽上，不管槽索引号是多少，这些特征都根据特征的索引号分布到不同的GPU上。这意味着同一插槽中的特征可能存储在不同的 GPU 中，这就是将其称为“分布式插槽”的原因。由于需要全局规约，所以 DistributedSlotEmbedding 适合 embedding 大于 GPU 内存大小的情况，因而 DistributedSlotEmbedding 在 GPU 之间有更多的内存交换。

注意：确保输入数据集中没有任何重复的键。
LocalizedSlotEmbeddingOneHot：一种特殊的 LocalizedSlotEmbedding，需要一个独热数据输入。每个特征字段也必须从零开始索引。例如，性别应该是0,1，而1,2 就不正确。

一定要注意，LocalizedSlotEmbeddingHash 和 DistributedSlotEmbeddingHash 的区别在于同一个槽（特征域）中的特征 是不是 会存储在同一个GPU中。比如，有 2 张GPU卡，有4个slot。

local 模式：GPU0 存 slot0 和 slot1，GPU1 存 slot2 和 slot3。
distribute 模式：每个 GPU 都会存所有 slot 的一部分参数，通过哈希方法决定如何将一个参数分配到哪个 GPU 上。

4.2 多节点训练

多节点训练使得我们很容易训练任意大小的嵌入表。在多节点解决方案中，稀疏模型（称为嵌入层）分布在节点之间。同时，密集模型（例如 DNN）是数据并行的，并且在每个 GPU 中都包含密集模型的副本（见下图）。通过我们的实施，HugeCTR 利用 NCCL 进行高速和可扩展的节点间和节点内通信。

图来自源码。

要在多个节点上运行，HugeCTR 应该使用 OpenMPI 构建。建议支持GPUDirect RDMA以获得高性能。有关更多信息，请参阅DCN 多节点训练样本。

4.3 混合精度训练

混合精度训练已成为在保持模型精度的同时实现进一步加速的常用技术，可以帮助我们改善和减少内存吞吐量占用。在 HugeCTR 中，可以配置全连接层以利用 NVIDIA Volta 架构及其后续架构上的张量核心。它们在内部使用 FP16 进行加速矩阵乘法，但其输入和输出仍为 FP32。

混合精度训练在这种模式下，TensorCores 被用于提高基于矩阵乘法的层的性能，例如FullyConnectedLayer和InteractionLayer，在 Volta、Turing 和 Ampere 架构上。对于包括嵌入在内的其他层，数据类型更改为 FP16，以便节省内存带宽和容量。要启用混合精度模式，请在配置文件中指定 mix_precision 选项。当mixed_precision设定，完整的FP16管道将被触发。将应用损失缩放以避免算术下溢（见图）。可以使用配置文件启用混合精度训练。

图 5：算术下溢图来自源码。

4.4 SGD 优化器和学习率调度

学习率调度允许用户配置其超参数，包括以下内容：

learning_rate：基础学习率。
warmup_steps：用于预热的初始步骤数。
decay_start：指定学习率衰减开始的时间。
decay_steps：衰减期（逐步）。

图 6 说明了这些超参数如何与实际学习率相互作用。

有关更多信息，请参阅Python 接口。

图 6：学习率调度图来自源码。

4.5 嵌入训练缓存

嵌入训练缓存（Model Oversubscription）使您能够训练高达 TB 的大型模型。它是通过在训练阶段以粗粒度、按需方式将超过 GPU 内存聚合容量的嵌入表的一个子集加载到 GPU 中来实现的。要使用此功能，您需要将数据集拆分为多个子数据集，同时从中提取唯一键集（见图 7）。

此功能目前支持单节点和多节点训练。它支持所有嵌入类型，并且可以与Norm和Raw数据集格式一起使用。我们修改了我们的criteo2hugectr工具以支持 Criteo 数据集的密钥集提取。有关更多信息，请参阅我们的Python Jupyter Notebook，了解如何将此功能与 Criteo 数据集结合使用。

注意：Criteo 数据集是一个常见用例，但模型预取不限于此数据集。

Fig. 7: Preprocessing of dataset for model oversubscription 图来自源码。

4.6 HugeCTR 到 ONNX 转换器

HugeCTR to Open Neural Network Exchange (ONNX) 转换器是一个hugectr2onnxPython 包，可以将 HugeCTR 模型转换为 ONNX。它可以提高 HugeCTR 与其他深度学习框架的兼容性，因为 ONNX 作为 AI 模型的开源格式。

使用我们的 HugeCTR Python API 进行训练后，您可以获得密集模型、稀疏模型和图形配置的文件，这些文件在使用该hugectr2onnx.converter.convert方法时需要作为输入。每个 HugeCTR 层将对应一个或多个 ONNX 算子，训练好的模型权重将作为初始化器加载到 ONNX 图中。此外，您可以选择使用convert_embedding标志转换稀疏嵌入层。

4.7 分层参数服务器

HugeCTR 分层参数服务器 (POC) 上的本地 SSD 和 CPU 内存之间实现了分层存储机制。通过这种实现，嵌入表不再需要存储在本地 CPU 内存中。添加了分布式 Redis 集群作为 CPU 缓存，以存储更大的嵌入表并直接与 GPU 嵌入缓存交互。为了帮助 Redis 集群查找丢失的嵌入键，已实现本地 RocksDB 作为查询引擎来备份本地 SSD 上的完整嵌入表。

4.8 异步多线程数据管道

如果没有高效的数据管道，即使向前和向后传播以光速运行，其效果也如同到达机场的时间远长于飞行时间。另外，当数据集很大并且经常变化时，将其拆分为多个文件是非常合理的。

为了有效地把数据获取这个长延迟隐藏起来，HugeCTR 有一个多线程数据读取器，其可以将数据获取与实际模型训练重叠起来。如下图所示，DataReader是一个façade，由多个并行工作器和一个收集器组成。

每个工作器每次从其分配到的数据集文件中读取一个批次。收集器会将收集到的数据记录分发到多个 GPU。所有的工作人员、收集器和模型训练作为不同的线程在 CPU 上同时运行。

Figure 4. HugeCTR multithreaded data reader.

图来自Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems

下图显示了 HugeCTR 流水线如何把 “数据从磁盘读取到 CPU 内存的数据”，"从 CPU 到 GPU 的数据传输"以及"在 GPU 上跨不同批次的实际训练"这三个阶段重叠起来。

图来自Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems

4.9 灵活模型配置

尽管 CTR 模型之间存在一些共性，但它们的细节（包括超参数）可能有所不同。为了实现模型的灵活定制，HugeCTR 允许以 JSON 格式直观地配置模型。

例如，要描述如下图所示的混合模型，您可以编写如图 (b) 中抽象所示的“layers”子句。您可以有多个嵌入，您还可以指定批处理大小、优化器、数据路径等。在同一个配置文件中，您也可以指定用于训练的 GPU 数量和数量。有关更多信息，请参阅HugeCTR 用户指南和示例配置文件。

Figure 6. A hybrid model with two embeddings and two different types of inputs. (a) An example mode expressible by HugeCTR. (b) The corresponding config. A lot of details are omitted for simplicity.

图来自Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems

0xEE 个人信息

★★★★★★关于生活和技术的思考★★★★★★

微信公众账号：罗西的思考

如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，敬请关注。

0xFF 参考

Introducing NVIDIA Merlin HugeCTR: A Training Framework Dedicated to Recommender Systems

Announcing NVIDIA Merlin: An Application Framework for Deep Recommender Systems

https://developer.nvidia.com/blog/announcing-nvidia-merlin-application-framework-for-deep-recommender-systems/

https://developer.nvidia.com/blog/accelerating-recommender-systems-training-with-nvidia-merlin-open-beta/

HugeCTR源码阅读

embedding层如何反向传播

https://web.eecs.umich.edu/~justincj/teaching/eecs442/notes/linear-backprop.html

https://info.nvidia.com/235418-ondemand.html

HugeCTR_Webinar

https://www.cnblogs.com/futurehau/p/6181008.html

全网最全，软件测试-adb常用命令/日志命令（汇总）测试追风软件测试软件测试工程师 App测试 adb 软件测试自动化测试功能测试 App测试 App自动化测试软件测试工程师
目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜）前言adb基本语法adb[-d|-e|-s]命令行参数：-d：指定当前唯一通过USB连接的Android设备为命令目标；-e：指定当前唯一运行的模拟器为命令目标；-s：指定相
Python从0到100（六十八）：Python OpenCV-图像边缘检测及图像融合是Dream呀 opencv python 计算机视觉
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
联核CPD10平衡重型无人AGV叉车产品介绍/参数/优势/应用场景 m0_66581510 机器人自动化自动驾驶人工智能科技
产品介绍联核科技CPD10无人AGV叉车以其高精度导航与定位、强大的负载能力、灵活的行驶性能以及持久续航能力脱颖而出。其搭载的高精度激光导航雷达，确保导航精度高达±4mm，满足绝大多数货架等高位精密搬运需求。核心参数联核科技CPD10是一款高性能的平衡重型激光导航自动叉车AGV，CPD10自动AGV叉车的额定负载能力达到1000kg。联核CPD10AGV无人叉车采用德国进口高精度激光导航，能够精准
Linux 测试必须知道的命令那片海还在吗 test linux
Linux测试必须知道的命令一、系统信息查看命令1.1uname-查看系统基本信息作用：用于显示系统的相关信息，如内核名称、主机名、内核版本等。常用参数及示例-a：显示所有信息。uname-a#输出示例：Linuxtest-server5.4.0-109-generic#123-UbuntuSMPFriApr2116:52:16UTC2023x86_64x86_64x86_64GNU/Linux1
第九章 Spring AI API中文版 - Ollama Embeddings API 明爷们儿 JAVA大模型 spring 人工智能 java
Ollama嵌入通过Ollama，您可以在本地运行各种大型语言模型（LLMs），并从中生成嵌入。SpringAI通过OllamaEmbeddingClient支持Ollama文本嵌入。嵌入是一个浮点数向量（列表）。两个向量之间的距离衡量它们的相关性。小距离表明高相关性，大距离表明低相关性。先决条件您首先需要在本地机器上运行Ollama。参考官方Ollama项目链接：README，开始在本地机器上运
云服务器上部署Node.js项目的详细指南 TechABC 服务器 node.js 运维
在本篇文章中，我将为您提供一个详细的指南，教您如何在云服务器上部署Node.js项目。我们将一步步地进行操作，并提供相应的源代码示例。下面是具体的步骤：步骤1：选择云服务器提供商首先，您需要选择一个云服务器提供商。目前市场上有许多可选的提供商，例如亚马逊云服务（AWS）、谷歌云平台（GCP）和微软Azure等。您可以根据自己的需求和预算选择最适合您的提供商。步骤2：创建云服务器实例在选择了云服务器
使用Node.js在云服务上进行部署安静旅者 node.js 编程
Node.js是一个基于ChromeV8引擎的JavaScript运行时，它可以使我们在服务器端运行JavaScript代码。在云服务上部署Node.js应用程序可以让我们轻松地扩展和管理我们的应用程序。本文将介绍如何使用Node.js在云服务上进行部署，并提供相应的源代码。步骤1：选择云服务提供商在开始之前，我们需要选择一个云服务提供商来托管我们的Node.js应用程序。目前市场上有许多可选的云
如何安全获取股票实时数据API并在服务器运行？ 2501_90693467 服务器运维 python fastapi java c#
以下是安全获取股票实时数据API并在服务器运行的方法：选择合适的券商或交易平台评估自身需求：明确自己的交易策略、交易品种、交易频率等需求，以及对股票api的功能、性能、稳定性等方面的要求。调研券商或平台：了解不同券商或第三方交易平台提供的API服务，如华泰证券、兴业证券、银河证券、富途证券、中泰证券等。比较它们的交易费用、数据质量、技术支持等，选择最适合自己的。开户与实名认证注册账户：在选定的券商
55、深度学习-自学之路-自己搭建深度学习框架-16、使用LSTM解决RNN梯度消失和梯度爆炸的问题，重写莎士比亚风格文章。小宇爱深度学习-自学之路深度学习 rnn 人工智能自然语言处理神经网络
importnumpyasnpclassTensor(object):def__init__(self,data,autograd=False,creators=None,creation_op=None,id=None):self.data=np.array(data)self.autograd=autogradself.grad=Noneif(idisNone):self.id=np.rand
vue项目监听文件变化自动重启webpack服务器什么什么什么？前端笔记 nodemon 自动化重启开发环境文件监听
问题：因为每次更换开发环境时，都需要手动重启一次服务器。以下的方法可以实现自动化重启。一、安装nodemon插件nodemon插件，这里有一篇详细的入门介绍。这里只有我的配置进行记录。首先我们需要在开发环境中安装nodemon依赖npminstall--save-devnodemon在项目的package.json文件中的scripts对象下添加开启nodemon的操作//package.json
解锁机器学习核心算法 | K -近邻算法：机器学习的神奇钥匙紫雾凌寒 AI 炼金厂 #机器学习算法算法机器学习近邻算法 KNN k-近邻算法 python scikit-learn
一、引言今天我们继续学习机器学习核心算法——K-近邻（K-NearestNeighbors，简称KNN）算法。它就像是一位经验丰富的“老江湖”，以其简单而又强大的方式，在众多机器学习任务中占据着不可或缺的地位。K-近邻算法，作为机器学习中的一种基本分类与回归方法，以其独特的“基于邻居投票”策略而闻名。它的核心思想简单易懂，就如同我们在生活中判断一个人可能的兴趣爱好时，会参考他身边最常接触的朋友们的
2.8 通过微调提升模型的准确度与效率-大模型ACP模拟题-真题 admin皮卡阿里云大模型ACP-考试回忆人工智能 java ai
单选题模型量化技术的主要优势是？A.显著提升模型精度B.减少显存占用和响应时间✅C.完全保留原始模型能力D.支持多模态任务扩展解析：量化通过降低参数精度减少资源消耗，但对精度影响较小（<2%）以下关于LoRA技术的描述错误的是？A.通过低秩矩阵间接影响模型行为B.会直接修改原始模型权重✅C.支持参数回退操作D.训练效率高于全参微调解析：LoRA通过添加额外参数而非修改原权重实现微调当训练过程中出现
各类路径规划算法python 代码许卿768503 python 算法开发语言
一、人工势场法#初始化参数设置importnumpyasnpimportmatplotlib.pyplotaspltimportcopyfromcelluloidimportCamera#保存动图时用，pipinstallcelluloid%matplotlibqt5##初始化车的参数d=3.5#道路标准宽度W=1.8#汽车宽度L=4.7#车长P0=np.array([0,-d/2,1,1])#车
Java环境变量Classpath iteye_3382 java java
Classpath是一个参数，它的值可以通过命令行指定，或者通过环境变量来指定。Classpath这个参数的值，被Java虚拟机或者Java编译器所使用，它告诉Java虚拟机机，Java编译器，去哪里寻找用户定义的类和包。AD：51CTO云计算架构师峰会抢票进行中！Classpath是一个参数，它的值可以通过命令行指定，或者通过环境变量来指定。Classpath这个参数的值，被Java虚拟机或者J
Nginx的缓存机制天天进步2015 计算机网络 nginx 缓存运维
Nginx是一款高性能的HTTP和反向代理服务器，它的缓存机制在提升网站性能和减少服务器负载方面发挥了重要作用。本文将介绍Nginx的缓存机制，包括其工作原理、配置方法以及常见的应用场景。Nginx缓存的工作原理Nginx的缓存机制主要通过将请求的响应结果存储在本地文件系统中，以便在后续请求中直接返回缓存的内容，而无需再次请求上游服务器。这种机制不仅可以减少服务器的负载，还能显著提高响应速度。缓存
Nginx系列06（Nginx 缓存配置、SSL/TLS 配置）浪九天 Nginx系列运维开发 nginx
目录Nginx缓存配置SSL/TLS配置Nginx缓存配置概念：Nginx缓存配置允许服务器将频繁访问的资源（如网页、图片、脚本等）存储在内存或磁盘中，当再次接收到相同请求时，直接从缓存中读取并返回，减少对后端服务器的请求，从而显著提高网站的响应速度和性能，降低服务器负载。原理：Nginx主要有代理缓存和FastCGI缓存两种缓存机制。代理缓存：当Nginx作为反向代理时，对于后端服务器返回的响应
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
【C++】模版一代... c++开发语言
1.非类型模版参数模板参数分类类型形参与非类型形参。类型形参即：出现在模板参数列表中，跟在class或者typename之类的参数类型名称。非类型形参：用一个常量作为类(函数)模板的一个参数，在类(函数)模板中可将该参数当成常量来使用。注意：在C++20之前，只允许整形做非类型模板参数，C++20之后，可以支持double类型等其他内置类型，但不支持自定义类型做非类型模板参数templatecla
Squid代理服务之反向代理模式数据挖掘深度学习人工智能算法
Squid反向代理深度解析与应用指南Squid作为一款高效的代理服务器，其反向代理模式在分布式系统中扮演着重要角色。我们通过结构化的技术分解，深入探讨其核心机制和实际应用场景。█核心原理分解表阶段技术解析协议层实现客户端请求阶段客户端通过DNS解析连接到反向代理域名，生成HTTP1.1/2.0标准请求包TCP三次握手建立连接，TLS1.2+加密通信请求路由决策根据cache_peer配置的负载均衡
使用haproxy实现MySQL服务器负载均衡 obboda mysql 服务器负载均衡
一、环境准备主机名IP地址备注openEuler-1192.168.121.11mysql-server-1openEuler-2192.168.121.12mysql-server-2openEuler-3192.168.121.13clientRocky-1192.168.121.51haproxy二、mysql-server配置[root@openEuler-1~]#yuminstall-y
Nginx系列05（负载均衡、动静分离）浪九天 Nginx系列 nginx 运维开发持续部署
目录Nginx负载均衡Nginx动静分离Nginx负载均衡概念：负载均衡是一种将网络流量分摊到多个后端服务器（节点）上的技术，以提高系统的可用性、性能和可扩展性。通过负载均衡，Nginx可以根据一定的算法将客户端请求分发到不同的后端服务器，避免单个服务器因负载过高而出现性能瓶颈。原理：Nginx通过upstream模块定义一组后端服务器，然后在server块或location块中使用proxy_p
腾讯云的相关DDoS攻击问题概览
有DDoS攻击会通知吗？在遭受DDoS攻击后，后台会进行告警通知推送。用户也可以根据需求自定义告警的阈值，当流量达到用户设定的告警阈值，将进行通知。服务器没有使用，为什么也遭遇DDoS攻击？DDoS攻击是指：黑客利用DDoS攻击器控制多台机器同时攻击来达到“妨碍正常使用者使用服务”的目的，一般主要是针对您的业务，而并非针对服务器对应的IP和域名。您的业务连接外网通信，就有风险遭受DDoS攻击。购买
传奇服务器遭遇袭击，广大玩家需密切关注
近年来，我国游戏市场日益繁荣，《热血传奇》凭借多年累积的人气依然稳居榜首。然而，在近日《热血传奇》服务器却遭遇一起恶意攻击事件。本次攻击事件不仅让众多期待更新内容的玩家感到遗憾，也给服务器稳定运行带来严重影响。一、传奇服务器被袭背景据《热血传奇》官方通报，此次袭击事发在昨晚9月22时至凌晨1时的时间段内。受此影响，多台传奇服务器遭遇大规模拒绝服务攻击（DDoS），导致大量玩家无法正常登录游戏。目前
新型僵尸网络针对100个国家发起30万次DDoS攻击
近日，网络安全研究人员发现了一个名为Gorilla（又名GorillaBot）的新僵尸网络恶意软件家族，它是已泄露的Mirai僵尸网络源代码的变种。网络安全公司NSFOCUS在上个月发现了这一活动，并称该僵尸网络在今年9月4日至9月27日期间发布了30多万条攻击命令，攻击密度之高令人震惊。据悉，该僵尸网络平均每天会发出不少于2万条分布式拒绝服务（DDoS）攻击的命令。该僵尸网络以100多个国家为目
LVS+Keepalived 高可用群集实例 ynyysn nginx 前端运维
文章目录一、Keepalived工具介绍二、Keepalived实现原理三、Keepalived配置文件四、LVS+Keepalived高可用群集的搭建4.1配置负载调度器（主：192.168.24.10）4.2配置负载调度器（备：192.168.24.20）4.3配置节点服务器web14.4配置节点服务器web2总结一、Keepalived工具介绍专为LVS和HA设计的一款健康检查工具支持故障自
基于Python实现的【机器学习】小项目教程案例 xinxiyinhe 人工智能 github python 机器学习
以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset（含150个样本，4个特征，3个类别）目标：根据花瓣与萼片长度预测鸢尾花种类步骤：环境准备：安装scikit-learn、pandas、matplotlibpipinstallsciki
短剧APP遭遇DDoS攻击的解决方法 ddosapp负载均衡带宽ip
随着短剧应用的普及和用户量的激增，网络安全问题也逐渐成为焦点。DDoS（分布式拒绝服务）攻击是一种常见的网络攻击形式，旨在通过大量虚假流量使目标服务瘫痪。对于短剧APP来说，遭遇DDoS攻击可能导致服务中断、用户流失和品牌信誉受损。以下是应对DDoS攻击的有效解决方法：使用DDoS防护服务最直接和有效的方式是借助专业的DDoS防护服务。这些服务提供商通过分布式的防御系统能够快速检测并拦截恶意流量，
报告称2024年上半年DDoS攻击数量激增，同比增长46% 游戏游戏开发ddos金融电商
8月15日消息，网络安全公司Gcore在最新发布的报告显示，2024年上半年全球分布式拒绝服务攻击（DDoS）事件数量达到了44.5万起，与去年同期相比增长了46%，与2023年下半年相比增长了34%，显示出网络攻击活动的显著增加。在攻击力度方面，2024年上半年记录到的最大DDoS攻击规模达到了1.7Tbps，略高于2023年记录的1.6Tbps。虽然0.1Tbps的增长看似微小，但这预示着网络
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器 --(1)

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器 --(1)

文章目录

0x00 摘要

0x01 背景

1.1 推荐系统中的点击率估计

1.2 点击率估算训练的挑战

0x02 HugeCtr

0x03 架构

3.1 CTR DL 模型

3.2 HugeCTR 架构

3.3 基于GPU的参数服务器

0x04 核心功能

4.1 模型并行训练

4.1.1 in-memory GPU hash table

4.1.2 Multi-slot embedding

4.1.3 具体实现

4.2 多节点训练

4.3 混合精度训练

4.4 SGD 优化器和学习率调度

4.5 嵌入训练缓存

4.6 HugeCTR 到 ONNX 转换器

4.7 分层参数服务器

4.8 异步多线程数据管道

4.9 灵活模型配置

0xEE 个人信息

0xFF 参考

你可能感兴趣的:(001_机器学习,017_分布式机器学习,015_深度学习,Embedding,nvidia,hugectr,参数服务器,CTR)