罗西的思考

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(1)

[源码解析] 快手八卦 — 机器学习分布式训练新思路(1)

文章目录

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(1)
- 0x00 摘要
- 0x01 设计思路
- - 1.1 如何通信
  - 1.2 通信模式分类
  - - 1.2.1 系统架构
    - 1.2.2 同步角度
    - 1.2.3 通信拓扑
    - 1.2.4 压缩
  - 1.3 挑战
  - 1.4 Bagua 实现
  - - 1.4.1 分层
    - 1.4.2 通信算法选项
    - 1.4.3 总体
    - 1.4.4 优化
  - 1.5 流程图
- 0x02 分析思路
- 0x03 Load Balanced Data Loader
- - 3.1 使用
  - 3.2 生成数据集
  - 3.3 初始化
  - 3.4 使用
  - - 3.4.1 获取数据
    - 3.4.2 shuffle
    - 3.4.3 梳理
    - - shuffle 细化
      - 二次打乱
      - 最终效果
- 0xEE 个人信息
- 0xFF 参考

0x00 摘要

“Bagua“ 是快手和苏黎世理工（ETH Zürich）联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，力图极致化分布式训练的效率。其特点是：

并行性能显著提高；
对网络环境更鲁棒；
“一键式”使用；
分布式通讯算法易拓展性；
可用于工业级场景大规模使用；
安全、故障易排查；

本文以：

快手官方公共号文章快手八卦！突破 TensorFlow、PyTorch 并行瓶颈的开源分布式训练框架来了！
“bagua"论文 https://arxiv.org/pdf/2107.01499.pdf
“bagua"官方网站 https://tutorials.baguasys.com/
“bagua" 演示文档
项目 GitHub 地址：https://github.com/BaguaSys/bagua

为基础来分析学习。本文学习“bagua"总体设计思路和负载均衡数据加载器。

0x01 设计思路

以下摘录于快手官方帖子快手八卦！突破 TensorFlow、PyTorch 并行瓶颈的开源分布式训练框架来了！和 ETH PPT，按照自己理解有调整。

1.1 如何通信

在数据并行之中，从单机单卡的训练到多机多卡训练的核心，是每个卡把自己的计算结果进行累加和传播，所以一个关键点是两个worker之间如何进行通信。

这个过程好比每个人把自己知道的信息传递给他人，然后又从其他人那里获取信息，最后完成全局的信息同步。如果把计算单元之间的信息同步类比为人与人之间的信息同步，那么社会实践经验告诉我们，“八卦”可能是消息传递最高效的模式。“八卦”消息传播具有去中心化、异步通讯、信息压缩的特点，这与 Bagua 里面实现的通讯算法刚好一一呼应。

1.2 通信模式分类

针对通信模式，有如下分类。

1.2.1 系统架构

按照系统架构来区分，是参数服务器和Allreduce。

下图是参数服务器和Allreduce范式的图例。

在参数服务器架构中，模型可以被分割成分片（shard）并分布到多个节点（我们称这些节点为 “参数服务器”）。在训练阶段，worker定期从参数服务器获取模型，利用计算单元（如GPU）进行前向和后向传播，并将梯度推送给参数服务器，而参数服务器汇总梯度并更新参数。
在Allreduce范式之中，所有worker都与他们的邻居合作进行模型/梯度交换。现有的系统通常采用环形拓扑结构进行两阶段的交流：首先，范式将模型/梯度划分为n个块（其中n为节点数），并使用不同起点和终点的n个环来聚合n个块；其次，位于不同节点的每个块的聚合结果会在环内进行广播。

1.2.2 同步角度

从通信同步角度看可以分为同步或是异步（Synchronous or Asynchronous）：

同步模式中，在每一次迭代过程中，所有工作节点都需要进行通信，并且下一步迭代必须等待当前迭代的通信完成才能开始。
反之，异步式分布算法则不需要等待时间：当某个节点完成计算后就可直接传递本地梯度，进行模型更新。

1.2.3 通信拓扑

从通信拓扑角度看可以分成中心化或是去中心化（Centralized or Decentralized）：

在中心化的通讯模式中，梯度或模型的同步过程需要所有的工作节点进行参与，因此，较高的网络延时往往会导致训练效率的降低。
去中心化的通信模式往往可以有效的解决上述问题：在该模式下，工作节点可以被连接成特定的拓扑结构（例如环），在通信过程中，每一个工作节点只与和它相邻的节点进行通信。

1.2.4 压缩

从通信压缩与否角度看，有完整精度模式或信息压缩模式（Full-Precision or Low-Precision）两种：

完整精度模式会使用与本地模型相同的 32 位浮点数（float32）进行传输。
另一方面，在通讯存在瓶颈的情况下，基于大量已有研究通过量化 (quantization) 或稀疏化 (sparsification) 等方法压缩梯度，再用压缩后的梯度更新参数。在很多场景下，可以达到和完整精度相同的精度，同时提升通讯效率。

1.3 挑战

快手在实现之中，遇到了三个挑战：

理论基础：通信模式需要有理论的支撑，需要严格在理论上证明通信是有效的，收敛的。
系统设计：现有分布式学习系统都无法满足所有的新的通信模式，所以需要设计新的系统结构，才能利用这种算法带来的优势。
- 参数服务器基本操作put/get，无法实现去中心化和误差补偿。
- Allreduce是全局性的，无法实现去中心化或者异步模式。
评测：需要在大规模真实场景下对各种算法进行评测。

1.4 Bagua 实现

1.4.1 分层

Bagua 具体分为三层：

算法层：在逻辑层基础之上，实现了具体算法，比如某一个算法是去中心化，压缩，异步的。
逻辑通信层：在物理通信层基础之上，实现了多种通信原语，比如去中心化，精度，同步等等，这些通信原语不是针对某一类算法特殊设计的，而对上层是统一的。
物理通信层：在此层集成了一些常见通信库，从而提供了基本的send，receive操作。

1.4.2 通信算法选项

针对通信模式分类，Bagua 相应将通信过程抽象成了如下的算法选项：

中心化或是去中心化（Centralized or Decentralized）。
同步或是异步（Synchronous or Asynchronous）。
完整精度模式或信息压缩模式（Full-Precision or Low-Precision）。

虽然为了提升通讯效率，Bagua 没有依照传统的方式同步所有计算节点的结果，甚至每次同步的信息还有偏差，但是得益于最新理论上的进展，这几种通讯策略以及他们的组合最终收敛解的正确性和效率仍然能得到充分保证，而且计算复杂度跟同步中心化和信息无损的方法相当，但是通讯效率更高。

Bagua 提供了一套详尽的通信模式来支持用户在上述模式中任意选择组合，我们将这一分布式训练系统对于上述算法选项的支持情况总结在下表中：

从表格中不难看出，现有框架的优化只是针对较为通用的算法（中心化同步完整精度），对于其他的算法组合，这些系统的支持非常有限。对于中心化同步进行信息压缩，这些系统往往只能支持较为简单的 float32->float16 压缩，相较而言，Bagua 则可以支持更为复杂的 ByteGrad，QAdam 等算法。对于其他的算法组合，现有的框架通常无法支持，而 Bagua 则可以自由支持。

1.4.3 总体

BAGUA的核心是一个训练算法，由开发者使用BAGUA提供的通信原语和抽象概念来实现。算法将最终用户提供的神经网络作为输入，并为其配备一个特定于算法的通信功能。具体来说，算法的开发者会在执行的不同阶段将这个通信功能注册为钩子。

1.4.4 优化

然而，简单地支持算法选项并不能直接在大规模集群上带来性能的提升。Bagua 的核心优势在于，为了追求极致化的性能，而实现算法和实现的联合优化。具体来讲，基于上述的通信层抽象，用户既可以方便得选择系统提供的各种算法组合从而获得性能提升，又能灵活得实现新的分布式 SGD 算法 —— Bagua 将自动为这一算法实现提供系统层优化。这些系统优化包含：

将通讯时间隐藏在计算时间中。
参数分桶及其内存管理。
分层化的通信实现。

想要强调的是，这些系统实现层面的优化是对于各种算法组合广泛适用，而非局限在某一特定的算法设置上。因此，所有的系统优化都可以被灵活的复用到各种算法实现中去，这在保证“端到端”的性能提升的同时，也为开发新的分布式算法提供了良好的平台。

1.5 流程图

我们使用官方号的图例做一下总结

0x02 分析思路

通过官方文章我们可以发现对于分析学习来说有如下情况：

通信方面的优化实现是八卦项目的一大特点。
底层 Rust 语言笔者不熟悉。
通盘研究整体代码不现实。

因此我们决定以中心化、异步通讯，分层化的通信实现为中心，再结合几个特色实现来学习分析。本文学习负载均衡数据加载器。

0x03 Load Balanced Data Loader

在某些场景下当训练数据中样本的计算复杂度是不同的，比如在 NLP 和语音任务中每个样本的长度就不同。这时，使用八卦的负载均衡数据加载器可以大大提高分布式训练吞吐量，在这种情况下，worker 的工作负载是相似的。我们接下来就从实例入手，看看如何实现数据加载的负载均衡。

我们先看看负载均衡的需求，假如我们有两个模型副本进行数据并行，有如下数据，假如这些数据代表的是数据复杂度（会影响计算时间）：

[ 7,  1, 11,  5,  10,  2,  9, 4,  6,  0,  8,  3]

那么第一个模型副本收到的数据为：[7，11，10，9，6， 8]。第二个模型副本收到的数据为：[1，5，2，4，0，3]。可以看出来两个模型在每个batch收到数据的复杂度不同，会造成负载不均衡。

                         +  8                         + 3
                         |                            |
                         |  6                         | 0
                         |                            |
                         |  9                         | 4
                         |                            |
batch 3   +----------->  |  10                        | 2  <----------+  batch 3
                         |                            |
batch 2   +----------->  |  11                        | 5  <----------+  batch 2
                         |                            |
batch 1   +----------->  v  7                         v 1  <----------+  batch 1

                  +-------------------+        +-------------------+
                  |                   |        |                   |
                  |     worker 0      |        |     worker 1      |
                  |                   |        |                   |
                  |                   |        |                   |
                  +-------------------+        +-------------------+

理想状态应该是两个模型每个batch收到的数据复杂度都相仿，比如第一个模型收到 [1，3，5，7，9]，第二个模型的数据是[2，4，6，8，10]，在下图的输入下，可以看到每次batch数据复杂度相仿，从而达到负载均衡的效果：

                         +                            +
                         |  9                         | 10
                         |                            |
                         |  7                         | 8
                         |                            |
batch 3   +----------->  |  5                         | 6  <----------+  batch 3
                         |                            |
batch 2   +----------->  |  3                         | 4  <----------+  batch 2
                         |                            |
batch 1   +----------->  v  1                         v 2  <----------+  batch 1

                  +-------------------+        +-------------------+
                  |                   |        |                   |
                  |     worker 0      |        |     worker 1      |
                  |                   |        |                   |
                  |                   |        |                   |
                  +-------------------+        +-------------------+

3.1 使用

我们直接使用源码中的例子修改学习一下。

import torch
from load_balancing_data_loader import LoadBalancingDistributedSampler
from torch.utils.data import TensorDataset, DataLoader

def test_load_balancing_distributed_batch_sampler():
    num_replicas = 2 # 分成两个副本
    total_batch = 3 

    n = sum([i + 1 for i in range(total_batch)]) * num_replicas
    dataset = TensorDataset(torch.randn(n, 2), torch.randperm(n))

    sampler = LoadBalancingDistributedSampler(
        dataset,
        complexity_fn=lambda x: x[1],
        num_replicas=num_replicas,
        rank=0,
        shuffle=True, # 需要shuffle
        random_level=0.5, # 加入随机
    )

    dataloader = torch.utils.data.DataLoader(dataset, sampler=sampler)

    cur_idx = 0
    for i, data in enumerate(dataloader):
        batch_size = data[0].shape[0]
        cur_idx += batch_size * num_replicas
        print(cur_idx)

test_load_balancing_distributed_batch_sampler()

因为此处代码十分绕，所以我们逐次解析。

3.2 生成数据集

首先是生成数据集部分。torch.randn(n, 2) 生成了随机张量，torch.randperm(n) 生成了 n 的随机排序。这里假定 n 是12。

# 生成了数据集
n = sum([i + 1 for i in range(total_batch)]) * num_replicas
dataset = TensorDataset(torch.randn(n, 2), torch.randperm(n))

TensorDataset 类似 zip 命令，生成了tuple列表。

dataset = {TensorDataset: 12} 
 tensors = {tuple: 2} (
   
  0 = {Tensor: 12} tensor([[-1.5556,  0.6848],\n        [ 2.0811,  1.5011],\n        [ 0.7434, -0.4990],\n        [-0.2706,  1.7227],\n        [ 0.2179,  0.0622],\n        [-0.3014, -0.6435],\n        [-0.1773, -1.3405],\n        [-1.8212,  0.3702],\n        [-0.5526, -0.2077],\n        [-1.6543,  0.3109],\n        [ 0.3265,  0.5987],\n        [-1.5566,  0.2854]])
   
   1 = {Tensor: 12} tensor([ 7,  8, 11,  4,  5,  2,  9, 10,  0,  6,  1,  3])

得出目前的TensorDataset如下，0 是实际数据，1 是数据复杂度，后续处理的目的就是按照数据复杂度对这些张量排序。我们可以设想下，最终排序应该就是一个复杂度均匀的排序结果。

+-----------------------------------------------------------------------------+
| TensorDataset                                                               |
|                                                                             |
|   0 = {Tensor: 12} tensor([[-1.5556,  0.6848],......                        |
|                                                                             |
|   1 = {Tensor: 12} tensor([ 7,  8, 11,  4,  5,  2,  9, 10,  0,  6,  1,  3]) |
|                                                                             |
+-----------------------------------------------------------------------------+

3.3 初始化

我们来到了 LoadBalancingDistributedSampler 的初始化。

def __init__(
    self,
    dataset: Dataset,
    complexity_fn: Callable[..., int],
    num_replicas: Optional[int] = None,
    rank: Optional[int] = None,
    shuffle: bool = True,
    seed: int = 0,
    drop_last: bool = False,
    random_level: float = 0,
) -> None:
    if num_replicas is None:
        num_replicas = dist.get_world_size()
    if rank is None:
        rank = dist.get_rank()

    self.dataset = dataset
    self.num_replicas = num_replicas
    self.rank = rank
    self.epoch = 0
    self.drop_last = drop_last

    # If the dataset length is evenly divisible by # of replicas, then there
    # is no need to drop any data, since the dataset will be split equally.
    dataset_len = len(self.dataset)  # type: ignore
    if self.drop_last and dataset_len % self.num_replicas != 0:  # type: ignore
        # Split to nearest available length that is evenly divisible.
        # This is to ensure each rank receives the same amount of data when
        # using this Sampler.
        self.num_samples = math.ceil(
            # `type:ignore` is required because Dataset cannot provide a default __len__
            # see NOTE in pytorch/torch/utils/data/sampler.py
            (dataset_len - self.num_replicas)
            / self.num_replicas
        )
    else:
        self.num_samples = math.ceil(dataset_len / self.num_replicas)  # type: ignore
    self.total_size = self.num_samples * self.num_replicas
    self.shuffle = shuffle
    self.seed = seed

""" 
此时变量为
self = {LoadBalancingDistributedSampler: 6} 
 dataset = {TensorDataset: 12} 
 drop_last = {bool} False
 epoch = {int} 0
 num_replicas = {int} 2
 num_samples = {int} 6
 rank = {int} 0
 seed = {int} 0
 shuffle = {bool} True
 total_size = {int} 12 
"""       
    
    # 以下是与PyTorch原生的主要不同之处
    self.item_complexity_map = dict()
    for item_index in range(dataset_len):
        # 每一个item都有一个complexity
        self.item_complexity_map[item_index] = complexity_fn(
            self.dataset[item_index]
        )

"""
complexity_fn 是选取 tuple 的第二个元素作为复杂度，我们回忆一下数据集的复杂度
{Tensor: 12} tensor([ 7,  8, 11,  4,  5,  2,  9, 10,  0,  6,  1,  3])

所以得到了复杂度map如下：
item_complexity_map = {dict: 12} {0: tensor(7), 1: tensor(8), 2: tensor(11), 3: tensor(4), 4: tensor(5), 5: tensor(2), 6: tensor(9), 7: tensor(10), 8: tensor(0), 9: tensor(6), 10: tensor(1), 11: tensor(3)}
 0 = {Tensor} tensor(7) # 第 0 个元素复杂度是 7
 1 = {Tensor} tensor(8) # 第 1 个元素复杂度是 8
 2 = {Tensor} tensor(11)
 3 = {Tensor} tensor(4)
 4 = {Tensor} tensor(5)
 5 = {Tensor} tensor(2)
 6 = {Tensor} tensor(9)
 7 = {Tensor} tensor(10)
 8 = {Tensor} tensor(0)
 9 = {Tensor} tensor(6)
 10 = {Tensor} tensor(1)
 11 = {Tensor} tensor(3)
"""        
        
    # 按照复杂度排序    
    self.ordered_item_complexity_map = OrderedDict(
        sorted(self.item_complexity_map.items(), key=lambda t: t[1])
    )
    
"""
排序之后如下：
ordered_item_complexity_map = {OrderedDict: 12} OrderedDict([(8, tensor(0)), (10, tensor(1)), (5, tensor(2)), (11, tensor(3)), (3, tensor(4)), (4, tensor(5)), (9, tensor(6)), (0, tensor(7)), (1, tensor(8)), (6, tensor(9)), (7, tensor(10)), (2, tensor(11))])
 8 = {Tensor} tensor(0) 第8个元素复杂度最低，是0
 10 = {Tensor} tensor(1) # 第10个元素复杂度次低，是1
 5 = {Tensor} tensor(2)
 11 = {Tensor} tensor(3)
 3 = {Tensor} tensor(4)
 4 = {Tensor} tensor(5)
 9 = {Tensor} tensor(6)
 0 = {Tensor} tensor(7)
 1 = {Tensor} tensor(8)
 6 = {Tensor} tensor(9)
 7 = {Tensor} tensor(10)
 2 = {Tensor} tensor(11)
"""    
    
    max_complexity = max(self.item_complexity_map.values()) # 11
    min_complexity = min(self.item_complexity_map.values()) # 0
    self.random_number = int((max_complexity - min_complexity) * random_level + 1) # 6
    
# random_number = {int} 1

拓展如下：

TensorDataset ，0 = … 是实际数据，1 = … 是数据复杂度，后续就是按照复杂度排序，而且所有排序或者打乱都没有对原始数据进行移动，而是通过额外空间完成。
初始化内部会对复杂度进行排序，
- item_complexity_map 是得到每个元素的原始复杂度，比如 0: 7 表示第 0 个元素复杂度是 7。
- ordered_item_complexity_map 就是排序之后的结构，其中 (8, 0) 表示第8个元素复杂度最低，是0，整个map是升序排列。

TensorDataset 的逻辑图拓展如下，现在数据集 ordered_item_complexity_map 之中按照复杂度从低到高进行排序了。

+-----------------------------------------------------------------------------+
| TensorDataset                                                               |
|                                                                             |
|   0 = {Tensor: 12} tensor([[-1.5556,  0.6848],......                        |
|                                                                             |
|   1 = {Tensor: 12} tensor([ 7,  8, 11,  4,  5,  2,  9, 10,  0,  6,  1,  3]) |
|                                                                             |
+-------------------------------------------+---------------------------------+
                                            |
                                            |
                                            v
+-------------------------------------------+------------------------------------------+
| LoadBalancingDistributedSampler.__init__                                             |
|                                                                                      |
|                                                                                      |
|  item_complexity_map = {dict: 12} {0: 7, 1: 8, 2: 11, 3: 4, 4: 5, 5: 2,              |
|                                                                                      |
|                                    6: 9, 7: 10, 8: 0, 9: 6, 10: 1, 11: 3}            |
|                                           +                                          |
|                                           |                                          |
|                                           |  sorted                                  |
|                                           |                                          |
|                                           v                                          |
|  ordered_item_complexity_map = {OrderedDict: 12} [(8, 0), (10, 1), (5, 2), (11, 3),  |
|                                                                                      |
|                    (3, 4), (4, 5), (9, 6), (0, 7), (1, 8), (6, 9), (7, 10), (2, 11)] |
|                                                                                      |
+--------------------------------------------------------------------------------------+

3.4 使用

示例代码之中接下来是使用数据：

dataloader = torch.utils.data.DataLoader(dataset, sampler=sampler)

cur_idx = 0
for i, data in enumerate(dataloader):
    batch_size = data[0].shape[0]
    cur_idx += batch_size * num_replicas
    print(cur_idx)

3.4.1 获取数据

我们接下来看看如何获取数据，就是如何从loader拿到sample。

首先会调用 shuffle_chunks 来打乱数据。
然后得到自己rank对应的index。

def __iter__(self) -> Iterator:
    index_chunks, chunk_indices = self.shuffle_chunks() # 打乱数据
    # subsample
    indices = [index_chunks[i][self.rank] for i in chunk_indices] # 用 rank来提取数据

"""
得到数据如下：
chunk_indices = {list: 6} [0, 5, 4, 1, 2, 3] 把 index_chunks 顺序打乱，chunk_indices 是打乱之后的结果
index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]] 均匀分成两组
indices = {list: 6} [8, 7, 6, 5, 4, 0] 得到自己rank对应的index
"""    
    return iter(indices)

3.4.2 shuffle

我们看看shuffle 具体代码如下，这里最终要分成 6 = 12(数据数目) / 2( num_replicas ) 组数据。

def shuffle_chunks(self):
    def chunks_wrap_padding(lst, n):
        """Yield successive n-sized chunks from lst."""
        num_chunks = max(1, self.num_samples)
        num_elements = num_chunks * n
        current_lst = []
        for i in range(num_elements):
            current_lst.append(lst[i % len(lst)])
            if len(current_lst) == n:
                yield current_lst
                current_lst = []

    if self.shuffle: # 需要再次打乱
        # deterministically shuffle based on epoch and seed
        g = torch.Generator()
        g.manual_seed(self.seed + self.epoch)

        if self.random_number > 0:
            # 这里的打乱机制很巧妙，就是随机再生成复杂度，然后加到原先复杂度map上
            item_complexity_map = self.item_complexity_map.copy() # 原来map做个拷贝
            complexity_random_ints = torch.randint( # 新生成了一些复杂度变化值
                self.random_number, (len(item_complexity_map),), generator=g
            ).tolist()
"""
complexity_random_ints = {list: 12} [2, 3, 5, 0, 1, 3, 1, 1, 1, 3, 5, 2]

item_complexity_map = {dict: 12} {0: tensor(7), 1: tensor(8), 2: tensor(11), 3: tensor(4), 4: tensor(5), 5: tensor(2), 6: tensor(9), 7: tensor(10), 8: tensor(0), 9: tensor(6), 10: tensor(1), 11: tensor(3)}
"""
            
            # 原来复杂度map + 复杂度变化值
            for k, v in zip(item_complexity_map, complexity_random_ints):
                item_complexity_map[k] += v
"""
生成新的复杂度
item_complexity_map = {0: tensor(9), 1: tensor(11), 2: tensor(16), 3: tensor(4), 4: tensor(6), 5: tensor(5), 6: tensor(10), 7: tensor(11), 8: tensor(1), 9: tensor(9), 10: tensor(6), 11: tensor(5)}
"""
        
            # 再次对新复杂度排序
            ordered_item_complexity_map = OrderedDict(
                sorted(item_complexity_map.items(), key=lambda t: t[1])
            )

"""
ordered_item_complexity_map = {OrderedDict: 12} OrderedDict([(8, tensor(1)), (3, tensor(4)), (5, tensor(5)), (11, tensor(5)), (4, tensor(6)), (10, tensor(6)), (0, tensor(9)), (9, tensor(9)), (6, tensor(10)), (1, tensor(11)), (7, tensor(11)), (2, tensor(16))])
 8 = {Tensor} tensor(1)
 3 = {Tensor} tensor(4)
 5 = {Tensor} tensor(5)
 11 = {Tensor} tensor(5)
 4 = {Tensor} tensor(6)
 10 = {Tensor} tensor(6)
 0 = {Tensor} tensor(9)
 9 = {Tensor} tensor(9)
 6 = {Tensor} tensor(10)
 1 = {Tensor} tensor(11)
 7 = {Tensor} tensor(11)
 2 = {Tensor} tensor(16)
 __len__ = {int} 12
"""
        else:
            ordered_item_complexity_map = self.ordered_item_complexity_map

        index_chunks = list( # 按照 num_replicas 进行分片
            chunks_wrap_padding(
                list(ordered_item_complexity_map.keys()), self.num_replicas
            )
        )

"""
被均匀分配成两组，每组中两个元素的复杂度接近
index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]]
 0 = {list: 2} [8, 3]
 1 = {list: 2} [5, 11]
 2 = {list: 2} [4, 10]
 3 = {list: 2} [0, 9]
 4 = {list: 2} [6, 1]
 5 = {list: 2} [7, 2]
 __len__ = {int} 6
"""        
        # 再次打乱 index_chunks
        chunk_indices = torch.randperm(len(index_chunks), generator=g).tolist()  # type: ignore
    
"""
chunk_indices = {list: 6} [0, 5, 4, 1, 2, 3]
"""    
    
    else:
        index_chunks = list(
            chunks_wrap_padding(
                list(self.ordered_item_complexity_map.keys()), self.num_replicas
            )
        )
        chunk_indices = list(range(len(index_chunks)))  # type: ignore

    if not self.drop_last:
        # add extra samples to make it evenly divisible
        padding_size = self.num_samples - len(chunk_indices)
        if padding_size <= len(chunk_indices):
            chunk_indices += chunk_indices[:padding_size]
        else:
            chunk_indices += (
                chunk_indices * math.ceil(padding_size / len(chunk_indices))
            )[:padding_size]
    else:
        # remove tail of data to make it evenly divisible.
        chunk_indices = chunk_indices[: self.num_samples]
    assert len(chunk_indices) == self.num_samples
    return index_chunks, chunk_indices

总体拓展如下：

TensorDataset ，0 = … 是实际数据，1 = … 是数据复杂度，后续就是按照复杂度排序：
LoadBalancingDistributedSampler.__init__ 初始化内部会对复杂度进行排序，
- item_complexity_map 是得到每个元素的复杂度，比如 0: 7 表示第 0 个元素复杂度是 7。
- ordered_item_complexity_map 就是按照复杂度排序之后的结构，其中 (8, 0) 表示第8个元素复杂度最低，是0。
shuffle_chunks 内部继续处理，这里的打乱机制很巧妙，没有移动数据，而是随机再生成复杂度，然后加到原先复杂度map上，这样就打乱了。
- complexity_random_ints 新生成了一些复杂度变化值。
- item_complexity_map 把原来map做个拷贝。
- item_complexity_map 继续操作，即：新复杂度 = 原来复杂度map + 复杂度变化值。
- ordered_item_complexity_map 对新复杂度排序。
- 对 ordered_item_complexity_map 按照 num_replicas 进行分片，得到 index_chunks，ordered_item_complexity_map 被均匀分配成六组，每组中两个元素的复杂度接近。
- 然后再次打乱 index_chunks，得到 chunk_indices，就是为了把index顺序打乱而已。

+--------------------------------------------------------------------------------------+
| TensorDataset                                                                        |
|                                                                                      |
|   0 = {Tensor: 12} tensor([[-1.5556,  0.6848],......                                 |
|                                                                                      |
|   1 = {Tensor: 12} tensor([ 7,  8, 11,  4,  5,  2,  9, 10,  0,  6,  1,  3])          |
|                                                                                      |
+-------------------------------------------+------------------------------------------+
                                            |
                                            |
                                            v
+-------------------------------------------+------------------------------------------+
| LoadBalancingDistributedSampler.__init__                                             |
|                                                                                      |
|                                                                                      |
|  item_complexity_map = {dict: 12} {0: 7, 1: 8, 2: 11, 3: 4, 4: 5, 5: 2,              |
|                                                                                      |
|                                    6: 9, 7: 10, 8: 0, 9: 6, 10: 1, 11: 3}            |
|                                           +                                          |
|                                           |                                          |
|                                           |  sorted                                  |
|                                           |                                          |
|                                           v                                          |
|  ordered_item_complexity_map = {OrderedDict: 12} [(8, 0), (10, 1), (5, 2), (11, 3),  |
|                                                                                      |
|                    (3, 4), (4, 5), (9, 6), (0, 7), (1, 8), (6, 9), (7, 10), (2, 11)] |
|                                                                                      |
+-------------------------------------------+------------------------------------------+
                                            |
                                            |
                                            v
+-------------------------------------------+------------------------------------------+
| __iter__                                                                             |
|                                                                                      |
+-------------------------------------------+------------------------------------------+
                                            |
                                            |
                                            v
+-------------------------------------------+------------------------------------------+
|                                                                                      |
| shuffle_chunks()                                                                     |
|                                                                                      |
|                                                                                      |
|   complexity_random_ints = {list: 12} [2, 3, 5, 0, 1, 3, 1, 1, 1, 3, 5, 2]           |
|                                                                                      |
|                                                                                      |
|                                                                                      |
|   item_complexity_map = {0: 9, 1: 11, 2: 16, 3: 4, 4: 6, 5: 5, 6: 10, 7: 11, 8: 1,   |
|                                                                                      |
|                                                                9: 9, 10: 6, 11: 5}   |
|                                                                                      |
|                                                                                      |
|                                                                                      |
|   ordered_item_complexity_map = {OrderedDict: 12} [(8, 1), (3, 4), (5, 5), (11, 5),  |
|                                                                                      |
|                                                    (4, 6), (10, 6), (0, 9), (9, 9),  |
|                                                                                      |
|                                                (6, 10), (1, 11), (7, 11), (2, 16)])  |
|                                                                                      |
|                                           +                                          |
|                                           |                                          |
|                                           |                                          |
|                                           v                                          |
|                                                                                      |
|     index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]]      |
|                                                                                      |
|                                                                                      |
|     chunk_indices = {list: 6} [0, 5, 4, 1, 2, 3]                                     |
|                                                                                      |
|                                                                                      |
+--------------------------------------------------------------------------------------+

3.4.3 梳理

shuffle 细化

看到这里读者可能有点晕，所以我们需要具体梳理一下。

ordered_item_complexity_map 就是按照复杂度排序之后的结构，其中 (8, 0) 表示第8个元素复杂度最低，是0。ordered_item_complexity_map 拥有 12个元素，按照两个副本分配，所以 ordered_item_complexity_map 应该被均匀分配成六组，每组中两个元素的复杂度接近。

index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]] 是最终的结果，这里[8, 3]是一组，复杂度接近，[5, 11]是一组，复杂度接近，比如结合 ordered_item_complexity_map 来看：

(8, 1), (3, 4) 就是说，第 8 个元素复杂度是1，第3个元素复杂度是4，所以 index 8，index 3 被分成一组。
(5, 5), (11, 5) 就是说，第 5 个元素复杂度是5，第11个元素复杂度是5，所以 index 5，index 11 被分成一组。

shuffle_chunks 的演示如下：

+--------------------------------------------------------------------------------------+
| shuffle_chunks                                                                       |
|                                                                                      |
|                                                                                      |
|                                      +--------------+     +---------------+          |
|   ordered_item_complexity_map = [ +--+(8, 1), (3, 4)|   +-+(5, 5), (11, 5)|          |
|                                   |  +--------------+   | +---------------+          |
|                                   |                     |                            |
|                                   |  +---------------+  | +---------------+          |
|                              +-------+(4, 6), (10, 6)|  | |(0, 9), (9, 9) +-------+  |
|                              |    |  +---------------+  | +---------------+       |  |
|                              |    |                     |                         |  |
|                              |    |  +----------------+ | +----------------+      |  |
|                              |    |  |(6, 10), (1, 11)| | |(7, 11), (2, 16)|  ]   |  |
|                              |    |  +-------------+--+ | +----------+-----+      |  |
|                              |    |                |    |            |            |  |
|                              +------------------+  +-------------+   +----+       |  |
|                                   |             |       |        |        |       |  |
|                                   |        +------------+   +---------------------+  |
|                                   |        |    |           |    |        |          |
|                                   v        v    v           v    v        v          |
|     index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]]      |
|                                                                                      |
|                                      +                                               |
|                                      |                                               |
|                                      |                                               |
|                                      v                                               |
|                                                                                      |
|     chunk_indices = {list: 6} [0, 5, 4, 1, 2, 3]                                     |
|                                                                                      |
+--------------------------------------------------------------------------------------+

二次打乱

我们结合原始数据再来分析，先回头看看获取数据。

def __iter__(self) -> Iterator:
    index_chunks, chunk_indices = self.shuffle_chunks()
    # subsample
    indices = [index_chunks[i][self.rank] for i in chunk_indices]

"""
得到数据如下：
chunk_indices = {list: 6} [0, 5, 4, 1, 2, 3] 把 index_chunks 顺序打乱
index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]] 均匀分成两组
indices = {list: 6} [8, 7, 6, 5, 4, 0] 得到自己rank对应的index
"""    
    
    assert len(indices) == self.num_samples

    return iter(indices)

原始数据为：[ 7, 8, 11, 4, 5, 2, 9, 10, 0, 6, 1, 3]，后续会按照原始数据的index 来排序。

按照复杂度排序/shuffle之后，rank 0 就是 [8, 5, 4, 0, 6, 7]。rank 1 就是 [3, 11, 10, 9, 1, 2]。

rank 0 和 rank 1 的batch 是 [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]] ，两两一组。

但是，还需要再次打乱顺序，因为目前这个batch是按照复杂度从小到大排序，这样会影响训练效果，所以需要打乱这个顺序。所以就按照 chunk_indices [0, 5, 4, 1, 2, 3] 这个顺序来打乱。

打乱之后的顺序是：[[8, 3], [7, 2], [6, 1], [5, 11], [4, 10], [0, 9]]。

假如本worker 是 rank 0，则会获取 index_chunks 这六组数据中和自己对应的，得到 [8, 7, 6, 5, 4, 0]。
假如本worker rank 1，则是 [3,2,1,11,10,9]。注意，这些还都是原始数据的index。

具体演示如下图（这里只给出 rank 0 的效果）：

+--------------------------------------------------------------------------------------+
| shuffle_chunks                                                                       |
|                                                                                      |
|                                      +--------------+     +---------------+          |
|   ordered_item_complexity_map = [ +--+(8, 1), (3, 4)|   +-+(5, 5), (11, 5)|          |
|                                   |  +--------------+   | +---------------+          |
|                                   |                     |                            |
|                                   |  +---------------+  | +---------------+          |
|                               +------+(4, 6), (10, 6)|  | |(0, 9), (9, 9) +------+   |
|                               |   |  +---------------+  | +---------------+      |   |
|                               |   |                     |                        |   |
|                               |   |  +----------------+ | +----------------+     |   |
|                               |   |  |(6, 10), (1, 11)| | |(7, 11), (2, 16)|  ]  |   |
|                               |   |  +-------------+--+ | +----------+-----+     |   |
|                               |   |                |    |            |           |   |
|                               +-----------------+  +-------------+   +----+      |   |
|                                   |             |       |        |        |      |   |
|                                   |        +------------+   +--------------------+   |
|                                   |        |    |           |    |        |          |
|                                   v        v    v           v    v        v          |
|     index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]]      |
|                                      +                                               |
|                                      |                                               |
|                                      |                                               |
|                                      v                                               |
|     chunk_indices = {list: 6} [0, 5, 4, 1, 2, 3]                                     |
|                                                                                      |
+--------------------------------------+-----------------------------------------------+
                                       |
                                       |
                                       v

+--------------------------------------------------------------------------------------+
| __iter__                                                                             |
|                                    0       1        2        3       4       5       |
|        index_chunks = {list: 6} [[8, 3], [5, 11], [4, 10], [0, 9], [6, 1], [7, 2]]   |
|                                   +       +        +        +       +       +        |
|                                   |       |        |        |       |       |        |
|                                   +----+  +-----+  |  +-----+       |       |        |
|                                        |        |  |  |             |       |        |
|                                        |        |  |  |             |       |        |
|                                        v        v  v  v             |       |        |
|                   indices = {list: 6} [8, 7, 6, 5, 4, 0]            |       |        |
|                                           ^  ^                      |       |        |
|                                           |  |                      |       |        |
|                                           |  +----------------------+       |        |
|                                           |                                 |        |
|                                           +---------------------------------+        |
|                                                                                      |
+--------------------------------------------------------------------------------------+

最终效果

我们看看最终效果是什么：

原始数据为：[ 7, 8, 11, 4, 5, 2, 9, 10, 0, 6, 1, 3]。
最终shuffle/二次打乱之后的数据为：rank 0 是 [8, 7, 6, 5, 4, 0]，rank 1 则是 [3,2,1,11,10,9]。这里数值是原始数据的index。
最终结果是：
- batch如下，rank 0 和 rank 1 的batch 是 [[8, 3], [7, 2], [6, 1], [5, 11], [4, 10], [0, 9]]，两两一组。这里数值是原始数据的index。
- rank 0 的数据是 [0, 10, 9, 2, 5, 7]，rank 1的数据是[4, 11, 7, 3, 1, 6]，这里数值就是原始数据的数值了。

具体如下图，可以看到，因为过程之中引入了随机值，所以不是理想均衡状态，但已经比较均衡了：

                         + 7                          + 6
                         |                            |
                         | 5                          | 1
                         |                            |
                         | 2                          | 3
                         |                            |
batch 3   +----------->  | 9                          | 7  <----------+  batch 3
                         |                            |
batch 2   +----------->  | 10                         | 11 <----------+  batch 2
                         |                            |
batch 1   +----------->  v 0                          v 4  <----------+  batch 1

                  +-------------------+        +-------------------+
                  |                   |        |                   |
                  |     worker 0      |        |     worker 1      |
                  |                   |        |                   |
                  |                   |        |                   |
                  +-------------------+        +-------------------+

0xEE 个人信息

★★★★★★关于生活和技术的思考★★★★★★

微信公众账号：罗西的思考

如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，敬请关注。

0xFF 参考

PyTorch internals

快手八卦！突破 TensorFlow、PyTorch 并行瓶颈的开源分布式训练框架来了！

https://arxiv.org/pdf/2107.01499.pdf

[1] Dean, Jeffrey, Greg S. Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Quoc V. Le, Mark Z. Mao et al. “Large scale distributed deep networks.” (2012).

[2] Zhengyuan Zhou, Panayotis Mertikopoulos, Nicholas Bambos, Peter Glynn, Yinyu Ye, Li-Jia Li, and Li Fei-Fei. 2018. Distributed asynchronous optimization with unbounded delays: How slow can you go?. In International Conference on Machine Learning. PMLR, 5970–5979.

[3] DanAlistarh, DemjanGrubic, JerryLi, RyotaTomioka, and MilanVojnovic. 2016. QSGD: Communication-efficient SGD via gradient quantization and encoding. arXiv preprint arXiv:1610.02132 (2016).

[4] Dan Alistarh, Torsten Hoefler, Mikael Johansson, Sarit Khirirat, Nikola Konstanti- nov, and Cédric Renggli. 2018. The convergence of sparsified gradient methods. In Proceedings of the 32nd International Conference on Neural Information Processing Systems. 5977–5987.

[5] Anastasia Koloskova, Sebastian Stich, and Martin Jaggi. 2019. Decentralized stochastic optimization and gossip algorithms with compressed communication. In International Conference on Machine Learning. PMLR, 3478–3487.

[6] Xiangru Lian, Ce Zhang, Huan Zhang, Cho-Jui Hsieh, Wei Zhang, and Ji Liu. 2017. Can decentralized algorithms outperform centralized algorithms? a case study for decentralized parallel stochastic gradient descent. In Proceedings of the 31st International Conference on Neural Information Processing Systems. 5336–5346.

[7] Christopher De Sa, Matthew Feldman, Christopher Ré, and Kunle Olukotun. 2017. Understanding and optimizing asynchronous low-precision stochastic gradient descent. In Proceedings of the 44th Annual International Symposium on Computer Architecture. 561–574.

[8] Xiangru Lian, Wei Zhang, Ce Zhang, and Ji Liu. 2018. Asynchronous decentral- ized parallel stochastic gradient descent. In International Conference on Machine Learning. PMLR, 3043–3052.

[9] Hanlin Tang, Shaoduo Gan, Ce Zhang, Tong Zhang, and Ji Liu. 2018. Com- munication compression for decentralized training. In Proceedings of the 32nd International Conference on Neural Information Processing Systems. 7663–7673.

[10] Ji Liu, Ce Zhang, et al. 2020. Distributed Learning Systems with First-Order Methods. Foundations and Trends® in Databases 9, 1 (2020), 1–100.

你可能感兴趣的:(017_分布式机器学习,001_机器学习,015_深度学习,机器学习,分布式,人工智能,快手,bagua)

预测股票走势的ai模型 roxxo AI模型人工智能深度学习金融
AI股票走势预测模型用深度学习+时间序列分析来构建一个股票预测AI，基于历史数据预测未来走势。1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage财务分析：PE、EPS、ROE、PB、成交量机器学习选股：随机森林/XGBoost深度学习预测：LST
Deepseek详细的自我介绍 welcome_123_ 人工智能
###**DeepSeek：中国自研AGI大模型的深度解析**---####**1.技术背景与研发理念**DeepSeek由国内顶尖AI科学家团队领衔，核心技术成员来自清华大学、北京大学及国际顶级AI实验室，团队在NLP、分布式训练、模型压缩等领域发表顶会论文超200篇。研发理念聚焦三个核心：-**高效性**：通过模型架构创新（如MoE）实现“小参数量，大性能”。-**可控性**：内置可解释性模块
（15-3）DeepSeek混合专家模型初探：模型微调码农三叔训练 RAG 多模态)人工智能 Deekseep 深度学习大模型 transformer
3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。支持加载特定任务的数据、对数据进行预处理和编码，以及通过多种配置选项（如LoRA量化、分布式训练等）对模型进行高效训练。用户可以根据自己的需求，通过命令行参数或配置文件调整微调策略，以优化模型在特定任务或数据集上的性能。3.4.1微调原理在DeepSeek-MoE
SoC 架构设计全面详解：从基础到实战嵌入式Jerry 面试架构系统架构 AI编程 ai 学习
一、SoC是什么？为什么重要？SoC(SystemonChip,片上系统)是一种将计算核心、存储系统、通信接口以及各种外设集成到一个单一芯片上的高度集成解决方案。它在智能手机、汽车电子、人工智能、工业控制等领域扮演着至关重要的角色。为什么SoC如此重要？高集成度：将多个功能模块集成到单个芯片上，减少了PCB板空间，提高了可靠性。高性能低功耗：相比传统多个芯片组合的方式，SoC通过优化设计大幅降低功
Redisson分布式锁和同步器完整篇高锰酸钾_ 分布式 java redis redisson
Redisson分布式锁和同步器完整篇在分布式系统中，如何确保多个服务实例之间的数据一致性和资源协调是一个关键挑战。Redisson作为基于Redis的Java客户端，提供了一套完整的分布式锁和同步器解决方案，帮助开发者轻松应对这些挑战。本文将深入探讨Redisson的核心组件，包括：分布式锁：可重入锁、公平锁、读写锁、红锁、联锁同步工具：信号量、可过期信号量、闭锁我们将从以下维度展开详细分析：✅
清华大学：DeepSeek 如何赋能职场应用（35 页 PDF）伟贤AI之路 AI应用 pdf
原来已经分享过清华大学的DeepSeek：从入门到精通（100页PDF）现在又来第二弹：《DeepSeek如何赋能职场应用？从提示语技巧到多场景应用》PDF里介绍了DeepSeek这一人工智能工具及其在职场中的应用，从基础模型到深度思考模型，再到联网搜索模型，展示了其在不同情境下的强大功能。通过提示语技巧和多场景应用，DeepSeek能够实现人机高效协同，提高工作效率和创作质量。文章不仅讲述了De
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
云桌面主流架构解析与应用场景分析一休哥助手架构
引言随着云计算、大数据和虚拟化技术的快速发展，云桌面作为一种高效、安全、便捷的办公方式，逐渐被企业、教育和政府等多个领域广泛采用。云桌面通过虚拟化技术将计算资源集中管理，并将桌面操作系统、应用程序和数据存储在云端。用户通过终端设备访问云桌面，从而实现随时随地的灵活办公。云桌面架构的设计是其性能、安全性和用户体验的关键因素。目前主流的云桌面架构有多种类型，包括集中式架构、分布式架构、混合式架构等。本
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术 2301_79098963 程序员云计算大数据人工智能
物联网一、物联网的基本概念二、物联网的特征(一)物体感知(二)信息传输(三)智能处理三、物联网关键技术(一)射频识别技术(二)产品电子编码(三)短距离通信技术(四)互联网(五)感知控制技术(六)无线网络技术(七)中间件技术(八)智能处理技术四、物联网的应用领域虚拟现实技术一、VR的基本概念二、VR的特征(一)沉浸性(二)人交互性(三)多感知性(四)想象性(五)自主性三、VR的技术应用(一)在影视娱
Qt学习1 qq_43361844 QT qt 学习开发语言
QUuidQUuid是Qt库中的一个类，用于生成、表示和操作UUID（通用唯一标识符，UniversallyUniqueIdentifier）。UUID是一种广泛使用的标识符，通常用来唯一地标识对象、记录、会话、文件、实体等。QUuid类简介QUuid类提供了一个简单的接口，用于创建、解析和操作UUID。UUID在很多应用场景中都有广泛使用，比如在数据库中作为主键、在分布式系统中唯一标识设备和实体
2025年大模型与Transformer架构：技术前沿与未来趋势报告和老莫一起学AI transformer 架构深度学习人工智能产品经理学习大模型
_“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。《2025年大模型与Transformer架构：技术前沿与未来趋势报告》深入剖析了Transformer架构的
AI 大模型创业：如何利用市场优势？ SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI大模型创业：如何利用市场优势？1.背景介绍随着人工智能技术的不断发展，大模型（LargeModels）在商业化应用中日益受到关注。大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，
人工智能推理模型（S1-32B）超越DeepSeek？ deepdata_cn 垂域模型人工智能人工智能大语言模型
S1模型是由斯坦福大学和华盛顿大学的研究团队在李飞飞教授的领衔下开发的人工智能推理模型。从2000年李飞飞进入加州理工学院攻读研究生起，就一直从事人工智能研究，在计算机视觉领域创立了拥有1500万张图片的ImageNet数据库，为人工智能计算机视觉研究奠定了基础，也积累了深厚的人工智能技术理论和实践经验。论文地址：https://arxiv.org/pdf/2501.19393一、发展过程模型采用
Java查询es很慢怎么办_elasticsearch索引和搜索慢问题分析解决股票期货软件开发 Java查询es很慢怎么办
简述Elasticsearch是一个分布式的免费开源搜索和分析引擎，能够实现近实时的数据搜索。在使用的过程中，由于各种原因可能导致集群写入或者查询缓慢，本文主要讲述集中常见的原因和解决方法。写入拒绝或者慢现象当像索引(存储和使文档可被搜索)或者搜索数据的时候会出现类似如下429状态码的报错:"status":429,"error":{"type":"es_rejected_execution_ex
尚硅谷课程【笔记】——大数据之Zookeeper【一】赶紧写完去睡觉大数据生态圈大数据 zookeeper linux
课程视频：【尚硅谷Zookeeper教程】一、Zookeeper入门概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责同志已经在Zookeeper上注册的哪些观察者做出
使用 pip 和 conda 的安装深度学习环境 ZhengXinTang #深度学习环境 pip conda python
在决定使用pip和conda安装包时，了解这两个包管理器之间的主要区别非常重要。以下是细分：1.在使用conda安装的过程中，可以先参考另外一台机器中对应虚拟环境配置成功的，所设置的镜像源，使用condacofig--show,进行查看，2.设置，将网络下载时，连接时间加长condaconfig--setremote_connect_timeout_secs60condaconfig--setre
Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？晚夜微雨问海棠呀分布式 hadoop 缓存
Hadoop的分布式缓存机制是一种用于在MapReduce任务中高效分发和访问文件的机制。通过分布式缓存，用户可以将小文件（如配置文件、字典文件等）分发到各个计算节点，从而提高任务的执行效率。分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。作业提交：在提交MapReduce作业时，用户可以通过
如何让DeepSeek成为你的私人客服：DeepSeek接入微信一文全解析万事可爱^ 微信数据库 DeepSeek 大模型代理模式
在人工智能飞速发展的当下，DeepSeek凭借其强大的语言处理能力和智能交互表现，成为众多开发者眼中的得力助手。要是能把DeepSeek接入微信，让它在微信这个日常使用频繁的社交平台上，化身私人客服，随时为用户答疑解惑，那可真是太实用了！今天，就来详细讲讲如何实现这一超酷的操作。前期准备：搭建沟通桥梁的基石注册微信公众号微信公众号有服务号和订阅号两种类型。如果希望获得更多的API权限，能够更全面地
字节跳动实习生和校招生内推飞300 python javascript php 业界资讯算法
机器学习算法实习生-平台治理1、2026届硕士及以上学位在读，计算机等相关专业优先；2、有扎实的代码能力，熟悉深度学习/图神经网络/机器学习框架，如Pytorch、Tensorflow、DGL、Pyg、Sklearn等；3、熟悉机器学习/图学习/序列学习算法中的一项或者多项，如图建模、时序信号建模、节点/子图分类、社区挖掘、表征学习、自监督/半监督学习等，有一定深度和广度；4、熟悉相关算法在数据挖
etcd入门指南：分布式事务、分布式锁及核心API详解 zhangj1125 Go etcd 分布式数据库
etcd是一个高可用、分布式的键值存储系统。主要用作分布式系统中的独立协调服务。旨在保存可完全放入内存中的少量数据。Raftetcd基于Raft共识算法，保证了分布式环境下的数据一致性。Raft是一种分布式一致性算法，用于在多个节点之间达成共识，确保分布式系统中的数据在不同节点间一致。LeaderElection（领导者选举）在Raft中，系统的节点分为三种状态：领导者（Leader）、跟随者（F
智能客服平台的架构设计：实现高效、安全、可靠的服务运行 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 LLM大模型落地实战指南自然语言处理人工智能语言模型编程实践开发语言架构设计
这篇文章将深入探讨智能客服平台的架构设计,以及如何实现高效、安全、可靠的服务运行。我会遵循您提供的要求和结构模板来撰写这篇文章。让我们开始吧。智能客服平台的架构设计,实现高效、安全、可靠的服务运行关键词：智能客服、架构设计、高效性、安全性、可靠性、微服务、自然语言处理、机器学习1.背景介绍在当今数字化时代,客户服务已成为企业与客户之间沟通的关键纽带。随着人工智能技术的快速发展,智能客服平台应运而生
深入理解Elasticsearch集群与分片：原理及配置方案一勺菠萝丶 #ELK Java elasticsearch 大数据搜索引擎
一、Elasticsearch集群是什么想象一下，你有海量的数据，比如一个超大型图书馆的所有书籍信息，要是把这些数据都放在一台电脑里，不仅存不下，而且查询起来会超级慢。Elasticsearch集群就像是一个分布式的数据图书馆系统，它把数据分散存储在多台服务器（我们叫它们节点）上，这些节点协同工作，就像图书馆里不同区域的工作人员，一起完成数据的存储、管理和查询任务。二、分片是什么主分片：还是以图书
一文带你了解人工智能：现状、应用、变革及未来展望空青726 人工智能 chatgpt ai 大数据机器学习深度学习创业创新
近年来，人工智能（AI）的发展势头迅猛，它已经渗透到了我们生活的方方面面。从智能手机的语音助手到自动驾驶汽车，从智能家居到医疗诊断，AI正在改变着我们的生活方式。本文将结合时事，为大家介绍当前人工智能的发展形势、在生活中的应用、人工智能的变革以及未来的发展方向。一、人工智能的发展形势1.深度学习：深度学习是当前AI领域的热门话题。通过模拟人脑神经元之间的相互作用，深度学习算法能够从大量数据中提取出
人工智能如何辅助科研-ChatGPT4o作答部分分式人工智能
人工智能（AI）在科研领域的应用正在迅速扩展，并且以多种方式为科研人员提供了强大的支持。AI通过数据处理、模式识别、自动化实验设计、智能化分析等方式，提高了科研效率，加速了知识的发现和创新。以下是AI如何在各个科研阶段和领域中发挥辅助作用的详细探讨。1.文献分析与信息检索科研工作常常需要查阅大量的文献，AI可以通过高效的文献分析和信息检索，帮助科研人员迅速找到相关文献，节省时间。智能化文献搜索：传
Golang使用redis实现分布式锁(redigo框架) DDDerek~ golang redis 分布式
本文思路来自Wx公众号：小徐生先生的变成世界，原文地址分布式锁个人理解分布式锁是分布式服务器的单机锁，对于单机锁是保证服务器在同一时间只能有一个线程能访问该方法。但是对于分布式服务器来说，可能存在多台服务器接收用户请求，这样请求在不同服务器的数据就没办法通过单机锁来阻塞。所以才需要通过额外的组件，实现多服务器之间的管理。选型Redis的原因Redis高效且具备高可用性，当提供分布式锁服务的基础组件
【学习笔记】李宏毅2021春机器学习课程第2.3节：Adaptive Learning Rate Harryline-lx 机器学习机器学习人工智能深度学习
文章目录Trainingstuck≠SmallGradientDifferentparametersneedsdifferentlearningrateRootmeansquareAdagradRMSPropAdamLearningRateSchedulingTrainingstuck≠SmallGradient首先要明确的一点是，目前当我们用gradientdescend来做optimizati
机器学习-33-机理模型和非机理模型皮皮冰燃机器学习机器学习
1建模方法机理模型、经验模型和智能模型是在不同领域中使用的建模方法，它们具有以下特点：1.1机理模型(1)特点：机理模型是基于物理、化学或其他科学原理建立的模型。它们试图通过描述系统的基本原理和关系来解释现象或预测系统的行为。(2)优点：机理模型能够提供深入的理解和解释，并具有较高的预测准确性。它们可以提供对系统内部机制的洞察，从而支持优化、控制和设计决策。(3)缺点：机理模型的建立需要详细的物理
免登录H5快手商城系统_抖音小店商城全开源运营版本专业软件系统开发源码下载商城源码
内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍最近因为直播需要然后在互站花500买了一套仿抖音的商城系统，感觉确实还可以，反正都买了所以就分享给有需要的人以下是互站那边的网站介绍可以了看一下，还是很不错的1、无需登录直接可以购买商品2、独立后台支持分站3、修复已知问题完美运营4、支持对接第三方支付：易支付、码支付、虎皮椒等。二、效果展示1.部分代码代码如下（
清华精品资料：DeepSeek从入门到精通、DeepSeek赋能职场 dntktop 软件 ai windows 运维电脑
今天电脑天空给大家推荐2份清华大学专家编写的DeepSeek的使用手册，分别是《DeepSeek从入门到精通》和《DeepSeek赋能职场》。《DeepSeek从入门到精通》是一本系统化的技术指南，旨在帮助用户从零基础到精通掌握通用人工智能模型DeepSeek的核心功能与应用技巧。内容涵盖以下重点：基础概念：定义DeepSeek（国产开源AI公司，主攻大模型研发），解析其功能（智能对话、代码生成、
java 缓存篇2 dzl84394 java 缓存开发语言
缓存的部署方式单机主从哨兵集群特性主从（Master-Slave）哨兵（Sentinel）集群（Cluster）数据分片不支持不支持支持，基于slot进行水平分片高可用性部分支持（手动故障转移）高可用性，自动故障转移高可用性，自动故障转移及数据分片配置复杂度低中高扩展性低至中中高适用场景中小规模应用，读多写少需要高可用性且不需要分片的应用大规模分布式应用，需水平扩展和高可用性一致性弱（异步复制，可
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?