罗西的思考

[源码解析] 深度学习流水线并行 PipeDream(2)--- 计算分区

[源码解析] 深度学习流水线并行 PipeDream(2)— 计算分区

文章目录

[源码解析] 深度学习流水线并行 PipeDream(2)--- 计算分区
- 0x00 摘要
- 0x01 前言
- - 1.1 Profile文件
  - 1.2 总体思路
- 0x02 图相关
- - 2.1 Graph
  - 2.2 构建图
  - 2.3 反链
- 0x03 构建反链
- - 3.1 main函数入口
  - 3.2 增强反链
  - 3.3 后续反链
  - 3.4 总体构建
  - 3.5 拓扑排序
  - 3.6 总结
- 0x04 计算分区
- - 4.1 main函数的逻辑
  - 4.2 动态规划
  - - 4.2.1 总体思路
    - 4.2.2 具体分析
    - 4.2.3 区别
- 0x05 分析分区
- - 5.1 main函数逻辑
  - 5.2 分析阶段
  - 5.3 设定stage
  - 5.4 总结
- 0x06 输出
- 0xEE 个人信息
- 0xFF 参考

0x00 摘要

在前文中，我们介绍了PipeDream的总体架构和Profile阶段，本文我们继续介绍计算分区阶段。其功能是：依据profile结果确定所有层的运行时间，然后使用动态规划对模型进行划分，将模型划分为不同的stage，以及得到每个stage的replication数。计算结果具体如下图所示：

流水线并行其他文章链接如下:

[源码解析] 深度学习流水线并行Gpipe(1)—流水线基本实现

[源码解析] 深度学习流水线并行GPipe (2) ----- 梯度累积

[源码解析] 深度学习流水线并行之PipeDream(1)— Profile阶段

0x01 前言

1.1 Profile文件

我们首先看看profile文件 profiler/translation/profiles/gnmt/graph.txt 内容，这里只是做摘录。

node1 -- Input0 -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=0.0, parameter_size=0.000
node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000
node2 -- Input1 -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=0.0, parameter_size=0.000
node6 -- Dropout(p=0.2) -- forward_compute_time=0.077, backward_compute_time=0.196, activation_size=12582912.0, parameter_size=0.000
node7 -- LSTM(2048, 1024) -- forward_compute_time=3.190, backward_compute_time=5.348, activation_size=[6291456.0; 131072.0; 131072.0], parameter_size=50364416.000
node8 -- __getitem__(0) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000
node9 -- __getitem__(1) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=131072.0, parameter_size=0.000
node10 -- Dropout(p=0.2) -- forward_compute_time=0.064, backward_compute_time=0.128, activation_size=6291456.0, parameter_size=0.000
node11 -- LSTM(1024, 1024) -- forward_compute_time=2.491, backward_compute_time=4.203, activation_size=[6291456.0; 131072.0; 131072.0], parameter_size=33587200.000
node12 -- __getitem__(0) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000
node13 -- __getitem__(1) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=131072.0, parameter_size=0.000
node14 -- Add -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000
node15 -- Dropout(p=0.2) -- forward_compute_time=0.059, backward_compute_time=0.121, activation_size=6291456.0, parameter_size=0.000
node16 -- LSTM(1024, 1024) -- forward_compute_time=2.492, backward_compute_time=4.201, activation_size=[6291456.0; 131072.0; 131072.0], parameter_size=33587200.000
node17 -- __getitem__(0) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000
......
	node1 -- node4
	node4 -- node5
	node2 -- node5
	node5 -- node6
	node6 -- node7
	node7 -- node8
	node7 -- node9
	node8 -- node10
	node10 -- node11
	node11 -- node12
	node11 -- node13
	node12 -- node14
	node8 -- node14
	node14 -- node15
	node15 -- node16
	node16 -- node17
	node16 -- node18
	node17 -- node19
	node14 -- node19
......

1.2 总体思路

在前文我们也提到了几个挑战，其中有：

如何高效划分流水线。
- 模型特质和硬件拓扑会降低效率。分配算法也必须考虑模型特质和硬件拓扑。
- 机器间的过度通信会降低硬件效率。
如何防止流水线瓶颈。
- 由木桶原理我们可以知道，一个流水线管道的吞吐量由这个流水线上最慢环节的吞吐量决定。所以需要确保流水线中所有阶段都大致花费相同的计算时间，否则最慢的阶段将会成为整个流水线的瓶颈。

因此当跨机器将层划分为不同的阶段时，PipeDream的自动划分算法必须确保每个阶段大致执行相同的总工作量。同时还必须确保各阶段之间通信的数据量尽可能小，以避免通信中断。

PipeDream的自动划分算法总体目标是输出一个平衡的管道，算法如下：

将DNN层划分为多个阶段，以便每个阶段以大致相同的速率完成，即花费大致相同的计算时间。
尝试以拓扑感知的方式尽量减少worker之间的通信（例如，如果可能，向更高带宽的链路发送较大的输出）。
因为DNN并不总可以在可用的workers做平均分配，为了进一步改进负载平衡，PipeDream允许复制一个stage，即在这个stage上使用多个worker进行数据并行。

这个划分问题等价于最小化流水线的最慢阶段所花费的时间，并且具有最优子问题属性：在给定worker工作量前提下，吞吐量最大化的流水线由一系列子流水线构成，其中每一个子流水线针对较小worker工作量来最大化自己的输出。因此PipeDream使用动态规划来寻找最优解。

这里给出对应的架构图如下：

我们下面先看看计算分区之前的准备工作：图相关工作和构建反链。

0x02 图相关

图的定义位于 graph/graph.py 文件之中，主要数据结构有两个：Graph 和 Node。

2.1 Graph

Graph就是图的数据结构，其主要成员包括：

nodes ：图内节点；
edges ：图内每个节点的输出边；
in_edges ：图的每个节点的输入边；
_predecessors ：每个节点的前序节点；
_successors ：每个节点的后序节点；
_antichain_dag ：反链DAG；

class Graph(object):
    def __init__(self, node=None):
        self.nodes = {} # 节点
        if node is not None:
            self.nodes[node.node_id] = node
        self.edges = {} # 出边
        self.in_edges = {} # 入边

        self._predecessors = {} #每个节点的前序节点 
        self._successors = {} # 每个节点的后序节点
        self._augmented_antichains = {}
        self._deaugmented_augmented_antichains = {}
        self._next_antichains = {}
        self._antichain_dag = None # 反链DAG

        if node is not None:
            self.in_edges[node.node_id] = list()

节点定义如下，里面就是从profile获取到的结构，比如：

forward_compute_time : 前向传播时间；
backward_compute_time ：反向传播时间；
activation_size : 激活值大小；
parameter_size : 参数大小；

class Node(object):
    def __init__(self, node_id, node_desc="", forward_compute_time=0.0,
                 backward_compute_time=0.0, activation_size=0.0, parameter_size=0.0,
                 stage_id=None):
        self.node_id = node_id
        self.node_desc = node_desc
        self.forward_compute_time = forward_compute_time
        self.backward_compute_time = backward_compute_time
        self.activation_size = activation_size
        self.parameter_size = parameter_size
        self.stage_id = stage_id
        self.depth = None
        self.height = None

我们打印出运行时看看，可以发现 Graph 的具体情况。

gr = {Graph} 
 # 边
 edges = {dict: 39}
  'node1' = {list: 1} 
   0 = {Node} node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
  'node4' = {list: 1} 
   0 = {Node} node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000
   ......

 # 输入边 
 in_edges = {dict: 44} 
  'node4' = {list: 1} 
   0 = {Node} node1 -- Input0 -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=0.0, parameter_size=0.000
  'node5' = {list: 2} 
   0 = {Node} node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
   1 = {Node} node2 -- Input1 -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=0.0, parameter_size=0.000
   ......
  
 # 节点 
 nodes = {dict: 48}
  'node1' = {Node} node1 -- Input0 -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=0.0, parameter_size=0.000
  'node4' = {Node} node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
  'node5' = {Node} node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000
 ......

# 前置节点
_predecessors = {dict: 36} 
 'node4' = {set: 0} set()
  __len__ = {int} 0
 'node5' = {set: 1} {<graph.graph.Node object at 0x7fb055e4bf28>}
  {Node} node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
  __len__ = {int} 1
 'node6' = {set: 2} {<graph.graph.Node object at 0x7fb055e4bf98>, <graph.graph.Node object at 0x7fb055e4bf28>}
  {Node} node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000
  {Node} node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
  __len__ = {int} 2
 'node7' = {set: 3} {<graph.graph.Node object at 0x7fb055e4bf98>, <graph.graph.Node object at 0x7fb055e4bf28>, <graph.graph.Node object at 0x7fb055e670f0>}
  {Node} node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000
  {Node} node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
  {Node} node6 -- Dropout(p=0.2) -- forward_compute_time=0.077, backward_compute_time=0.196, activation_size=12582912.0, parameter_size=0.000
  __len__ = {int} 3

 # 其他变量
  _antichain_dag = {NoneType} None
  _augmented_antichains = {dict: 0} {}
  _deaugmented_augmented_antichains = {dict: 0} {}
  _next_antichains = {dict: 0} {}
  _successors = {dict: 0} {}

2.2 构建图

图是由profile文件的字符串构建出来。找出来profile文件内容我们就可以知道，具体是针对每行进行不同处理。

node1 -- Input0 -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=0.0, parameter_size=0.000
node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000
node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000
	node1 -- node4
	node4 -- node5
	node2 -- node5

构建图具体代码如下：

@staticmethod
def from_str(graph_str):
    gr = Graph()
    graph_str_lines = graph_str.strip().split('\n') 
    for graph_str_line in graph_str_lines: # 逐行处理
        if not graph_str_line.startswith('\t'):
            node = Node.from_str(graph_str_line.strip()) # 构建节点
            gr.nodes[node.node_id] = node
        else:
            # 构建边
            [in_node_id, node_id] = graph_str_line.strip().split(" -- ")
            if node_id not in gr.in_edges: # 每个节点的输入边
                gr.in_edges[node_id] = [gr.nodes[in_node_id]]
            else:
                gr.in_edges[node_id].append(gr.nodes[in_node_id])
            if in_node_id not in gr.edges: # 每个节点的输出边
                gr.edges[in_node_id] = [gr.nodes[node_id]]
            else:
                gr.edges[in_node_id].append(gr.nodes[node_id])
    return gr

构建节点具体代码如下：

    @staticmethod
    def from_str(node_str):
        node_str_tokens = node_str.strip().split(" -- ")
        node_id = node_str_tokens[0] # 节点名字
        node_desc = node_str_tokens[1] # 节点描述
        node_metadata = node_str_tokens[2] # 元数据
        stage_id = None
        if len(node_str_tokens) > 3:
            stage_id = int(node_str_tokens[3].split("=")[1]) # 阶段信息
        [forward_compute_time, backward_compute_time, activation_size, parameter_size] = node_metadata.split(", ")
        forward_compute_time = float(forward_compute_time.split("=")[1]) # 前向传播计算时间
        backward_compute_time = float(backward_compute_time.split("=")[1]) # 后向传播计算时间
        if "[" in activation_size:
            activation_size = activation_size.split("=")[1] # 激活值大小
            activation_size = sum([float(x) for x in activation_size.lstrip("[").rstrip("]").split("; ")])
        else:
            activation_size = float(activation_size.split("=")[1])
        parameter_size = float(parameter_size.split("=")[1]) # 参数大小
        # 构建节点
        return Node(node_id, node_desc, forward_compute_time=forward_compute_time,
                    backward_compute_time=backward_compute_time, activation_size=activation_size,
                    parameter_size=parameter_size, stage_id=stage_id)

2.3 反链

在有向无环图中，有如下的一些概念：

链：一条链是一些点的集合，在此链上的任意两个点x, y，满足以下条件：或者 x 能到达 y ，或者 y 能到达 x 。也可以认为是某一个偏序集S的全序子集（所谓全序是指其中任意两个元素可以比较）
反链：一条反链也是一些点的集合，在此链上任意两个点x, y，满足如下条件： x 不能到达 y，且 y 也不能到达 x。也可以认为是某一个偏序集S的子集，其中任意两个元素不可比较。

在PipeDream的图数据结构之中，也有反链的概念。反链节点定义如下：

class AntichainNode(Node):
    def __init__(self, node_id, antichain, node_desc=""):
        self.antichain = antichain
        self.output_activation_size = 0.0
        super(AntichainNode, self).__init__(node_id, node_desc)

因为此处过于复杂，所以我们会在下面用一节专门分析。

0x03 构建反链

因为本节概念比较绕，所以我们先提前剧透。

寻找某节点后续反链的目的就是找到下一个图分割点 A（可能是若干node的组合），为了确定 A 的运行时间（或者其他信息），我们需要找到 A 的增强反链。

此处具体代码位于optimizer_graph_hierarchical.py 文件。

我们利用如下逻辑来演示：

+-------+       +-------+
| node1 |       | node2 |
+---+---+       +---+---+
    |               |
    |               |
    |               |
    v               v
+---+---+       +---+---+        +-------+        +-------+
| node4 +-----> | node5 +------> | node6 +------->+ node7 |
+-------+       +-------+        +-------+        +-+-+---+
                                                    | |
                                                    | |
                                      +-------------+ |
                                      |               |
                                      v               v
                                 +----+--+        +---+---+
                                 | node9 |        | node8 +-----+
                                 +-------+        +---+---+     |
                                                      |         |
                    +---------------------------------+         |
                    |                                           |
                    v                                           |
               +----+---+       +--------+        +--------+    |
               | node10 +-----> | node11 +------> | node12 |    |
               +--------+       +---+----+        +----+---+    |
                                    |                  |        |
                                    |                  |        |
                                    v                  v        |
                                +---+----+        +----+---+    |
                                | node13 |        | node14 +<---+
                                +--------+        +-+----+-+
                                                    |    |
                                             +------+    +---+
                                             |               |
                                             v               v
                                        +----+---+        +--+-----+
                                        | node15 |        | node19 |
                                        +--------+        +--------+

3.1 main函数入口

我们首先从 main 函数看起。main函数第一部分是构建反链和拓扑排序，具体如下：

从图中移除source节点。目的是排除干扰，因为input必然在第一层，没必要让优化器再来选择把输入放在哪里，所以先去除，后续转换模型时候会再加上。
对图的输出进行处理，移除没有用到的输出。
得到反链DAG。
对反链DAG进行拓扑排序，得到一个排序好的节点列表。

具体代码如下：

def main(all_num_machines, profile_filename, network_bandwidths, memory_size,
         straight_pipeline, use_memory_constraint, use_fewer_machines,
         activation_compression_ratio, output_directory,
         print_configuration=True, verbose=False):
    gr = graph.Graph.from_str(open(profile_filename, 'r').read())

    # Zero out all metadata associated with inputs in graph, since the optimizer
    # shouldn't really get a choice with where to place the input (should always
    # be in the first stage).
    # 排除干扰，因为input必然在第一层，没必要让优化器再来选择把输入放在哪里，所以先去除，后续会再加上。
    sources = gr.sources() # 对图的输入进行处理
    nodes_to_remove = OrderedDict()
    for source in sources:
        if source.node_desc.startswith("Input"): # 只处理input
            source.forward_compute_time = 0.0
            source.backward_compute_time = 0.0
            source.activation_size = 0.0
            source.parameter_size = 0.0
            nodes_to_remove[source] = []
            for out_node in gr.edges[source.node_id]:
                nodes_to_remove[source].append(out_node) # 记录这些删除source对应了哪些out节点，因为后续还要处理
            gr.remove_node(source) # 在图中移除这些input source

    # Remove all unneeded sinks that are not used, makes code generation and
    # optimization easier.
    sinks = gr.sinks() # 对图的输出进行处理，移除没有用到的输出
    for sink in sinks:
        if sink.node_desc.startswith("__getitem__"):
            gr.remove_node(sink)

    antichain_gr = gr.antichain_dag() # 得到反链DAG
    states = antichain_gr.topological_sort() # 拓扑排序，得到一个排序好的节点列表

    # 后续代码暂时省略

这里再取出反链节点定义如下，可以看出来和代码对应关系。

class AntichainNode(Node):
    def __init__(self, node_id, antichain, node_desc=""):
        self.antichain = antichain
        self.output_activation_size = 0.0
        super(AntichainNode, self).__init__(node_id, node_desc)

3.2 增强反链

首先要介绍先增强反链概念。每个节点的增强反链包括：本身节点 + 部分前序节点。

这个前序节点的选取算法是：

获取本节点的全部前序节点列表；
如果一个前序节点的"出边目的节点"不在全部前序节点列表，且"出边目的节点"不为本身，则选取此前序节点为增强反链的一部分。

从下面图例中可以看出来，如果某一个节点 A，其前置节点中有一个分叉节点 Z，且这个分叉之中，有一个分叉绕过了节点 A，则对于节点 A，他的增强反链就是 [A, Z]。

对于增强反链概念，可以理解为：对于节点 A，他只有把节点 Z 一起考虑，才能唯一确定自己节点的运行时间。因为如果思考节点 A 的运行时间，我理解的大致思路是：

因为各个阶段可以流水线并行，所以 A 的运行时间应该是以下三个时间的最大值：A的计算时间，A的输入时间，A的输出时间。
A 的输入时间是以下两个时间的最大值： X --> A 节点输出时间，Z --> A 节点的输出时间。
但是因为不清楚 Z 的内部运行机制，所以不能确定 Z 的两个输出之间是否有依赖关系，比如 “必须先完成 Z–> D，才能输出 Z–> A”，所以，也需要考虑 Z --> D 的传输时间。

所以，需要把 [ A，Z ] 放在一起作为一个状态考虑，事实上 PipeDream 就是这么处理的，用 [ A，Z ] 这个状态来统一计算。

因为作为一个状态考虑，所以给节点 A 计算输出激活值大小，具体是通过遍历其反链（增强反链）来计算，就是把其增强反链的前序节点给自己的输出都叠加起来。

    +-----+            +-----+
    |  X  |            |  Z  |
    +--+--+            +--+-++
       |                  | |
       |                  | |
       +------+   +-------+ |
              |   |         |
              v   v         |
             ++---++        |
             |  A  |        |
             ++-+--+        |
              | |           |
    +---------+ |           |
    |           |           |
    v           v           v
+---+-+      +--+--+      +-+---+
|  B  |      |  C  |      |  D  |
+-----+      +-----+      +-----+

在代码之中，_augmented_antichains 是增强反链，也是一个字典类，key是节点名字，value是 key 节点的增强反链，比如：

augment_antichain函数作用就是对每个节点，找到其增强反链。

def augment_antichain(self, antichain):
    # 参数 antichain 是一个节点列表
    antichain_key = tuple(sorted(antichain))
    # 如果key已经在扩大反链之中，就直接返回对应key的增强反链
    if antichain_key in self._augmented_antichains:
        return self._augmented_antichains[antichain_key]
    extra_nodes = set()
    all_predecessors = set()
    # 遍历参数list之中的反链节点，获取每个节点的前置节点，归并在all_predecessors之中。
    for antichain_node in antichain:
        predecessors = self.predecessors(antichain_node)
        all_predecessors = all_predecessors.union(predecessors)
    # 遍历参数list之中的反链节点
    for antichain_node in antichain:
        # 获取每个反链节点的前置节点列表
        predecessors = self.predecessors(antichain_node)
        # 遍历每个前置节点
        for predecessor in predecessors:
            # 看每个前置节点的出边，如果出边不在前置节点列表之中，且 出边节点不等于本反链节点
            for out_node in self.edges[predecessor.node_id]:
                if out_node not in predecessors and out_node.node_id != antichain_node:
                    # 把这个前置节点插入到附加节点列表中
                    extra_nodes.add(predecessor.node_id)
    # 最终把个附加节点列表插入到增强节点之中
    self._augmented_antichains[antichain_key] = list(extra_nodes) + antichain
    return self._augmented_antichains[antichain_key]

比如对应下图中的逻辑，初始化之后，_augmented_antichains 就是

_augmented_antichains = {dict: 1} 
 ('node4',) = {list: 1} ['node4']

后续迭代node 5之后，_augmented_antichains 就是

_augmented_antichains = {dict: 2} 
 ('node4',) = {list: 1} ['node4']
 ('node5',) = {list: 1} ['node5']
 __len__ = {int} 2

继续迭代，增强反链为：

_augmented_antichains = {dict: 7} 
('node4',) = {list: 1} ['node4'] # node4的增强反链只有自己
('node5',) = {list: 1} ['node5'] # node5的增强反链只有自己
('node6',) = {list: 1} ['node6']
('node7',) = {list: 1} ['node7']
('node8',) = {list: 1} ['node8']
('node10',) = {list: 2} ['node8', 'node10'] # node10的增强反链是'node8', 'node10'
('node14',) = {list: 1} ['node14']
('node11',) = {list: 2} ['node8', 'node11'] # node11的增强反链是'node8', 'node11'
('node15',) = {list: 2} ['node14', 'node15']
('node19',) = {list: 1} ['node19']
('node12',) = {list: 2} ['node8', 'node12']
('node16',) = {list: 2} ['node14', 'node16']
('node23',) = {list: 2} ['node20', 'node23']
('node17',) = {list: 2} ['node14', 'node17']

图例中可以看出来，因为有 node 8的出边 [node 8，node 14] 存在，对于 node 10, node 11, node 12 来说，他们必须把 node 8 加入自己的增强反链之中。

对于 node 10，我们可以认为，必须结合 node 8之后，node 10 才能确定 node 10 的运行时间。下面图上标记出来了 node 10 的 augmented 反链（本身节点 + 部分前序节点）。

+-------+       +-------+
| node1 |       | node2 |
+---+---+       +---+---+
    |               |
    |               |
    |               |
    v               v
+---+---+       +---+---+        +-------+        +-------+
| node4 +-----> | node5 +------> | node6 +------->+ node7 |
+-------+       +-------+        +-------+        +-+-+---+
                                                    | |
                                                    | |
                                      +-------------+ |
                                      |               |
                                      v               v  augmented
                                 +----+--+        +---+---+
                                 | node9 |        | node8 +-----+
                                 +-------+        +---+---+     |
                                                      |         |
                    +---------------------------------+         |
                    |                                           |
                    v                                           |
               +----+---+       +--------+        +--------+    |
     antichain | node10 +-----> | node11 +------> | node12 |    |
               +--------+       +---+----+        +----+---+    |
             augmented              |                  |        |
                                    |                  |        |
                                    v                  v        |
                                +---+----+        +----+---+    |
                                | node13 |        | node14 +<---+
                                +--------+        +-+----+-+
                                                    |    |
                                             +------+    +---+
                                             |               |
                                             v               v
                                        +----+---+        +--+-----+
                                        | node15 |        | node19 |
                                        +--------+        +--------+

3.3 后续反链

在代码之中，_next_antichains 是一个字典类，key是节点名字，value是 key 节点的后续反链。

比如，对于 node A 来说，下一个反链是 [ node B, node C ]，其中 node B 和 node C 彼此之间无法排序。寻找反链的目的就是找到下一个图分割点。

    +-----+            +-----+
    |  X  |            |  Z  |
    +--+--+            +--+-++
       |                  | |
       |                  | |
       +------+   +-------+ |
              |   |         |
              v   v         |
             ++---++        |
             |  A  |        |
             ++-+--+        |
              | |           |
    +---------+ |           |
    |           |           |
    v           v           v
+---+-+      +--+--+      +-+---+
|  B  |      |  C  |      |  D  |
+-----+      +-----+      +-----+

对于每个节点 antichain ，next_antichains 函数获取其后续反链。

    def next_antichains(self, antichain):
        # 构建antichain的反链key，其实就是 antichain 自己作为key
        antichain_key = tuple(sorted(antichain))
        # 如果key已经在后续反链之中，则返回这个后续反链
        if antichain_key in self._next_antichains:
            return self._next_antichains[antichain_key]

        next_antichains = []
        antichain_set = set(antichain)
        # 获取 antichain 的增强反链
        augmented_antichain = self.augment_antichain(antichain)
        # 遍历增强反链
        for augmented_antichain_node in augmented_antichain:
            # 遍历增强反链某节点的出边
            next_nodes = self.edges[augmented_antichain_node] if augmented_antichain_node in self.edges else []
            # 遍历增强反链某节点的出边
            for next_node in next_nodes:
                # 如果出边节点已经在反链集合之中，跳过，进入下一循环
                if next_node.node_id in antichain_set:
                    continue
                # 如果出边节点是后续反链，则假如到反链列表   
                if self.is_next_antichain(augmented_antichain, next_node.node_id):
                    next_antichain = self.construct_antichain(augmented_antichain,
                                                              augmented_antichain_node,
                                                              next_node.node_id)
                    next_antichains.append(next_antichain)
        # 最终把反链列表设置为key对应的反链            
        self._next_antichains[antichain_key] = next_antichains
        return self._next_antichains[antichain_key]

is_next_antichain 方法用来判断某新节点是否为后续反链。

def is_next_antichain(self, augmented_antichain, new_node):
    successors = self.successors(new_node)
    augmented_antichain_set = set(augmented_antichain)
    # 遍历新节点的后续节点
    for successor in successors:
        # 如果后续节点有一个在增强节点之中，就返回false，说明不是后续反链
        if successor.node_id in augmented_antichain_set:
            return False
    # 否则就是后续反链      
    return True

_next_antichains举例如下，大家可以结合之前的增强反链对比看看。

以 node 10 为例，其增强节点为：[ node 8，node 10 ]，
遍历这些增强节点，看每一个增强节点的出边。8 的出边 [ node 10，node 14 ]，10 的出边是 [ node 11]。
所以有三个点 node 10，node 11，node 14 可以继续看。其中node 10 已经在[ node 8，node 10 ]之中，所以不考虑。
用 14 调用 is_next_antichain。
- is_next_antichain 之中，augmented_antichain 为 [ node 8, node 10]，new_node 是 node 14。
- 得到 successors 集合为 [ node31，node16，node23，node44，node48 …] 等22个节点，这些节点都不在 [ node 8, node 10] 之中，所以 is_next_antichain 为 true，14 是后续反链节点之一。
用 11 调用 is_next_antichain。
- is_next_antichain 之中，augmented_antichain 为 [ node 8, node 10]，new_node 是 node 11。
- 得到 successors 集合为 [ node16，node40，node23，…] 等节点，这些节点都不在 [ node 8, node 10] 之中，所以 is_next_antichain 为 true，11 是后续反链节点之一。

所以 node 10 的后续反链是 [ [‘node14’] ，[ ‘node11’] ]。

对比看看，node 10 的增强反链是 [‘node8’, ‘node10’]，

_next_antichains = {dict: 99} 
 ('node4',) = {list: 1} [['node5']]
 ('node5',) = {list: 1} [['node6']]
 ('node6',) = {list: 1} [['node7']]
 ('node7',) = {list: 1} [['node8']]
 ('node8',) = {list: 2} [['node10'], ['node14']]
 ('node10',) = {list: 2} [['node14'], ['node11']] # 这里
 ('node14',) = {list: 2} [['node15'], ['node19']]
 ('node11',) = {list: 2} [['node14'], ['node12']]
 ('node15',) = {list: 2} [['node19'], ['node16']]
 ('node19',) = {list: 1} [['node23']]
 ('node12',) = {list: 2} [['node14'], ['node14']]
 ('node16',) = {list: 2} [['node19'], ['node17']]

具体如下图，可以看出来，node 11和 node 14确实是 node 10的后续反链，就是在这两个节点上可以对于图进行分割。

可以这么理解：对于 node 10 来说，下一个反链是 [ node 11, node 14]，其中 node 11 和 node 14 彼此之间无法排序。寻找后续反链的目的就是找到下一个图分割点。

+-------+       +-------+
| node1 |       | node2 |
+---+---+       +---+---+
    |               |
    |               |
    |               |
    v               v
+---+---+       +---+---+        +-------+        +-------+
| node4 +-----> | node5 +------> | node6 +------->+ node7 |
+-------+       +-------+        +-------+        +-+-+---+
                                                    | |
                                                    | |
                                      +-------------+ |
                                      |               |
                                      v               v  augmented
                                 +----+--+        +---+---+
                                 | node9 |        | node8 +-----+
                                 +-------+        +---+---+     |
                                                      |         |
                    +---------------------------------+         |
                    |                                           |
                    v              next                         |
               +----+---+       +--------+        +--------+    |
     antichain | node10 +-----> | node11 +------> | node12 |    |
               +--------+       +---+----+        +----+---+    |
             augmented              |                  |        |
                                    |                  |        |
                                    v             next v        |
                                +---+----+        +----+---+    |
                                | node13 |        | node14 +<---+
                                +--------+        +-+----+-+
                                                    |    |
                                             +------+    +---+
                                             |               |
                                             v               v
                                        +----+---+        +--+-----+
                                        | node15 |        | node19 |
                                        +--------+        +--------+

3.4 总体构建

antichain_dag 的目的是依据 增强反链列表 和 后续反链列表来构建一个反链 DAG。

我们以上面的图例进行讲解，以 node 8 为例。

def antichain_dag(self):
    if self._antichain_dag is not None:
        return self._antichain_dag

    antichain_dag = Graph()
    antichain_id = 0
    antichain = [self.sources()[0].node_id] # 获取source第一个节点。
    # 构建首节点，同时利用 augment_antichain 来往_augmented_antichains 之中添加首节点。
    source_node = AntichainNode("antichain_%d" % antichain_id, self.augment_antichain(antichain))
    antichain_dag.source = source_node
    antichain_queue = [antichain] # 把第一个节点插入queue
    antichain_mapping = {tuple(sorted(antichain)): source_node}

    # 如果queue之中还有节点
    while len(antichain_queue) > 0:
        antichain = antichain_queue.pop(0) # 弹出第一个节点，赋值为 antichain，这里为 node 8
        # key就是由 antichain 节点名字构建，比如 antichain_key = {tuple: 1} node8
        antichain_key = tuple(sorted(antichain)) 
        # 如果 antichain_key 已经位于self._next_antichains之中，即 antichain_key 的后续反链已经被记录，就跳过去
        if antichain_key in self._next_antichains:  
            continue
        # 获取 antichain 的后续反链，对于8，这里是[[10],[14]]
        next_antichains = self.next_antichains(antichain)
        # 遍历后续反链[10,14]
        for next_antichain in next_antichains:
            # 下一个反链节点的key 10
            next_antichain_key = tuple(sorted(next_antichain))
            if next_antichain_key not in antichain_mapping: # 如果存在，就跳过
                antichain_id += 1
                # 下一反链节点 10 被设置为其增强节点 [ 8, 10 ]
                next_antichain_node = AntichainNode("antichain_%d" % antichain_id, self.augment_antichain(next_antichain))
                # 设置 antichain_mapping
                antichain_mapping[next_antichain_key] = next_antichain_node
            # 向 反链DAG 插入边：    
            antichain_dag.add_edge(antichain_mapping[antichain_key],
                                   antichain_mapping[next_antichain_key])
            # 把最新反链节点插入queue，下次迭代使用
            antichain_queue.append(next_antichain)

    self._antichain_dag = antichain_dag
    return antichain_dag

这里其实目的是设置 antichain_mapping。

流程是：

从 antichain_queue 弹出第一个节点，赋值为 antichain，这里为 node 8。
获取 antichain 的后续反链，对于8，这里是[[10],[14]]。
遍历后续反链 [10,14]。
以 10 为例，设置下一个反链节点的key 为 10。
下一反链节点 10 被设置为其增强节点 [ 8, 10 ]，即 (‘node10’,) = {AntichainNode} antichain_5 – [‘node8’, ‘node10’]。

可以看到，寻找某节点后续反链的目的就是找到下一个图分割点 A，然后为了确定 A 的运行时间（或者其他信息），需要找到 A 的增强反链（一些增强反链就是一些状态），A 的 antichain_mapping 就是其增强反链。

antichain_mapping 示例如下：

antichain_mapping = {dict: 99} 
 ('node4',) = {AntichainNode} antichain_0 -- ['node4']
 ('node5',) = {AntichainNode} antichain_1 -- ['node5']
 ('node6',) = {AntichainNode} antichain_2 -- ['node6']
 ('node7',) = {AntichainNode} antichain_3 -- ['node7']
 ('node8',) = {AntichainNode} antichain_4 -- ['node8']
 ('node10',) = {AntichainNode} antichain_5 -- ['node8', 'node10'] # 最新设置
 ('node14',) = {AntichainNode} antichain_6 -- ['node14']
 ('node11',) = {AntichainNode} antichain_7 -- ['node8', 'node11']
 ('node15',) = {AntichainNode} antichain_8 -- ['node14', 'node15']
 ('node19',) = {AntichainNode} antichain_9 -- ['node19']
 ('node12',) = {AntichainNode} antichain_10 -- ['node8', 'node12']
 ('node16',) = {AntichainNode} antichain_11 -- ['node14', 'node16']
 ('node23',) = {AntichainNode} antichain_12 -- ['node20', 'node23']
 ('node17',) = {AntichainNode} antichain_13 -- ['node14', 'node17']

antichain_dag 示例如下，可以认为就是增强反链DAG：

antichain_dag = {Graph}
	nodes = {dict: 99} 
   'antichain_0' = {AntichainNode} antichain_0 -- ['node4']
   'antichain_1' = {AntichainNode} antichain_1 -- ['node5']
   'antichain_2' = {AntichainNode} antichain_2 -- ['node6']
   'antichain_3' = {AntichainNode} antichain_3 -- ['node7']
   'antichain_4' = {AntichainNode} antichain_4 -- ['node8']
   'antichain_5' = {AntichainNode} antichain_5 -- ['node8', 'node10']
   'antichain_6' = {AntichainNode} antichain_6 -- ['node14']
   'antichain_7' = {AntichainNode} antichain_7 -- ['node8', 'node11']
   'antichain_8' = {AntichainNode} antichain_8 -- ['node14', 'node15']
   'antichain_9' = {AntichainNode} antichain_9 -- ['node19']
   'antichain_10' = {AntichainNode} antichain_10 -- ['node8', 'node12']
   'antichain_11' = {AntichainNode} antichain_11 -- ['node14', 'node16']
   'antichain_12' = {AntichainNode} antichain_12 -- ['node20', 'node23']
   'antichain_13' = {AntichainNode} antichain_13 -- ['node14', 'node17']
   'antichain_14' = {AntichainNode} antichain_14 -- ['node20', 'node30', 'node23']
   'antichain_15' = {AntichainNode} antichain_15 -- ['node20', 'node36', 'node23']
   'antichain_16' = {AntichainNode} antichain_16 -- ['node20', 'node43', 'node23']
   'antichain_17' = {AntichainNode} antichain_17 -- ['node20', 'node23', 'node24']

3.5 拓扑排序

得到了增强反链之后，需要进行拓扑排序之后才能使用。

antichain_gr = gr.antichain_dag()
states = antichain_gr.topological_sort()

得出拓扑排序的目的是：如果按照拓扑序列的顶点次序，在到达某节点之前，可以保证它的所有前序活动都已经完成，从而整个工程顺序执行，不会冲突。

在图论中，**拓扑排序（Topological Sorting）是一个有向无环图（DAG, Directed Acyclic Graph）**的所有顶点的线性序列。且该序列必须满足下面两个条件：

每个顶点出现且只出现一次。
若存在一条从顶点 A 到顶点 B 的路径，那么在序列中顶点 A 出现在顶点 B 的前面。

有向无环图（DAG）才有拓扑排序，非DAG图没有拓扑排序一说。一个有向无环图可以有一个或多个拓扑排序序列。

例如，下面这个图：

+--------+                  +--------+
|        +----------------> |        |
|   1    |                  |   4    +------------+
|        |    +-----------> |        |            |
+-----+--+    |             +---+----+            |
      |       |                 |                 v
      |       |                 |              +--+--+
      |       |                 |        +---> |  5  |
      |       |                 |        |     +-----+
      v       |                 |        |
              |                 v        |
+--------+    |             +---+-----+  |
|        +----+             |         |  |
|    2   +----------------->+    3    +--+
|        |                  |         |
+--------+                  +---------+

得到拓扑排序后的结果是 { 1, 2, 4, 3, 5 }。

这里的拓扑排序算法使用的是深度优先排序。

    def topological_sort(self):
        # Algorithm from https://en.wikipedia.org/wiki/Topological_sorting
        self.sorted_nodes = []
        self.marked_nodes = set()
        self.temporarily_marked_nodes = set()
        nodes = list(self.nodes.values())
        nodes.sort(key=lambda x: x.node_desc)
        for node in nodes:
            if node.node_id in self.marked_nodes:
                continue
            self.topological_sort_helper(node.node_id)
        return [self.nodes[node_id] for node_id in self.sorted_nodes]

    def topological_sort_helper(self, node_id):
        if node_id in self.marked_nodes:
            return
        if node_id in self.temporarily_marked_nodes:
            raise Exception("Graph has a cycle")
        self.temporarily_marked_nodes.add(node_id)
        if node_id in self.edges:
            out_nodes = list(self.edges[node_id])
            out_nodes.sort(key=lambda x: (x.node_desc, x.height))
            for out_node in out_nodes:
                self.topological_sort_helper(out_node.node_id)
        self.marked_nodes.add(node_id)
        self.temporarily_marked_nodes.remove(node_id)
        self.sorted_nodes.insert(0, node_id)

最终结果举例如下，可以和上面的反链DAG antichain_dag 比对，看看异同：

states = {list: 99} 
 00 = {AntichainNode} antichain_0 -- ['node4']
 01 = {AntichainNode} antichain_1 -- ['node5']
 02 = {AntichainNode} antichain_2 -- ['node6']
 03 = {AntichainNode} antichain_3 -- ['node7']
 04 = {AntichainNode} antichain_4 -- ['node8']
 05 = {AntichainNode} antichain_5 -- ['node8', 'node10']
 06 = {AntichainNode} antichain_7 -- ['node8', 'node11']
 07 = {AntichainNode} antichain_10 -- ['node8', 'node12']
 08 = {AntichainNode} antichain_6 -- ['node14']
 09 = {AntichainNode} antichain_8 -- ['node14', 'node15']
 10 = {AntichainNode} antichain_11 -- ['node14', 'node16']
 11 = {AntichainNode} antichain_13 -- ['node14', 'node17']
 12 = {AntichainNode} antichain_9 -- ['node19']
 13 = {AntichainNode} antichain_12 -- ['node20', 'node23']
 14 = {AntichainNode} antichain_18 -- ['node23', 'node20', 'node26']
 15 = {AntichainNode} antichain_17 -- ['node23', 'node20', 'node24']
 16 = {AntichainNode} antichain_32 -- ['node23', 'node20', 'node28']
 17 = {AntichainNode} antichain_31 -- ['node23', 'node20', 'node26', 'node24']
 18 = {AntichainNode} antichain_63 -- ['node23', 'node20', 'node26', 'node28']
 19 = {AntichainNode} antichain_33 -- ['node20', 'node26', 'node29']
 20 = {AntichainNode} antichain_16 -- ['node20', 'node43', 'node23']
 21 = {AntichainNode} antichain_30 -- ['node23', 'node20', 'node43', 'node26']
 22 = {AntichainNode} antichain_29 -- ['node23', 'node20', 'node43', 'node24']
 23 = {AntichainNode} antichain_59 -- ['node23', 'node20', 'node43', 'node28']

我们也可以和如下增强反链比对，看到 states 就是对增强反链DAG进行拓扑排序之后的结果，按照这个顺序进行训练是符合逻辑的。

_augmented_antichains = {dict: 99} 
 ('node4',) = {list: 1} ['node4']
 ('node5',) = {list: 1} ['node5']
 ('node6',) = {list: 1} ['node6']
 ('node7',) = {list: 1} ['node7']
 ('node8',) = {list: 1} ['node8']
 ('node10',) = {list: 2} ['node8', 'node10']
 ('node14',) = {list: 1} ['node14']
 ('node11',) = {list: 2} ['node8', 'node11']
 ('node15',) = {list: 2} ['node14', 'node15']
 ('node19',) = {list: 1} ['node19']
 ('node12',) = {list: 2} ['node8', 'node12']
 ('node16',) = {list: 2} ['node14', 'node16']
 ('node23',) = {list: 2} ['node20', 'node23']
 ('node17',) = {list: 2} ['node14', 'node17']
 ('node23', 'node30') = {list: 3} ['node20', 'node30', 'node23']
 ('node23', 'node36') = {list: 3} ['node20', 'node36', 'node23']
 ('node23', 'node43') = {list: 3} ['node20', 'node43', 'node23']
 ('node24',) = {list: 3} ['node23', 'node20', 'node24']
 ('node26',) = {list: 3} ['node23', 'node20', 'node26']
 ('node23', 'node30', 'node36') = {list: 4} ['node20', 'node36', 'node30', 'node23']
 ('node23', 'node30', 'node43') = {list: 4} ['node20', 'node43', 'node30', 'node23']
 ('node31',) = {list: 3} ['node20', 'node26', 'node31']
 ('node24', 'node30') = {list: 4} ['node23', 'node20', 'node30', 'node24']
 ('node26', 'node30') = {list: 4} ['node23', 'node20', 'node30', 'node26']
 ('node23', 'node36', 'node43') = {list: 4} ['node20', 'node43', 'node36', 'node23']
 ('node37',) = {list: 4} ['node32', 'node20', 'node26', 'node37']
 ('node24', 'node36') = {list: 4} ['node23', 'node20', 'node36', 'node24']
 ('node26', 'node36') = {list: 4} ['node23', 'node20', 'node36', 'node26']
 ('node44',) = {list: 2} ['node40', 'node44']
 ('node24', 'node43') = {list: 4} ['node23', 'node20', 'node43', 'node24']
 ('node26', 'node43') = {list: 4} ['node23', 'node20', 'node43', 'node26']
 ('node24', 'node26') = {list: 4} ['node23', 'node20', 'node26', 'node24']

3.6 总结

因为目前的算法比较复杂，所以我们暂时总结一下目前为止的工作：

计算出了每个节点的增强反链，最终得到增强反链组合 _augmented_antichains 。
计算出了每个节点的后续反链。寻找某节点后续反链的目的就是找到下一个图分割点 A，然后为了确定 A 的运行时间（或者其他信息），需要找到 A 的增强反链（一些增强反链就是一些状态）。_next_antichains 是后续反链组合。
antichain_dag 函数依据 _next_antichains 和 _augmented_antichains 进行处理，构建一个反链 DAG，就是变量 antichain_dag。
得到了增强反链DAG之后，需要进行拓扑排序之后才能使用。得出拓扑排序的目的是：如果按照拓扑序列的顶点次序，在到达某节点之前，可以保证它的所有前序活动都已经完成，从而整个工程顺序执行，不会冲突。
states 就是对增强反链DAG进行拓扑排序之后的结果，按照这个顺序进行训练是符合逻辑的。所以后续工作就是在 states 基础上运行。

0x04 计算分区

至此，图已经依据后续反链被分割成若干状态（states），每个状态很重要的一个属性是其增强反链。states 就是对增强反链进行拓扑排序之后的结果，按照这个顺序进行训练是符合逻辑的。

自动分区算法具体分为两部分。

compute_partitioning 是使用动态规划算法对于这些状态得出一个最优化结果，但是没有做具体分区。
analyze_partitioning 是利用最优化结果来做具体分区，排序后得到了一个偏序结果。

下面我们逐一分析。

4.1 main函数的逻辑

main函数接下来与计算分区相关的逻辑如下：

为每个状态设置index。
给每个状态计算出输出激活值大小，具体是通过遍历其反链（增强反链），可以认为就是其必要前序节点给自己的输出。
给每个状态计算其信息，比如计算时间，激活大小，参数大小等等，都是通过前置节点完成的。
得到总体输出大小 output_activation_sizes & 所有前置节点id，后面计算分区时候需要。
依据profile估计出系统内部的计算时间，compute_times_row 是 i 节点到后续节点（i+1, i+2, …）的计算时间，下面类似。
依据profile估计出系统内部的激活值大小。
依据profile估计出系统内部的参数大小。
遍历机器集&网络带宽组合。流水线可以是straight（数目为1）或者并行（数目为num_machines），依据目前的信息，以及机器数量，网络带宽等，使用动态规划算法计算分区。假如机器集&网络带宽组合有两个，则会用每个组合进行一次动态规划算法，最后 all_As.append(A) 这里就是两个动态规划的结果，就是考虑到各种必要因素之后的最优结果。

具体代码如下：

def main(all_num_machines, profile_filename, network_bandwidths, memory_size,
         straight_pipeline, use_memory_constraint, use_fewer_machines,
         activation_compression_ratio, output_directory,
         print_configuration=True, verbose=False):
    gr = graph.Graph.from_str(open(profile_filename, 'r').read())

    # Zero out all metadata associated with inputs in graph, since the optimizer
    # shouldn't really get a choice with where to place the input (should always
    # be in the first stage).
    # 排除干扰，因为input必然在第一层，没必要让优化器再来选择把输入放在哪里，所以先去除，后续会再加上。
    sources = gr.sources() # 对图的输入进行处理
    nodes_to_remove = OrderedDict()
    for source in sources:
        if source.node_desc.startswith("Input"): # 只处理input
            source.forward_compute_time = 0.0
            source.backward_compute_time = 0.0
            source.activation_size = 0.0
            source.parameter_size = 0.0
            nodes_to_remove[source] = []
            for out_node in gr.edges[source.node_id]:
                nodes_to_remove[source].append(out_node) # 记录这些删除source对应了哪些out节点，因为后续还要处理
            gr.remove_node(source) # 在图中移除这些input source

    # Remove all unneeded sinks that are not used, makes code generation and
    # optimization easier.
    sinks = gr.sinks() # 对图的输出进行处理，移除没有用到的输出
    for sink in sinks:
        if sink.node_desc.startswith("__getitem__"):
            gr.remove_node(sink)

    antichain_gr = gr.antichain_dag() # 得到反链DAG
    states = antichain_gr.topological_sort() # 拓扑排序，得到一个排序好的节点列表

    ###########################################################################
    # 之前代码在上节分析过，我们本节从这里继续分析
    ###########################################################################
    
    states_indices = {} # 为每个状态设置index
    for i in range(len(states)):
        states_indices[states[i]] = i
        
##################################### 运行时如下        
#states_indices = {dict: 99} 
# antichain_0 -- ['node4'] = {int} 0
# antichain_1 -- ['node5'] = {int} 1
# antichain_2 -- ['node6'] = {int} 2
# antichain_3 -- ['node7'] = {int} 3
# antichain_4 -- ['node8'] = {int} 4
# ......
         
    # 给每个状态计算出输出激活值大小，具体是通过遍历其反链（增强反链），可以认为就是其必要前序节点给自己的输出
    for i in range(len(states)):
        for antichain_node in states[i].antichain:
            states[i].output_activation_size += gr.nodes[antichain_node].activation_size
       
    # 给每个状态计算其信息，比如计算时间，激活大小，参数大小等等，都是通过前置节点完成的      
    for i in range(len(states)):
        antichain = states[i].antichain
        all_predecessors = gr.all_predecessors(antichain)
        states[i].compute_time = 0.0
        states[i].activation_size = 0.0
        states[i].parameter_size = 0.0
        for predecessor in all_predecessors: # 计算所有前置节点的信息
            states[i].compute_time += ((predecessor.forward_compute_time +
                                        predecessor.backward_compute_time) / 1000.0)
            states[i].activation_size += predecessor.activation_size
            states[i].parameter_size += predecessor.parameter_size
    gr.reset()

    # 得到总体输出大小 & 所有前置节点id，后面计算分区时候需要
    output_activation_sizes = [state.output_activation_size for state in states]
    all_predecessor_ids = [[states_indices[predecessor] for predecessor in
                            antichain_gr.predecessors(states[i].node_id)]
                           for i in range(len(states))]

##################################### 运行时如下      
# output_activation_sizes = {list: 99} 
# 00 = {float} 6291456.0
# 01 = {float} 12582912.0
# 02 = {float} 12582912.0
# 03 = {float} 6553600.0    
# .....
# all_predecessor_ids = {list: 99} 
#  00 = {list: 0} []
#  01 = {list: 1} [0]
#  02 = {list: 2} [0, 1]
#  03 = {list: 3} [0, 1, 2]
#  04 = {list: 4} [0, 1, 2, 3]
#  05 = {list: 5} [2, 3, 4, 0, 1]
#  06 = {list: 6} [2, 3, 4, 0, 1, 5]
#  07 = {list: 7} [6, 2, 3, 4, 0, 1, 5]
# ......
    
    compute_times = [] # 初始化计算时间
    activation_sizes = [] # 初始化激活值大小
    parameter_sizes = [] # 初始化参数值大小
    for i in range(len(states)+1): # 具体计算每一个节点的信息，去除他之前节点的影响
        compute_times_row = []
        activation_sizes_row = []
        parameter_sizes_row = []
        for j in range(len(states)): # 去除之前的节点
            if i == 0: # 列表中第一个节点
                compute_times_row.append(states[j].compute_time) # i 到 j 的计算时间
                activation_sizes_row.append(states[j].activation_size)
                parameter_sizes_row.append(states[j].parameter_size)
            else: # 列表中后续节点
                if j > (i-1):
                    compute_times_row.append(states[j].compute_time -
                        states[i-1].compute_time) # i 到 j 的计算时间
                    activation_sizes_row.append(states[j].activation_size -
                        states[i-1].activation_size)
                    parameter_sizes_row.append(states[j].parameter_size -
                        states[i-1].parameter_size)
                else:
                    compute_times_row.append(None)
                    activation_sizes_row.append(None)
                    parameter_sizes_row.append(None)
        compute_times.append(compute_times_row) # 依据profile估计出系统内部的计算时间，compute_times_row 是 i 节点到 后续节点（i+1, i+2, ...）的计算时间，下面类似
        activation_sizes.append(activation_sizes_row) # 依据profile估计出系统内部的激活值大小
        parameter_sizes.append(parameter_sizes_row) # 依据profile估计出系统内部的参数大小

##################################### 运行时如下  
# compute_times = {list: 100} 
# 000 = {list: 99} [0.0070220000000000005, 0.012285, 0.012558, 0.021096000000,...
# 001 = {list: 99} [None, 0.005263, 0.005535999999999999, 0.014074000000000003, ...
# 002 = {list: 99} [None, None, 0.00027299999999999894, 0.008811000000000003, ...
# 003 = {list: 99} [None, None, None, 0.008538000000000004, 0.008538, ...
# 004 = {list: 99} [None, None, None, None, -3.469446951953614e-18, 0.000191999999...

    counter = 1
    all_As = []
    num_machines_in_machine = 1 #第一个节点就是1
    # all_num_machines, network_bandwidths 是用户在输入中指定
    # 遍历机器集&网络带宽组合。流水线可以是straight（数目为1）或者并行（数目为num_machines）
    for num_machines, network_bandwidth in zip(all_num_machines, network_bandwidths):
        print("Solving optimization problem with %d machines with inter-machine bandwidth of %.2f GB/s" % (num_machines, network_bandwidth / 10**9))
        import numpy as np
        print(np.array(compute_times))
        # 依据目前的信息，以及机器数量，网络带宽等计算分区
        A = compute_partitioning(compute_times, activation_sizes, parameter_sizes,
                                 output_activation_sizes, all_predecessor_ids,
                                 num_machines, num_machines_in_machine,
                                 network_bandwidth,
                                 final_level=(counter==len(network_bandwidths)))
        num_machines_in_machine = num_machines # 因为计算完了，所以设置为本阶段的机器数目
        for i in range(len(compute_times)): # 遍历机器
            for j in range(len(compute_times[0])): # 后续机器
                compute_times[i][j] = A[i][j][-1][0] # 记录计算时间（本阶段最后一个机器的计算时间）
        counter += 1
        all_As.append(A) # 添加逻辑关系，就是里面包括了不同阶段的优化逻辑
    print(np.array(compute_times))
    
    # 省略后续代码

其中compute_times 是一个计算时间的二维数组，也可以认为是矩阵，具体举例如下。

[w12,w13,w14,w15], // 第一个节点到后续节点的计算时间

[None, w23,w24,w25], // 第二个节点到后续节点的计算时间

[None, None, w34, w35], // 第三个节点到后续节点的计算时间

[None, None, None, w45], // 第四个节点到后续节点的计算时间

activation_sizes 和 parameter_sizes 与之类似。

4.2 动态规划

4.2.1 总体思路

这里有一些动态规划的算法需要分析。

分割算法试图减少模型的整体训练时间。对于流水线系统，这个问题等价于最小化流水线最慢阶段所花费的时间。该问题具有最优化子问题性质；在给定机器计数的情况下，使吞吐量最大化的管道由子管道组成，这些子管道分别使自己这个子管道的吞吐量最大化。因此，我们可以用动态规划来寻找这个问题的最优解。

分区算法获取profiling步骤的输出，并计算：

1）将层划分为多个阶段，

2）每个阶段的复制因子（worker数），

3）保持训练管道繁忙的最佳动态小批量数。

PipeDream的优化器假设机器拓扑是分层的，并且可以被组织成多个级别，如下图所示。一个级别内的带宽是相同的，而跨级别的带宽是不同的。我们假设 k 级由 mk 个 k-1层组件构成，这些组件通过带宽为Bk的链路连接。在下图中，m2=2，m1=4。此外，我们定义m0为1。即 4 个 m0 构成一个 m1, 2个 m1 构成一个 m2。

层 0 就是绿色矩形，代表最底层的计算设备，比如GPU，4个GPU构成了一个层1（虚线矩形，代表一个服务器），2个层1构成了一个层2（就是下图全部模块）。

PipeDream的优化器从最低层到最高层逐步解决动态规划问题。直观地说，这个过程在服务器中找到最佳分区，然后使用这些分区在服务器之间最优地分割模型。

4.2.2 具体分析

假设 A(j, m) 表示使用m台机器在第1层和第j层之间的最佳管道中，最慢阶段所用的时间。

我们算法的目标是找到 A(N,M) 和相应的划分。让T( i → j,m) 表示跨越层 i 到 j 的单级所用的时间，此时间在m台机器上复制。

其中：

max中的左项是在此阶段中所有层的总计算时间，右项是此阶段中所有层的总通信时间。
因为计算和通信可以重叠，所以不需要相加，直接取最大数值。
由1到j的由m个机器组成的最佳流水线可以是单个阶段复制m次，也可以由多个阶段组成。

当最佳管道包含多个阶段时，它可以被分解成一个最优的子管道（由从1到 i 的由m − m′ 个机器组成）和后续的一个单独阶段（由i+1到j 的被 m’ 个机器复制组成）。因此，利用最优子问题的性质，我们得到

其中，max中：

第一项是第1层和第i层之间的最优子管道（由m-m’个机器组成）的最慢阶段所用的时间。
第二项是在层 i 和 i + 1 之间传递激活和梯度所用的时间。
第三项是最后单个阶段的时间（由 m’ 个数据并行的机器组成）。

我们具体看看如何计算，假设一个图逻辑如下：

                       +----------------+
+-----+                |                +--------+
|     +------------->  |  k[m_prime]    |        |          +-----+
|  i  |                |                |        +--------->+     |
|     +----+           +----------------+                   |  j  |
+-----+    |                                      +-------->+     |
           |           +----------------+         |         +-----+
           |           |                |         |
           +-------->  |  k[m-m_prime]  +---------+
                       |                |
                       +----------------+

在 (A [i] [k] [m-m_prime] [0], last_stage_time, output_transfer_time, input_transfer_time ）之中选一个最大的：

A [i] [k] [m-m_prime] [0] ：i 到 k 之间的计算时间，是已经计算好的子问题。
last_stage_time ：last_stage_time 是 (k 到 j 的计算时间) + 传输时间。
- 其中compute_times[k + 1] [j] 是k 到 j 的计算时间，compute_times[k + 1] 就对应了k的输出。
- 传输时间是依据k 到 j 的下一阶段参数大小（parameter_sizes[k + 1 ] [j]）计算得出。
- 即：last_stage_time = compute_times[k + 1] +（parameter_sizes[k + 1 ] [j]）
input_transfer_time ：使用 k 的输出激活大小计算出来的传输时间（就是 j 的输入）。
output_transfer_time ：使用 j 的输出激活大小计算出来的传输时间。

因为传输和计算是可以重叠的，所以可以这样取最大数值。

最后得到的 A 就是动态规划优化的结果，其中每一个元素 A[i][j][m] 是个三元组 (min_pipeline_time, optimal_split, optimal_num_machines)。 A[i][j][m] 表示节点 i 到节点 j 之间的计算结果。三元组就是 (最小流水线时间，i 到 j 之间那个最佳分割点，最优机器数目)。

大致阶段如下图所示：

                                                       +----------------+
                                                       | i              |
                                                       |                |
                                                       |                |
                                                       +--+------+------+
                                                          |      |
                                                          |      +----------+
                                  A[i][k][m+m_prime][0]   |                 |
                                                          |                 |
                                                          v                 v
                                        +-----------------+-------+    +----+--------+
                                        | k[m-m_prime]            |    | k[m_prime]  |
                                        |                         |    |             |
last_stage_time = compute_times[k+1][j] |                         |    |             |
            + (parameter_sizes[k+1][j]) | output_activation_sizes |    |             |
                                        |                         |    |             |
                                        |                         |    |             |
                                        +-----------------+-------+    +-----+-------+
                                     input_transfer_time  |                  |
                                                          |      +-----------+
                                                          |      |
                                                          |      |
                                                          v      v
                                             +------------+------+------+
                                             | j                        |
                                             |                          |
                                             |                          |
                                             |                          |
                                             |  output_activation_sizes |
                                             |                          |
                                             +------------------+-------+
                                          output_transfer_time  |
                                                                |
                                                                |
                                                                v

具体代码如下：

def compute_partitioning(compute_times, activation_sizes, parameter_sizes,
                         output_activation_sizes, all_predecessor_ids,
                         num_machines, num_machines_within_machine,
                         bandwidth, final_level=True):
    # 初始化
    A = []
    for i in range(len(compute_times)): # 遍历所有节点
        row_A = []
        for j in range(len(compute_times[0])): # 所有后续节点（即第一个节点的所有后续节点）
            row_row_A = []
            for m in range(num_machines): # 机器数目
                row_row_A.append((None, None, None))
            row_A.append(row_row_A)
        A.append(row_A)

    # 得到计算时间
    for i in range(len(compute_times)): # 遍历所有节点
        for j in range(i, len(compute_times[0])): # 所有后续节点
            cum_compute_time = compute_times[i][j] # i --> j 的计算时间
            cum_activation_size = activation_sizes[i][j] # i --> j 的激活大小
            cum_parameter_size = parameter_sizes[i][j] # i --> j 的参数大小
            max_m = 1 if straight_pipeline else num_machines # 线性还是并行流水线
            for m in range(max_m): # 遍历流水线下一阶段的机器
                # 存储的数据大小
                stashed_data_size = math.ceil((num_machines - (m+1)) / (m+1)) * \
                                              (cum_activation_size + cum_parameter_size)
                # memory_size 是用户传进来的参数，就是每个机器有效的内存  
                # use_memory_constraint 也是用户传进来的参数，就是使用的内存限制
                if use_memory_constraint and stashed_data_size > memory_size:
                    continue
                # 数据并行通讯时间依据参数尺寸，带宽，下一阶段机器数量计算    
                data_parallel_communication_time = (4 * m * cum_parameter_size) / (bandwidth * (m+1))
                # 除以本阶段机器数量，如果本阶段机器多，当然就是分开计算了
                data_parallel_communication_time /= num_machines_within_machine

                if cum_compute_time is None:
                    # 需要计算下一阶段中，每个机器的计算时间，所以还要除以(m+1)
                    A[i][j][m] = (None, None, None) # 直接赋值
                else:
                    # 三元组，分别是[(计算时间 + 通信时间), None，(m+1)]，对应的意义是 min_pipeline_time, optimal_split, optimal_num_machines，就对应了前面的公式 2
                    A[i][j][m] = (sum([cum_compute_time,
                                       data_parallel_communication_time]) / (m+1), None, (m+1))

    # 需要得到最小计算时间                
    min_machines = 1
    max_i = len(compute_times) if not final_level else 1
    for i in range(max_i): # 遍历节点
        for m in range(min_machines, num_machines): # 遍历下一阶段机器的可能选择
            for j in range(i+1, len(compute_times[0])): # 遍历 i 的后续节点
                (min_pipeline_time, optimal_split, optimal_num_machines) = A[i][j][m]
                if use_fewer_machines and m > 0 and ( # 如果设置了用尽量少的机器，则如果小于min_pipeline_time，就设置新的 min_pipeline_time
                    min_pipeline_time is None or A[i][j][m-1][0] < min_pipeline_time):
                    (min_pipeline_time, optimal_split, optimal_num_machines) = A[i][j][m-1]
                # 遍历 j 节点的前置机器 k，注意，j 是 i 的后续节点之一
                # 就是在 i --> k --> j 之间找到一个计算时间最小的，其中A[i][k][m-m_prime][0]已经是一个最优子问题了
                for k in all_predecessor_ids[j]:
                    # 如果k已经在之前计算过了，就跳过
                    if i > 0 and k in all_predecessor_ids[i-1]:
                        continue
                    # 设置质数    
                    max_m_prime = 2 if straight_pipeline else (m+1)
                    for m_prime in range(1, max_m_prime): # prime就是看看如何分割
                        # 输入传输时间 input_transfer_time 使用 k 的输出激活尺寸计算
                        input_transfer_time = (2.0 * output_activation_sizes[k]) / \
                            (bandwidth * m_prime)
                        # 输出传输时间 output_transfer_time 使用 j 的输出激活尺寸计算
                        output_transfer_time = None
                        if j < len(output_activation_sizes) -1:
                            output_transfer_time = (2.0 *
                                output_activation_sizes[j]) / (bandwidth * m_prime)
                        # last_stage_time 设置为 k 到 j 的计算时间, compute_times[k+1] 就对应了k的输出
                        last_stage_time = compute_times[k+1][j]
                        if last_stage_time is None:
                            continue
                        # 设置为 k 到 j 的下一阶段参数尺寸
                        last_stage_parameter_size = parameter_sizes[k+1][j]
                        # 设置为 k 到 j 的存储数据尺寸
                        stashed_data_size = (activation_sizes[k+1][j]) + last_stage_parameter_size
                        # 依据机器数据计算
                        stashed_data_size *= math.ceil((num_machines - (m+1)) / m_prime)
                        # 超过机器内存就跳过
                        if use_memory_constraint and stashed_data_size > memory_size:
                            continue
                        # 加上传输时间，所以 last_stage_time 是 (k 到 j 的计算时间) + 传输时间
                        last_stage_time = sum([last_stage_time,
                                               ((4 * (m_prime - 1) *
                                                last_stage_parameter_size) / (bandwidth * m_prime))])
                        last_stage_time /= m_prime

                        # 如果从i到k没有边，则跳过
                        if A[i][k][m-m_prime][0] is None:
                            continue
                        # 如果i到k已经有计算时间，则选一个较大的    
                        pipeline_time = max(A[i][k][m-m_prime][0], last_stage_time)
                        if activation_compression_ratio is not None: # 如果压缩
                            # 在(A[i][k][m-m_prime][0], last_stage_time, output_transfer_time, input_transfer_time 之中选一个最大的)
                            input_transfer_time /= activation_compression_ratio
                            # output_transfer_time 也压缩
                            if output_transfer_time is not None:
                                output_transfer_time /= activation_compression_ratio
                            # 选一个大的    
                            pipeline_time = max(pipeline_time, input_transfer_time)
                            if output_transfer_time is not None:
                                pipeline_time = max(pipeline_time, output_transfer_time)
                                
                        # 如果比min_pipeline_time小，则设定 min_pipeline_time，为了下一次循环
                        if min_pipeline_time is None or min_pipeline_time > pipeline_time:
                            optimal_split = (k, m-m_prime) # 选一个优化分割点
                            optimal_num_machines = m_prime
                            min_pipeline_time = pipeline_time
                # 设置            
                A[i][j][m] = (min_pipeline_time, optimal_split, optimal_num_machines)

    return A

all_As 就是动态规划的结果，示例如下：

all_As = {list: 2}  
 0 = {list: 100} 
  000 = {list: 99} 
   00 = {list: 5} [(0.0070220000000000005, None, 1), (0.1689894, None, 2), (0.14943257777777777, None, 3), (0.1258643, None, 4), (0.107310576, None, 5)]
   01 = {list: 5} [(0.012285, None, 1), (0.0070220000000000005, (0, 0), 1), (0.0865995, (0, 0), 2), (0.07639255555555556, (0, 0), 3), (0.06429175000000001, (0, 0), 4)]
   02 = {list: 5} [(0.012558, None, 1), (0.0070220000000000005, (0, 0), 1), (0.0070220000000000005, (1, 1), 1), (0.0070220000000000005, (1, 1), 2), (0.0070220000000000005, (1, 1), 3)]
   03 = {list: 5} [(0.021096, None, 1), (0.012285, (1, 0), 1), (0.008538, (2, 1), 1), (0.008538, (2, 2), 1), (0.008538, (2, 3), 1)]
   ......
  __len__ = {int} 100
  
1 = {list: 100} 
 000 = {list: 99} 
  00 = {list: 5} [(0.107310576, None, 1), (0.080131832, None, 2), (0.05930489777777778, None, 3), (0.046685052000000005, None, 4), (0.03840710336000001, None, 5)]
  01 = {list: 5} [(0.06429175000000001, None, 1), (0.072057299, None, 2), (0.05690740466666667, None, 3), (0.0460065055, None, 4), (0.03840166136, None, 5)]
  02 = {list: 5} [(0.0070220000000000005, None, 1), (0.043422424, None, 2), (0.037817488, None, 3), (0.031689068, None, 4), (0.026947711359999998, None, 5)]
  03 = {list: 5} [(0.008538, None, 1), (0.0419991328, (2, 0), 1), (0.043422424, (2, 1), 1), (0.0396227304, None, 4), (0.033697556608, None, 5)]
 ......
  __len__ = {int} 100
 __len__ = {int} 2

4.2.3 区别

我们接下来要分析代码作者两个相似名字变量之间的区别。

activation_sizes ：某个节点所有前置节点的activation_size 之和。

for predecessor in all_predecessors:
    states[i].compute_time += ((predecessor.forward_compute_time +
                                predecessor.backward_compute_time) / 1000.0)
    states[i].activation_size += predecessor.activation_size
    states[i].parameter_size += predecessor.parameter_size

用来计算stashed数据大小，用来看看是否超过了节点配置的内存额度。

stashed_data_size = (activation_sizes[k+1][j]) + last_stage_parameter_size
stashed_data_size *= math.ceil((num_machines - (m+1)) / m_prime)
if use_memory_constraint and stashed_data_size > memory_size:
		continue

output_activation_sizes : 某个节点所有增强反链的activation_size之和。

for i in range(len(states)):
    for antichain_node in states[i].antichain:
        states[i].output_activation_size += gr.nodes[antichain_node].activation_size

用来计算输出传播时间和输入传播时间。

input_transfer_time = (2.0 * output_activation_sizes[k]) / \
    (bandwidth * m_prime)
output_transfer_time = None
if j < len(output_activation_sizes) -1:
    output_transfer_time = (2.0 *
        output_activation_sizes[j]) / (bandwidth * m_prime)

0x05 分析分区

5.1 main函数逻辑

前面计算分区只是得到了一个动态规划优化结果，需要在analyze_partitioning之中进行分析划分之后，赋予到各个层（stage）。

main函数接下来与计算分区相关的逻辑如下：

states是反链DAG的结果，all_As 就是动态规划得到的优化结果，可能是多个。
splits 初始化时候就只有一个二元组元素：最初的划分 (0, len(states))。
遍历all_As的动态优化结果，对于每个动态优化结果，遍历其各个逻辑关系，调用 analyze_partitioning 对分区进行分析，在splits分割中遍历，splits会逐步更新（分割点逐步逐阶段细化），analyze_partitioning 返回一个 partial_splits。
遍历 partial_splits，对于每一个分割点，获取其增强反链（states）的所有前置节点，给这些节点打上stage_id。这里是从前往后遍历，所以stage_id数值是逐步增加。
把图写到文件之中。后续 convert_graph_to_model.py 会把这个文件转换成模型。
做分析对比。

具体代码如下：

def main(all_num_machines, profile_filename, network_bandwidths, memory_size,
         straight_pipeline, use_memory_constraint, use_fewer_machines,
         activation_compression_ratio, output_directory,
         print_configuration=True, verbose=False):
    gr = graph.Graph.from_str(open(profile_filename, 'r').read())

    # Zero out all metadata associated with inputs in graph, since the optimizer
    # shouldn't really get a choice with where to place the input (should always
    # be in the first stage).
    # 排除干扰，因为input必然在第一层，没必要让优化器再来选择把输入放在哪里，所以先去除，后续会再加上。
    sources = gr.sources() # 对图的输入进行处理
    nodes_to_remove = OrderedDict()
    for source in sources:
        if source.node_desc.startswith("Input"): # 只处理input
            source.forward_compute_time = 0.0
            source.backward_compute_time = 0.0
            source.activation_size = 0.0
            source.parameter_size = 0.0
            nodes_to_remove[source] = []
            for out_node in gr.edges[source.node_id]:
                nodes_to_remove[source].append(out_node) # 记录这些删除source对应了哪些out节点，因为后续还要处理
            gr.remove_node(source) # 在图中移除这些input source

    # Remove all unneeded sinks that are not used, makes code generation and
    # optimization easier.
    sinks = gr.sinks() # 对图的输出进行处理，移除没有用到的输出
    for sink in sinks:
        if sink.node_desc.startswith("__getitem__"):
            gr.remove_node(sink)

    antichain_gr = gr.antichain_dag() # 得到反链DAG
    states = antichain_gr.topological_sort() # 拓扑排序，得到一个排序好的节点列表

    ###########################################################################
    # 计算阶段
    ###########################################################################
    states_indices = {} # 为每个状态设置index
    for i in range(len(states)):
        states_indices[states[i]] = i
        
##################################### 运行时如下        
#states_indices = {dict: 99} 
# antichain_0 -- ['node4'] = {int} 0
# antichain_1 -- ['node5'] = {int} 1
# antichain_2 -- ['node6'] = {int} 2
# antichain_3 -- ['node7'] = {int} 3
# antichain_4 -- ['node8'] = {int} 4
# ......
         
    # 给每个状态计算出输出激活值大小，具体是通过遍历其反链（增强反链），可以认为就是其必要前序节点给自己的输出
    for i in range(len(states)):
        for antichain_node in states[i].antichain:
            states[i].output_activation_size += gr.nodes[antichain_node].activation_size
       
    # 给每个状态计算其信息，比如计算时间，激活大小，参数大小等等，都是通过前置节点完成的      
    for i in range(len(states)):
        antichain = states[i].antichain
        all_predecessors = gr.all_predecessors(antichain)
        states[i].compute_time = 0.0
        states[i].activation_size = 0.0
        states[i].parameter_size = 0.0
        for predecessor in all_predecessors: # 计算所有前置节点的信息
            states[i].compute_time += ((predecessor.forward_compute_time +
                                        predecessor.backward_compute_time) / 1000.0)
            states[i].activation_size += predecessor.activation_size
            states[i].parameter_size += predecessor.parameter_size
    gr.reset()

    # 得到总体输出大小 & 所有前置节点id，后面计算分区时候需要
    output_activation_sizes = [state.output_activation_size for state in states]
    all_predecessor_ids = [[states_indices[predecessor] for predecessor in
                            antichain_gr.predecessors(states[i].node_id)]
                           for i in range(len(states))]

##################################### 运行时如下      
# output_activation_sizes = {list: 99} 
# 00 = {float} 6291456.0
# 01 = {float} 12582912.0
# 02 = {float} 12582912.0
# 03 = {float} 6553600.0    
# .....
# all_predecessor_ids = {list: 99} 
#  00 = {list: 0} []
#  01 = {list: 1} [0]
#  02 = {list: 2} [0, 1]
#  03 = {list: 3} [0, 1, 2]
#  04 = {list: 4} [0, 1, 2, 3]
#  05 = {list: 5} [2, 3, 4, 0, 1]
#  06 = {list: 6} [2, 3, 4, 0, 1, 5]
#  07 = {list: 7} [6, 2, 3, 4, 0, 1, 5]
# ......
    
    compute_times = [] # 初始化计算时间
    activation_sizes = [] # 初始化激活值大小
    parameter_sizes = [] # 初始化参数值大小
    for i in range(len(states)+1): # 具体计算每一个节点的信息，去除他之前节点的影响
        compute_times_row = []
        activation_sizes_row = []
        parameter_sizes_row = []
        for j in range(len(states)): # 去除之前的节点
            if i == 0: # 列表中第一个节点
                compute_times_row.append(states[j].compute_time) # i 到 j 的计算时间
                activation_sizes_row.append(states[j].activation_size)
                parameter_sizes_row.append(states[j].parameter_size)
            else: # 列表中后续节点
                if j > (i-1):
                    compute_times_row.append(states[j].compute_time -
                        states[i-1].compute_time) # i 到 j 的计算时间
                    activation_sizes_row.append(states[j].activation_size -
                        states[i-1].activation_size)
                    parameter_sizes_row.append(states[j].parameter_size -
                        states[i-1].parameter_size)
                else:
                    compute_times_row.append(None)
                    activation_sizes_row.append(None)
                    parameter_sizes_row.append(None)
        compute_times.append(compute_times_row) # 依据profile估计出系统内部的计算时间，compute_times_row 是 i 节点到 后续节点（i+1, i+2, ...）的计算时间，下面类似
        activation_sizes.append(activation_sizes_row) # 依据profile估计出系统内部的激活值大小
        parameter_sizes.append(parameter_sizes_row) # 依据profile估计出系统内部的参数大小

##################################### 运行时如下  
# compute_times = {list: 100} 
# 000 = {list: 99} [0.0070220000000000005, 0.012285, 0.012558, 0.021096000000,...
# 001 = {list: 99} [None, 0.005263, 0.005535999999999999, 0.014074000000000003, ...
# 002 = {list: 99} [None, None, 0.00027299999999999894, 0.008811000000000003, ...
# 003 = {list: 99} [None, None, None, 0.008538000000000004, 0.008538, ...
# 004 = {list: 99} [None, None, None, None, -3.469446951953614e-18, 0.000191999999...

    counter = 1
    all_As = []
    num_machines_in_machine = 1 #第一个节点就是1
    # all_num_machines, network_bandwidths 是用户在输入中指定
    # 遍历机器集&网络带宽组合。流水线可以是straight（数目为1）或者并行（数目为num_machines）
    for num_machines, network_bandwidth in zip(all_num_machines, network_bandwidths):
        print("Solving optimization problem with %d machines with inter-machine bandwidth of %.2f GB/s" % (num_machines, network_bandwidth / 10**9))
        import numpy as np
        print(np.array(compute_times))
        # 依据目前的信息，以及机器数量，网络带宽等计算分区
        A = compute_partitioning(compute_times, activation_sizes, parameter_sizes,
                                 output_activation_sizes, all_predecessor_ids,
                                 num_machines, num_machines_in_machine,
                                 network_bandwidth,
                                 final_level=(counter==len(network_bandwidths)))
        num_machines_in_machine = num_machines # 因为计算完了，所以设置为本阶段的机器数目
        for i in range(len(compute_times)): # 遍历机器
            for j in range(len(compute_times[0])): # 后续机器
                compute_times[i][j] = A[i][j][-1][0] # 记录计算时间（本阶段最后一个机器的计算时间）
        counter += 1
        all_As.append(A) # 添加逻辑关系，就是里面包括了不同阶段的优化逻辑
    print(np.array(compute_times))
    
    ###########################################################################
    # 我们从这里继续分析
    ###########################################################################
    
    # 分析阶段
    # 在 analyze_partitioning 内部做了具体分析
    # 这里最重要的是对 gr.all_predecessors 做设置，就是设置 gr 之中每个node的stage_id，这样就是利用stage_id把初始流水线重新划分
    splits = [(0, len(states))] # 如何分割，states是反链DAG的结果，所以 splits 初始化时候就只有一个二元组元素：最初的划分 (0, len(states))
    i = len(all_As) - 1 # all_As 就是动态规划得到的优化结果
    while i >= 0: # 遍历优化的出来的各个逻辑关系
        print("======================================")
        print("Level %d" % (i+1))
        print("======================================")
        new_splits = []
        stage_id = 0 # 在后续的convert_graph_to_model.py 之中会使用到
        for (start, end) in splits: # 在分割中遍历，splits会逐步更新
            # 依据新的splits中的二元组重新计算
            partial_splits = \
                analyze_partitioning(all_As[i], states, start, end,
                                     network_bandwidths[i], all_num_machines[i],
                                     activation_compression_ratio,
                                     print_configuration, verbose)
            start_point = start # 起始点
            for split in partial_splits: # 遍历分析得出的节点
                new_splits.append((start_point, split)) # 添加一个新的二元祖
                if i == 0:
                    predecessors = gr.all_predecessors(states[split-1].antichain)
                    for predecessor in predecessors:
                        if predecessor.stage_id is None:
                            predecessor.set_stage_id(stage_id) # 设置所在阶段
                start_point = split # 下一个阶段
                stage_id += 1 # 增加所在阶段
            new_splits.append((start_point, end)) # 添加一个新的二元祖
            if i == 0:                
                predecessors = gr.all_predecessors(states[end-1].antichain)
                for predecessor in predecessors:
                    if predecessor.stage_id is None:
                        predecessor.set_stage_id(stage_id) # 设置所在阶段
            stage_id += 1 # 增加所在阶段
        
        print("Total number of stages: %d" % stage_id)
        splits = new_splits # 加入新的分割
        i -= 1

    # 以下是为了把图写到文件之中。后续convert_graph_to_model.py会把这个文件转换成模型 
    for source in nodes_to_remove: # 之前移除了input节点，现在需要加回到图中
        for out_node in nodes_to_remove[source]: # input对应的哪些输出
            source.stage_id = 0
            gr.add_edge(source, out_node)

    if output_directory is not None:
        total_num_machines = 1
        for num_machines in all_num_machines:
            total_num_machines *= num_machines
        gr.to_dot(os.path.join(output_directory, "gpus=%d" % total_num_machines))
        gr_str = str(gr)
        with open(os.path.join(output_directory, "gpus=%d.txt" % total_num_machines), 'w') as f:
            f.write(gr_str)

    # 以下是为了做分析对比        
    # 计算数据并行需要的时间，以便接下来做比较，这个时间要比动态规划时间长。        
    total_time = states[-1].compute_time # 最后一个阶段的计算时间，是没有经过优化的最初计算时间
    total_parameter_size = states[-1].parameter_size
    data_parallel_total_time = total_time # 先赋值为最后一阶段的计算时间
    num_machines_in_machine = 1 # 本阶段的机器数目
    # 遍历流水线上各个阶段，因为没有优化，所以就是严格按照用户原始配置的流水线阶段来逐一计算
    for (num_machines, network_bandwidth) in zip(all_num_machines, network_bandwidths):
        # 计算传输时间。num_machines是下一阶段流水线机器数目，所以带宽需要乘以这个数字
        data_parallel_communication_time = (
            (4 * (num_machines - 1) * total_parameter_size) /
            (network_bandwidth * num_machines)) / num_machines_in_machine
        # 总时间需要加上传输时间
        data_parallel_total_time = sum(
            [data_parallel_total_time, data_parallel_communication_time]) / num_machines
        # 下个迭代中，本阶段的机器数目需要设置为num_machines
        num_machines_in_machine = num_machines

    # 这个是用动态规划算法得出来的优化时间    
    pipeline_parallel_total_time = A[0][len(states)-1][num_machines-1][0]

    # 可以看到用户需要注意哪些数据
    if verbose:
        print()
        print("Time taken by single-stage pipeline:", total_time)
        print("Time per stage in pipeline:", pipeline_parallel_total_time)
        print("Throughput increase (compared to single machine):",
              total_time / pipeline_parallel_total_time)
        dp_str = ",".join([str(elem) for elem in all_num_machines])
        print(("[Note that single-machine and (%s)-machine DP might not fit "
               "given memory constraints]") % dp_str)
        print("Throughput increase of (%s)-machine DP compared to single "
              "machine:" % dp_str, total_time / data_parallel_total_time)
        print("Throughput increase (compared to (%s)-machine DP):" % dp_str,
              data_parallel_total_time / pipeline_parallel_total_time)
    return pipeline_parallel_total_time, data_parallel_total_time

5.2 分析阶段

分析阶段具体可以参见下面注释。

def analyze_partitioning(A, states, start, end, network_bandwidth, num_machines,
                         activation_compression_ratio, print_configuration, verbose):
    # start，end 是本组节点的起始点，终止点
    metadata = A[start][end-1][num_machines-1] # 这是个三元组  (min_pipeline_time, optimal_split, optimal_num_machines)
    next_split = metadata[1] # metadata[1] 是 optimal_split，即 (k, m-m_prime)
    remaining_machines_left = num_machines
    splits = []
    replication_factors = []
    prev_split = end - 1 # 前一个分割点
    
    while next_split is not None: #是否继续分割
        num_machines_used = metadata[2] # optimal_num_machines
        if verbose:
            print("-------------------------------------")
            print("Number of machines used: %d..." % num_machines_used)
            print("Split between layers %d and %d..." % (next_split[0], next_split[0] + 1))
            print("Split before antichain %s..." % (states[next_split[0]+1].antichain))
        splits.append(next_split[0]+1) # 得到了 k + 1，这是关键点，因为最后返回的是splits
        compute_time = states[prev_split-1].compute_time - \
            states[next_split[0]].compute_time
        parameter_size = states[prev_split-1].parameter_size - \
            states[next_split[0]].parameter_size

        dp_communication_time = (4 * (num_machines_used - 1) * parameter_size) \
            / (network_bandwidth * num_machines_used)
        pp_communication_time_input = ( # 下个阶段的数据输入时间
            2.0 * states[next_split[0]].output_activation_size *
            (1.0 / float(num_machines_used))) / network_bandwidth
        pp_communication_time_output = ( # 上个阶段的数据输出时间
            2.0 * states[prev_split-1].output_activation_size *
            (1.0 / float(num_machines_used))) / network_bandwidth
        # 如果需要压缩，就进行压缩
        if activation_compression_ratio is not None:
            pp_communication_time_input /= activation_compression_ratio
            pp_communication_time_output /= activation_compression_ratio
        if activation_compression_ratio is None:
            pp_communication_time_input = 0.0
            pp_communication_time_output = 0.0

        compute_time /= num_machines_used # 本阶段计算时间
        dp_communication_time /= num_machines_used # 数据并行时间

        if verbose:
            print(("Compute time = %f, Data-parallel communication time = %f, "
                   "Pipeline-parallel communication time = %f...") % (
                compute_time, dp_communication_time,
                max(pp_communication_time_input, pp_communication_time_output)))
        prev_split = splits[-1] # 设定新的前一分割点
        # next_split 格式是 (k, m-m_prime)，就是 optimal_split 的格式
        # A[i][j][m] 格式是 (min_pipeline_time, optimal_split, optimal_num_machines)
        metadata = A[start][next_split[0]][next_split[1]]
        next_split = metadata[1] # 设定新的下一次分割点，就是 optimal_split
        replication_factors.append(num_machines_used) # 每个阶段的 replication factor
        remaining_machines_left -= num_machines_used # 剩余机器
    if verbose:
        print("-------------------------------------")
        print("Number of machines used: %d..." % metadata[2])

    #     
    num_machines_used = metadata[2]
    remaining_machines_left -= num_machines_used # 剩余的机器
    compute_time = states[prev_split-1].compute_time 
    parameter_size = states[prev_split-1].parameter_size
    dp_communication_time = ((4 * (num_machines_used - 1) * parameter_size) /
                             (network_bandwidth * num_machines_used)) 
    compute_time /= num_machines_used # 计算时间
    dp_communication_time /= num_machines_used # 数据并行通信时间

    if verbose:
        print("Compute time = %f, Data-parallel communication time = %f..." %
              (compute_time, dp_communication_time))
        print("-------------------------------------")
    if print_configuration:
        print("Number of machines in budget not used: %d..." %
              remaining_machines_left)
        print()
        print("(Split start, split end) / compute time taken per stage "
              "/ replication factor per stage:")
    # 下面就是打印 (Split start, split end) / compute time taken per stage / replication factor per stage    
    prev_split = start
    splits.reverse() # 
    splits.append(end)
    replication_factors.append(num_machines_used)
    replication_factors.reverse()
    for i in range(len(splits)):
        time = 0.0
        if prev_split > 0:
            time = states[splits[i]-1].compute_time - states[prev_split-1].compute_time
        else:
            time = states[splits[i]-1].compute_time
        if print_configuration:
            print((prev_split, splits[i]), time, replication_factors[i])
        prev_split = splits[i]
    if print_configuration:
        print()
    return splits[:-1] # 最后一个不返回

我们还是用样例进行说明。

这里是从后面进行分割，举例分析如下，这里设定了总机器数目为10：

回忆在计算分区之中，A[i][j][m] = (min_pipeline_time, optimal_split, optimal_num_machines)，optimal_split = (k, m-m_prime) 是一个本阶段优化点。

所以在本函数之中，start = 0, end = 99，所以 metadata 为A[0][99][10]，即 (0.01903199999999998, (95, 8), 1)，next_split = (95, 8)，prev_split = end - 1 = 98。

next_split 就是下一个分割点，splits 是目前的分割序列。

第一轮while循环：

因为next_split = (95, 8)，所以 splits = append(next_split[0]+1) = [96]，因此计算 states[prev_split-1] - states[next_split[0]] = state[97] - state[95]。这样把0~99分成了 0 ～95 和 96 ~ 99。

然后 prev_split = 96，去找A[ 0 ] [ 95] [8] 得到 meta = (0.019031999999999993, (78, 7), 1)，next_split = (78, 7)。

所以下一轮从78这个分割点开始分割。

第二轮while循环：

因为next_split = (78, 7)，所以 splits = [96, 79]，这就是新的分割序列。，因此计算 states[96-1] - states[next_split[0]] = state[96] - state[78]。这样就使用 splits = [96, 79] 把0~99分成了 0 ～78，79 ~ 95 和 96 ~ 99。

然后 prev_split =79，去找A[ 0 ] [ 78 ] [ 7 ] 得到 meta = (0.011081, (48, 6), 1)，next_split = (48, 6)。

所以下一轮从 48 这个分割点开始分割，以此类推。

while循环之后，得到 splits = [96, 79, 49, 15, 12, 7, 5, 3, 1]。

于是下面代码需要把顺序调整过来。

prev_split = start
splits.reverse()
splits.append(end)
replication_factors.append(num_machines_used)
replication_factors.reverse()

得到：splits = { 1，3，5，7，12，15，49，79，96 }。然后加上 end = 99。

最后返回 splits[:-1]，即返回 { 1，3，5，7，12，15，49，79，96 }，去掉刚刚添加的end。

而依据 { 1，3，5，7，12，15，49，79，96 } 得到的最终分割序列是 [(0, 1), (1, 3), (3, 5), (5, 7), (7, 12), (12, 15), (15, 49), (49, 79), (79, 96), (96, 99)]，这个列表会在后续"设定stage"之中会用到。

5.3 设定stage

目前我们得到了一个理想分割序列，但是事情没有结束，我们回忆一下分区算法的目的：依据profile结果确定所有层的运行时间，然后使用动态规划对模型进行划分，将模型划分为不同的stage，以及得到每个stage的replication数。

所以，分析的最终目的是给模型的每一个子层分配一个stage，如果某些子层属于同一个stage，这些子层最终就被分配到同一个worker（节点）上执行。

因为这里涉及到多个子网，所以我们依然用实例来分析。

如果分成了两个子网，假设：

all_num_machines = [5,5]
network_bandwidths = [800000000, 1000000000]

初始化 splits = [0,99]。

第一轮 while 中，i = 1，

对于 splits 结果[(0, 99)] 遍历，每一段应用analyze_partitioning，得到 partial_splits 为 [3, 6, 30, 75, 99]。

最后，splits 更新为：[(0, 3), (3, 6), (6, 30), (30, 75), (75, 99)]。

此时不会设置stage_id。

第二轮 while 中，i = 0，

对于第一轮的 splits 结果 [(0, 3), (3, 6), (6, 30), (30, 75), (75, 99)] 进行遍历，对于这里的每一段也应用 analyze_partitioning，比如对 (0,3) 应用analyze_partitioning，对 (3,6) 应用 analyze_partitioning，对(6,30) 也应用 analyze_partitioning，…，最后得到新的 partial_splits 为 [1, 2, 3, 4, 5, 6, 8, 10, 13, 28, 30, 45, 49, 51, 75, 79, 96, 99]。

最后，splits 更新为：[(0, 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, 6), (6, 8), (8, 10), (10, 13), (13, 28), (28, 30), (30, 45), (45, 49), (49, 51), (51, 75), (75, 79), (79, 96), (96, 99)]。

这个列表就是理想分割序列。

在此轮中，得到了partial_splits之后，会遍历 for split in partial_splits: 然后对于每一个 split，利用

states[split-1].antichain 获取其增强反链的所有前置节点，给这些节点打上 split 对应的 stage_id。

回忆一下增强反链的意义：

每个节点的增强反链包括：本身节点 + 部分前序节点。
对于增强反链概念，可以理解为：对于节点 A，他只有把节点 Z 一起考虑，才能唯一确定自己节点的运行时间。

所以，对于 split = 1，1 - 1 = 0，于是就得到 states[0].antichain ，就是 ‘node4’，那么 ‘node4’ 自己被打上了一个stage_id=0，说明 ‘node4’ 被分到了一个 “与stage_id=0 所对应” 的 worker 节点上训练。

如果有疑问，我们回忆一下state如何构建，就是有序的 “节点组合”。

antichain_gr = gr.antichain_dag()
states = antichain_gr.topological_sort()

具体如下。

states = {list: 99} 
 00 = {AntichainNode} antichain_0 -- ['node4'] # states[0].antichain
 01 = {AntichainNode} antichain_1 -- ['node5']
 02 = {AntichainNode} antichain_2 -- ['node6']
 03 = {AntichainNode} antichain_3 -- ['node7']
 04 = {AntichainNode} antichain_4 -- ['node8']
 05 = {AntichainNode} antichain_5 -- ['node8', 'node10']
 06 = {AntichainNode} antichain_7 -- ['node8', 'node11']
 07 = {AntichainNode} antichain_10 -- ['node8', 'node12']
 08 = {AntichainNode} antichain_6 -- ['node14']
 09 = {AntichainNode} antichain_8 -- ['node14', 'node15']
 10 = {AntichainNode} antichain_11 -- ['node14', 'node16']
 11 = {AntichainNode} antichain_13 -- ['node14', 'node17']
 12 = {AntichainNode} antichain_9 -- ['node19']
 13 = {AntichainNode} antichain_12 -- ['node20', 'node23']
 14 = {AntichainNode} antichain_18 -- ['node23', 'node20', 'node26']
 15 = {AntichainNode} antichain_17 -- ['node23', 'node20', 'node24']
 16 = {AntichainNode} antichain_32 -- ['node23', 'node20', 'node28']
 17 = {AntichainNode} antichain_31 -- ['node23', 'node20', 'node26', 'node24']
 18 = {AntichainNode} antichain_63 -- ['node23', 'node20', 'node26', 'node28']
 19 = {AntichainNode} antichain_33 -- ['node20', 'node26', 'node29']
 20 = {AntichainNode} antichain_16 -- ['node20', 'node43', 'node23']
 21 = {AntichainNode} antichain_30 -- ['node23', 'node20', 'node43', 'node26']
 22 = {AntichainNode} antichain_29 -- ['node23', 'node20', 'node43', 'node24']
 23 = {AntichainNode} antichain_59 -- ['node23', 'node20', 'node43', 'node28']

设定stage 具体代码如下：

splits = [(0, len(states))]
i = len(all_As) - 1
while i >= 0:
    new_splits = []
    stage_id = 0
    for (start, end) in splits:
        partial_splits = \
            analyze_partitioning(all_As[i], states, start, end,
                                 network_bandwidths[i], all_num_machines[i],
                                 activation_compression_ratio,
                                 print_configuration, verbose)
        start_point = start
        for split in partial_splits: # 遍历这个偏序列表
            new_splits.append((start_point, split))
            if i == 0: # 最终的while
                # 针对每个节点，找到每个节点的所有反链
                predecessors = gr.all_predecessors(states[split-1].antichain)
                for predecessor in predecessors:
                    if predecessor.stage_id is None:
                        predecessor.set_stage_id(stage_id) # 打上stage id
            start_point = split
            stage_id += 1
        new_splits.append((start_point, end))
        if i == 0: # 最终的while
            predecessors = gr.all_predecessors(states[end-1].antichain)
            for predecessor in predecessors:
                if predecessor.stage_id is None:
                    predecessor.set_stage_id(stage_id) # 打上stage id
        stage_id += 1
    splits = new_splits
    i -= 1

5.4 总结

我们总结一下计算分区和分析分区所做的工作：

反链DAG图已经被分割成若干状态（states），每个状态很重要的一个属性是其增强反链。states 就是对增强反链进行拓扑排序之后的结果，按照这个顺序进行训练是符合逻辑的。
compute_partitioning 是使用动态规划算法对于这些 states 状态得出一个最优化结果，但是这个计算分区只是得到了一个动态规划优化结果，需要在analyze_partitioning之中进行分析划分之后，赋予到各个层（stage）。
analyze_partitioning 是利用动态规划算法的最优化结果来做具体分区，排序后得到了一个偏序结果，就是理想分割序列。
依据 analyze_partitioning 的结果，给模型的每一个子层分配一个stage，如果某些子层属于同一个stage，这些子层最终就被分配到同一个worker（节点）上执行。

0x06 输出

输出文件如下（摘录部分），可以看到，关键之处在于给每一个节点加上了stage，具体如何使用我们将在下一篇进行分析。比如：

stage_id=0 对应的是 node4。

stage_id=1 对应的是 node5，node6。

stage_id=2 对应的是 node7。

stage_id=3 对应的是 node8，node10，node11，node12。

…

具体如下：

node4 -- Embedding(32320, 1024, padding_idx=0) -- forward_compute_time=0.073, backward_compute_time=6.949, activation_size=6291456.0, parameter_size=132382720.000 -- stage_id=0
node5 -- EmuBidirLSTM(  (bidir): LSTM(1024, 1024, bidirectional=True)  (layer1): LSTM(1024, 1024)  (layer2): LSTM(1024, 1024)) -- forward_compute_time=5.247, backward_compute_time=0.016, activation_size=12582912.0, parameter_size=67174400.000 -- stage_id=1
node6 -- Dropout(p=0.2) -- forward_compute_time=0.077, backward_compute_time=0.196, activation_size=12582912.0, parameter_size=0.000 -- stage_id=1
node7 -- LSTM(2048, 1024) -- forward_compute_time=3.190, backward_compute_time=5.348, activation_size=6553600.0, parameter_size=50364416.000 -- stage_id=2
node8 -- __getitem__(0) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000 -- stage_id=3
node10 -- Dropout(p=0.2) -- forward_compute_time=0.064, backward_compute_time=0.128, activation_size=6291456.0, parameter_size=0.000 -- stage_id=3
node11 -- LSTM(1024, 1024) -- forward_compute_time=2.491, backward_compute_time=4.203, activation_size=6553600.0, parameter_size=33587200.000 -- stage_id=3
node12 -- __getitem__(0) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000 -- stage_id=3
node14 -- Add -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000 -- stage_id=4
node15 -- Dropout(p=0.2) -- forward_compute_time=0.059, backward_compute_time=0.121, activation_size=6291456.0, parameter_size=0.000 -- stage_id=4
node16 -- LSTM(1024, 1024) -- forward_compute_time=2.492, backward_compute_time=4.201, activation_size=6553600.0, parameter_size=33587200.000 -- stage_id=4
node17 -- __getitem__(0) -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000 -- stage_id=5
node19 -- Add -- forward_compute_time=0.000, backward_compute_time=0.000, activation_size=6291456.0, parameter_size=0.000 -- stage_id=5
	node1 -- node4
	node4 -- node5
	node2 -- node5
	node5 -- node6
	node6 -- node7
	node7 -- node8
	node8 -- node10
	node10 -- node11
	node11 -- node12
	node12 -- node14
	node8 -- node14
	node14 -- node15
	node15 -- node16
	node16 -- node17
	node17 -- node19

0xEE 个人信息

★★★★★★关于生活和技术的思考★★★★★★

微信公众账号：罗西的思考

如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，敬请关注。

0xFF 参考

[源码解析] 深度学习流水线并行之PipeDream(1)— Profile阶段

你可能感兴趣的:(001_机器学习,017_分布式机器学习,015_深度学习,深度学习,机器学习,分布式训练,流水线并行,PipeDream)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
快节奏地方天圆
现在生活都是快节奏，使人来不及品味生活中的酸甜苦辣。交通、通讯、办公条件的高度发达，缩短了距离，节省了时间，提高了效率，但同时也使人成为缺少思考的动物，成为流水线上的一道工序。人人都有干不完的活、接不完的电话、参加不完的应酬。工作，急匆匆；办事，急匆匆；走路，急匆匆；吃饭，急匆匆；走亲串友，急匆匆；就连说话、甚至睡觉也都是急匆匆。快节奏的环境，使我们养成了快节奏的思维、习惯、心态，很难静下心来，认
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人到中年的5大恐惧不想独白的独白
这一段时间闭关在家，心里越来越没有底。全球疫情，全国疫情，一直在关心和自我调试中。但是，好像还是对自己的未来充满了无所适从。不想去做什么，也没有激情和兴趣去开始什么。人生过半，还有什么可以逆袭或改变的机会呢。不知道做什么的时候，去追剧，做美食，教育孩子，锻炼，花钱进什么什么读书训练营，打卡训练营，微信群，各种分享和共同体的群。但是还是没有任何的起色。就这样了吗。中午并不困，但是到了12点，还是习惯
我的一个小心愿，减肥20斤，有人一起吗张晓晓ZXX
我现在体重141斤，163cm，想减到120以内，不想吃减肥药，不喝奶昔，也不想买健身卡，就是希望通过一些运动的aPP进行训练和适当的节食，有人一起的吗？3月12号，我73公斤，现在70.9公斤，是通过咕咚app训练来的，但一个人太孤单，有一起的吗？我想知道除了小时候坚持一个月练习写字帖把字写好了，还能做什么锻炼一下自己的毅力，我也想知道100天之后，我能不能也达到理想的体重。接下来100天，愿意
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
当你看不惯的东西越来越多时，证明你老了！书影斑斓的简书
看国产电视剧，看到那些小鲜肉扮嫩耍酷面瘫的演技时，我总有一种冲进屏幕痛打对方一顿的冲动。什么玩意儿？！但是，多年训练出来的对方视角看问题的能力，又让我可以理智下来，思考其中的合理性。一部影视剧的投资人、导演不是看不出这些小鲜肉的白痴演技，但之所以依然启用这些油头粉面的小鲜肉，就是因为他们能带来无数年轻粉丝的追捧，进而带来收视率和收益。资本天然逐利，影视剧本来就是资本运作的产物罢了。你看不惯这些小鲜
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，