七妹要奈斯

编译器设计(十三)——指令调度

文章目录

- 一、简介
- 二、指令调度问题
- - 2.1 度量调度质量的其他方式
  - 2.2 是什么使调度这样难
- 三、局部调度表
- - 3.1 算法
  - 3.2 调度具有可变延迟的操作
  - 3.3 扩展算法
  - 3.4 在调度表算法中打破平局
  - 3.5 前向表调度与后向表调度
  - 3.6 提高表调度的效率
  - 3.7 乱序执行又如何
- 四、区域性调度
- - 4.1 调度扩展基本块
  - 4.2 跟踪调度
  - 4.3 通过复制构建适当的上下文环境
- 五、高级主题
- - 5.1 软件流水线策略
  - 5.2 用于实现软件流水线的算法

一、简介

对程序块或过程中的操作进行排序以有效利用处理器资源的任务称为指令调度（instruction scheduling）。调度器的输入是由目标机汇编语言操作组成的一个部分有序的列表，输出是同一列表的一个有序版本。

一组指令的执行时间严重依赖于其执行顺序，指令调度会重排一个过程中的各个指令，使每个周期执行尽可能多的指令，以改进其运行时间。处理器常见指令的典型延迟周期：

对于整数加法或减法是1个周期；
对于整数乘法或浮点加减法是3个周期；
对于浮点乘法是5个周期；
对于浮点除法是12-18个周期；
对于整数除法是20-40周期。
load的延迟取决于目标值在内存层次结构中所处的位置，因而该指令的延迟可能是几个周期（比如1-5个，值位于最接近处理器的高速缓存中），也可能是数十到数百个周期（如果值位于内存中）。
算术操作也可以具有可变延迟。例如，如果浮点乘法和除法单元发现实际的操作数使处理过程的某些阶段变得不必要，那么浮点单元将尽早退出处理。

指令调度的主导技术是一种贪婪启发式算法，称为表调度。表调度器运行在无分支代码上，使用各种优先级排序（priority ranking）方案来指引其选择。编译器编写者已经发明了若干框架，用于在代码中大于基本程序块的区域上调度指令。这些区域和循环调度器只是创造条件，使编译器能够将表调度应用到一个更长的操作序列上。

指令调度器的3个主要目标：

第一，它必须保待输入代码的语义。
第二，它应该通过避免拖延或nop指令来最小化执行时间（若不知道这是啥意思，就看流水线冒险）。
第三，它应该尽可能避免延长值的生命周期，至少不能因此导致额外的寄存器溢出。

二、指令调度问题

假定执行下列代码的处理器只有一个功能单元，load和store需要花费3个周期，mult花费两个周期，其他指令均花费一个周期。在这些假定下，原来的代码（下图a）要花费22个周期，调度后的代码（下图b）只需要花费13个周期。

调度后的代码将长延迟的指令与引用其结果的指令隔离开来，这种分离使得不依赖其结果的指令能够与长延迟指令并发执行。调度后的代码在前三个周期发射load指令，其结果分别在4、5、6周期就绪。这种调度需要一个额外的寄存器r₃来保存第3个并发执行的load指令的结果，但它使得处理器在等待从内存加载第一个算术运算操作数的同时执行一些有用的工作。这种操作之间的重叠执行，实际上隐藏了内存操作的延迟。程序块各处也应用的同一思想隐藏了mult操作的延迟。

这里将会介绍针对单发射的表调度算法，由于市场上的主流处理器都具有多个功能单元，可以在每个周期发射多条指令，所以后面也会介绍如何扩展表调度算法以支持多发射处理器。

指令调度问题定义在基本程序块的依赖关系图 $D$ 之上， $D$ 有时候也称为前趋图， $D$ 的定义是：对于程序块b，其依赖关系图 $D = (N, E)$ ，b中的每个操作在 $D$ 中对应于一个结点（ $N$ 是结点集合）。对于两个结点n1和n2，如果n2使用了n1的结果，那么 $D$ 中有一条边连接了n1和n2（ $E$ 是边的集合）。 $D$ 中的边表示程序块中值的流动，其中的每个结点有两个属性，分别是操作类型和延迟。

$D$ 不是树，它是由多个有向无环图（Directed acyclic graph，DAG）形成的森林，因而，结点可以有多个父结点，而 $D$ 也可以有多个根结点。在 $D$ 中没有前趋结点的那些结点（如下图中的a、c、e和g）称为该图的叶结点，由于叶结点不依赖于任何其他操作，它们可以尽早调度执行。 $D$ 中没有后继结点的结点（如下图中的i）称为该图的根结点，根结点是图中最受限制的结点，因为直至其所有祖先都已经执行之后，它们才能执行。

给出一个代码片断的依赖关系图 $D$ ，调度S将每个结点n（n $\isin$ N）映射到一个非负整数，表示对应操作应该在哪一个周期发射，这里假定第一个操作在周期1发射。这里为指令提供了一个清晰简洁的定义，即第 $i$ 条指令是操作集合 ${n|S(n)=i\}$ 。调度必须满足3个约束：

对于每个n $\isin$ N，都有 $\geqslant 1$ 。这个约束禁止在执行开始之前发射操作，且为一致性起见，调度还必须至少有一个操作 $n^{'}$ 满足 $S (n^{'}) = 1$ 。
如果 $\isin E$ ，那么 $\leqslant S(n2)$ ，其中 $d e l a y (n 1)$ 表示操作 $n 1$ 执行所需要的时间（或叫延迟）。这个约束保证正确性，在一个操作的操作数都已经定义完毕之前，该操作是无法发射的。违反该规则的调度将改变代码中数据的流动，且在静态调度的机器上很可能产生不正确的结果。
每个指令包含的各个类型 $t$ 的操作的数目，不能超过目标机在单个周期的发射能力。这个约束保证了可行性，违反该约束的调度可能会包含一些目标机没有能力发射的指令。（在常见的VLIW机器上，调度器必须用nop填充指令中未使用的槽位。）

编译器只应当产生满足所有3个约束的调度。给出一个良构、正确、可行的调度，该调度的长度只是最后一个操作完成的周期编号，假定第一个指令在周期1发射。调度长度可以如下计算：

$max_{x \in N} (S(n) + delay(n))$

随调度长度的概念而来的是时间最优调度（time-optimal schedule）的概念，如果对包含同一组操作的所有其他调度 $S_j$ ，都有 $L(S_i) \leqslant L(S_j)$ ，那么调度 $S_i$ 是时间最优的。

沿穿越依赖关系图的路径计算总延迟，能够暴露有关该程序块的额外细节。对上文例子中的依赖关系图 $D$ 标注累积延迟的有关信息，将得到下图。从一个结点到计算结束处（根结点）的路径长度被作为结点的上标给出。其值清楚地说明了路径abdfhi是最长的（累计延迟为3+1+2+2+2+3=13），它是决定这个例子总体执行时间的关键路径（依赖关系图中延迟最长的路径）。

编译器如何调度这一计算呢？

首先调度 $D$ 中关键路径的叶子结点作为第一条发射指令，这里是a；
a调度后，剩下关键路径是cdfhi ，所以c会作为第二条指令调度；
ac调度后，b和e对应的路径等长且都是关键路径，但b需要a的结果，而这在第四个周期之前不可用，所以这里调度e；
以这种方式继续下去，将产生调度acebdgfhi，这与上图12-1b给出的调度后的代码是匹配的。

反相关：如果操作x位于操作y之前，且y定义了一个x中使用的值，那么称操作x反相关于操作y，记作y $\to$ x。调换其执行次序，将导致x计算出一个不同的值，所以调度器无法将y移到x之前，除非它重命名y的结果。

调度器至少可以用两种方法来生成正确的代码。一种是发现输入代码中存在的反相关并在最终的调度中遵守这种关系，这可以调度生成正确的代码，但是想对于未调度的代码，性能提升并不是很高。

另一种是用重命名值来避免反相关。编译器如果可以系统化的重命名程序块的值，则可以在调度代码之前消除反相关，这样生成的代码性能提升相对较高。但是这中方式存在一个潜在问题，即可能会增加对寄存器的需求，并迫使寄存器分配器逐出更多的值。

最简单的重命名方案在每个值生成时为其分配一个新名字，如对上图12-1a 中的代码重命名将产生下列代码，其依赖关系是没有歧义的，不包含反相关。

2.1 度量调度质量的其他方式

调度还可以用执行时间之外的其他值度量。同一程序块的两个调度 $S_i$ 和 $S_j$ 对寄存器的需求可能是不同的，即 $S_j$ 中活跃值的最大数目可能小于 $S_i$ 中的最大数目。如果处理器要求调度器为空闲的功能单元插入nop指令，那么 $S_i$ 包含的操作可能少于 $S_j$ ，因而执行时需要取的指令也较少。这不完全依赖于调度长度。例如，在具有可变周期nop指令的处理器上，将多个nop操作串在一起会产生较少的操作，且实际发射的指令数可能也会变少。最后， $S_j$ 在目标系统上的执行能耗可能低于 $S_i$ ，因为它从来不使用某个功能单元，取的指令数目较少，或者在处理器的取指逻辑和译码逻辑之间传输的比特数较少。

2.2 是什么使调度这样难

调度的根本操作是，根据各个操作开始执行的周期，将各个操作分组。对于每个操作，调度器必须选择一个周期。对于每个周期，调度器必须选择一组操作。为平衡这两种视角，调度器必须确保，每个操作只在当其操作数可用时才能发射。

在调度器将操作i放置在周期c中时，这一决策将影响到任何依赖于i结果的操作（在 $D$ 中从i可达的任何操作）的最早置放。如果在周期c中可以合法地执行多个操作，那么调度器的选择可能会改变对许多操作（直接或间接依赖于每个可能置于c中的操作）的最早置放。

【本节总结】：局部指令调度器必须为每个操作指定一个执行周期（这些周期从基本程序块入口开始编号）。在这一过程中，调度器必须确保调度中的任一周期包含的操作都没有超出硬件发射指令的能力。在静态调度处理器上，调度器必须确保每个操作都仅在其操作数就绪后发射，这要求调度器向调度中插入nop指令。在动态调度处理器上，调度器应该使执行导致的预期拖延数量最小化。

三、局部调度表

表调度是一个贪婪启发式方法，而非一个具体的算法，用以调度基本程序块中的各个操作。

3.1 算法

经典表调度将范围限制到无分支代码序列，即运行在一个基本程序块上，使得我们可以忽略一些复杂的调度情况。如，在调度器考虑多个程序块时，一个操作数可能取决于此前在不同程序块中的定义，这在操作数何时就绪的问题上产生了不确定性；而跨越程序块边界的代码移动则产生了另一组复杂情况，可能将操作移动到其此前并不存在的某条路径上，还可以在必要时从某条路径上删除操作。（下一节探讨跨程序块的调度）

为将表调度应用到程序块，调度器遵循一个包含四个步骤的计划。

重命名以避免反相关。为减少调度器受到的约束，编译器需要重命名值，对每个定义都将分配一个唯一的名字。这一步骤不是严格必需的，但它使调度器能够发现原本被反相关掩盖的某些调度，也简化了调度器的实现。
建立依赖关系图 $D$ 。为建立依赖关系图，调度器需要自底向上 遍历程序块。对于每个操作，它都构造一个结点来表示新建的值，调度器会从此结点出发，在该结点与使用其值的每个结点之间添加边，每条边都会被标注上当前操作的延迟。（如果调度器不进行重命名， $D$ 还必须表示反相关。）
为每个操作指定优先级。在每个步骤从可用操作的集合中选择时，调度器使用这些优先级作为指引。表调度器中已经使用过许多优先级方案。调度器可以为每个结点计算几种不同的得分，使用其中之一作为主要排序机制，当有结点得分相同时使用其他记分来打破平局。一种经典的优先级方案是使用从当前结点到 $D$ 的根结点之间、以延迟为权重计算长度时最长路径的长度。其他的优先级方案在3.4节描述。
重复选择一个操作并调度它。为调度操作，算法从程序块的第一个周期开始，在每个周期均选择尽可能多的操作发射。接下来，算法将周期计数器加1，更新己就绪可执行的操作的集合，并调度下一个周期。算法将重复这一过程，直至每个操作都已经调度完成。对数据结构精巧的使用使得这一过程十分高效。

重命名和 $D$ 的构建比较简单的，常见的优先级计算会遍历依赖关系图 $D$ 并在其上计算一些量度。算法的核心和理解它的关键在于最后一步——调度算法。下图12-3给出了这一步骤的基本框架，其中假定目标处理器只有一个功能单元。

调度算法抽象地模拟了被调度程序块的执行，算法会忽略值和操作的细节，而专注于 $D$ 中各条边所规定的时序约束。为跟踪时间，算法在变量Cycle中维护了一个模拟时钟。它将Cycle初始化为1，并在穿越程序块处理时对其加1。

算法使用两个列表来跟踪操作。Ready列表包含了当前周期 可执行的所有操作。如果一个操作位于Ready之中，那么其所有操作数都已经计算完成。最初，Ready包含了 $D$ 中的所有叶结点，因为它们并不依赖于程序块中的其他操作。Active列表包含了在更早的周期中发射但尚未完成的所有操作。每次调度器对Cycle加1时，它会从Active中删除Cycle之前已经完成的任何操作op。算法接下来核对op在 $D$ 中的每个后继结点，以确定相应结点是否能够移入Ready列表中，即是否其所有操作数都已经就绪。

表调度算法遵循一种简单的规范。在每个时间步上，算法会考虑前一周期完成的所有操作，调度当前周期已经就绪的操作，并对Cycle加1。当模拟时钟表明每个操作都已经完成时，这个过程就会停止。如果通过delay指定的所有延迟时间都是精确的，且 $D$ 的叶结点的所有操作数在第一个周期都是可用的，那么这种模拟运行时间应该与实际执行时间是匹配的。还可以有一个简单的后处理趟，来重排各个操作并插入必要的nap指令。

算法还必须遵守最后一个约束。必须对程序块结束处分支或跳转指令进行调度，以使程序计数器在程序块执行结束之前不发生（突然）变化。因此，如果 $i$ 是程序块末尾的分支指令，它不可能早于周期 $L (S) + 1 - d e l a y (i)$ 调度执行。因而，单周期分支操作必须在程序块的最后一个周期调度执行，而双周期分支指令必须不早于程序块的最后第二个周期调度执行。

该算法生成的调度的质量，主要取决于从Ready队列挑选操作的机制。考虑最简单的场景，其中Ready列表在每次迭代中至多包含一项。在这种受限情形下，算法必定能生成最优调度。第一个周期只可能执行一个操作。( $D$ 中必须至少有一个叶结点，而我们的限制确保了其中刚好有一个叶结点）在后续的每个周期，算法没得选择：或者是Ready包含一个操作，算法调度其执行；或者是Ready为空，算法无法调度任何操作来在该周期发射执行。当在某些周期Ready列表包含多个操作时，会出现困难。

当算法必须在几个就绪操作中进行选择时，所作的选择就变得很关键。算法应该选用具有最高优先级得分的操作。在平分的情况下，应该使用一个或多个其他条件来打破平局（参见3.4节）。如果采用此前建议的度量方式（度量的结果，即为从当前结点到 $D$ 中根结点、按延迟为权重计算长度时最长路径的长度），那么在构造调度时，将总是选择当前周期关键路径上的结点。在调度优先级的影响可预测的范围内，这种方案在寻找最长路径时应该能够提供较为平衡的结果。

3.2 调度具有可变延迟的操作

内存操作通常具有不确定和可变的延迟。在具有多级高速缓存的机器上，load操作实际延迟的变动范围颇大：可能是0个周期，也可能是数百甚至于数千周期。如果调度器假定延迟为最坏情形，那么会冒处理器长时间空闲的风险。如果假定延迟为最佳情形，那么可能因缓存失效而导致处理器执行发生停顿。实际上，编译器根据可用于“覆盖”load操作延迟的指令级并行性的数量，分别为每个load单独计算相应的延迟，这样做可以得到良好的结果。这种方法称为平衡调度（balancedscheduling），它根据包围load操作的代码来调度load操作，而非根据将执行load操作的硬件。这种方法将局部可用的并行性散布到程序块中的各个load处。这种策略通过为每个load操作调度尽可能多的额外延迟，从而减轻了缓存失效的影响。而在没有缓存失效的情况下，它不会使执行减速。

上图12-4给出了对于一个程序块中各个load操作延迟的计算。算法将每个load的延迟都初始化为1。接下来，算法考虑程序块的依赖关系图 $D$ 中的每个操作 $i$ 。算法会发现 $D$ 中与 $i$ 无关的各个计算，称为 $D_i$ 。概念上，该任务是 $D$ 上的一个可达性问题。通过从 $D$ 中删除 $i$ 的每个直接/间接 的前趋/后继 结点，以及与这些结点相关联的边，我们即可计算出 $D_i$ 。

算法接下来将查找 $D_i$ 的连通分量。对于每个分量 $C$ ，算法会查找穿越 $C$ 的任一路径上load操作的最大数目 $N$ 。在 $C$ 中最多有 $N$ 个load操作可共享操作 $i$ 的延迟，因此算法将 $d e l a y (i) / N$ 加到 $C$ 中每个load的延迟上。对于一个给定的load操作 $l$ ，上述做法将各个独立操作 $i$ 的延迟中 $l$ 所占的份额累加起来，其中独立操 $i$ 可用于覆盖 $l$ 延迟。使用该值作为 $d e l a y (l)$ 可以产生一个调度，将各个独立操作富余的延迟平均分配给程序块中的所有load操作。

3.3 扩展算法

表调度算法包含了几个实际上不一定成立的假定。该算法假定每个周期只能发射一个操作，而大多数处理器可以在每个周期发射多个操作。为处理这种情况，我们必须扩展算法中的while循环，使之在每个周期为每个功能单元分别寻找一个可发射的操作。最初的扩展很简明：编译器编写者可以添加一个遍历各个功能单元的循环。

当一些操作可以在多个功能单元执行而且其他操作不可以时，就会出现相应的复杂情况。编译器编写者可能需要选择一种遍历功能单元的顺序，以便先调度限制较多的功能单元，而后调度限制较少的单元。在寄存器集合被分区的处理器上，调度器可能需要将一个操作放置在其操作数驻留的分区中，或者将其调度到分区间传输设施处于空闲状态的周期中。

在程序块边界处，调度器需要考虑下述事实：在前趋块中计算的一些操作数在当前块的第一个周期可能是不可用的。如果编译器在CFG上按逆后序对各个程序块调用表调度器，那么编译器可以确保：调度器能够知道在当前程序块入口处需要等待多少个周期，才能等到操作数沿CFG中的前向边进入当前程序块。（这种解决方案无助于处理循环控制分支指令；对于循环调度的讨论，请参见“五、高级主题”。）

3.4 在调度表算法中打破平局

指令调度的复杂性，使得编译器编写者使用相对廉价的启发式技术即表调度算法的变体，而非试图求出问题的最优解。实际上，表调度能够产生良好的结果，它通常可以建立最优或接近最优的调度。但类似于许多贪婪算法，其行为是不健壮的：输入的很小改变可能导致解的巨大变化。

用于打破平局的方法学对由表调度所产生调度的质量有着巨大影响。当两个或更多项具有同样的优先级时，调度器应该根据另一种优先级排序打破平局。良好的调度器对每个操作可能设置有两三个用于打破平局的优先级，调度器会按照某种一致的次序应用这些优先级。除了早先描述的以延迟为权重计算的路径长度之外，调度器还可以使用下列优先级。

结点的优先级是其在 $D$ 中直接后继结点的数目。这种度量方式促使调度器寻找穿越图的许多不同路径，与宽度优先方法较为接近。它倾向于在Ready队列上保留更多的操作。
结点的优先级是其在 $D$ 中后代结点的总数。这种度量放大了前一种优先级的效应。为许多其他结点计算关键值的结点会尽早调度。
结点的优先级等于其delay。这种度量方式会尽早调度长延迟操作。在程序块中，调度器会优先调度这些操作执行，此时将余下更多的操作可用于“覆盖“其延迟。
结点的优先级等于其操作数中最后一次被使用者的数目。作为打破平局的措施，这种度量会将最后一次使用移动到接近其定义处的位置，这可以减少对寄存器的需求。

遗憾的是，这些优先级方案没有哪一个能够在总体调度质量上占绝对优势。每个方案都在一些例子上表现不错，而在其他例子上表现较差。因而，就使用哪些优先级或以什么顺序应用优先级，并没有什么一致意见。

3.5 前向表调度与后向表调度

从3.2中已经学习到，表调度算法运行在依赖关系图上，从叶结点到根结点进行处理，从程序块中第一个周期到最后一个周期来建立调度。对该算法的另一种表述按相反的方向运行在依赖关系图上，即从根结点到叶结点来进行调度。第一个被调度的操作最后一个发射，而最后一个被调度的操作第一个发射。算法的这个版本称为后向（backward）表调度，原版本称为前向（forward）表调度。

表调度并不是编译中代价高昂的一个部分。因而，一些编译器会用启发式规则的不同组合运行调度器若干次，并保留质量最好的调度，每次运行调度器都可以重用大部分准备工作（重命名、建立依赖关系图和计算一部分优先级）。在这样的方案中，编译器应该考虑同时使用前向调度和后向调度。

实际上，前向调度和后向调度中没有哪一个始终比另一个好。前向和后向表调度之间的差别在于调度器考虑各个操作的顺序。如果调度的质量极度依赖于对某一小组操作的续密排序，那么这两个方向上的调度策略可能会产生显著不同的结果。如果关键操作存在于叶结点附近，那么前向调度似乎更可能将这些操作共同考虑，而后向调度则必须穿越程序块的其余部分才能到达这些操作。对称地，如果关键操作存在于根结点附近，那么后向调度可能会综合考察它们，而前向调度则必须按照在程序块另一端所作决策规定的顺序，在遍历整个程序块后才能看到这些操作。

3.6 提高表调度的效率

为从Ready列表中选择一个操作，按照到目前为止的描述，需要对Ready进行线性扫描。这使得创建和维护Ready的代价接近 $O(n^2)$ 。将列表替换为优先队列可以将操纵Ready的代价降低到 $O(n\log_2n)$ ，而实现的难度仅有稍许增加。

类似的方法可以降低操纵Active列表的代价。在调度器向Active添加一个操作时，它可以为其指定一个优先级，优先级值等于操作完成的周期编号。寻找最小优先级的优先队列会将当前周期完成的所有操作推向最前端，实现的代价相对于简单的列表实现仅有少许增加。

在Active的实现中，进一步的改进也是可能的。调度器可以维护一组独立的列表，每个列表对应于一个周期，包含了将在该周期完成的各个操作。覆盖所有操作延迟所需的列表数目是 $MaxLatency=max_n \isin D delay(n)$ 。当编译器在Cycle周期调度操作n时，它将n添加到Worklist[(Cycle + de1ay(n)) mod Maxlatency]。在需要更新Ready队列时，所有需要考虑的操作（实际上是考虑其后继结点）都在Worklist[Cycle mod Maxlatency]中。这种方案会使用少量额外的空间，而各个Worklist上操作数目的和等于Active列表上操作的数目。各个Worklist在空间上会有少最开销。在向Worklist插入时每次会使用稍多一点时间，来计算应该使用哪个Worklist。作为回报，这避免了搜索Active的 $n^2$ 级代价，而代之以对较小的Worklist的线性遍历。

3.7 乱序执行又如何

一些处理器包含了对乱序（OutOfOrder，OOO）执行指令的硬件支持。我们称此类处理器为动态调度处理器（dynamically scheduled machine）。为支持乱序执行，动态调度处理器需要在指令流中前瞻以寻找能够提前执行的操作（与静态调度处理器相比）。为做到这一点，动态调度处理器需要在运行时建立和维护一部分依赖关系图。它使用这部分依赖关系图来发现每个指令何时可以执行，并在最早的“合法”时机发射每条指令。

何时乱序处理器能够相对于静态调度作出改进？如果运行时环境好于调度器所作的假定，那么乱序硬件发射一个操作的时机可能早于静态调度。这可能发生在程序块边界处（如果操作数变为可用的时间早于最坏情形假定），也可能发生在可变延迟操作的情形。因为乱序处理器知道实际运行时地址，它还可以消除一些load-store依赖关系，这是调度器做不到的。

乱序执行并不会消除指令调度的必要性。因为前瞻窗口（动态发射的保留站）是有限的，拙劣的调度很难通过乱序执行改进。例如，容纳50条指令的前瞻窗口，不可能将100条整数指令后接100条浮点指令变为<整数指令，浮点指令>对的形式交错执行。但它可以将较短的指令序列交错执行，比如说长度为30的情况。乱序执行可以通过改进良好但非最优的调度来帮助编译器。

一种相关的处理器特性是动态寄存器重命名。与ISA允许编译器引用的寄存器相比，这种方案向处理器提供了更多的物理寄存器。处理器可以通过使用额外的物理寄存器（对编译器是隐藏的）来打破发生在其前瞻窗口内部的反相关，以实现通过反相关连接起来的两个引用。

四、区域性调度

与值编号算法类似，从单个基本程序块移动到较大范围也可以改进编译器所生成代码的质量。就指令调度而言，对于大于一个基本程序块、小于整个过程的区域，前人已提议许多不同的调度方法，这些方法几乎都使用表调度算法作为重排指令的引擎。他们利用一种基础设施将基本算法封装起来，使之能够考虑更长（如多个程序块）的代码序列。接下来将学习编译器应用表调度的上下文环境来提高调度质量的3种思想。

4.1 调度扩展基本块

在超局部值编号中已经应用过扩展基本程序块（EBB）的概念。下图给出的一个简单代码片断，其中有一个大EBB：{B₀，B₁，B₃，B₄} 和两个一般的EBB：{B₅} 和 {B₆}。大的EBB有两条路径 1，B₂，B₄> 和1，B₃>，二者以B₁为公共前缀。

为使表调度获得更大的上下文环境，编译器可以将EBB中的路径如 1，B₂，B₄> 作为单个基本程序块处理，只要编译器妥善考虑了共享的路径前缀（如 1，B₂，B₄> 和1，B₃> 的公共前缀B₁）以及过早退出的情况（如 B₁ $\to$ B₃ 和 B₂ $\to$ B₅）。这种方法使编译器能够将其卓有成效的将表调度应用到更长的操作序列中，其效果是增加可以共同调度的代码的比例，这应该会改进执行时间。

为了解共享前缀和过早退出是如何使表调度复杂化的，我们考虑上图例子中的路径 1，B₂，B₄> 中代码移动的可能性。这种代码移动可能需要调度器插入补偿代码（compensation code，插入到程序块B_i中，用以抵消不包含B_i的代码路径上跨程序块的代码移动所带来副效应的代码）以维护正确性。

编译器可以将一个操作向前移动，即移动到路径上稍后的位置。例如，编译器可以将操作c从B₁移动到B₂。虽然这个决策可能会加速沿路径 1，B₂，B₄> 的执行，但它会改变沿路径 1，B₃> 执行的计算。将c向前移出B₁，意味着路径 1，B₃> 不再执行c。除非在从B₃发出的所有路径上c都是死代码，否则调度器必须纠正这种情况。为修正该问题，调度器必须将c的一个副本插入到B₃中。如果在 1，B₂，B₄> 路径上，将c移动到d之后是合法的，那么在 1，B₃> 路径上将c移动到d之后也必定是合法的，因为能够阻止该移动的依赖关系完全包含在B₃中。c的新副本并不会延长沿路径 1，B₃> 的执行，但它确实会增加代码片断的总长度。
编译器可以向后移动一个操作，即移动到路径上靠前的位置。例如，它可以将f从B₂移动到B₁。虽然这一决策可以加速沿路径 B₁，B₂，B₄> 的执行，但其向路径 1，B₃> 插入了一个计算f。这一做法有两个后果：首先，它延长了 1，B₃> 的执行。其次，它可能为 1，B₃> 路径产生不正确的代码。
如果f具有副效应，会改变沿任何从B₃发出的路径上产生的值，那么调度器必须重写代码以便在B₃中抵消副效应。如果f杀死了B₃中使用的某个值，重命名f的结果可以避免这个问题。如果该值在B₄之后仍然是活跃的，则调度器可能需要在B₄之后将其复制回原来的名字。

补偿代码的问题也说明了调度器应该按何种顺序考虑EBB中的各条路径。因为第一个调度的路径几乎不需要补偿代码，调度器应该按可能执行频度的顺序来选择路径，它可以同全局代码置放算法一样，使用剖析数据或估算。

调度器可以采取措施减轻补偿代码的影响。它可以使用变量活跃信息来避免前向移动带来的一部分补偿代码。如果被移动操作的结果在路径外程序块的入口处是不活跃的，那么无需为该程序块添加补偿代码。通过简单地禁止跨越程序块边界的后向移动，即可完全避免后向移动所需的所有补偿代码。虽然这种约束限制了调度器改进代码的能力，但它避免了延长其他路径，而仍然向调度器提供了一些改进代码的时机。

EBB调度的机制很简单。为调度一条EBB路径，调度器在区域上执行重命名（如有必要）。接下来，它对整条路径建立单一的依赖关系图，忽略任何过早退出的情况。它会计算选择就绪操作和打破平局所需的优先级度量。最后，调度器会应用表调度，类似于单个程序块的处理。每次调度器将一个操作指派到调度中一个具体周期的具体指令中时，它会插入任何必要的补偿代码。

4.2 跟踪调度

跟踪调度扩展了路径调度的基本概念，使之超越了EBB中路径的范围。跟踪调度不再专注于EBB，而是试图构造穿越CFG的最大长度无环路径，并将表调度算法应用到这些路径（或踪迹）上。因为跟踪调度与EBB调度有同样的补偿代码问题，所以编译器选择路径时，应该确保先调度“热“路径（即执行最频繁的那些路径），而后再考虑较“冷”的路径。

踪迹：穿越CFG的一条无环的路径，该路径是利用剖析信息选择的。

为建立供调度的踪迹，编译器需要访问CFG中各条边的剖析信息，下图表给出了我们的例子中各条边的执行计数。为建立一条踪迹，调度器可以使用一种简单的贪婪方法。开始建立一条踪迹时，先选择CFG中执行最频繁的边。在我们的例子中，调度器将首先选择边 1，B₂>，建立初始踪迹 1，B₂>。接下来，调度器会考察进入踪迹第一个结点的边或离开踪迹最后一个结点的边，并选择执行计数最高的边。在例子中，调度器会选择 2，B₄>（放弃 2，B₅>），形成踪迹 1，B₂，B₄>。由于B₄只有一个后继结点B₆，调度器将选择 4，B₆> 作为下一条边并产生踪迹 1，B₂，B₄，B₆>。

当算法用尽可能的边（像本例中这样），或遇到循环控制分支指令，构造踪迹的过程将停止。后一个条件防止调度器构造最终导致将操作移出循环的踪迹，其中隐含的假定是，早期优化已经进行了循环不变量代码移动（如缓式代码移动），调度器遇到循环控制分支指令时不应该再考虑插入补偿代码。

给定一条踪迹，调度器可以将表调度算法应用到整个踪迹，正如同EBB调度将该算法应用到穿越EBB的路径那样。任给一个踪迹，可能有插入补偿代码的额外时机。该踪迹可能有中间的入口点，即踪迹中部具有多个前趋结点的程序块。

对操作 $i$ 实施跨越中间入口点的前向代码移动，可能会将 $i$ 添加到踪迹外的代码路径上。如果 $i$ 重定义了一个活动范围跨越中间入口点程序块的值，那么可能需要进行一些必要的重命名或重新计算，也可以禁止前向移动操作跨越中间入口点程序块或者利用复制（cloning）以避免这种情况（参见4.3节）。
对操作 $i$ 实施跨越中间入口点的后向代码移动，可能需要将 $i$ 添加到踪迹外的代码路径上。这种情况比较简单，因为 $i$ 已经存在于踪迹外的代码路径上（虽然在执行时序上较为靠后）。因为调度器必须校正由踪迹上的后向代码移动引入的命名问题，所以踪迹外路径上的补偿代码可以只定义同一个名字。

为调度整个过程，跟踪调度器需要构造一个踪迹并调度它。接下来，调度器将踪迹中的程序块从考虑范围内移除，并选择下一个执行最频繁的跟踪进行调度。在调度这个踪迹时，要求必须遵守此前调度的代码所规定的任何约束。这个处理过程会一直待续下去：选择一个踪迹，调度，将其从考虑范围内移除，直至所有程序块都已经调度完毕为止。EBB调度可以认为是跟踪调度的一种退化情形，这种情况下禁止了踪迹的中间入口点。

4.3 通过复制构建适当的上下文环境

CFG中的汇合点限制了EBB调度或跟踪调度可用的时机，为改进调度结果，编译器可以通过复制程序块，创造出更长且没有汇合点的路径。超级块复制刚好有这种效果。

下图给出了在我们一直使用的例子中实施程序块复制所能产生的CFG。程序块B₅已经被复制，为从B₂和B₃发出的路径分别创建了一个程序块实例；类似地，B₆被复制了两次，为进入该程序块的每条路径分别创建了一个唯一的实例。这些复制的做法消除了CFG中所有的汇合点，整个CFG图形成了一个EBB。

如果编译器判断 1，B₂，B₄，B₆> 是热路径，它将先调度 1，B₂，B₄，B₆>。接下来，它可以调度 5, B‘₆>，并使用已调度过的 1，B₂> 作为前缀；也可以调度 3, B’₅, B‘‘₆>，并使并使用已调度过的 1> 作为前缀。

通过复制构建上下文信息的这种方式与EBB调度比较。后者根据B₁调度B₃，而调度B₅和B₆时无法利用此前的上下文，因为B₅和B₆具有多个前趋结点，从各个前趋结点进入这两个程序块时的上下文环境是不一致的，在这种情况下，EBB调度器不可能比局部调度做得更好。前者的代价是多出语句 $j$ 和 $k$ 的一个副本以及语句 $l$ 的两个副本，但可以简化CFG，比如消除B₄ $\to$ B₆分支语句。

如果一个过程的最后一个操作是自我递归调用，那么该过程是尾递归的。当编译器检测到一个尾调用时，它可以将该调用转换为一个到过程入口点的跳转。从调度器的观点来看，复制可以改进这种情况。

下图给出了一个尾递归例程的抽象CFG图，图中已经优化过尾调用。可以沿两条路径进入程序块B₁：从过程入口发出的路径和从B₂发出的路径。这迫使调度器对B₁的前趋结点使用最坏情况假定。通过复制B₁，编译器可以使控制流只沿一条边进入B’₁，这可以改进区域性调度的结果。为进一步简化该情况，编译器可以将B’₁合并到B₂的末端，从而建立一个只包含单个程序块的循环体，由此产生的循环可以视情况利用局部调度器或循环调度器进行调度。

五、高级主题

5.1 软件流水线策略

专门化的循环调度技术可以产生能改进局部调度、EBB调度和跟踪调度结果的调度，这是因为一个简单的原因：它们可以考虑值围绕整个循环的流动，包含循环控制分支指令在内。循环调度器目的是减少停顿、互锁或nap，如果循环体在默认调度之后不包含停顿、互锁或nap，那么循环调度器也不可能改进其性能。如果循环体足够长，使得循环控制部分的效应只占运行时间的一小部分，那么专门化的循环调度器也不可能带来显著的改进。仅当默认调度器不能为循环生成紧凑而高效的代码时，专门化的循环调度技术才有意义。

循环核：软件流水线化循环的核心部分，核以交错方式执行了循环的大部分迭代。

要使流水线化的循环正确执行，代码必须首先执行一段填补流水线的起始代码。如果核执行来自原来循环3个迭代的操作，那么核的每次迭代会处理原来循环每次活动迭代的大致1/3。为开始执行，起始代码必须执行足够多的工作来准备迭代1的最后1/3、迭代2的第二次1/3和迭代3的第一个1/3。在循环核完成之后，需要执行对应的收尾代码来完成最后一次迭代，即清空流水线。在例子中，需要执行倒数第二次迭代的最后2/3和最后一次迭代的最后1/3。起始代码和收尾代码部分会增加代码长度。虽然具体增加的长度是循环本身以及核并发执行的迭代数目的函数，但起始代码和收尾代码使循环所需的代码数量加倍也并非罕见。

为把这些思想阐述得具体些，可以考虑以下用C语言编写的循环：

for(i = 1; i < 200; i++)
    z[i] = x[i] * y[i];

下图12-7给出了编译器可能为该循环生成的优化之后的代码。代码已经针对具有单个功能单元的机器调度过，其中假定load和store需要花费3个周期，mult花费两个周期，其他指令均花费一个周期。第一列给出了周期计数，这些计数已针对循环中的第一个操作（标号L₁处）进行了规格化。

循环前代码为每个数组初始化了一个指针（ $r_{@x}$ 、 $r_{@y}$ 和 $r_{@z}$ ）。它为 $r_{@x}$ 的范围计算了一个上界，保存在 $r_{ub}$ 中，循环结束处的条件判断就使用了 $r_{ub}$ 。循环体加载x和y，执行乘法，将结果存储到z。在长延迟操作发射之后，调度器用其他操作填充了所有的发射槽。在load的延迟期间，目前的调度会更新 $r_{@x}$ 和 $r_{@y}$ 。在乘法的延迟期间，调度会执行比较操作。它向store之后的发射槽里填充了对 $r_{@z}$ 的更新和分支指令。对于只有一个功能单元的机器来说，这产生了一个紧凑的调度。

如果我们在具有两个功能单元、延迟相同的超标量处理器上运行同一份代码，会发生什么。假定load/store必须在功能单元0上执行，而如果在操作数就绪之前发射操作会导致功能单元停顿，且处理器不能向停顿的单元发射操作。下图12-8给出了循环的第一次迭代的执行轨迹。周期3的mult会停顿，因为 $r_{x}$ 和 $r_{y}$ 均未就绪。它在周期4停顿以等待 $r_{y}$ ，在周期5再次开始执行，在周期6末尾生成 $r_{z}$ 。这迫使storeA0一直停顿到周期7的开始处。假定硬件可以判断 $r_{@z}$ 包含的地址与 $r_{@x}$ 和 $r_{@y}$ 不同，那么处理器可以在周期7发射第二次迭代中的第一个loadA0操作。反之，处理器将一直停顿，直至store操作完成。

使用两个功能单元可以改进执行时间。它将循环前的执行时间缩短一半，到2个周期。它将两次连续迭代之前的时间缩短了1/3，到6个周期。关键路径执行的速度基本上达到了我们的预期，乘法在 $r_{y}$ 就绪之前发射，会被处理器尽快执行。而一旦 $r_{z}$ 就绪，就会执行store。一些发射槽被浪费了（周期6中的单元0，周期1和4中的单元1）。

重排线性代码可以改变执行调度。例如，将对 $r_{@x}$ 的更新移动到 $r_{@y}$ 的load操作之前，使得处理器能够在同一周期发射对 $r_{@x}$ 和 $r_{@y}$ 的更新和以这些寄存器为偏移量的load操作。这使得一部分操作能够在调度中较早发射，但并没有做什么来加速关键路径。最终结果是相同的，都是一个花费6个周期的循环。使代码流水线化可以减少每个迭代所需的时间，如图12-9所示。在本例中，流水线化可以将每个迭代所需的周期数从6个降低到5个，5.2将阐述能够生成该调度的算法。

5.2 用于实现软件流水线的算法

为产生软件流水线化的循环，调度器需要遵循一个简单的计划。首先，它需要估算核中耗费的周期数，称为启动间隔（initiation interval）。其次，它会试图调度核，如果处理过程失败，它会将核的大小加1并重试。（这个过程必定会停止，因为在核的长度超过非流水线化循环的长度之前，调度就能够成功）最后，调度器生成与调度过的核相匹配的起始代码和收尾代码。

又要烂尾了！这个算法内容不多，就上面说的三个流程。但是我读了好几遍都理解不透彻，等以后彻底理解了再补上。

你可能感兴趣的:(编译原理及技术,编译器,指令调度)

CTFShow-WEB入门篇命令执行详细Wp(29-40)_ctfshow-web入门篇详细wp 2401_84281698 程序员网络安全学习面试
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很
软考高级《系统架构设计师》知识点（四） Ritchie里其系统架构
嵌入式技术第二版新增内容嵌入式系统：以应用为中心、以计算机技术为基础，并将可配置与可裁减的软、硬件、集成于一体的专用计算机系统，需要满足应用对功能、可靠性、成本、体积和功耗等方面的严格要求。一般嵌入式系统由嵌入式处理器、相关支撑硬件、嵌入式操作系统、支撑软件以及应用软件组成。嵌入式处理器：由于嵌入式系统一般是在恶劣的环境条件下工作，与一般处理器相比，嵌入式处理器应可抵抗恶劣环境的影响，比如高温、寒
自己部署 DeepSeek 助力 Vue 开发：打造丝滑的时间线（Timeline ）宝码香车 #DeepSeek vue.js 前端 javascript DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录自己部署DeepSeek助力Vue开发：打造丝滑的时间线（Timeline）前言进入安装好的DeepSeek页面效果指令输入think代码解释使用示例组件代码代码测试整理后主要代码定义组件Timeline.vue页面效果自己部署DeepSee
云创智城充电系统：基于 SpringCloud 的高可用、可扩展架构详解-多租户、多协议兼容、分账与互联互通功能实现云创智城-yuncitys 智能充电桩电动车充电系统虚拟充电桩系统架构智慧城市汽车
在新能源汽车越来越普及的今天，充电基础设施的管理和运营变得越来越重要。云创智城充电系统，就像一个超级智能管家，为新能源充电带来了全新的解决方案，让充电这件事变得更方便、更高效、更安全。一、厉害的技术架构，让系统稳稳当当云创智城充电系统用了很厉害的技术，搭建出一个又稳又能不断变大变强的架构。它就像一个大商场，每个区域都有自己的功能，还能随时根据需求扩建。这个系统用SpringCloud和Spring
无线瘦AP部署——Capwap隧道原理及故障：Capwap隧道常见问题-11.X版本你可知这世上再难遇我锐捷网络网络 capwap 隧道 wlan
目录1、capwap隧道建立不成功2、AP和AC的隧道无法建立--AC查看拒绝原因3、AC无法下发配置给AP4、AP和AC跨公网上线，同一个网点的AP，部分可以上线成功，部分无法上线成功。【故障现象】5、AC、AP版本相同，但却无法在AC上正常上线，卡在join状态6、AP掉线后在ac上还是长时间显示在线7、大部分AP无法上线成功，且已经上线的AP经常出现掉线情况，隧道状态反复8、AP故障无法建立
2025年AI免费大战：从DeepSeek到GPT-5的商业逻辑与行业变革听吉米讲故事人工智能 gpt deepseek 开源
引言：人工智能行业的2025年重大转折2025年伊始，人工智能行业的竞争格局发生了深刻变化，尤其是以DeepSeek为代表的新兴力量，通过低成本开源策略迅速崛起，迫使OpenAI、百度文心一言等人工智能巨头纷纷调整策略，甚至开放免费服务。这场"AI免费大战"不仅重新定义了人工智能行业的商业逻辑，也对企业的技术研发和商业化提出了全新的挑战。本文将从DeepSeek的低成本策略入手，剖析AI免费模式背
STM32：迎接汽车与AI时代MCU新挑战 EEPW电子产品世界单片机 stm32 汽车
作为通用32位MCU市场最受关注的产品系列，意法半导体（ST）的STM32MCU从2007年问世之后就迎来爆发式增长，成功占据通用32位MCU市占率领头羊的位置，并且不断引领着通用MCU技术与应用的新思维开拓。本文引用地址：https://www.eepw.com.cn/article/202501/466521.htm新能源汽车带动汽车电子架构级革命和AI引领的边缘智能应用浪潮成为2024年最受
Go协程goroutine和管道channel 始梦的少年 go go
1、进程：程序在操作系统的一次执行过程，是系统资源分配和调度的基本单位。2、线程：轻量化进程，是系统调度的基本单位。在同一个进程的线程切换不会导致进程切换，不同进程里的切换会导致进程切换。3、协程goroutine：轻量化线程，一个进程可以轻松开启上万个协程。在用户态，有独立的栈空间共享程序堆空间由用户调度简单易懂的代码1：packagemainimport("fmt""strconv""time
海鸥表表带太长了怎么拆_海鸥手表表带海鸥手表怎么换表带 weixin_39878549 海鸥表表带太长了怎么拆
海鸥手表相信每一个熟悉钟表的朋友，都不会对这个品牌陌生。作为国产最早的钟表品牌之一，海鸥表历经多年的发展，如今掌握多项高级制表技术，被誉为国产手表中的第一品牌!目前佩戴海鸥手表的朋友有很多，大家经常会问海鸥手表怎么换表带?其实这并不是一个困难的问题，下面腕表之家就为大家介绍。海鸥手表怎么换金属表带1.把环状的表带从表扣处暂时拆开，让表带可以平摊在桌面上。以利于下一步的动作。最好下边垫一块绒布，可以
教育定制开发中，如何通过代码实现多终端适配？万岳科技系统开发外卖系统外卖系统开发小程序 android 开源
随着移动设备、平板电脑和PC的普及，教育平台的用户往往使用多种终端访问系统。为了提供一致的用户体验，教育定制开发必须考虑多终端适配问题。本文将探讨在教育系统开发中，如何通过代码实现多终端适配，并提供一些核心技术和代码示例。一、多终端适配的关键技术响应式设计（ResponsiveDesign）使用CSS媒体查询，根据屏幕大小动态调整页面布局。前端框架支持借助前端框架如Bootstrap、Tailwi
开发知识付费小程序的秘诀：从设计到上线一步到位万岳科技系统开发知识付费知识付费系统源码知识付费小程序小程序人工智能大数据
在移动互联网时代，知识付费小程序成为内容创作者和教育者的热门选择。它不仅降低了用户的使用门槛，还具备高效传播的优势。本文将带你一步步了解如何开发一个功能齐全的知识付费小程序，从设计规划到技术实现，最后顺利上线。一、设计阶段：规划功能模块在开发知识付费小程序之前，首先需要明确小程序的功能模块，以确保开发过程顺利进行。一个典型的知识付费小程序应具备以下功能模块：内容展示模块：用于展示课程、视频、音频等
Go 语言的协程（goroutine） yymagicer go golang 算法
Go语言的协程（goroutine）是轻量级的并发机制，可以理解为Go中的线程，但它比线程更轻量，且由Go语言的运行时调度器管理。下面详细说明Go协程的原理、使用方法以及应用场景。1.协程原理Go协程（goroutine）在运行时由Go调度器管理，其运行时模型不同于传统的操作系统线程。Go的调度器采用M模型，即多个goroutine由少量的线程管理和调度。它依赖于两个关键组件：M（Machine）
CP AUTOSAR标准之FlexRayStateManager(AUTOSAR_CP_SWS_FlexRayStateManager)（更新中……）瑟寒凌风经典autosar(CP)平台汽车车载系统
1简介和功能概述该规范描述了AUTOSAR基础软件模块FlexRay状态管理器(FrSM)的功能、API和配置。 AUTOSARBSW堆栈为每条通信总线指定一个总线特定状态管理器。该模块应实现相应总线的控制流。FrSM是通信服务层的成员。它与通信硬件抽象层和系统服务层交互。3相关文献3.1输入文件及相关标准、规范 [1]词汇表AUTOSAR_FO_TR_Glossary [2]基础软件模
Topaz Video AI中文v6.0.4 免费版 sdddsada eclipse
链接：https://pan.quark.cn/s/d625eff6e20d软件特点更少的运动伪影其他视频放大技术通常会通过相邻帧中的不同处理产生“闪烁”或“闪烁”效果。TVAI显着减少了这些伪影。恢复视频细节从多个相邻帧中的附加信息中提取真实细节到您的视频中。获得更自然的结果传统的放大通常会导致伪影。我们通过从多个帧中获取新信息来缓解这些问题。受过视频训练专门针对视频剪辑而不是静止图像进行训练。
DeepSeek 大模型离线 Docker 部署技术指南容器的搬运工 docker eureka 容器
一、部署架构概述DeepSeek离线部署采用容器化微服务架构，核心组件包括：模型服务层：基于TritonInferenceServer的模型推理容器API网关层：FastAPI实现的REST/gRPC接口服务资源管理层：CUDA-awareDocker运行时+NVIDIAGPU资源调度持久化存储：模型参数与配置文件的Volume挂载方案二、系统环境要求2.1硬件规格组件最低要求推荐配置CPUX86
SoftEther 内网穿透配置及使用* 十八点四零运维阿里云网络
一、程序简介SoftEtherV*N是个由筑波大学DaiyuuNobori研究生因硕士论文开发的开源、跨平台、多重协议的虚拟专用网方案。他让一些虚拟专用网协议像是SSLV*N、L2TP、IPsec、OpenV*N以及微软SSTP都由同一个单一V*N服务器提供。在2014年一月四日以GNU通用公共授权条款方式发布。SothEtherV*N是专门被设计为穿过防火墙的。它支持NAT穿透，使他能越过政府或
普通用户使用docker时得权限问题古冉 docker linux 运维
安装完docker，运行指令时，出现了以下错误提示：意思是试图连接unix:///var/run/docker.sock:，但权限不够。如下图所示：原因分析：这是因为你当前的用户没有这个权限。默认情况下，docker命令会使用Unixsocket与Docker引擎通讯。而只有root用户和docker组的用户才可以访问Docker引擎的Unixsocket。出于安全考虑，一般Linux系统上不会直
服务器虚拟化(详解) 敖光 SRE devops 服务器运维
服务器虚拟化是一种技术，通过将物理服务器的硬件资源（如CPU、内存、存储、网络等）抽象化并分割成多个虚拟机（VM），每个虚拟机可以独立运行不同的操作系统和应用程序。虚拟化使得资源使用更加高效，提供了更高的灵活性、可扩展性和隔离性。它已成为现代数据中心和云计算的核心技术之一。1.虚拟化的基本概念1.1虚拟化类型硬件虚拟化（FullVirtualization）：通过虚拟机监控程序（Hyperviso
C++编程，#include ＜iostream＞详解,以及using namespace std；作用 huiyuanzhenduo c++开发语言
在C++编程中，#include是用来包含输入/输出流头文件的预处理指令。它允许程序使用标准的输入/输出对象如std::cout和std::cin，以便与标准输入和输出流进行交互。这一头文件是编写输入输出操作时必不可少的部分。讲到这里，有的同学可能会问我在程序中输入没有输入过那个std和两个冒号呀。那么我就要讲一下usingnamespacestd;的作用了当你在代码中添加了usingnamesp
探索顶级汽车软件解决方案：驱动行业变革的关键力量老猿讲编程汽车
在本文中，将一同探索当今塑造汽车行业的最具影响力的软件解决方案。从设计到制造，软件正彻底改变车辆的制造与维护方式。让我们深入了解这个充满活力领域中的关键技术。设计软件：创新车型的孕育摇篮车辆设计软件对于创造创新型汽车模型至关重要。借助这些工具，设计师能够在生产前对概念进行可视化呈现与测试。先进的模拟功能有助于优化汽车的空气动力学性能与安全性。像欧特克（Autodesk）和思柯特（Seens）等公司
你的网络屏障在哪里？端口安全技术详解 Yori_22 安全网络 php
在数字化时代，网络已成为信息传输和交互的重要通道。然而，随着网络应用的广泛普及，网络安全问题也日益凸显。其中，端口安全作为网络防御的重要一环，其重要性不容忽视。本文将深入探讨端口安全技术，帮助你了解如何构建坚不可摧的网络屏障。一、端口安全概述端口是网络通信的入口和出口，它负责数据传输的转发和控制。在计算机网络中，每个应用程序或服务都会绑定到一个或多个端口上，以便进行网络通信。然而，端口的开放也带来
【Docker】Docker中卷的类型、区别及应用阿猿收手吧！ #Docker docker eureka 开发语言容器
文章目录引言1.Docker卷的基本概念2.Docker卷的类型2.1匿名卷（AnonymousVolume）2.2命名卷（NamedVolume）2.3绑定挂载（BindMount）2.4临时文件系统（tmpfsMount）3.Docker卷的区别3.1生命周期3.2数据存储位置3.3性能4.Docker卷的应用场景4.1数据持久化4.2数据共享4.3开发环境4.4临时数据存储5.总结引言在现代
汽车ADAS 九阶码圣汽车主业汽车
ADAS（高级驾驶辅助系统）是一系列旨在提升驾驶安全性和舒适性的技术，通过传感器和摄像头等设备实时监测车辆周围环境，提供预警和辅助功能。主要功能包括：自适应巡航控制（ACC）：自动调整车速以保持与前车的安全距离。车道保持辅助系统（LKAS）：帮助车辆保持在车道内，防止偏离。自动紧急制动（AEB）：在可能发生碰撞时自动刹车。盲点监测（BSD）：提醒驾驶员盲区内的车辆。交通标志识别（TSR）：识别并显
HTML语言的区块链沈韡蕙包罗万象 golang 开发语言后端
区块链技术的崛起与发展区块链是一种新兴的技术，它以其独特的去中心化、透明性和不可篡改性，正在全球范围内改变许多行业的游戏规则。在这篇文章中，我们将深入探讨区块链的基本概念、技术原理、应用场景以及未来的发展趋势。一、区块链的基本概念区块链，顾名思义，是一个由区块（Block）和链（Chain）组成的数据结构。每个区块中包含了一组交易记录，而这些区块通过加密算法和时间戳相互连接，形成一条连续的链条。这
深入解析C++命名空间：从基础到高级应用 Rhzkp c++
目录一、命名空间的必要性（WhyNamespaces?）二、命名空间的核心语法（CoreSyntax）2.1基础定义2.2嵌套命名空间2.3全局命名空间三、命名空间的使用策略（UsageStrategies）3.1限定名称访问3.2using声明vsusing指令3.3命名空间别名3.4匿名命名空间四、工程实践中的应用（PracticalApplications）4.1模块化代码组织4.2第三方库
AI驱动的知识发现：程序员的新机遇 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI驱动的知识发现：程序员的新机遇关键词：知识发现,AI驱动,数据挖掘,数据分析,算法优化,数据可视化,机器学习1.背景介绍1.1问题由来在当今信息化时代，数据量呈爆炸性增长，各行各业都面临着海量数据挖掘和知识发现的巨大挑战。传统的统计分析方法已难以满足需求，而人工智能（AI）技术的兴起为这一问题提供了新的解决方案。AI驱动的知识发现，即利用机器学习、深度学习等技术手段，从海量数据中自动提取有用信
教育小程序+AI出题：如何通过自然语言处理技术提升题目质量万岳科技系统开发人工智能小程序自然语言处理
随着教育科技的飞速发展，教育小程序已经成为学生与教师之间互动的重要平台之一。与此同时，人工智能（AI）和自然语言处理（NLP）技术的应用正在不断推动教育内容的智能化。特别是在AI出题系统中，如何通过NLP技术提升题目质量，成为教育领域中的一个重要课题。本文将介绍如何利用自然语言处理技术，通过AI出题系统自动生成高质量、个性化的题目，提升教育小程序的交互性与教学效果。一、自然语言处理（NLP）概述自
【Python】解决PyTorch报错：PytorchStreamReader failed reading zip archive: failed finding central的解决方案 I'mAlex python pytorch 开发语言
在使用PyTorch时，遇到“PytorchStreamReaderfailedreadingziparchive:failedfindingcentral”错误通常是由于损坏的模型文件或不兼容的文件版本导致的。这种问题在加载模型或数据时比较常见。以下是一些排查和解决该问题的步骤。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘
万字长文破解 AI 图片生成算法-Stable diffusion (第一篇）悟空 AI 人工智能深度学习
想象一下：你闭上眼睛，脑海中构思一个场景，用简短的语言描述出来，然后“啪”的一声，一张栩栩如生的图片就出现在你眼前。这不再是科幻小说里才有的情节，而是StableDiffusion——一种前沿的AI图片生成算法——所带来的现实。在本系列的万字长文中，我们将深入探索StableDiffusion的神秘面纱，揭秘它是如何将文字描述转化为令人惊叹的视觉艺术。无论你是AI技术的爱好者、数字艺术的探索者，还
kafka的kafka-console-consumer.sh和kafka-console-producer.sh如何使用 WilsonShiiii kafka 分布式
一、两款工具对比功能用途kafka-console-consumer.sh是简单的命令行消费者工具，主要用于在控制台显示从Kafka主题消费的消息，适用于测试生产者是否正常发送消息、查看消息格式等调试场景。kafka-consumer-perf-test.sh则专为测试Kafka消费者性能设计，能在指定条件下（如消息数量、线程数等）测试消费者吞吐量等性能指标，帮助进行性能评估、优化及容量规划。参数
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在