落樱弥城

《Memory Barriers a Hardware View for Software Hackers》阅读笔记

CPU 设计者引入内存屏障（memory barriers）是为了应对在多处理器系统（SMP）中，内存引用重排序可能导致的同步问题。尽管重排序可以提高性能，但在某些情况下（如同步原语），正确的操作依赖于有序的内存引用，因此需要使用内存屏障来强制执行顺序。

要深入理解这个问题，需要了解 CPU 缓存的工作原理，尤其是如何使缓存有效工作。以下是相关内容的概述：

缓存结构：介绍缓存的基本结构和工作机制。
缓存一致性协议：描述如何通过缓存一致性协议确保各个 CPU 对内存中每个位置的值达成一致。
存储缓冲区与失效队列：概述存储缓冲区和失效队列如何帮助缓存和缓存一致性协议实现高性能。

1 缓存结构

现代 CPU 的速度远远超过现代内存系统的速度。例如，一款 2006 年的 CPU 可能每纳秒能够执行十条指令，而从主内存中获取数据则需要数十纳秒。这种速度差异导致了现代 CPU 中存在多兆字节的缓存，这些缓存与 CPU 关联，通常在几个周期内可以访问。

缓存的基本概念

缓存行：数据在 CPU 的缓存和内存之间以固定长度的块（称为“缓存行”）流动，通常大小为 16 到 256 字节。
缓存未命中：当 CPU 首次访问某个数据项时，如果该数据不在缓存中，则会发生缓存未命中（cache miss），CPU 需要等待数百个周期才能从内存中获取数据。获取后，该数据会被加载到 CPU 的缓存中，以便后续访问。

缓存的填充与替换

容量未命中：当缓存填满后，新的未命中请求会导致旧数据从缓存中驱逐，以释放空间。
关联未命中：由于缓存实现为硬件哈希表，缓存行的替换可能导致现有的行被驱逐，这种情况称为关联未命中（associativity miss）。

写操作的处理
在进行写操作之前，CPU 必须先使其他 CPU 的缓存中的数据失效，以确保所有 CPU 对数据项的值达成一致。这一过程称为“失效”。如果数据项在 CPU 的缓存中是只读的，写入时会发生“写未命中”（write miss）。因为不同 CPU 使用数据项进行通信（如互斥锁），当其他 CPU 尝试访问被写入的数据项时，可能会出现缓存未命中，这种情况称为“通信未命中”（communication miss）。

由于 CPU 之间的数据一致性至关重要，必须小心管理缓存中的数据，以避免数据丢失或不同 CPU 之间的值冲突。这些问题通过缓存一致性协议来防止，确保所有 CPU 维护一致的数据视图。

2 缓存一致性协议

缓存一致性协议用于管理缓存行的状态，以防止数据不一致或丢失。这些协议可能相当复杂，但在这里我们只关注四状态的 MESI 缓存一致性协议。

2.1 MESI 状态

MESI 代表“修改”（Modified）、“独占”（Exclusive）、“共享”（Shared）和“无效”（Invalid），每个缓存行在该协议中可以处于这四个状态。使用 MESI 协议的缓存会在每个缓存行上维护一个两位的状态标签，以及该行的物理地址和数据。

修改状态（Modified）：该行已被对应 CPU 最近存储修改，且该数据在其他任何 CPU 的缓存中都不存在。这意味着该缓存行是这个 CPU 所“拥有”的，只有它拥有最新的数据副本。此时，缓存必须在重用该行存储其他数据之前，将数据写回内存或交给其他缓存。
独占状态（Exclusive）：该状态与修改状态相似，唯一的区别是缓存行尚未被对应 CPU 修改，因此内存中的数据副本是最新的。尽管如此，CPU 仍然可以在不咨询其他 CPU 的情况下对该行进行存储，因此该行依然被视为对应 CPU 所拥有。此时，缓存可以在不写回内存的情况下丢弃该数据。
共享状态（Shared）：该行可能在至少一个其他 CPU 的缓存中被复制，因此该 CPU 不能在未咨询其他 CPU 的情况下对该行进行存储。与独占状态一样，内存中的数据副本是最新的，缓存可以丢弃该数据，而无需写回内存或交给其他 CPU。
无效状态（Invalid）：该行为空，不持有任何数据。当新数据进入缓存时，优先放入状态为“无效”的缓存行。这种做法是首选，因为替换其他状态的行可能导致在未来引用被替换行时出现昂贵的缓存未命中。
由于所有 CPU 必须保持对缓存行中数据的统一视图，因此缓存一致性协议提供了消息机制，以协调缓存行在系统中的移动。

2.2 MESI 协议消息

MESI 协议的许多状态转换需要 CPU 之间的通信。如果 CPU 位于单一共享总线上，以下消息就足够了：

读取（Read）：包含要读取的缓存行的物理地址。
读取响应（Read Response）：包含之前“读取”消息请求的数据，可能由内存或其他缓存提供。如果某个缓存中的数据处于“修改”状态，该缓存必须提供“读取响应”消息。
失效（Invalidate）：包含要失效的缓存行的物理地址。所有其他缓存必须从其缓存中移除相应的数据并作出响应。
失效确认（Invalidate Acknowledge）：接收到“失效”消息的 CPU 必须在从缓存中移除指定数据后，发送“失效确认”消息。
读取失效（Read Invalidate）：包含要读取的缓存行的物理地址，同时指示其他缓存移除该数据。这是“读取”和“失效”的组合消息，要求同时返回“读取响应”和一组“失效确认”消息。
写回（Writeback）：包含要写回内存的地址和数据（并可能“窥探”其他 CPU 的缓存）。该消息允许缓存根据需要驱逐“修改”状态的行，以腾出空间存放其他数据。

共享内存的多处理器系统在底层实际上是一个消息传递计算机。这意味着使用分布式共享内存的 SMP 机器集群在系统架构的两个不同层次上都使用消息传递来实现共享内存。

如果两个 CPU 同时尝试使同一缓存行失效，会发生什么？
结论：可能会导致数据不一致性，具体处理依赖于缓存一致性协议。

当“失效”消息在大型多处理器中出现时，每个 CPU 都必须给予“失效确认”响应。这不会导致“失效确认”响应的风暴完全饱和系统总线吗？
结论：是的，这种情况可能会导致总线拥塞，因此在设计中需要优化以减少这种情况的发生。
如果 SMP 机器已经在使用消息传递，为什么还要使用 SMP？
结论：SMP 提供了更简单的编程模型和更高效的共享内存访问，相比于纯消息传递的系统，SMP 能够更好地利用缓存和处理器之间的直接数据共享。

2.3 MESI 状态图

MESI 协议中，缓存行的状态会随着协议消息的发送和接收而变化。下面是每个状态转移的简要说明：

转移 (a)：缓存行被写回内存，但 CPU 保留该行在缓存中的副本，并且仍然可以修改。此转移需要一个“写回”消息。
转移 (b)：CPU 对已独占访问的缓存行进行写操作。这一转移不需要发送或接收任何消息。
转移 ©：CPU 收到针对已修改缓存行的“读取失效”消息。CPU 必须使其本地副本失效，并同时发送“读取响应”和“失效确认”消息。
转移 (d)：CPU 对不在其缓存中的数据项执行原子读取-修改-写操作。它发送“读取失效”消息，并通过“读取响应”接收数据，必须在收到所有“失效确认”响应后才能完成转移。
转移 (e)：CPU 对之前在缓存中为只读的数据项执行原子读取-修改-写操作，必须发送“失效”消息，并等待所有“失效确认”响应。
转移 (f)：其他 CPU 读取该缓存行，数据由该 CPU 的缓存提供，CPU 发送“读取响应”消息。
转移 (g)：其他 CPU 读取缓存行的数据项，数据可能来自该 CPU 的缓存或内存，该 CPU 保留只读副本，并发送“读取响应”消息。
转移 (h)：CPU 意识到将需要写入缓存行中的数据，因此发送“失效”消息，直到收到所有“失效确认”响应后才能完成转移。
转移 (i)：其他 CPU 对仅在该 CPU 的缓存中持有的数据项执行原子读取-修改-写操作，CPU 接收到“读取失效”消息后，将其从缓存中失效，并发送“读取响应”和“失效确认”消息。
转移 (j)：CPU 对不在其缓存中的数据项执行存储操作，发送“读取失效”消息，直到收到“读取响应”和所有“失效确认”消息后才能完成转移。
转移 (k)：CPU 加载不在其缓存中的数据项，发送“读取”消息，等待相应的“读取响应”后完成转移。
转移 (l)：其他 CPU 对此缓存行中的数据项进行存储操作，但由于其他 CPU 持有该行，当前 CPU 只能保持只读状态。接收到“失效”消息后，CPU 发送“失效确认”消息。

硬件如何处理上述延迟的状态转移？
结论：硬件通过使用缓冲机制（如存储缓冲区和失效队列）来处理延迟的状态转移。它允许 CPU 在等待回复消息时继续执行其他操作，从而提高性能。此外，硬件还可以在状态转移过程中保持状态的一致性，确保所有相关的缓存行在完成操作时处于正确的状态。

2.4 MESI 协议示例

在一个四 CPU 系统中，我们将从一个缓存行的数据的角度，观察其如何通过各个单行直接映射的缓存。以下是该数据流的描述：

初始状态：所有 CPU 的缓存行处于“无效”（Invalid）状态，内存中的数据有效。
操作序列：
- 1: CPU 0 加载地址 0 的数据，状态变为“共享”（Shared），内存中的数据仍有效。
- 2: CPU 3 也加载地址 0 的数据，状态在 CPU 0 和 CPU 3 的缓存中均为“共享”，内存中的数据仍有效。
- 3: CPU 0 加载地址 8 的数据，迫使地址 0 的数据通过写回（Writeback）被驱逐。
- 4: CPU 2 从地址 0 加载数据，发送“读取失效”消息以获得独占副本，失效 CPU 3 的缓存中的数据（内存中的副本仍有效）。
- 5: CPU 2 进行存储操作，状态变为“修改”（Modified），此时内存中的副本失效。
- 6: CPU 1 进行原子增量操作，使用“读取失效”从 CPU 2 的缓存中获取数据并使其失效，CPU 1 的缓存状态变为“修改”，内存中的副本仍失效。
- 7: CPU 1 读取地址 8 的缓存行，使用“写回”消息将地址 0 的数据写回内存。

3 存储操作导致不必要的停滞

3.1 Store Buffers

尽管所示的缓存结构在多个重复读取和写入操作中表现良好，但对于某个缓存行的首次写入，性能却相对较差。以下是相关内容的概述：

写操作的性能问题
在 CPU 0 对存储在 CPU 1 缓存中的缓存行进行写操作时，CPU 0 必须等待该缓存行到达后才能进行写入。这导致 CPU 0 出现较长时间的停滞。尽管 CPU 0 实际上会无条件覆盖 CPU 1 缓存中的任何数据，但仍然需要等待，这种设计显得不够高效。
存储缓冲区的引入
为了防止不必要的写入停滞，可以在每个 CPU 和其缓存之间添加“存储缓冲区”。添加存储缓冲区后，CPU 0 可以将写入记录在其存储缓冲区中，并继续执行其他操作，而无需等待缓存行的到达。

操作流程：CPU 0 将写入操作记录在存储缓冲区中。一旦 CPU 1 的缓存行传输到 CPU 0，数据将从存储缓冲区移动到缓存行。
需要解决的复杂问题:尽管存储缓冲区能够提高写入性能，但引入它们会带来一些复杂性。存储缓冲区的有效管理和同步机制是确保数据一致性和避免潜在错误的关键。

3.2 存储转发

存储转发是一种解决自一致性违例的机制。考虑以下代码，其中变量“a”和“b”最初均为零，且包含变量“a”的缓存行最初由 CPU 1 拥有，而包含“b”的缓存行则由 CPU 0 拥有：

1 a = 1;
2 b = a + 1;
3 assert(b == 2);

在正常情况下，断言不会失败。然而，如果使用简单架构（如图 5 所示），则可能会出现意外的结果。以下是可能的事件序列：

CPU 0 开始执行 a = 1。
CPU 0 查找“a”在缓存中，发现缺失。
CPU 0 发送“读取失效”消息以获取包含“a”的缓存行的独占权。
CPU 0 在其存储缓冲区中记录对“a”的写入。
CPU 1 接收到“读取失效”消息，响应并传输缓存行，同时从其缓存中移除该缓存行。
CPU 0 开始执行 b = a + 1。
CPU 0 收到来自 CPU 1 的缓存行，此时“a”的值仍为零。
CPU 0 从缓存中加载“a”，发现其值为零。
CPU 0 将其存储队列中的条目应用于新到达的缓存行，将缓存中“a”的值设置为一。
CPU 0 将零的值加一，并存储到包含“b”的缓存行中（假设该缓存行已由 CPU 0 拥有）。
CPU 0 执行 assert(b == 2)，该断言失败。
问题分析
问题在于存在两个“a”的副本，一个在缓存中，另一个在存储缓冲区中。这种情况违背了一个重要的保证，即每个 CPU 总是会看到自己的操作仿佛按照程序顺序发生。这种保证对软件开发者来说极具反直觉，因此硬件设计者引入了“存储转发”机制。
存储转发机制:存储转发允许每个 CPU 在执行加载时同时参考其存储缓冲区和缓存。具体来说：每个 CPU 的存储直接转发到其后续的加载操作，而无需通过缓存。通过引入存储转发，事件序列中的第 8 步会找到存储缓冲区中“a”的正确值 1，从而确保最终的“b”的值为 2，如预期的那样。这种机制有效解决了自一致性问题，确保了 CPU 在操作顺序上的一致性。

3.3 存储缓冲区与内存屏障

在多处理器系统中，存储缓冲区和内存屏障的引入是为了处理全局内存排序的违例。让我们考虑以下代码序列，其中变量“a”和“b”最初均为零：

void foo(void) {
    a = 1;
    b = 1;
}

void bar(void) {
    while (b == 0) continue;
    assert(a == 1);
}

假设 CPU 0 执行 foo()，而 CPU 1 执行 bar()，并且缓存行“a”只存在于 CPU 1 的缓存中，而“b”的缓存行由 CPU 0 拥有。可能的操作序列如下：

CPU 0 执行 a = 1。由于 CPU 0 的缓存中没有该缓存行，它将新值放入存储缓冲区并发送“读取失效”消息。
CPU 1 执行 while(b == 0) continue，但它的缓存中没有包含“b”的缓存行，因此发送“读取”消息。
CPU 0 执行 b = 1，并将新值存储在缓存行中。
CPU 0 接收到“读取”消息，并将包含更新后“b”值的缓存行传输给 CPU 1。
CPU 1 接收到缓存行并将其安装到自己的缓存中。
CPU 1 继续执行 while(b == 0) continue，发现“b”的值为 1，继续到下一行。
CPU 1 执行 assert(a == 1)，但由于其使用的是“a”的旧值，这个断言失败。
CPU 1 收到“读取失效”消息，并将包含“a”的缓存行传输给 CPU 0，同时使其自己缓存中的缓存行失效。
CPU 0 接收到包含“a”的缓存行并应用缓冲的存储，导致失败的断言。

在这个例子中，CPU 1 看到的是旧的“a”的值，这违反了全局内存排序的原则。硬件设计者无法直接解决这个问题，因为 CPU 并不知道变量之间的相关性。因此，硬件设计者提供了内存屏障指令，以允许软件告知 CPU 这些关系。

引入内存屏障
通过在 foo() 中引入内存屏障 smp_mb()，可以确保 CPU 在执行后续存储之前清空存储缓冲区。更新后的代码如下：

void foo(void) {
    a = 1;
    smp_mb();
    b = 1;
}

void bar(void) {
    while (b == 0) continue;
    assert(a == 1);
}

内存屏障的作用是：

CPU 会在执行后续存储之前清空其存储缓冲区。
CPU 可以暂停，直到存储缓冲区为空，或者使用存储缓冲区来保持后续存储，直到所有先前的条目都已应用。

更新后的操作序列，引入内存屏障后的操作序列如下：

CPU 0 执行 a = 1，缓存行不在 CPU 0 的缓存中，因此将新值放入存储缓冲区并发送“读取失效”消息。
CPU 1 执行 while(b == 0) continue，发送“读取”消息。
CPU 0 执行 smp_mb()，标记所有当前存储缓冲区条目（即 a = 1）。
CPU 0 执行 b = 1，由于存在标记条目，新的“b”的值被放入未标记的存储缓冲区中。
CPU 0 接收“读取”消息，传输原始“b”值的缓存行给 CPU 1。
CPU 1 安装缓存行并继续执行 while(b == 0) continue。此时“b”仍为 0，因此继续循环。
CPU 1 接收到“读取失效”消息，传输“a”的缓存行给 CPU 0。
CPU 0 接收到“a”的缓存行并应用缓冲的存储。
CPU 0 也可以存储新的“b”值，但由于缓存行现在处于“共享”状态，必须发送“失效”消息。
CPU 1 收到“失效”消息并失效“b”的缓存行。
CPU 1 再次执行 while(b == 0) continue，并发送“读取”消息。
CPU 0 将“b”缓存行置于“独占”状态并存储新值。
CPU 0 接收到“读取”消息并传输原始“b”值的缓存行给 CPU 1。
CPU 1 安装缓存行并继续执行 assert(a == 1)，此时“a”的值已更新，因此断言通过。

引入存储缓冲区和内存屏障可以有效解决全局内存排序的问题。尽管这一过程涉及大量的管理和步骤，但它确保了程序的正确性和一致性。

4 Invalidate Queue

4.1 存储序列导致不必要的停滞

在多处理器系统中，存储缓冲区的大小通常较小，这意味着当 CPU 执行一系列存储操作时，如果这些操作都导致缓存缺失，存储缓冲区可能会迅速填满。一旦存储缓冲区满了，CPU 就必须等待失效确认消息（invalidate acknowledge messages）完成，以便清空存储缓冲区，才能继续执行。这种情况在内存屏障（memory barriers）之后尤其明显，因为所有后续存储指令都必须等待失效确认消息，无论这些存储是否导致缓存缺失。

为了改善这一情况，可以采取一些措施来加快失效确认消息的到达速度。一个有效的方法是使用每个 CPU 的失效消息队列（invalidate queues）。这种方法可以减少等待时间，提高系统的整体性能。

失效消息队列的工作原理：

每个 CPU 分配独立的失效消息队列：每个 CPU 可以独立处理其失效消息，从而减少了消息在总线上传递的延迟。
异步处理：失效消息可以异步处理，允许 CPU 在发送失效消息的同时继续执行其他操作，而不必等待确认消息。
减少总线拥塞：通过将失效消息分散到各个 CPU 的队列中，可以减少总线的拥塞，从而提高数据传输的效率。

通过优化失效确认消息的处理，尤其是引入每个 CPU 的失效消息队列，可以有效减少因存储缓冲区满而导致的停滞。这种改进不仅提升了 CPU 的执行效率，还增强了系统对并发存储操作的处理能力，从而实现更高的性能。

4.2 Invalidate Queue

失效队列（invalidate queue）可以通过以下方式改善存储操作的性能：

快速确认：失效队列可以在失效消息放入队列后立即确认，而不必等待相应的缓存行实际被失效。这减少了因等待确认而导致的停滞时间。
延迟传输：CPU 在准备传输失效消息时，需检查失效队列。如果对应的缓存行在队列中，CPU 必须等待该队列中的条目被处理后，才能发送失效消息。这种机制确保了消息的有序处理。
承诺处理：将条目放入失效队列意味着 CPU 承诺在发送任何 MESI 协议消息之前处理该条目。这种承诺通常不会给 CPU 带来太大负担，前提是相关数据结构的争用不严重。

尽管失效消息的缓冲提供了性能提升的机会，但它也可能引入内存乱序（memory misordering）的问题。由于失效消息可以在队列中被缓冲，可能导致不同 CPU 看到不一致的数据状态或操作顺序。这种情况在并发访问和修改共享数据时尤为重要。

4.3 内存屏障

失效消息队列通过允许 CPU 在不阻塞的情况下处理失效消息，提高了存储操作的效率。然而，这种缓冲机制也可能导致内存乱序，影响数据一致性和程序的正确性。需要谨慎设计和实现，以确保系统在性能和一致性之间取得平衡。
在多处理器系统中，失效队列和内存屏障的设计旨在解决数据一致性和内存顺序的问题。考虑以下代码片段，其中变量“a”和“b”最初均为零，且“a”处于只读（MESI “共享”状态），而“b”由 CPU 0 拥有（MESI “独占”或“修改”状态）:

void foo(void) {
    a = 1;
    smp_mb();
    b = 1;
}

void bar(void) {
    while (b == 0) continue;
    assert(a == 1);
}

以下是可能的操作序列：

CPU 0 执行 a = 1。由于缓存行在 CPU 0 的缓存中是只读的，CPU 0 将新值放入存储缓冲区，并发送失效消息以从 CPU 1 的缓存中刷新对应的缓存行。
CPU 1 执行 while(b == 0) continue，但它的缓存中没有包含“b”的缓存行，因此发送“读取”消息。
CPU 0 执行 b = 1，并将新值存储在缓存行中。
CPU 0 接收“读取”消息，并将更新后的“b”值的缓存行传输给 CPU 1，同时将该行标记为“共享”。
CPU 1 收到针对“a”的失效消息，将其放入失效队列，并向 CPU 0 发送失效确认消息。此时，旧值的“a”仍然保留在 CPU 1 的缓存中。
CPU 1 收到包含“b”的缓存行并安装到自己的缓存中。
CPU 1 继续执行循环，发现“b”的值为 1，进入下一行。
CPU 1 执行 assert(a == 1)，由于“a”的旧值仍在 CPU 1 的缓存中，因此断言失败。
CPU 1 处理排队的失效消息，将“a”的缓存行失效。但此时已为时已晚。
CPU 0 接收到来自 CPU 1 的失效确认消息，并应用缓冲的存储，导致 CPU 1 的断言失败。

为了防止上述情况，可以在 bar() 函数中添加内存屏障：

void bar(void) {
    while (b == 0) continue;
    smp_mb();
    assert(a == 1);
}

这种改变后，操作序列如下：

CPU 0 执行 a = 1。操作与之前一样。
CPU 1 执行 while(b == 0) continue，依旧发送“读取”消息。
CPU 0 执行 b = 1，并将新值存储在缓存行中。
CPU 0 接收到“读取”消息，并将更新后的“b”值的缓存行传输给 CPU 1。
CPU 1 接收到失效消息并将其放入失效队列。
CPU 1 收到缓存行并安装。
CPU 1 继续执行循环，发现“b”为 1，进入下一行。
CPU 1 执行 smp_mb()，标记失效队列中的条目。
CPU 1 执行 assert(a == 1)，由于失效队列中存在对应的标记条目，CPU 1 必须等待该条目处理完再进行加载。
CPU 1 处理失效消息，将“a”缓存行失效。
CPU 1 现在可以加载“a”，但由于这导致缓存缺失，它必须发送“读取”消息。
CPU 0 接收到失效确认消息并应用缓冲的存储，将“a”的 MESI 状态更改为“修改”。
CPU 0 接收到针对“a”的“读取”消息，并将对应的缓存行状态更改为“共享”，然后将缓存行传输给 CPU 1。
CPU 1 收到包含“a”的缓存行并执行加载。此时加载返回“a”的新值，因此断言通过。

通过引入失效队列和内存屏障，系统能够有效地处理数据一致性和内存顺序问题。在这个过程中，CPU 之间的 MESI 消息传递确保了最终的正确性，尽管这一过程涉及复杂的操作和管理。这种设计增强了多处理器系统在并发环境下的稳定性和可靠性。

5 读和写内存屏障

在多处理器系统中，内存屏障用于确保操作的顺序性，以满足并发执行时的数据一致性要求。在先前的内容中，内存屏障被用来标记存储缓冲区和失效队列中的条目。然而，在实际代码中，foo() 和 bar() 函数并没有必要与失效队列或存储队列进行交互。

为了应对这一情况，许多 CPU 架构提供了较弱的内存屏障指令，这些指令仅处理存储缓冲区或失效队列中的一个。大致而言：

读内存屏障（Read Memory Barrier）：仅标记失效队列。
写内存屏障（Write Memory Barrier）：仅标记存储缓冲区。
全功能内存屏障（Full Memory Barrier）：同时标记存储缓冲区和失效队列。

读和写内存屏障的效果

读内存屏障：确保在该屏障之前的所有加载操作在该屏障之后的加载操作之前完成。这意味着，所有在读内存屏障之前的加载将被视为在后续加载之前完成。
写内存屏障：确保在该屏障之前的所有存储操作在该屏障之后的存储操作之前完成。这意味着，所有在写内存屏障之前的存储将被视为在后续存储之前完成。
全功能内存屏障：同时确保加载和存储的顺序性，确保所有操作在执行该屏障之前完成。

void foo(void) {
    a = 1;
    smp_wmb();  // 写内存屏障
    b = 1;
}

void bar(void) {
    while (b == 0) continue;
    smp_rmb();  // 读内存屏障
    assert(a == 1);
}

在 foo() 函数中，写内存屏障 smp_wmb() 确保 b = 1 之前的所有存储操作（如 a = 1）在执行该屏障之后被视为完成。
在 bar() 函数中，读内存屏障 smp_rmb() 确保在该屏障之前的所有加载（如 b 的值）在执行 assert(a == 1) 之前完成。
结论
通过使用读和写内存屏障，开发者可以更灵活地控制内存操作的顺序，从而提高多处理器环境中的数据一致性。理解这三种内存屏障的基本概念有助于深入理解并发编程中的内存管理策略。

6 内存屏障序列示例

本节展示了一些看似有效但实际上存在潜在问题的内存屏障使用示例。虽然这些示例在大多数情况下可能有效，但为了确保代码在所有 CPU 上可靠工作，应该避免这些用法。首先，我们需要关注一种对顺序友好性有敌意的架构。

6.1 对顺序友好性有敌意的架构

为了探讨这一问题，我们设想一个虚构的、极端友好性敌对的计算机架构，其硬件需遵循以下顺序约束：

每个 CPU 始终认为自己的内存访问是按程序顺序发生的。
仅当两个操作引用不同位置时，CPU 才会重排与存储相关的操作。
在某 CPU 执行读内存屏障（smp_rmb()）后，该 CPU 之前的所有加载操作将被认为在任何后续加载操作之前完成。
在某 CPU 执行写内存屏障（smp_wmb()）后，该 CPU 之前的所有存储操作将被认为在任何后续存储操作之前完成。
在某 CPU 执行全功能内存屏障（smp_mb()）后，该 CPU 之前的所有访问（加载和存储）将被认为在任何后续访问之前完成。

例子1
假设 CPU 0 最近经历了许多缓存缺失，其消息队列已满，而 CPU 1 在缓存中独占运行，其消息队列为空。以下是可能的代码片段：

// CPU 0
a = 1;
smp_wmb(); 
b = 1;

//CPU 1
while (b == 0);
c = 1

// CPU 2
z = c;
smp_rmb(); 
x = a; 
assert(z == 0 || x == 1);

在这种情况下，CPU 2 可能会在看到 CPU 0 的 a 赋值之前先看到 CPU 1 的 c 赋值，从而导致断言失败，尽管使用了内存屏障。

例子2
在以下代码片段中，两个 CPU 的操作可能因缓存和消息队列的状态而导致不一致：

// CPU 0
a = 1; 

//CPU 1
while (a == 0);
smp_mb(); 
b = 1;

// CPU 2
y=b;
smp_rmb();
x=a;
assert(y==0||x==1);

如上所示，CPU 2 可能在看到 CPU 0 的 a 赋值之前看到 CPU 1 的 b 赋值，从而导致不一致。

例子3
在这个代码片段中，所有操作都通过内存屏障进行了适当的同步：

// CPU 0
a = 1; 
smp_wmb(); 
b = 1; 

while(c==0);
while(d==0);
smp_mb();
e=1;

// CPU 1
while (b == 0); 
smp_mb(); 
c = 1; 

// CPU 2
while (b == 0); 
smp_mb(); 
d = 1; 
assert(e == 0 || a == 1);

在此示例中，CPU 1 和 CPU 2 在执行其内存屏障之前必须首先看到 CPU 0 的 b 赋值。由于内存屏障的使用，CPU 2 的断言不会失败。
通过这些示例，我们可以看到内存屏障的使用虽然在某些情况下可能看起来有效，但由于系统架构中潜在的复杂性和顺序约束，可能导致程序的不确定性。为了编写跨平台和跨 CPU 可靠的代码，开发者必须谨慎使用内存屏障。

7 特定 CPU 的内存屏障指令

7.1 简介

每个 CPU 都有其特有的内存屏障指令，这使得跨平台的代码移植性面临挑战。许多软件环境（包括 pthreads 和 Java）限制程序员直接使用内存屏障，转而使用包含必要内存屏障的互斥原语。

表 5 列出了不同 CPU 允许的加载和存储重排序的组合。具体而言，前四列表示 CPU 允许的四种加载和存储重排序的组合，接下来的两列表示 CPU 是否允许与原子指令的重排序。以下是一些关键点：
在六个 CPU 中，有五种不同的加载-存储重排序组合和四种原子指令重排序的三种可能。
Alpha CPU 需要对读取的依赖关系进行内存屏障，这意味着 Alpha 可以在获取数据指针之前先获取指向的数据。
最后一列指示 CPU 是否具有不一致的指令缓存和流水线，这种 CPU 需要执行特殊指令来处理自修改代码。

Linux 内存屏障原语
在 Linux 内核中，提供了一组经过仔细选择的内存屏障原语，包括：

smp_mb()：内存屏障，确保在其之前的所有加载和存储在之后的加载和存储之前完成。
smp_rmb()：读内存屏障，仅确保加载操作的顺序。
smp_wmb()：写内存屏障，仅确保存储操作的顺序。
smp_read_barrier_depends()：强制后续操作依赖于先前操作的顺序。在所有平台上，此原语在 Alpha 上才有效。
mmiowb()：强制 MMIO 写操作的顺序，主要用于被全局自旋锁保护的情况。
这些原语确保编译器不会对内存优化进行重排，从而避免潜在的错误。对于 SMP 内核，这些原语生成代码，但在 UP 内核中也会生成相应的内存屏障。

大多数内核程序员不必担心每个 CPU 的内存屏障细节，只需使用 Linux 提供的接口。如果在特定 CPU 的架构特定代码中工作，则需要更深入的了解。

Linux 的所有锁原语（自旋锁、读写锁、信号量、RCU 等）都包含必要的内存屏障原语，因此在使用这些原语的代码中，开发者无需担心内存顺序的复杂性。

深入了解每个 CPU 的内存一致性模型在调试和编写架构特定代码时非常有帮助。虽然阅读特定 CPU 的文档是不可替代的，但对内存一致性模型的概述可以帮助开发者更好地理解和应用内存屏障。

7.2 Alpha

尽管 Alpha CPU 的生命周期已结束，但它因其最弱的内存排序模型而变得非常有趣。Alpha 具有极其激进的内存操作重排序能力，因此，其内存屏障原语在 Linux 内核中具有重要意义，了解 Alpha 对于 Linux 内核开发者来说尤为重要。

在 Alpha 架构中，可能会出现以下问题。在图 9 中，smp_wmb() 确保第 6-8 行的元素初始化在第 10 行将元素添加到列表之前执行，但在 Alpha 上，这一保证并不可靠。代码的第 20 行可能会看到初始化前的旧值。

struct el *insert(long key, long data) {
    struct el *p;
    p = kmalloc(sizeof(*p), GPF_ATOMIC);
    spin_lock(&mutex);
    p->next = head.next;        //line6
    p->key = key;               //line7
    p->data = data;             //line8
    smp_wmb(); // 写内存屏障     //line9
    head.next = p;              //line10
    spin_unlock(&mutex);
}

struct el *search(long key) {
    struct el *p;
    p = head.next;
    while (p != &head) {
        if (p->key == key) { // 这里可能出现问题 //line20
            return (p);
        }
        p = p->next;
    }
    return (NULL);
}

在图 10 中，假设头指针 head 在缓存bank 0 中处理，而新元素在缓存bank 1 中处理。smp_wmb() 确保第 6-8 行的缓存失效在第 10 行之前到达互连，但不保证新值到达读取 CPU 的顺序。可能的情况是，读取 CPU 的缓存bank 1 正忙，而缓存bank 0 空闲，导致读取 CPU 先获取指向新元素的指针，但看到的是旧的缓存值。
为了确保读取操作的安全性，可以在指针取值和解引用之间插入 smp_rmb()。然而，这在遵循数据依赖性的系统中（如 i386、IA64、PPC 和 SPARC）会引入不必要的开销。

为了解决这个问题，Linux 2.6 内核引入了 smp_read_barrier_depends() 原语，避免了这些系统的额外开销。也可以实现一个软件屏障来替代 smp_wmb()，强制所有读取 CPU 按顺序看到写入 CPU 的写入。然而，这种方法在 Linux 社区被认为在极其弱排序的 CPU（如 Alpha）上会引入过高的开销。此软件屏障可以通过向所有其他 CPU 发送处理器间中断（IPI）来实现。收到 IPI 时，CPU 将执行内存屏障指令，从而实现内存屏障的清理。

smp_read_barrier_depends(); // 确保依赖顺序

Linux 的内存屏障原语命名来自于 Alpha 指令：

smp_mb()：对应于 Alpha 的 mb
smp_rmb()：对应于 Alpha 的 rmb
smp_wmb()：对应于 Alpha 的 wmb

7.3 IA64

IA64 提供了一种弱一致性模型，这意味着在没有显式内存屏障指令的情况下，IA64 有权任意重排序内存引用。IA64 有一个名为 mf 的内存栅栏指令，同时也提供了对加载、存储及部分原子指令的“半内存栅栏”修饰符。
半内存栅栏指令

acq 修饰符：防止后续的内存引用指令在 acq 之前被重排序，但允许之前的内存引用指令在 acq 之后被重排序。
rel 修饰符：防止之前的内存引用指令在 rel 之后被重排序，但允许后续的内存引用指令在 rel 之前被重排序。

这些半内存栅栏在关键区段中非常有用，因为它们允许将操作推入关键区段，但如果允许它们泄漏到关键区段之外，则可能导致致命错误。

作为仅有的具有此属性的 CPU 之一，IA64 定义了与锁获取和释放相关的 Linux 内存排序语义。IA64 的 mf 指令用于 Linux 内核中的 smp_rmb()、smp_mb() 和 smp_wmb() 原语。尽管有相关传言，mf 确实代表“内存栅栏”。

IA64 提供了“释放”操作的全局总顺序，包括 mf 指令。这种顺序概念提供了传递性，即如果某段代码看到某个访问已发生，那么任何后续代码段也将看到该访问已发生。这一前提是所有相关代码段正确使用内存屏障。

7.4 PA-RISC 的内存屏障指令

PA-RISC 架构虽然允许完全重排序加载和存储操作，但实际的 CPU 执行时是完全有序的。这意味着在 PA-RISC 上，Linux 内核的内存排序原语不会生成任何实际的代码。然而，它们会利用 GCC 的内存属性来禁用编译器的优化，从而防止代码在内存屏障跨越时被重排序。

7.5 POWER

POWER 和 PowerPC CPU 系列提供了多种内存屏障指令，以支持不同的内存一致性模型。以下是一些主要的内存屏障指令及其功能：
内存屏障指令

sync：
1. 确保所有先前的操作在任何后续操作开始之前都已完成。
2. 该指令开销较高。
lwsync (轻量级同步)：
1. 对后续的加载和存储进行排序，并确保所有存储操作的顺序。
2. 不会对后续加载与存储之间的存储操作进行排序。
3. 其排序行为与 zSeries 和 SPARC TSO 一致。
eieio (强制 I/O 的顺序执行)：
1. 确保所有先前可缓存存储在所有后续存储之前完成。
2. 可缓存内存的存储与非可缓存内存的存储分别排序，意味着 eieio 不会强制 MMIO 存储在自旋锁释放之前完成。
isync：
1. 确保所有先前指令在任何后续指令开始执行之前完成。
2. 这意味着先前的指令必须足够进展，以保证它们可能产生的任何陷阱要么发生，要么不发生。

虽然没有任何 POWER 指令完全对应于 Linux 的 wmb() 原语（该原语要求所有存储操作都被排序，而不需要 sync 指令的其他高开销操作），在实际使用中，ppc64 版本的 wmb() 和 mb() 被定义为开销较大的 sync 指令。

smp_wmb() 指令被定义为较轻的 eieio 指令，而不是用于 MMIO 的 smp_mb() 指令（因为即使在 UP 和 SMP 内核中，驱动程序也必须仔细排序 MMIO）。
smp_mb() 被定义为 sync 指令。
smp_rmb() 和 rmb() 被定义为较轻的 lwsync 指令。

POWER 架构具有“累积性”特性，适当使用时，可以实现访问的传递性。也就是说，任何看到早期代码片段结果的代码，也将看到该早期代码片段所看到的访问。

POWER 架构的许多成员具有不一致的指令缓存，内存的存储可能不会反映在指令缓存中。尽管近年来编写自修改代码的人不多，但 JIT 编译器和编译器经常会遇到这种情况。为了解决这个问题，可以使用 icbi 指令（指令缓存块失效）来使指定缓存行失效。

7.6 SPARC 架构的内存模型：RMO、PSO 和 TSO

在 SPARC 架构上，Solaris 和 Linux 的实现有所不同：

TSO（Total Store Order）：在 32 位的 “sparc” 架构下，Linux 使用 TSO。
RMO（Relaxed Memory Order）：在 64 位的 “sparc64” 架构下，Linux 运行于 RMO 模式。
PSO（Partial Store Order）：SPARC 还提供了一种中间模式 PSO。

RMO 模式下运行的程序也可以在 PSO 或 TSO 中运行，而在 PSO 中运行的程序同样可以在 TSO 中运行。将共享内存并行程序从 RMO 转换到 TSO 或 PSO 可能需要仔细插入内存屏障，但如前所述，标准同步原语的使用通常不需要担心内存屏障。

内存屏障指令

SPARC 架构提供了灵活的内存屏障指令，允许对内存操作进行细粒度的控制：

StoreStore：确保所有先前的存储操作在任何后续存储操作之前完成（由 smp_wmb() 使用）。
LoadStore：确保所有先前的加载操作在任何后续存储操作之前完成。
StoreLoad：确保所有先前的存储操作在任何后续加载操作之前完成。
LoadLoad：确保所有先前的加载操作在任何后续加载操作之前完成（由 smp_rmb() 使用）。
Sync：在开始任何后续操作之前，确保所有先前的操作均已完成。
MemIssue：确保所有先前的内存操作在任何后续内存操作之前完成，这对于某些内存映射 I/O 实例很重要。
Lookaside：与 MemIssue 相同，但仅适用于先前的存储和后续的加载，且仅当它们访问相同的内存位置时有效。

Linux 内核中的内存屏障

Linux 内核的 smp_mb() 原语结合了前四种选项，使用如下形式：

membar #LoadLoad | #LoadStore | #StoreStore | #StoreLoad

这确保了内存操作的完全排序。

membar #MemIssue 是必要的，因为 membar #StoreLoad 可能允许后续加载从写缓冲区获取值，这在写入 MMIO 寄存器时可能会导致副作用。相反，membar #MemIssue 会等待写缓冲区被刷新后再允许加载操作执行，确保加载操作从 MMIO 寄存器获取值。

驱动程序可以使用 membar #Sync，但在不需要 membar #Sync 的附加功能时，建议使用较轻量的 membar #MemIssue。membar #Lookaside 是 membar #MemIssue 的轻量级版本，适用于写入特定 MMIO 寄存器会影响下一个读取值的情况。然而，当写入某个 MMIO 寄存器会影响下一个从其他 MMIO 寄存器读取的值时，必须使用较重的 membar #MemIssue。

SPARC 架构没有将 wmb() 定义为 membar #MemIssue，而将 smb wmb() 定义为 membar #StoreStore，这可能会使某些驱动程序易受错误影响。可能所有运行 Linux 的 SPARC CPU 实现的内存排序模型比架构允许的更为保守。

在 SPARC 中，必须在存储指令和执行指令之间使用刷新指令，以确保刷新 SPARC 的指令缓存中的任何先前值。刷新指令接收地址，并且仅从指令缓存中刷新该地址。在 SMP 系统中，所有 CPU 的缓存都被刷新，但没有方便的方法来确定离线 CPU 刷新完成的时间。

7.7 x86和AMD64 架构的内存屏障指令

AMD64

AMD64 兼容 x86，并且最近更新了其内存模型，以强制执行实际实现已提供的一些更严格的排序。以下是 AMD64 对 Linux 内核中内存屏障原语的实现：

smp_mb()：实现为 mfence
smp_rmb()：实现为 lfence
smp_wmb()：实现为 sfence

理论上，这些指令可能会被放松，但任何这种放松必须考虑到 SSE 和 3DNOW 指令。这意味着在设计和优化多线程代码时，开发者需要谨慎处理与这些指令相关的内存排序行为。

x86 CPU 提供“进程排序”，确保所有 CPU 对某个 CPU 的写入顺序达成一致，因此 smp_wmb() 原语在 CPU 上实际上是一个无操作（noop）。然而，需要使用编译器指令来防止编译器执行可能导致在 smp_wmb() 原语之间重排序的优化。

内存排序特性

加载的排序保证：x86 CPU 传统上没有对加载操作提供排序保证，因此 smp_mb() 和 smp_rmb() 原语被扩展为 lock; addl。这个原子指令对加载和存储操作都起到屏障作用。

Intel 的内存模型
Intel 最近发布了 x86 的内存模型。实际上，Intel 的 CPU 强制执行的排序比以前的规范中声称的要紧密，因此这个模型实际上只是强制执行早期的事实行为。更近期，Intel 发布了更新的内存模型，强制要求存储操作的全局总顺序，尽管单个 CPU 仍然可以认为自己的存储操作发生在该全局顺序之前。这种对总排序的例外允许涉及存储缓冲区的重要硬件优化。

软件可以使用原子操作来覆盖这些硬件优化，这也是原子操作通常比非原子操作更昂贵的原因之一。需要注意的是，这种总存储顺序在较旧的处理器上并不保证。

SSE 指令的特殊性
值得注意的是，一些 SSE 指令是弱排序的（如 clflush 和非时间移动指令）。支持 SSE 的 CPU 可以使用以下指令：

mfence 用于 smp_mb()
lfence 用于 smp_rmb()
sfence 用于 smp_wmb()

某些版本的 x86 CPU 具有启用乱序存储的模式位，因此对于这些 CPU，smp_wmb() 也必须被定义为 lock; addl。

虽然许多较旧的 x86 实现可以在没有特殊指令的情况下处理自修改代码，但较新版本的 x86 架构不再要求 x86 CPU 具备这种宽容性。值得注意的是，这种放宽正好让 JIT 实现者感到不便。

7.8 zSeries 架构

zSeries 机器构成了 IBM 主机家族，以前被称为 360、370 和 390。尽管并行性在 zSeries 中出现较晚，但考虑到这些主机在 1960 年代中期首次发货，这并不算什么。

指令：Linux 的 smp_mb()、smp_rmb() 和 smp_wmb() 原语使用 bcr 15,0 指令。
内存排序语义：zSeries 具有相对较强的内存排序语义，允许 smp_wmb() 原语成为无操作（nop），并且在你阅读此内容时，这一变化可能已经发生。zSeries 的内存模型实际上是顺序一致的，这意味着所有 CPU 将一致地同意来自不同 CPU 的无关存储操作的顺序。

与大多数 CPU 一样，zSeries 架构不保证缓存一致的指令流，因此，自修改代码在更新指令和执行之间必须执行序列化指令。尽管如此，许多实际的 zSeries 机器确实可以在没有序列化指令的情况下支持自修改代码。

zSeries 指令集提供了大量的序列化指令，包括比较并交换、某些类型的分支（例如，上述的 bcr 15,0 指令）和测试并设置等。

8 Are Memory Barriers Forever?

最近出现了一些系统，在一般的乱序执行和特别是重排序内存引用方面显著不那么激进。这种趋势会持续到内存屏障成为过去式的地步吗？

支持内存屏障消失的论点

大规模多线程硬件架构：提出的架构中，每个线程在内存准备好之前会等待，期间有数十、数百甚至数千个其他线程在进行。这种架构中，不再需要内存屏障，因为某个线程会等待所有未完成的操作完成后再执行下一条指令。由于可能有成千上万的其他线程，CPU 将被完全利用，因此不会浪费 CPU 时间。
延迟隐藏技术：越来越复杂的延迟隐藏硬件实现技术可能允许 CPU 提供完全顺序一致执行的错觉，同时仍然能够提供几乎所有乱序执行的性能优势。

反对内存屏障消失的论点

应用程序的限制：能够扩展到千线程的应用程序数量极其有限。
实时要求：对于某些应用，实时响应要求在几十微秒，这种需求本身已经很难满足，而在大规模多线程场景下，单线程的吞吐量极低，这将使得这些要求更加难以实现。
能效要求：电池供电设备及环境责任所带来的日益严苛的能效要求。

究竟谁是正确的？我们无法确定，因此准备迎接这两种情景的到来。

8 硬件设计者对软件开发者的挑战

硬件设计者可以采取多种措施让软件开发变得困难。以下是一些我们在过去遇到的问题，希望能帮助避免未来出现类似问题：

忽略缓存一致性的 I/O 设备
这种迷人的缺陷可能导致从内存进行的 DMA 操作错过输出缓冲区的最近更改，或者同样糟糕的是，导致输入缓冲区在 DMA 完成后被 CPU 缓存的内容覆盖。为了使系统在面对这种错误行为时正常工作，必须在将任何 DMA 缓冲区呈现给 I/O 设备之前仔细刷新 CPU 缓存。此外，还需要非常小心以避免指针错误，因为即使是对输入缓冲区的错误读取也可能导致数据输入损坏！
忽略缓存一致性的设备中断
这听起来似乎没什么问题——毕竟，中断不是内存引用，对吧？但想象一下，一个具有分裂缓存的 CPU，其中一个缓存银行非常繁忙，因此保持了输入缓冲区的最后一个缓存行。如果相应的 I/O 完成中断到达这个 CPU，那么该 CPU 对缓冲区最后缓存行的内存引用可能返回旧数据，从而导致数据损坏，而这种损坏在后续的崩溃转储中将是不可见的。当系统开始转储出问题的输入缓冲区时，DMA 很可能已经完成。
忽略缓存一致性的处理器间中断 (IPI)
如果 IPI 在相应消息缓冲区的所有缓存行尚未写入内存之前就到达目标处理器，这可能会导致问题。
缓存一致性被超越的上下文切换
如果内存访问的完成顺序过于混乱，则上下文切换可能会相当麻烦。如果任务在源 CPU 的内存访问可见之前从一个 CPU 切换到另一个 CPU，那么该任务可能会看到相应变量恢复到先前的值，这可能会严重混淆大多数算法。
过于宽容的模拟器和仿真器
编写强制内存重排序的模拟器或仿真器是困难的，因此在这些环境中运行良好的软件在首次在真实硬件上运行时可能会遭遇令人不快的惊喜。不幸的是，硬件的狡猾程度通常超过模拟器和仿真器，但我们希望这种情况能够改变。

你可能感兴趣的:(基础知识,c++,笔记)

【LLM】预训练的具体流程 FOUR_A LLM python 人工智能深度学习大模型
分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。中文预训练：为了让这个“大脑”更好地理解中文，我们需要用大量的中文数据继续训练它。分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型
异步处理方式之信号（一）:基础知识和signal函数说明叨陪鲤 Linux高级网络编程 openswan源码分析 Linux上的信号异步信号处理 signal sigaction
文章目录1.引言2.信号的概念2.1信号操作之忽略信号2.2信号操作之捕捉信号2.3信号操作之执行系统默认操作2.4常见的信号3.函数signal3.1signal函数介绍3.2signal函数示例3.3signal函数的限制1.引言信号是一种软中断。很多比较重要的应用程序都需要处理信号。信号提供了一种异步处理事件的方法，例如：终端用户输入中断键，会通过信号机制终止一个程序等。早期的信号存在丢失的
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
【OpenCV C++】存图，如何以时间命名，“年月日-时分秒“产生唯一的文件名呢？“年月日-时分秒-毫秒“ 自动检查存储目录，若不存在自动创建存图 R-G-B OpenCV C++C/C++opencv c++人工智能
文章目录1生成文件名（格式:"年月日-时分秒"格式）2生成文件名（格式:"年月日-时分秒-毫秒"）3多模式存图函数4综合调用实例5注意：默认参数只能在头文件中定义，不能在实现中重复默认参数mode==1→“年月日-时分”→YYYYMMDD-HHMM的文件名；例如：20250310-1647mode==2→"年月日-时分秒-毫秒"→YYYYMMDD-HHMMSS-MMM（适用采集存储帧率搞得图片，增
C++：const和constexpr两个关键字壹十壹 C++c++
在C++中，constexpr和const是两个关键字，用于定义常量，但它们有不同的语义和用途。以下是它们的详细对比和示例：1.const含义：表示变量是只读的，其值在程序运行期间不能被修改。初始化：可以在运行时（run-time）进行初始化。用法：通常用于修饰变量、函数参数或返回值。不能保证变量在编译期求值。示例constintx=10;//编译时常量inty=20;constintz=y;//
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[root@hadoop173nginx1.27.0]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
qt c++线程中的同步和异步我要进步！ qt c++
一、线程同步用于协调多个线程对共享资源的访问，避免竞态条件。常用工具：QMutex（互斥锁）保护临界区，确保一次仅一个线程访问资源。QMutexmutex;intsharedData=0;voidThread::run(){mutex.lock();sharedData++;//安全操作mutex.unlock();}QMutexLocker自动管理锁生命周期：{QMutexLockerlocke
GO语言学习笔记螺旋式上升abc golang 学习笔记
一、viper笔记【七米】https://liwenzhou.com/posts/Go/viper/二、优雅关机和平滑重启https://liwenzhou.com/posts/Go/graceful-shutdown/三、gin使用zaphttps://liwenzhou.com/posts/Go/zap-in-gin/四、flag用于命令行传参https://liwenzhou.com/pos
Qt 串口类QSerialPort 使用笔记一对一答疑的编程作家朱文伟 qt qt 笔记开发语言
Qt串口类QSerialPort使用笔记虽然现在大多数的家用PC机上已经不提供RS232接口了。但是由于RS232串口操作简单、通讯可靠，在工业领域中仍然有大量的应用。Qt以前的版本中，没有提供官方的对RS232串口的支持，编写串口程序很不方便。现在好了，在Qt5.1中提供了QtSerialPort模块，方便编程人员快速的开发应用串口的应用程序。本文就简单的讲讲QtSerialPort模块的使用。
笔记:在.Net Core Web Api里使用JWT 风中的余烬~ .netcore 笔记 linux
首先，先建一个JWT配置类//////JWT配置类///publicclassJwtTokenOption{//////Token过期时间，默认为60分钟///publicintTokenExpireTime{get;set;}=60;//////接收人///publicstring?Audience{get;set;}//////秘钥///publicstring?SecurityKey{get
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
学习笔记10——并发编程2线程安全问题与同步机制码代码的小仙女高级开发必备技能 java知识学习笔记
线程安全问题与同步机制线程安全的本质问题线程安全问题源于多线程环境下对共享资源（数据或状态）的非原子性、非可见性、非有序性访问，导致程序行为不符合预期。主要表现如下：竞态条件（RaceCondition）：多个线程对同一资源进行非原子操作，导致结果依赖线程执行顺序。示例：两个线程同时执行count++（非原子操作，实际包含读-改-写三步）。内存可见性问题：线程修改共享变量后，其他线程无法立即看到最
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
C++ time(0)函数宁玉AC c学习
time(0)函数返回当前格林尼治标准时间与格林尼治标准时间1970年0分0秒的时间间隔。头文件#include//问题：得到当前时间。#include#includeusingnamespacestd;intmain(){inttotalSeconds=time(0);intcurrentSeconds=totalSeconds%60;inttotalMinutes=totalSeconds/6
C++随机数宁玉AC c学习 c++开发语言
目录一、名著参考二、详解1.rand()函数2.time(0)3.srand(time(0))4.获取指定范围内的随机数（含指定位数）一、名著参考可以使用cstdlib头文件中的rand()函数来获得随机整数；这个函数返回0~RAND_MAX之间的随机整数；rand()函数生成的是伪随机数。即每次在同一个系统上执行这个函数的时候，rand()函数生成同一序列的数。rand()函数的算法使用一个叫种
C++11之列表初始化 Octopus2077 c++学习笔记
发展历史C++11是C++的第⼆个主要版本，并且是从C++98起的最重要更新。它引⼊了⼤量更改，标准化了既有实践，并改进了对C++程序员可⽤的抽象。在它最终由ISO在2011年8⽉12⽇采纳前，⼈们曾使⽤名称“C++0x”，因为它曾被期待在2010年之前发布。C++03与C++11期间花了8年时间，故⽽这是迄今为⽌最⻓的版本间隔。从那时起，C++有规律地每3年更新⼀次。列表初始化（注意区分列表初始
学习笔记12——并发编程之线程之间协作方式码代码的小仙女高级开发必备技能 java jvm 开发语言
线程之间协作有哪些方式当多个线程可以一起工作去解决某个问题时，如果某些部分必须在其他部分之前完成，那么就需要对线程进行协调。共享变量和轮询方式实现：定义一个共享变量（如volatile修饰的布尔标志）。线程通过检查共享变量的状态来决定是否继续执行。publicclassTest{ privatestaticvolatilebooleanflag=false; publicstaticvoi
《Natural Actor-Critic》译读笔记 songyuc 笔记
《NaturalActor-Critic》摘要本文提出了一种新型的强化学习架构，即自然演员-评论家（NaturalActor-Critic）。Theactor的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现，而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力，因为这些梯度与所选策略表示的坐标框架无关，并且比常规策
【护网行动】最新版护网知识总结，零基础入门到精通，收藏这篇就够了网络安全小宇哥 oracle 数据库安全 web安全计算机网络网络安全网络
一、基础知识1.SQL注入：一种攻击手段，通过在数据库查询中注入恶意SQL代码，获取、篡改或删除数据库数据。（1）危害：数据库增删改查、敏感数据窃取、提权/写入shell。（2）类型：按注入点（字符型、数字型、搜索型）、提交方式（get、post、cookie）、执行效果（联合、报错、布尔、时间）分类。（3）注入方式：包括information_schema注入、基于函数报错注入（如updatex
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
selenuim自动化测试笔记二：元素查找任性八孔木笛自动化测试定位 selenium css xpath
selenuim自动化测试笔记二：元素查找一、查看页面是否包含某段字符串查看页面是否包含“”写法driver.getPageSource().contains("百度一下，你就知道")if(driver.getPageSource().contains("百度一下，你就知道")){System.out.println("包含");}else{System.out.println("不包含");}二
【LAMMPS学习】四、运行 LAMMPS(1)基础知识北行黄金橘 LAMMPS学习算法学习
4.运行LAMMPS本部分解释了在安装可执行文件或下载源代码并构建可执行文件后如何运行LAMMPS。命令文档页面描述了输入脚本的结构以及它们可以包含的命令。4.1.运行LAMMPS的基础知识LAMMPS从命令行运行，通过-in命令行标志或从标准输入从文件读取命令。建议使用“-inin.file”变体（参见下面的注释）。LAMMPS可执行文件的名称为lmp或lmp_，其中是编译LAMMPS时使用的机
C语言_数据结构总结7:顺序队列（循环队列） *.✧屠苏隐遥(ﾉ◕ヮ◕)ﾉ*.✧ C语言—数据结构数据结构 c语言开发语言算法 visual studio visualstudio
纯C语言实现，不涉及C++队列简称队，也是一种操作受限的线性表。只允许表的一端进行插入，表的另一端进行删除特性：先进先出针对顺序队列存在的“假溢出”问题，引出的循环队列概念。循环队列将顺序队列臆造为一个环状的空间，即把存储队列元素的表从逻辑上视为一个环。当队首指针Q->front=MaxSize-1后，再前进一个位置就自动到0，这可以利用除法取余运算（%）来实现。循环队列中的判空和判满条件分析：显
C++：入门详解（关于C与C++基本差别）梅茜Mercy c++c语言 java
目录一.C++的第一个程序二.命名空间（namespace）1.命名空间的定义与使用：（1）命名空间里可以定义变量，函数，结构体等多种类型（2）命名空间调用（：：）与展开（3）命名空间的嵌套（4）具体使用场景三.缺省参数1.基本定义：2.几个注意：四.函数重载1.定义与使用：五.引用1.定义：2.引用的特性：3.引用的使用（区别传值返回和传引用返回）：4.const引用：六.inline内联一.C
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出