Linux内核站

【全面讲解】CPU缓存一致性：从理论到实战(上)

本文从 CPU、缓存、内存屏障、CAS到原子操作，再到无锁实践，逐一详细介绍。

01存储体系结构

速度快的存储硬件成本高、容量小，速度慢的成本低、容量大。为了权衡成本和速度，计算机存储分了很多层次，扬长避短，有寄存器、L1 cache、L2 cache、L3 cache、主存（内存）和硬盘等。图1 展示了现代存储体系结构。

图1

根据程序的空间局部性和时间局部性原理，缓存命中率可以达到 70～90% 。因此，增加缓存可以让整个存储系统的性能接近寄存器，并且每字节的成本都接近内存，甚至是磁盘。

所以缓存是存储体系结构的灵魂。

02缓存原理

2.1 缓存的工作原理

cache line（缓存行）是缓存进行管理的最小存储单元，也叫缓存块，每个 cache line 包含 Flag、Tag 和 Data ，通常 Data 大小是 64 字节，但不同型号 CPU 的 Flag 和 Tag 可能不相同。从内存向缓存加载数据是按整个缓存行加载的，一个缓存行和一个相同大小的内存块对应。

图2

图2中，缓存是按照矩阵方式排列(M × N)，横向是组(Set)，纵向是路(Way)。每一个元素是缓存行(cache line)。

那么给定一个虚拟地址 addr 如何在缓存中定位它呢？首先把它所在的组号找到，即：

//左移6位是因为 Block Offset 占 addr 的低 6 位，Data 为 64 字节
Set Index = (addr >> 6) % M;

然后遍历该组所有的路，找到cache line中的Tag与addr中Tag相等为止，所有路都没有匹配成功，那么缓存未命中。

整个缓存容量 = 组数 × 路数 × 缓存行大小

我电脑的CPU信息：

我电脑的缓存信息：

通过缓存行大小和路数可以倒推出缓存的组数，即：

缓存组数 = 整个缓存容量 ÷ 路数 ÷ 缓存行大小

2.2 缓存行替换策略

目前最常用的缓存替换策略是最近最少使用算法（Least Recently Used ，LRU）或者是类似 LRU 的算法。

LRU 算法比较简单，如图3，缓存有 4 路，并且访问的地址都哈希到了同一组，访问顺序是 D1、D2、D3、D4 和 D5，那么 D1 会被 D5 替换掉。算法的实现方式有很多种，最简单的实现方式是位矩阵。

首先，定义一个行、列都与缓存路数相同的矩阵。当访问某个路对应的缓存行时，先将该路对应的所有行置为 1，然后再将该路对应的所有列置为 0。

最近最少使用的缓存行所对应的矩阵行中 1 的个数最少，最先被替换出去。

图3

2.3 缓存缺失

缓存缺失就是缓存未命中，需要把内存中数据加载到缓存，所以运行速度会变慢。

就拿我的电脑来测试，L1d 的缓存大小是 32KB（32768B），8路，缓存行大小 64B，那么

缓存组数 = 32 × 1024 ÷ 8 ÷ 64 = 64

运行下面的代码

char *a = new char(64 * 64 * 8); //32768B
for(int i = 0; i < 20000000; i++) 
    for(int j = 0; j < 32768; j += 4096) 
        a[j]++;

结果：循环 160000000 次，耗时 301 ms。除了第一次未命中缓存，后面每次读写数据都能命中缓存。

调整上面的代码，并运行

char *a = new char(64 * 64 * 8 * 2); //65536B
for(int i = 0; i < 10000000; i++)
    for(int j = 0; j < 65536; j += 4096)
        a[j]++;

结果：循环 160000000 次，耗时 959 ms。每一次读写数据都没有命中缓存，所以耗时增加了 2 倍。

2.4 程序局部性

程序局部性就是读写内存数据时读写连续的内存空间，目的是让缓存可以命中，减少缓存缺失导致替换的开销。

我电脑上运行下面代码

int M = 10000, N = 10000;
char (*a)[N] = (char(*)[N])calloc(M * N, sizeof(char));
for(int i = 0; i < M; i++)
    for(int j = 0; j < N; j++)
        a[i][j]++;

结果：循环 100000000 次，耗时 314 ms。利用了程序局部性原理，缓存命中率高。

修改上面的代码如下，并运行

int M = 10000, N = 10000;
char (*a)[N] = (char(*)[N])calloc(M * N, sizeof(char));
for(int j = 0; j < N; j++)
    for(int i = 0; i < M; i++)
        a[i][j]++;

结果：循环 100000000 次，耗时 1187 ms。没有利用程序局部性原理，缓存命中率低，所以耗时增加了 2 倍。

2.5 伪共享（false-sharing）

当两个线程同时各自修改两个相邻的变量，由于缓存是按缓存行来整体组织的，当一个线程对缓存行中数据执行写操作时，必须通知其他线程该缓存行失效，导致另一个线程从缓存中读取其想修改的数据失败，必须从内存重新加载，导致性能下降。

我电脑运行下面代码

struct S {
    long long a;
    long long b;
} s;
std::thread t1([&]() {
    for(int i = 0; i < 100000000; i++)
        s.a++;
});
std::thread t2([&]() {
    for(int i = 0; i < 100000000; i++)
        s.b++;
});

结果：耗时 512 ms，原因上面提到了，就是两个线程互相影响，使对方的缓存行失效，导致直接从内存读取数据。

解决办法是对上面代码做如下修改：

struct S {
    long long a;
    long long noop[8];
    long long b;
} s;

结果：耗时 181 ms，原因是通过 long long noop[8] 把两个数据（a 和 b）划分到两个不同的缓存行中，不再互相使对方的缓存失效，所以速度变快了。

本小节的测试代码都没有开启编译器优化，即编译选项为-O0 。

资料直通车：Linux内核源码技术学习路线+视频教程内核源码

学习直通车：Linux内核源码内存调优文件系统进程管理设备驱动/网络协议栈

03缓存一致性协议

在单核时代，增加缓存可以大大提高读写速度，但是到了多核时代，却引入了缓存一致性问题，如果有一个核心修改了缓存行中的某个值，那么必须有一种机制保证其他核心能够观察到这个修改。

3.1 缓存写策略

从缓存和内存的更新关系来看，分为：

- 写回（write-back）对缓存的修改不会立刻传播到内存，只有当缓存行被替换时，这些被修改的缓存行才会写回并覆盖内存中过时的数据。
- 写直达（write through）缓存中任何一个字节的修改，都会立刻穿透缓存直接传播到内存，这种比较耗时。

从写缓存时 CPU 之间的更新策略来看，分为：

- 写更新（Write Update）每次缓存写入新的值，该核心必须发起一次总线请求，通知其他核心更新他们缓存中对应的值。
  - 坏处：写更新会占用很多总线带宽；
  - 好处：其他核心能立刻获得最新的值。
- 写无效（Write Invalidate）每次缓存写入新的值，都将其他核心缓存中对应的缓存行置为无效。
  - 坏处：当其他核心再次访问该缓存时，发现缓存行已经失效，必须从内存中重新载入最新的数据；
  - 好处：多次写操作只需发一次总线事件，第一次写已经将其他核心缓存行置为无效，之后的写不必再更新状态，这样可以有效地节省核心间总线带宽。

从写缓存时数据是否被加载来看，分为：

- 写分配（Write Allocate）在写入数据前将数据读入缓存。当缓存块中的数据在未来读写概率较高，也就是程序空间局部性较好时，写分配的效率较好。
- 写不分配（Not Write Allocate）在写入数据时，直接将数据写入内存，并不先将数据块读入缓存。当数据块中的数据在未来使用的概率较低时，写不分配性能较好。

3.2 MESI 协议

MESI协议是⼀个基于失效的缓存⼀致性协议，是⽀持写回（write-back）缓存的最常⽤协议。也称作伊利诺伊协议 (Illinois protocol，因为是在伊利诺伊⼤学厄巴纳-⾹槟分校被发明的)。

为了解决多个核心之间的数据传播问题，提出了总线嗅探（Bus Snooping）策略。本质上就是把所有的读写请求都通过总线（Bus）广播给所有的核心，然后让各个核心去嗅探这些请求，再根据本地的状态进行响应。

3.2.1 状态

已修改Modified (M)：缓存⾏是脏的，与主存的值不同。如果别的CPU内核要读主存这块数据，该缓存⾏必须回写到主存，状态变为共享(S).
独占Exclusive (E)：缓存⾏只在当前缓存中，但是⼲净的，缓存数据等于主存数据。当别的缓存读取它时，状态变为共享；当前写数据时，变为已修改状态。
共享Shared (S)：缓存⾏也存在于其它缓存中且是⼲净的。缓存⾏可以在任意时刻抛弃。
⽆效Invalid (I)：缓存⾏是⽆效的。

这些状态信息实际上存储在缓存行（cache line）的 Flag 里。

3.2.2 事件

处理器对缓存的请求:
- PrRd：核心请求从缓存块中读出数据；
- PrWr：核心请求向缓存块写入数据。
总线对缓存的请求:
- BusRd：总线嗅探器收到来自其他核心的读出缓存请求；
- BusRdX：总线嗅探器收到另一核心写⼀个其不拥有的缓存块的请求；
- BusUpgr：总线嗅探器收到另一核心写⼀个其拥有的缓存块的请求；
- Flush：总线嗅探器收到另一核心把一个缓存块写回到主存的请求；
- FlushOpt：总线嗅探器收到一个缓存块被放置在总线以提供给另一核心的请求，和 Flush 类似，但只不过是从缓存到缓存的传输请求。

3.2.3 状态机

图4

表1是对状态机图4 的详解讲解（选读）

3.2.4 动画演示

图5

各家 CPU 厂商没有都完全按照 MESI 实现缓存一致性协议，导致 MESI 有很多变种，例如：Intel 采用的 MESIF 和 AMD 采用的 MOESI，ARM 大部分采用的是 MESI，少部分使用的是 MOESI 。

3.3 MOESI 协议（选读）

MOESI 是一个完整的缓存一致性协议，它包含了其他协议中常用的所有可能状态。除了四种常见的 MESI 协议状态之外，还有第五种 Owned 状态，表示修改和共享的数据。

这就避免了在共享数据之前将修改过的数据写回主存的需要。虽然数据最终仍然必须写回，但写回可能是延迟的。

已修改Modified (M)：缓存⾏是脏的（dirty），与主存的值不同，并且缓存具有系统中唯一有效数据。处于修改状态的缓存可以将数据提供给另一个读取器，而无需将其传输到内存，然后状态变为 O，读取者变为 S。
拥有Owned(O)：缓存⾏是脏的（dirty），与主存的值不同，但不是系统中唯一有效副本，一定存在其他的 S。为其他核心提供读请求，较少核心间总线带宽。
独占Exclusive (E)：缓存⾏只在当前缓存中，但是⼲净的（clean），缓存数据同于主存数据。当别的缓存读取它时，状态变为共享；当前写数据时，变为已修改状态。
共享Shared (S)：缓存⾏也存在于其它缓存中且不一定是⼲净的。如果 O 存在，就是脏的，反之亦然。
⽆效Invalid (I)：缓存⾏是⽆效的。

3.4 MESIF 协议（选读）

MESIF 是一个缓存一致性和记忆连贯协议，该协议由五个状态组成：已修改（M），互斥（E），共享（S），无效（I）和转发（F）。

M，E，S 和 I 状态与 MESI 协议一致。F 状态是 S 状态的一种特殊形式，当系统中有多个 S 时，必须选取一个转换为 F，只有 F 状态的负责应答。通常是最后持有该副本的转换为 F，注意 F 是干净的数据。

该协议与 MOESI 协议有较大的不同，也远比 MOESI 协议复杂。该协议由 Intel 的快速通道互联 QPI（QuickPath Interconnect）技术引入，其主要目的是解决“基于点到点互联的非一致性内存访问（Non-uniform memory access，NUMA）处理器系统”的缓存一致性问题，而不是“基于共享总线的一致性内存访问（Uniform Memory Access，UMA）处理器系统”的缓存一致性问题。

04内存屏障（Memory Barriers）

编译器和处理器都必须遵守重排序规则。在单处理器的情况下，不需要任何额外的操作便能保持正确的顺序。但是对于多处理器来说，保证一致性通常需要增加内存屏障指令。即使编译器可以优化掉字段的访问（例如因为未使用加载到的值），编译器仍然需要生成内存屏障，就好像字段访问仍然存在一样（可以单独将内存屏障优化掉）。

内存屏障只与内存模型中的高级概念（例如 acquire 和 release）间接相关。内存屏障指令只直接控制 CPU 与其缓存的交互，以及它的写缓冲区（持有等待刷新到内存的数据的存储）和它的用于等待加载或推测执行指令的缓冲。这些影响可能导致缓存、主内存和其他处理器之间的进一步交互。

几乎所有的处理器都至少支持一个粗粒度的屏障指令（通常称为 Fence，也叫全屏障），它保证了严格的有序性：在 Fence 之前的所有读操作（load）和写操作（store）先于在 Fence 之后的所有读操作（load）和写操作（store）执行完。对于任何的处理器来说，这通常都是最耗时的指令之一（它的开销通常接近甚至超过原子操作指令）。大多数处理器还支持更细粒度的屏障指令。

LoadLoad Barrier（读读屏障）指令 Load1; LoadLoad; Load2 保证了 Load1 先于 Load2 和后续所有的 load 指令加载数据。通常情况下，在执行预测读（speculative loads）或乱序处理（out-of-order processing）的处理器上需要显式的 LoadLoad Barrier。在始终保证读顺序（load ordering）的处理器上，这些屏障相当于无操作（no-ops）。
StoreStore Barrier（写写屏障）指令 Store1; StoreStore; Store2 保证了 Store1 的数据先于 Store2 及后续 store 指令的数据对其他处理器可见（刷新到内存）。通常情况下，在不保证严格按照顺序从写缓冲区（store buffers）或者缓存（caches）刷新到其他处理器或内存的处理器上，需要使用 StoreStore Barrier。
LoadStore Barrier（读写屏障）指令 Load1; LoadStore; Store2 保证了 Load1 的加载数据先于 Store2 及后续 store 指令刷新数据到主内存。只有在乱序（out-of-order）处理器上，等待写指令（waiting store instructions）可以绕过读指令（loads）的情况下，才会需要使用 LoadStore 屏障。
StoreLoad Barrier（写读屏障）刷新写缓冲区，最耗时指令 Store1; StoreLoad; Load2 保证了 Store1 的数据对其他处理器可见（刷新数据到内存）先于 Load2 及后续的 load 指令加载数据。StoreLoad 屏障可以防止后续的读操作错误地使用了 Store1 写的数据，而不是使用来自另一个处理器的更近的对同一位置的写。因此只有需要将对同一个位置的写操作（stores）和随后的读操作（loads）分开时，才严格需要 StoreLoad 屏障。StoreLoad 屏障通常是开销最大的屏障，几乎所有的现代处理器都需要该屏障。之所以开销大，部分原因是它需要禁用绕过缓存（cache）从写缓冲区（Store Buffer）读取数据的机制。这可以通过让缓冲区完全刷新，外加暂停其他操作来实现，这就是 Fence 的效果。一般用 Fence 代替 StoreLoad Barrier ，所以事实上，执行 StoreLoad 指令同时也获得了其他三个屏障的效果，但是通过组合其他屏障通常不能获得与 StoreLoad Barrier 相同的效果。

表2 是各处理器支持的内存屏障和原子操作

表2

4.1 写缓冲与写屏障

严格按照MESI协议，核心0 在修改本地缓存之前，需要向其他核心发送 Invalid 消息，其他核心收到消息后，使他们本地对应的缓存行失效，并返回 Invalid acknowledgement 消息，核心0 收到后修改缓存行。这里核心0 等待其他核心返回确认消息的时间对核心来说是漫长的。

图6

为了解决这个问题，引入了 Store Buffer ，当核心想修改缓存时，直接写入 Store uffer ，无需等待，继续处理其他事情，由 Store Buffer 完成后续工作。

图7

这样一来写的速度加快了，但是引来了新问题，下面代码的 bar 函数中的断言可能会失败。

int a = 0, b = 0;
// CPU0
void foo() {
    a = 1;
    b = 1;
}
// CPU1
void bar() {
    while (b == 0) continue;
    assert(a == 1);
}

第一种情况：CPU 为了提升运行效率和提高缓存命中率，采用了乱序执行；

第二种情况：Store Buffer 在写入时，b 所对应的缓存行是 E 状态，a 所对应的缓存行是 S 状态，因为对 b 的修改不需要核心间同步，但是修改 a 则需要，也就是 b 会先写入缓存。与之对应 CPU1 中 a 是 S 状态，b 是 I 状态，由于 b 所对应的缓存区域是 I 状态，它就会向总线发出 BusRd 请求，那么 CPU1 就会先把 b 的最新值读到本地，完成变量 b 值的更新，但是从缓存直接读取 a 值是 0 。

举一个更极端的例子

// CPU0
void foo() {
    a = 1;
    b = a;
}

第一种情况不会发生了，原因是代码有依赖，不会乱序执行。但由于 Store Buffer 的存在，第二种情况仍然可能发生，原因同上。这会让人感到更加匪夷所思。

为了解决上面问题，引入了内存屏障，屏障的作用是前边的读写操作未完成的情况下，后面的读写操作不能发生。这就是 Arm 上 dmb 指令的由来，它是数据内存屏障（Data Memory Barrier）的缩写。

int a = 0, b = 0; 
// CPU0
void foo() {
    a = 1;
    smp_mb(); //内存屏障，各CPU平台实现不一样
    b = 1;
}
// CPU1
void bar() {
    while (b == 0) continue;
    assert(a == 1);
}

加上内存屏障后，保证了 a 和 b 的写入缓存顺序。

总的来说，Store Buffer 提升了写性能，但放弃了缓存的顺序一致性，这种现象称为弱缓存一致性。通常情况下，多个 CPU 一起操作同一个变量的情况是比较少的，所以 Store Buffer 可以大幅提升程序的性能。但在需要核间同步的情况下，还是需要通过手动添加内存屏障来保证缓存一致性。

上面解决了核间同步的写问题，但是核间同步还有一个瓶颈，那就是读。

4.2 失效队列与读屏障

前面引入 Store Buffer 提升了写入速度，那么 invalid 消息确认速度相比起来就慢了，带来了速度不匹配，很容易导致 Store Buffer 的内容还没及时写到缓存里，自己就满了，从而失去了加速的作用。

为了解决这个问题，又引入了 Invalid Queue。收到 Invalid 消息的核心立刻返回 Invalid acknowledgement 消息，然后把 Invalid 消息加入 Invalid Queue ，等到空闲的时候再去处理 Invalid 消息。

图8

运行上面增加内存屏障的代码，第 11 行的断言又可能失败了。

核心0 中 a 所对应的缓存行是 S 状态，b 所对应的缓存行是 E 状态；核心1中 a 所对应的缓存行是 S 状态，b 所对应的缓存行是 I 状态；

因为有内存屏障在，a 和 b的写入缓存的顺序不会乱。
a 先向其他核心发送 Invalid 消息，并且等待 Invalid 确认消息；
Invalid 消息先入核心1 对应的 Invalid Queue 并立刻返回确认消息，等待核心1 处理；
核心0 收到确认消息后把 a 写入缓存，继续处理 b 的写入，由于 b 是 E 状态，直接写入缓存；
核心1 发送 BusRd 消息，读取到新的 b 值，然后获取 a（S 状态）值是0，因为使其无效的消息还在 Invalid Queue 中，第 11 行断言失败。

引入 Invalid Queue 后，对核心1 来说看到的 a 和 b 的写入又出现乱序了。

解决办法是继续加内存屏障，核心1 想越过屏障必须清空 Invalid Queue，及时处理了对 a 的无效，然后读取到新的 a 值，如下代码：

int a = 0, b = 0;
// CPU0
void foo() {
    a = 1;
    smp_mb();
    b = 1;
}
// CPU1
void bar() {
    while (b == 0) continue;
    smp_mb(); //继续加内存屏障
    assert(a == 1);
}

这里使用的内存屏障是全屏障，包括读写屏障，过于严格了，会导致性能下降，所以有了细粒度的读屏障和写屏障。

4.3 读写屏障分离

分离的写屏障和读屏障的出现，是为了更加精细地控制 Store Buffer 和 Invalid Queue 的顺序。

读屏障不允许其前后的读操作越过屏障；
写屏障不允许其前后的写操作越过屏障；

优化前面的代码如下

int a = 0, b = 0;
// CPU0
void foo() {
  a = 1;
  smp_wmb(); //写屏障
  b = 1;
}
// CPU1
void bar() {
  while (b == 0) continue;
  smp_rmb(); //读屏障
  assert(a == 1);
}

这种修改只有在区分读写屏障的体系结构里才会有作用，比如alpha结构。在x86和Arm中是没有作用的，因为 x86 采用了 TSO模型，后面会详细介绍，而 Arm 采用了单向屏障。

4.4 单向屏障

单向屏障 (half-way barrier) 也是一种内存屏障，但它不是以读写来区分的，而是像单行道一样，只允许单向通行，例如 ARM 中的 stlr 和 ldar 指令就是这样。

stlr 的全称是 store release register，包括 StoreStore barrier 和 LoadStore barrier（场景少），通常使用 release 语义将寄存器的值写入内存；
ldar 的全称是 load acquire register，包括 LoadLoad barrier 和 LoadStore barrier（对，你没看错，我没写错），通常使用 acquire 语义从内存中将值加载入寄存器；
release 语义的内存屏障只不允许其前面的读写向后越过屏障，挡前不挡后；
acquire 语义的内存屏障只不允许其后面的读写向前越过屏障，挡后不挡前;
StoreLoad barrier 就只能使用 dmb（全屏障）代替了。

图9 ARM Figure 13.2. One-way barriers

理论普及的差不多了，接下单独来说说服务端同学工作中最常用的 x86 内存模型，填一下 4.3 中留下的坑。未完待续......

原文作者：一起学嵌入式

你可能感兴趣的:(Linux内核,CPU)

open-falcon的agent部署 chinasl008 运维代码部署二开运维开发
open-falcon的agent部署agent用于采集机器负载监控指标，比如cpu.idle、load.1min、disk.io.util等等，每隔60秒push给Transfer。agent与Transfer建立了长连接，数据发送速度比较快，agent提供了一个http接口/v1/push用于接收用户手工push的一些数据，然后通过长连接迅速转发给Transfer。——————————————
华为服务器管理工具（Intelligent Platform Management Interface）小小玫瑰大智慧华为服务器运维
一、核心功能与技术架构硬件级监控与控制全维度传感器管理：实时监测CPU、内存、硬盘、风扇、电源等硬件组件的温度、电压、转速等参数，支持超过200种传感器类型。例如，通过IPMI命令ipmitoolsdrelist可快速获取服务器传感器状态，并通过正则表达式提取关键指标。远程操作能力：支持远程开关机、重启、BIOS设置调整、固件升级等操作，即使服务器操作系统崩溃或网络中断，仍可通过独立BMC芯片实现
Linux命令行入门指南：基础操作与系统结构详解运维帮手大橙子 linux 运维服务器
什么是Linux指令？指在Linux终端中输入的内容就称为指令，用于与操作系统进行交互。文件：一般都是一个独立的东西，可以通过一些特定的工具进行打开，并且不能再包含除文字以外的东西，包括文本、图片、二进制可执行程序等，一切皆文件指的不仅是普通文件，也包括设备、进程、套接字等。文件夹：可以在其中包含其他文件的东西linux一切皆文件，/dev/sda是磁盘设备，/proc/cpuinfo是一个文件，
【华为OD机试真题 Python语言】132、任务调度 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题任务调度
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述现有一个CPU和一些任务需要处理，已提前获知每个任务的任务ID、优先级、所需执行时间和到达时间。CPU同时只能运行一个任务，请编写一个[任务调度]
操作系统系统面试常问(进程、线程、协程相关知识) 程序猿莫悔面试 linux 职场和发展
进程、线程和协程的区别和联系进程定义资源分配和调度的基本单位线程定义程序执行的基本单位协程定义用户态的轻量级线程，线程内部调度的基本单位进程切换情况进程切换时，操作系统会保存当前进程的CPU状态（如寄存器、页表等），并加载新进程的保存状态到CPU线程切换情况保存和设置程序计数器、少量寄存器和栈的内容协程切换情况先将寄存器上下文和栈保存，等切换回来的时候再进行恢复线程拥有资源CPU资源、内存资源、文
从宿主机到虚拟机，云环境下主机端IO路径的变化数据存储张存储技术从入门到精通 php 开发语言
前文我们对云计算的整体架构进行了介绍，并且了解到云计算的核心是虚拟化技术。这里的虚拟化技术包括计算虚拟化、网络虚拟化和存储虚拟化等技术。以基于Linux操作系统的虚拟化为例，通常在物理机上安装Linux操作系统和虚拟化软件，然后基于虚拟化软件创建虚拟机，并在虚拟机中按照操作系统。简而言之，虚拟化可以认为是通过软件虚拟出CPU、内存和硬盘等硬件，并在其上运行操作系统，具体如下图所示。添加图片注释，不
网络大提速，RDMA，IB，iWrap 数据存储张存储技术从入门到精通 php 服务器开发语言
本章第一节介绍的存储设备方面的创新解决了CPU访问存储设备的性能问题。但在实际的业务当中，数据的传输除了在节点内部的CPU与存储设备间外，节点之间也存在数据传输的需求。本节我们就介绍在网络传输方面是如何提速的。在介绍新的网络技术之前，我们看看传统网络是如何传输数据的，比如我们常见的以太网。当节点0向节点1发送数据时，其整个数据处理的流程如下图所示，可以看到其过程还是比较复杂的。在节点0，应用程序首
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
Prometheus搭建和 Node_Exporter搭建强_子 prometheus
1.Prometheus和Node_Exporter的关系●Prometheus:是一个开源的监控和告警工具，能够从各种数据源（如NodeExporter）拉取指标，并存储这些指标。它提供了一个强大的查询语言（PromQL），可以用来分析和可视化监控数据。●Node_Exporter:是Prometheus的一个官方插件，用于收集主机系统的硬件和操作系统级别的指标（如CPU使用率、内存使用情况、磁
Linux部署Milvus数据库及Attu UI工具完全指南
一、准备工作1.1环境要求操作系统：Ubuntu20.04/Debian11/CentOS7+硬件配置：至少8GB内存，4核CPU，50GB磁盘空间网络要求：可访问互联网（用于拉取Docker镜像）1.2安装Docker和DockerCompose1.2.1安装Dockersudoapt-getupdatesudoapt-getinstall-ydocker.iosudosystemctlstar
筑牢网络安全防线：DDoS/CC 攻击全链路防护技术解析白山云北诗网络安全行业知识 web安全 ddos 安全高防cdn cc防护
当服务器带宽突然飙升至满负荷，业务系统瞬间瘫痪；当应用服务器CPU占用率持续99%，legitimate用户无法正常访问——这些场景背后，往往是DDoS或CC攻击的冲击。据2024年全球网络安全报告显示，DDoS攻击平均持续时间达4.5小时，单次攻击给企业造成的直接损失超80万元，而CC攻击因隐蔽性强，识别难度更高，已成为应用层威胁的主要来源。构建全链路防护体系，是企业抵御这类攻击的核心保障。一、
阿里云2核4G配置的云服务器多少钱？如何购买更优惠？阿里云最新优惠和活动汇总
阿里云服务器2核4G配置是阿里云服务器中的一个热门配置，是个人用户普通企业用户搭建网站时比较喜欢购买的配置，下面给大家详细说下这个配置的价格、性能及如何选择。一、阿里云2核4G配置多少钱？这里说的2核是指云服务器的cpu核数为2核，4G表示的是云服务器内存为4G，CPU内存比1:2，这个配比是一个黄金配比，一般不会照成cpu或内存资源的浪费，用来搭建个人博客、论坛社区、小型电商网站、企业官网都是可
大模型部署的整体架构 flyair_China 人工智能云计算架构
一、大模型部署架构1.1部署架构大模型部署的整体架构是一个多层次、软硬件协同的系统工程，旨在解决模型规模庞大、计算资源密集、延迟敏感等挑战。1.1.1、基础架构层：硬件资源与网络算力集群GPU/NPU阵列：如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等，支持FP16/INT8量化计算，显存带宽需达TB级（如HBM3e显存带宽达3.35TB/s）。异构计算：CPU+GPU/
[数据库优化] 10个MySQL/MariaDB索引优化技巧：大幅提升查询性能 Clownseven 数据库 mysql mariadb
更多服务器知识，尽在hostol.com你的网站或应用程序是不是经常因为数据库查询缓慢而让用户等到“地老天荒”？CPU占用率不高，内存也足够，服务器看起来一点都不忙，但页面就是出奇地慢？如果你遇到了这种情况，那么恭喜你（也可能是不幸），你很可能遇到了数据库性能优化中最常见也最关键的一环——索引问题！很多开发者和初级DBA（数据库管理员）可能会觉得索引这东西“玄之又玄”，或者简单粗暴地给每个列都加上
浅谈RS232、RS422、RS485、LVDS总线仰望天空—永强 IO总线
浅谈RS232、RS422、RS485、LVDS总线在了解三种总线前，笔者认为应该先明白总线的分类，这样对总线有更清晰的概念一．总线的概念和分类：1.对总线可以分为片内总线、片间总线、系统总线、外总线片内总线：是微处理器等芯片内部各功能单元的连线（例CPU与片内存储的总线）片间总线：是微处理器等向外引出的总线（例处理器与DDR连接的总线）系统总线：主板上扩展卡与扩展卡之间连接的总线：（例如电脑两个
MYOJ_8515:CSP初赛题单4:计算机软件 Jayfeather松鸦羽_sch CSP初赛题目算法 c++
更多初赛题单请参见题目整理CSP初赛题目整理题单，谢谢。题目描述1.[J-2015-3]操作系统的作用是()。A.把源程序译成目标程序B.便于进行数据管理C.控制和管理系统资源D.实现硬件之间的连接答案：C解析：操作系统（OperatingSystem，简称OS）是管理计算机硬件与软件资源的系统软件，其主要功能包括：处理器管理（CPU调度）内存管理（分配和回收内存）设备管理（管理输入/输出设备）文
线上故障排查神器！用strace和ftrace揪出系统调用的“幕后黑手“ 悠悠12138 运维
前几天凌晨2点，我又被监控报警给吵醒了。服务器CPU飙到90%，但是top看了半天也找不到罪魁祸首。这种时候，就得请出我们运维人员的两大法宝了——strace和ftrace。说实话，刚开始接触这两个工具的时候，我也是一脸懵逼。什么系统调用、内核跟踪，听起来就很高大上的样子。但是用多了你就会发现，这玩意儿简直就是排查问题的神器！今天就跟大家分享一下我这些年用下来的一些心得。先说说系统调用这个东西你可
pigz更快的压缩和解压工具老率的IT私房菜
pigz(parallelimplementationofgzip)是一个并行执行的压缩工具，解压缩比gzip快，同时CPU消耗是gzip的好几倍，在对短时间内CPU消耗较高不受影响的场景下，可以使用pigz。环境Centos7RAM:2GB,CPU:4vcpus安装#安装epel扩展源[root@localhost~]#wget-O/etc/yum.repos.d/epel-7.repohttp
Blender 云渲染高效流程：渲染 101 集群加速实战渲染101专业云渲染 blender houdini 分布式服务器 maya
一、核心优势：适配Blender全场景需求✅全渲染器深度兼容Cycles（CPU/GPU模式）：云端4090显卡渲染速度比本地快12倍，支持8K分辨率+16K纹理无压力Eevee实时渲染：集群同步输出预览动画，帧间延迟控制在0.5秒内，迭代效率提升300%插件无缝衔接：自动适配GeoNodes节点树、Hair粒子系统，流体模拟缓存文件完整同步✅效率与成本双突破二、5步上云流程（新手友好版）文件预处
基于 MySQL 8.0.40 MGR 与 ProxySQL 的高可用集群部署实践 derek2026 部署实践 mysql 数据库
构建高可用MySQL8.0.40集群：MGR+ProxySQL实战指南一、部署架构图流量路径：应用→ProxySQL（DNS解析ProxySQLIP）→MySQLMGR集群二、环境准备1.系统要求**操作系统:**CentOS7.x服务器配置3台节点（建议最小配置：4核CPU/8GB内存/100GB磁盘）网络互通（关闭防火墙或开放端口：3306,33081,6032,6033节点规划节点1:192
linux如何使用jstack分析线程状态 ycllycll linux
在高并发，多线程环境下的java程序经常需要分析线程状态，本本是一个分析步骤无具体讲解（具体命令可自行google学习）一般流程：1.使用jps-l查看有哪些java程序在运行2.使用top查看步骤1中进程号（pid或者vmid）所占用cpu以及内存情况（或者省略步骤1）3.使用top-Hppid查看具体该pid下各个线程所占用的cpu情况（进程下的线程有一个nid，后面需要用到）4.使用jsta
sql优化之延迟关联 ycllycll mysql sql 数据库
具体看这个文章，写得非常不错：mysql优化：覆盖索引（延迟关联）-一枝花算不算浪漫-博客园看完后思考：1.业务相关的表规范上都要设置递增的主键字段，便于后续优化2.很多时候sql查询的性能瓶颈基本都在io上而不是cpu，所以才会这么优化，尽量在sql的where条件后都走主键，不要让sql走回表操作3.博客中改造的sql比较适合大表跟小表的关联情形
Linux: rsync+inotify实时同步及rsync+sersync实时同步能不能别报错 linux系统运维 linux 服务器运维
rsync+sersync和rsync+inotify是两种常用的实时文件同步方案，用于监控源目录变化并自动同步到目标位置。以下是对两者的详细对比和配置指南：核心区别方案原理优点缺点rsync+inotify使用Linux内核的inotify监控文件变化，触发rsync同步原生支持，无需额外依赖需手动编写脚本，稳定性依赖实现rsync+sersync基于inotify和rsync，封装为独立工具，
操作系统互斥全攻略：从屏蔽中断到TSL指令 ruan114514 操作系统嵌入式硬件单片机
屏蔽中断(DisablingInterrupts)核心概念：一种低级同步原语，主要用于单处理器(Uniprocessor/Single-CPU)系统。通过在执行临界区代码前暂时禁止CPU响应外部硬件中断，保证一小段代码（通常是操作关键内核数据结构）的原子性执行。工作原理：进入临界区前：执行特殊CPU指令（如CLI-ClearInterruptFlagonx86）关闭中断响应。执行临界区代码：CPU
ADC（Analog-to-Digital Converter，模数转换器）是什么？ Yashar Qian 嵌入式 ADC mcu 嵌入式硬件
ADC（Analog-to-DigitalConverter，模数转换器）是什么？ADC（Analog-to-DigitalConverter，模数转换器）是电子系统中一种至关重要的硬件电路或集成模块，它的核心功能是将连续的模拟信号（如电压、电流、温度、压力、声音等物理量转换成的电信号）转换为离散的数字信号（由0和1组成的二进制代码），以便数字系统（如微控制器MCU、处理器CPU、FPGA等）能够
go语言进阶-并发 dounine
title:go语言进阶-并发date:2020-09-0119:58:370.前言优雅的并发编程范式，完善的并发支持，出色的并发性能是Go语言区别于其他语言的一大特色。接下来，我们将从原理到应用，深入了解go并发。1.并发与并行这些经典概念，对于学过操作系统的同学或许并不陌生。并发：多个代码片段（进程、线程）轮流在一个物理处理器（单核CPU）上执行，通过快速的上下文切换，营造一种同时执行的假象，
零基础学习性能测试第三章：执行性能测试试着性能测试学习性能测试零基础
以下是针对零基础学习性能测试的第三章：执行性能测试的详细学习内容设计，聚焦实战操作与快速应用，助你高效上手：第三章核心目标：学会独立执行完整性能测试，产出有效结果关键原则：标准化流程>工具操作>数据解读>风险规避学习模块1：测试前准备——决定成败的关键（占40%精力）1.1环境搭建标准化为什么重要：环境差异会导致结果失真（最常见失败原因）操作清单：硬件：确保测试服务器配置（CPU/内存/磁盘）≥生
在Windows上用虚拟机安装统信UOS专业版教程漫游的旅行者 Linux 虚拟机统信UOS linux
事情的起因就是我想要一台华为电脑，然后上网搜索选购攻略。然后看到了一个新闻，就是英特尔，高通对华为停止供应，然后华为要研发自己的CPU+操作系统然后我也不了解，继续搜索，就好像是这个操作系统统信UOS，感觉很不错，想试试我打算先安装到虚拟机里，然后用一段时间看看感觉如何如果很喜欢的话，那我就将其安装到我的电脑上（重装系统）到时候也会发一个教程的，话说好像支持和Windows双系统呢！简介研发和内容
美国VPS服务器Linux内核参数调优的实践与验证 cpsvps 服务器 linux 运维
美国vps服务器Linux内核参数调优的实践与验证在云计算和虚拟化技术日益普及的今天，美国VPS服务器因其稳定的网络环境和优越的性价比，成为众多企业和开发者的首选。Linux内核参数的默认配置往往无法充分发挥VPS的性能潜力。本文将深入探讨美国VPS服务器上Linux内核参数的调优实践，通过系统化的测试验证方法，帮助用户实现服务器性能的显著提升。美国VPS服务器Linux内核参数调优的实践与验证一
DPDK（25.03）零基础配置笔记 _Chipen DPDK 计算机网络
DPDK零基础配置笔记DPDK（DataPlaneDevelopmentKit，数据面开发工具包）是一个高性能数据包处理库，主要用于绕过Linux内核网络协议栈，直接在用户空间对网卡收发的数据进行操作，以此实现极高的数据吞吐。DPDK的核心价值是：使用轮询+巨页内存+用户态驱动，提升网络收发性能。适用场景：高频交易、软件路由器、防火墙、负载均衡器等对网络性能要求极高的系统。基本数据简要解释igb_
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置