连理o

计算机体系结构实验 (实验报告)

1. MIPS 指令系统和 MIPS 体系结构
- 编写 MIPS 汇编程序
- 观察程序的执行情况
2. 流水线及流水线的冲突
3. 指令调度和延迟分支
- 编写 MIPS 汇编程序
- 不加任何优化操作
- 开启定向
- 指令调度
- 循环展开
- 分支延迟
- - 从前调度
  - 从目标处调度
  - 从失败处调度
- 循环展开 + 分支延迟
4. Cache 性能分析
- 不同的 Cache 容量对不命中率的影响
- 相联度对不命中率的影响
- Cache 块大小对不命中率的影响
- 替换算法对不命中率的影响
5. Tomasulo 算法
6. 再定序缓冲（ROB）工作原理
7. 多 Cache 一致性—— 监听协议
8. 多 Cache 一致性—— 目录协议

1. MIPS 指令系统和 MIPS 体系结构

编写 MIPS 汇编程序

编写计算两个数最大公约数以及最小公倍数的程序。主要是利用辗转相除法求出最大公约数，之后再用原来两数的乘积除以最大公约数就得到了最小公倍数
下面是对应的 C++ 程序 (计算 6 和 9 的最大公约数以及最小公倍数)：

#include 

using namespace std;

int main() 
{
    int a = 6, b = 9;
    int prod = a * b;   // 计算 a 和 b 的乘积，用于之后计算最小公倍数

    while (b)
    {
        int temp = b;
        b = a % b;
        a = temp;
    }

    cout << "最大公约数: " << a << endl << "最小公倍数: " << prod / a << endl;

	return 0;
}

对照 C++ 程序编写出 MIPS 汇编程序，相应说明已经写在程序注释中，总体来说还是比较简单的：

.text
main:
# 求 a 和 b 的最大公约数及最小公倍数
ADDI $r1, $r0, 6    # r1: a
ADDI $r2, $r0, 9    # r2: b
MULT $r1, $r2       # a * b -> (LO, HI)
MFLO $r5            # a * b -> r5

Loop:
BLEZ $r2, EXIT
DIV $r1, $r2        # a / b -> (LO, HI)
ADD $r1, $r2, $r0   # a = b
MFHI $r2            # b = a % b
B Loop

EXIT:
# 计算最小公倍数
DIV $r5, $r1        
MFLO $r6            # r6 -> 最小公倍数 (a * b / 最小公约数)

# r1 -> 最大公约数
TEQ $r0, $r0

观察程序的执行情况

首先载入上面编写好的程序并设置为“非流水”执行方式：
在程序运行之前，注意到 PC 的值为 0x00000000
单步执行 ADDI $r1, $r0, 6；观察到寄存器 r1 的值变为了 6，即 r1 中存储数 $a$ 的值。同时 PC 值加 4，这是因为 MIPS 采用定长指令格式，每条指令长度均为 4 字节，因此如果没有跳转指令的话，每顺序执行一条指令 PC 的值都会加 4
单步执行 ADDI $r2, $r0, 9；观察到寄存器 r2 的值变为了 9，即 r2 中存储数 $b$ 的值
单步执行 MULT $r1, $r2；观察到寄存器 LO 的值变为了 0x36，即 $a\times b$ 的值 54
单步执行 MFLO $r5；观察到寄存器 r5 的值变为了 54，即将寄存器 LO 的值传送到寄存器 r5
单步执行 BLEZ $r2, 4；其测试条件为 r2 的值小于等于 0，如果满足则跳转到目标地址 0x00A1001A 处，也即当前指令地址 + 5 条指令的偏移量后得到的地址 (4 条指令的偏移量 + PC 原本就要增加的 1 条指令的偏移量)；同时注意到标号 EXIT 被替换为了相对 PC 值的偏移量 4；此时不满足条件，因此不跳转，可以看到 PC 值为 0x00000014
单步执行 DIV $r1, $r2，可以看到，寄存器 LO 值为 0，HI 值为 6，表明除法后的余数为 6，商为 0
单步执行 ADD $r1, $r2, $r0，可以看到，r1 的值变为了 r2 的值 9
单步执行 MFHI $r2，可以看到，r2 的值变为了刚才计算得到的余数 6；至此已完成了辗转相除法的第一轮循环
单步执行 BEQ $r0, $r0, Loop；注意到这条机器指令是由无条件跳转指令 B Loop 编译得到的，它的判断条件 r0 = r0 永远为真，因此总是跳转到目标地址 Loop 处；可以观察到，指令执行完毕后，PC 变为了标号 Loop 的地址 0x00000010
下面不断进行上述循环，直至 r2 <= 0 条件成立，下面直接打上断点，执行到 r2 <= 0 条件成立的时候，如下图所示，此时 r2 == 0，因此跳转条件满足。同时注意到 r1 = 3，这里 r1 保存的即为计算完的最大公约数；指令执行完毕后，PC 值变为 0x00000024，表明成功跳转至指令 DIV $r5, $r1
单步执行 DIV $r5, $r1，即用原来两个数的积除以最大公约数，此时 LO 为 0x12，HI 为 0，表明商为 18，余数为 0，这个 18 即为计算出的最小公倍数
单步执行 MFLO $r6，r6 的值变为 LO 的值 18，此时 r6 用于保存最后得到的最小公倍数

2. 流水线及流水线的冲突

3. 指令调度和延迟分支

这两个实验都是优化同一段程序，因此就把报告写在一起了

编写 MIPS 汇编程序

首先编写如下代码，它的主要功能为将内存地址 0xA0 处的数据转换为 10 进制形式显示，转换后的数字存储在内存地址 0xA8 中

# v1: data hazard + control hazard
.text   # 将 16 进制数转为 10 进制数进行显示
main:
ADDIU   $r8, $r0, 160  # r8 = 160 (0xA0)  ; 要转换的数(半字，16位，小端对齐)存在内存地址 160 处
ADDIU   $r9, $r0, 168  # r9 = 168 (0xA8)  ; 转换完毕的数存在内存地址 168 处
LHU     $r1, 0($r8)    # r1 = memory[r8]
ADDIU   $r10, $r0, 10  # r10 = 10   
ADDIU   $r4, $r0, 0

loop1:  
DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2
MFLO    $r1             # r1 /= 10
# stall (RAW)
BGTZ    $r1, loop1      # while(r1 > 0)

SW      $r3, 0($r9)     # 存字
TEQ     $r0, $r0

不加任何优化操作

载入程序，模式设置为流水方式，首先将内存地址 0xA0 内的数据改为 0xA0，即十进制数 160
执行程序，发现此时停顿周期数为 21，总的执行时钟周期为 50 (之后会不断优化，将总的执行时钟周期降低到 28)；下面分析出现的流水线冲突 (忽略“自陷冲突”)
- (1) ADDIU $r8, $r0, 160 与 LHU $r1, 0($r8) 存在 RAW 冲突，LHU $r1, 0($r8) 必须 stall 一个周期
- (2) ADDIU $r10, $r0, 10 与 DIVU $r1, $r10 存在 RAW 冲突，DIVU $r1, $r10 必须 stall 一个周期
- (3) MFHI $r2 与 SLLV $r2, $r2, $r4 存在 RAW 冲突，SLLV $r2, $r2, $r4 必须 stall 两个周期
- (4) SLLV $r2, $r2, $r4 与 OR $r3, $r2 存在 RAW 冲突，OR $r3, $r2 必须 stall 一个周期
- (4) MFLO $r1 与 BGTZ $r1, loop1 存在 RAW 冲突，BGTZ $r1, loop1 必须 stall 两个周期
- (5) BGTZ $r1, loop1 与之后执行的指令存在控制冲突，后续指令必须等到 BGTZ $r1, loop1 的 ID 段结束，也就是判断出分支是否跳转以及跳转的目的地址之后才能继续执行。这里 stall 了一个周期

这里并没有结构冲突；如果有结构冲突的话，可以通过重复设置功能部件来解决

开启定向

使用定向技术减少数据冲突引起的停顿。定向技术的关键思想是在发生写后读相关的情况下，在计算结果尚未出来之前，后面等待使用该结果的指令并不见得马上就要使用该结果。如果能够将该计算结果从其产生的位置（ALU的出口）直接送到其他指令需要它的位置（ALU的入口），那么就可以避免停顿

下面开启定向技术，执行程序，发现此时停顿周期数只有 7，相比之前减少了 14 个 RAW 停顿，大幅提高了流水线执行效率。同时程序的总的执行周期数缩减到了 36 个时钟周期
以之前提到的 ADDIU $r8, $r0, 160 与 LHU $r1, 0($r8) 存在的 RAW 冲突为例，当开启定向技术后，LHU $r1, 0($r8) 不再需要 stall 一个周期，而是直接由流水寄存器 MEM/WB.ALUOUT 取得需要的 r8 的值，进而在 EX 段进行计算；其他 RAW 冲突的解决也同理
现在剩余的流水线冲突有两处：
- (1) BGTZ $r1, loop1 与之后执行的指令存在控制冲突，后续指令必须等到 BGTZ $r1, loop1 的 ID 段结束，也就是判断出分支是否跳转以及跳转的目的地址之后才能继续执行。这里 stall 了一个周期
- (2) MFLO $r1 与 BGTZ $r1, loop1 存在 RAW 冲突，由于分支指令的跳转地址必须在 ID 段计算，而 ID 段时 MFLO $r1 的 EX 段还未执行完成，因此 BGTZ $r1, loop1 必须 stall 一个周期

指令调度

下面重点解决剩余的 RAW 冲突；下面代码主要做的修改就是将 MFLO $r1 移到了前面，让它尽快将 r1 中的数算出，以避免 RAW 冲突

# v2: software scheduling -> eliminate data hazards
.text   # 将 16 进制数转为 10 进制数进行显示
main:
ADDIU   $r8, $r0, 160  # r8 = 160 (0xA0)  ; 要转换的数(半字，16位，小端对齐)存在内存地址 160 处
ADDIU   $r9, $r0, 168  # r9 = 168 (0xA8)  ; 转换完毕的数存在内存地址 168 处
LHU     $r1, 0($r8)    # r1 = memory[r8]
ADDIU   $r10, $r0, 10  # r10 = 10   
ADDIU   $r4, $r0, 0

loop1:  
DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10		# 将本指令提前执行
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2
BGTZ    $r1, loop1      # while(r1 > 0)

SW      $r3, 0($r9)     # 存字
TEQ     $r0, $r0

下面执行程序，发现此时停顿周期数只有 4，完全消除了 RAW 停顿。同时程序的总的执行周期数缩减到了 33 个时钟周期
现在剩余的流水线冲突仅有控制冲突：
- (1) BGTZ $r1, loop1 与之后执行的指令存在控制冲突，后续指令必须等到 BGTZ $r1, loop1 的 ID 段结束，也就是判断出分支是否跳转以及跳转的目的地址之后才能继续执行。这里 stall 了一个周期

循环展开

一般来说，循环展开是用于将循环多次展开后进行寄存器重命名以更方便地进行软件调度来消除数据冲突的方法。但同时，它也可以减少循环带来的额外开销
在下面的代码中，我默认转换后得到的十进制数占 3 位，也就是循环要执行 3 次，因此我将循环展开了 3 次，这样就可以减少 2/3 的循环开销

# v2: loop unrolling to avoid loop overheads
.text   # 将 16 进制数转为 10 进制数进行显示
main:
ADDIU   $r8, $r0, 160  # r8 = 160 (0xA0)  ; 要转换的数(半字，16位，小端对齐)存在内存地址 160 处
ADDIU   $r9, $r0, 168  # r9 = 168 (0xA8)  ; 转换完毕的数存在内存地址 168 处
LHU     $r1, 0($r8)    # r1 = memory[r8]
ADDIU   $r10, $r0, 10  # r10 = 10   
ADDIU   $r4, $r0, 0

# unroll the loop 3 times (Assuming the decimal number has 3n bits) and omit the register renaming
# can decrease the loop overheads
loop1:  
DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2

DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2

DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2

BGTZ    $r1, loop1      # while(r1 > 0)

SW      $r3, 0($r9)     # 存字
TEQ     $r0, $r0

下面执行程序，发现此时停顿周期数只有 2，其中控制停顿由 3 减少到了 1。同时程序的总的执行周期数缩减到了 29 个时钟周期

分支延迟

循环展开只能减少一部分的循环开销来达到减少控制冲突的目的，但如果想完全消除控制冲突，就需要使用分支延迟槽
- 其中，分支延迟槽的调度策略又可以分为从前调度、从目标处调度、从失败处调度

从前调度

编写如下代码，相比软件调度的代码，唯一的修改就是将 BGTZ $r1, loop1 与 OR $r3, $r2 交换顺序，这就相当于手动将 OR $r3, $r2 调度到了分支延迟槽中。这样当开启分支延迟槽时，在 BGTZ $r1, loop1 未决定是否跳转以及跳转的地址时，系统就会自动执行 OR $r3, $r2 以避免产生 stall
值得一提的是，采用从前调度的方法时，不管分支跳转还是不跳转，分支延迟槽中执行的永远是有意义的指令，因此程序得到的加速效果最大

# v4: specialized for delayed branch
.text   # 将 16 进制数转为 10 进制数进行显示
main:
ADDIU   $r8, $r0, 160  # r8 = 160 (0xA0)  ; 要转换的数(半字，16位，小端对齐)存在内存地址 160 处
ADDIU   $r9, $r0, 168  # r9 = 168 (0xA8)  ; 转换完毕的数存在内存地址 168 处
LHU     $r1, 0($r8)    # r1 = memory[r8]
ADDIU   $r10, $r0, 10  # r10 = 10   
ADDIU   $r4, $r0, 0

# fill branch delay slot from before
loop1:  
DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
BGTZ    $r1, loop1      # while(r1 > 0)
OR      $r3, $r2        # r3 |= r2

SW      $r3, 0($r9)     # 存字
TEQ     $r0, $r0

下面执行程序，发现此时停顿周期数只有 1，其中控制停顿与 RAW 停顿均已被完全消除。同时程序的总的执行周期数缩减到了 30 个时钟周期
在下图中可以注意到，在分支指令还未决定是否跳转时，系统先执行分支延迟槽中的指令 OR $r3, $r2 以填补计算分支指令是否跳转的时间间隔

从目标处调度

编写如下代码，相比软件调度的代码，唯一的修改就是将分支跳转语句的目标指令 DIVU $r1, $r10 移动到了分支指令之后，同时在循环之前增添了一条 DIVU $r1, $r10 指令，这就相当于手动将目标处指令 DIVU $r1, $r10 调度到了分支延迟槽中。这样当开启分支延迟槽时，在 BGTZ $r1, loop1 未决定是否跳转以及跳转的地址时，系统就会自动执行 DIVU $r1, $r10 以避免产生 stall
值得一提的是，采用从目标处调度的方法时，只有当分支跳转时，分支延迟槽中执行的才是有意义的指令，因此程序得到的加速效果比从前调度稍差；另外，需要保证分支延迟槽中执行的指令在分支不跳转时，不会影响后续指令的正确性，这里的代码满足了该要求

# v4: specialized for delayed branch
.text   # 将 16 进制数转为 10 进制数进行显示
main:
ADDIU   $r8, $r0, 160  # r8 = 160 (0xA0)  ; 要转换的数(半字，16位，小端对齐)存在内存地址 160 处
ADDIU   $r9, $r0, 168  # r9 = 168 (0xA8)  ; 转换完毕的数存在内存地址 168 处
LHU     $r1, 0($r8)    # r1 = memory[r8]
ADDIU   $r10, $r0, 10  # r10 = 10   
ADDIU   $r4, $r0, 0

# fill branch delay slot from target
DIVU    $r1, $r10 
loop1:         
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2
BGTZ    $r1, loop1      # while(r1 > 0)
DIVU    $r1, $r10

SW      $r3, 0($r9)     # 存字
TEQ     $r0, $r0

下面执行程序，发现此时停顿周期数只有 1，其中控制停顿与 RAW 停顿均已被完全消除。同时程序的总的执行周期数缩减到了 31 个时钟周期. 注意到相比从前调度，从目标处调度的方法在总时钟周期上增加了一个时钟周期，原因是程序中执行了 3 次循环，在最后一个循环时，分支语句不跳转，因此分支延迟槽中执行的命令其实是没有意义的，因此要多出一个时钟周期的开销
在下图中可以注意到，在分支指令还未决定是否跳转时，系统先执行分支延迟槽中的指令 DIVU $r1, $r10 以填补计算分支指令是否跳转的时间间隔

从失败处调度

从失败处调度的代码与软件调度的代码相比没有区别，只需要设置开启分支延迟槽即可，这就相当于手动将分支不跳转时需要执行的指令 SW $r3, 0($r9) 调度到了分支延迟槽中。这样当开启分支延迟槽时，在 BGTZ $r1, loop1 未决定是否跳转以及跳转的地址时，系统就会自动执行 SW $r3, 0($r9) 以避免产生 stall
值得一提的是，采用从失败处调度的方法时，只有当分支不跳转时，分支延迟槽中执行的才是有意义的指令，因此程序得到的加速效果比从前调度稍差；另外，需要保证分支延迟槽中执行的指令在分支跳转时，不会影响后续指令的正确性，这里的代码满足了该要求

# v4: specialized for delayed branch
.text   # 将 16 进制数转为 10 进制数进行显示
main:
ADDIU   $r8, $r0, 160  # r8 = 160 (0xA0)  ; 要转换的数(半字，16位，小端对齐)存在内存地址 160 处
ADDIU   $r9, $r0, 168  # r9 = 168 (0xA8)  ; 转换完毕的数存在内存地址 168 处
LHU     $r1, 0($r8)    # r1 = memory[r8]
ADDIU   $r10, $r0, 10  # r10 = 10   
ADDIU   $r4, $r0, 0

# fill branch delay slot from fall through
loop1:  
DIVU    $r1, $r10       
MFHI    $r2             # r2 = r1 % 10
MFLO    $r1             # r1 /= 10
SLLV    $r2, $r2, $r4   # r2 左移 r4 位
ADDIU   $r4, $r4, 4     # r4 += 4
OR      $r3, $r2        # r3 |= r2
BGTZ    $r1, loop1      # while(r1 > 0)

SW      $r3, 0($r9)     # 存字
TEQ     $r0, $r0

下面执行程序，发现此时停顿周期数只有 1，其中控制停顿与 RAW 停顿均已被完全消除。同时程序的总的执行周期数缩减到了 32 个时钟周期. 注意到相比从前调度，从失败处调度的方法在总时钟周期上增加了两个时钟周期，原因是程序中执行了 3 次循环，前两个循环时，分支语句跳转，因此分支延迟槽中执行的命令其实是没有意义的，因此要多出两个时钟周期的开销
在下图中可以注意到，在分支指令还未决定是否跳转时，系统先执行分支延迟槽中的指令 SW $r3, 0($r9) 以填补计算分支指令是否跳转的时间间隔

循环展开 + 分支延迟

下面采用循环展开 + 分支延迟 (从失败处调度) 的方法，代码于循环展开的代码相同，唯一区别是在配置中开启了分支延迟

下面执行程序，发现此时停顿周期数只有 1，其中控制停顿与 RAW 停顿均已被完全消除。同时程序的总的执行周期数缩减到了 28 个时钟周期. 这应该是目前能做到的最好的优化效果，因为每个时钟周期都执行的是有意义的指令，并且循环带来的开销也被降到了最低

4. Cache 性能分析

不同的 Cache 容量对不命中率的影响

选择不同的 Cache 容量，包括 2KB、4KB、8KB、 16KB、32KB、64KB、128KB 和 256KB。分别执行模拟器（单击“执行到底”按钮即可执行），然后在下表中记录各种情况下的不命中率
以容量为横坐标，画出不命中率随 Cache 容量变化而变化的曲线
根据该模拟结果，你能得出什么结论？
- 可以看到，增加 Cache 容量可以有效降低不命中率，同时当 Cache 容量增加到一定程度时，不命中率降低的效果也越来越不明显
- 不过，这种方法不但会增加成本还可能增加命中时间。这种方法在片外 Cache 中用得比较多

相联度对不命中率的影响

（1）用鼠标单击“复位”按钮，把各参数设置为默认值。此时的 Cache 容量为 64KB
（2）选择一个地址流文件
（3）选择不同的 Cache 相联度，包括 2 路、4 路、8 路、16 路和 32 路。分别执行模拟器，然后在下表中记录各种情况下的不命中率
（4）把 Cache 的容量设置为 256KB，重复（3）的工作，并填写下表
（5）以相联度为横坐标，画出在 64KB 和 256KB 的情况下不命中率随 Cache 相联度变化而变化的曲线
（6）根据该模拟结果，你能得出什么结论？
- 增加相联度有助于降低不命中率
- 在增加相联度到 4 时，优化效果比较明显；继续增加相联度后优化效果不太明显
- 同时，更大的相联度也会增加命中时间和硬件复杂度

Cache 块大小对不命中率的影响

（1）用鼠标单击“复位”按钮，把各参数设置为默认值。
（2）选择一个地址流文件。
（3）选择不同的 Cache 块大小，包括 16B、32B、64B、128B 和 256B。对于 Cache 的各种容量，包括 2KB、8KB、 32KB、64KB、128KB 和 512KB。分别执行模拟器，然后在下表中记录各种情况下的不命中率
（4）分析 Cache 块大小对不命中率的影响
- 可以看出，对于给定的 Cache 容量，当块大小从 16B 开始增加时，不命中率开始下降，但后来反而上升了。增加块大小会产生双重作用
  - (1) 增加了空间局部性，减少了强制性不命中
  - (2) 减少了 Cache 中块的数目，所以有可能增加冲突不命中
  - 在块比较小的情况下，上述的第一种作用会超过第二种作用，从而使不命中率下降。但等到块较大时，第二种作用超过了第一种作用，反而使不命中率上升了，所有选择块大小时，要综合考虑各方面的因素

替换算法对不命中率的影响

（1）用鼠标单击“复位”按钮，把各参数设置为默认值
（2）选择地址流文件 all. din
（3）对于不同的替换算法、Cache 容量和相联度，分别执行模拟器，然后在下中记录各种情况下的不命中率
（4）分析不同的替换算法对 Cache 不命中率的影响
- 当 Cache 容量较小时 (16 KB, 64 KB)，LRU 替换算法优于随机算法
- 当 Cache 容量较大时 (256 KB, 1 MB)，LRU 替换算法与随机算法效果差不多

5. Tomasulo 算法

各功能部件的执行时间如下：
执行的指令序列如下：

CC 代表 Clock

CC1: 第一条指令流出，对应的保留站状态变为 Busy，由于有效地址还未计算出，因此地址暂时为立即数偏移量；同时对应的寄存器的 $Q_i$ 字段记录将要写该寄存器的保留站号
CC2: 无结构冲突，因此第二条 load 指令顺利发射；同时第一条指令已经计算出了有效地址
CC3：无结构冲突，因此第 3 条乘法指令顺利发射进入对应的保留站，保留站中记录其操作码，同时读到了寄存器 F6 的值，注意到这里存在 RAW 冲突，F4 的值还未写入，因此 $V_j$ 为空，由 $Q_j$ 记录将要写 F6 的保留站名；同时第一条 load 指令已经从内存中读出了值，第二条 load 指令也计算出了有效地址
CC4: 第一条 load 指令将从内存中读到的数写回寄存器 F8，指令执行完成，Busy 状态更新为 No；第二条 load 指令计算出了有效地址；第 3 条指令由于产生了 RAW 冲突，需要继续等待 load2 的完成；第 4 条指令由于无结构冲突，被顺利发射出来
CC5: load2 执行完成，将从内存中读到的数发往 CDB，在写入 F4 的同时，Add1 和 Mult2 也从总线上得到了 load2 的结果 (F4 的值)，于是更新对应的 $V_i$ 或 $V_j$ 为 F4 的值，清空对应的 $Q_i$ 或 $Q_j$ ；同时除法指令由于没有结构冲突，也被发射了出来
CC6: Add1 和 Mult1 得到了源操作数，开始执行；同时加法指令由于没有没有结构冲突，也被发射了出来
CC7: 发射第 7 条加法指令
CC8: 发射第 8 条加法指令，同时减法指令执行完毕
CC9: 注意到这里产生了结构冲突：加法指令没有了足够多的保留站，因此无法发射下一条加法指令
CC10: 一条加法指令执行完成，此时才能继续发射下一条加法指令
之后的分析与上面类似。执行结束后可以观察到，所有指令都是顺序发射、乱序执行、乱序完成的；而且通过上面的分析，可以知道，在 Tomasulo 算法中，结构冲突是通过在发射时检查是否有空余的保留站，如果没有则暂时不发射来解决的；RAW 冲突是通过在保留站的 $Q_i$ 或 $Q_j$ 中记录提供数据的保留站名，等到对应指令执行完毕将数据发送到 CDB 上时就能得到想要的源操作数；WAW 和 WAR 冲突都是通过利用保留站换名来解决的

6. 再定序缓冲（ROB）工作原理

各功能部件的执行时间如下：
执行的指令序列如下：

ROB 的执行流程与 Tomasulo 很类似，下面只介绍它与 Tomasulo 不同的地方
首先可以看到，它与 Tomasulo 最大的不同就是增加了再定序缓冲器
- 再定序缓冲器相当于一个循环队列，用 HEAD 和 TAIL 来标记队列的首尾，每次都只能提交队列首的指令，而新加入的指令都只能放入队列尾，这样就保证了顺序提交，实现了精准中断
- 同时如果有预先执行完毕但不该执行的语句 (可能因为分支预测错误)，则可以很方便的通过 ROB 清空它们而不提交，以免影响程序的正确性。这样就能消除控制相关
- 因为指令在执行完成后不直接将结果写入寄存器，因此 ROB 还负责在指令完成到指令提交这一阶段为其他指令提供数据。此外，保留站中记录的目的地以及 $Q_j,Q_k$ 都变成了 ROB 的项号，这意味着保留站中的指令执行完毕后会直接写入 ROB 而非寄存器，并且保留站在遇到 RAW 冲突时，会在 CDB 上监听写往 ROB 指定项号的数据以获得想要的源操作数
- 如下图所示，保留站 Mult1 的目的地址为 #3，即保留站中记录的对应指令项号，而 $Q_j$ 为 #2，即第二条 load 指令在保留站中的项号，如果第二条 load 指令完成，对应的 load 缓冲器就会向 CDB 发数据，目标地址为它对应的 ROB 项号 #2，此时 Mult1 就能得到它想要的源数据
ROB 其余的执行流程与 Tomasulo 一样

7. 多 Cache 一致性—— 监听协议

下面主要针对状态转换图中的每种状态转换进行实验：

首先实验 CPU 读写对状态转移的影响：
CPU A 读块 0，由于是直接映射，且 Cache A 的行 0 状态为无效，因此 CPU 向总线上发 Read miss 信号，最后从主存中读出块 0，Cache A 的行 0 状态变为共享
CPU A 继续读块 0，由于 Cache A 的行 0 状态为共享且标记为块 0，因此读命中
CPU A 读块 4，由于 Cache A 的行 0 状态为共享但标记为块 0，因此读失效，CPU A 向总线发 read miss 信号，将块 4 读入行 0
CPU A 写块 4，向总线发 write miss 信号，同时行 0 的状态变为独占；
此时不管是写块 4 (write hit) 还是读块 4 (read hit)，都是直接读写 Cache 中的数据，且 Cache 行的状态保持为独占
此时如果写块 0，由于 Write miss 且行 0 为独占状态，CPU A 会先将行 0 中的数据写回主存的块 4，然后向总线发 Write miss 信号，并读入块 0；此时行 0 仍为独占状态
此时如果读块 4，由于 read miss，CPU A 会先将行 0 中的数据写回主存的块 0，再向总线发 read miss 信号并读入块 4，此时行 0 变为共享状态
现在进行复位。CPU A 的 Cache 行 0 状态变为无效。此时写块 0，CPU A 向总线发 Write miss 信号，同时读入块 0，行 0 的状态变为独占

最后实验总线上的信号对状态转移的影响 (接着刚才的状态进行实验)
CPU B 写块 0，向总线发 Write miss 信号。CPU A 在监听到该信号后，将行 0 (对应块 0) 写回到存储器的块 0 中，CPU A 的行 0 状态变为无效
此时 CPU A 读块 0，像总线发出 read miss 信号。CPU B 在监听到该信号后，主动将自己 Cache 的行 0 中的数据提供给 CPU A，同时将行 0 写入内存的块 0，CPU B 的行 0 的状态变为共享 (模拟器中的动画展示的是 CPU B 先将行 0 写到内存，CPU A 再从内存中读取数据，但我觉得实际的流程应该是我之前描述的)
此时 CPU B 写块 0，向总线发 Write miss 信号，CPU A 监听到该信号后将行 0 的状态变为无效

8. 多 Cache 一致性—— 目录协议

目录协议与监听协议主要的思想差不多，最大的不同就是监听协议采用分布式控制，而目录协议采用集中式控制。在目录协议中，宿主表示存储单元和用于记录共享集合的目录，本地表示发送访存请求的 CPU 的 Cache，远程表示含有对应主存副本的 CPU 的 Cache

CPU A 读主存块 0：读不命中。于是本地向宿主结点发读不命中（A，0）消息，宿主把数据块送给本地结点，同时更新共享集合为 {A}，最后 Cache A 把第 0 块的内容送给 CPU A
CPU B 读主存块 0：读不命中。于是本地向宿主结点发读不命中（B，0）消息，宿主把数据块送给本地结点，同时更新共享集合为 {A, B}，最后 Cache B 把第 0 块的内容送给 CPU B (这里本地与宿主的通信需要经过互连网络)
CPU B 写块 0：写命中。本地向宿主结点发写命中（B，0）消息，宿主查询共享集合，向共享集合内除 B 以外的结点发作废（0）消息，然后将共享集合更新为 {B}。最后 CPU B 把新数据写入 Cache B 行 0
CPU A 读块 0：读失效。本地向宿主结点发读不命中（A，0）消息，宿主给远程结点发取数据块（0）的消息，远程把数据块送给宿主结点，宿主把数据块送给本地结点，并更新共享集合为 {A，B}；最后 Cache A 把第 0 块的内容送给 CPU A
CPU C 写块 1: 写不命中。本地向宿主结点发写不命中（C，1）消息, 宿主把数据块送给本地结点并更新共享集合为 {C}，最后 CPU C 把新数据写入 Cache C 行 1
CPU D 写块 1: 写不命中; 本地向宿主结点发写不命中（D，1）的消息，宿主给远程结点发送取并作废（1）的消息，远程把数据块送给宿主结点，把 Cache 中的该行作废，宿主把把数据块送给本地结点并更新共享集合为 {D}，最后 CPU D 把新数据写入 Cache D 行 1
CPU D 读块 5: 读不命中。本地向被替换的宿主结点发写回并修改共享集（D，1）消息，本地向宿主结点发读不命中（D，5）消息，宿主把数据块送给本地结点并更新共享集合为 {D}，Cache D 把第 5 块的内容送给 CPU D

你可能感兴趣的:(计算机体系结构,计算机体系结构)

【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估贫苦游商学习服务器网络计算机体系结构 ISA 指令集量化评估
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估概论计算机体系结构简介计算机的分类并行体系结构指令集体系结构（ISA）分类存储器寻址寻址模式操作数大小指令ISA的编码程序的优化计算机体系结构量化评估存储器体系结构概论计算机体系结构与计算机组成原理之间的联系非常紧密，其研究范畴基本一致，计算机体系结构与计算机组成原理两者是相辅相成的。但是，计算机体系结构
指令系统和计算机体系结构——一文解析冯·诺依曼架构点滴汇聚江河软考-软件设计师架构
文章目录一、核心思想二、核心组成部分1.中央处理器（CPU）2.内存（Memory）3.输入/输出（I/O）设备4.总线（Bus）三、工作流程四、冯·诺依曼架构的局限性五、现代计算机的改进1.流水线技术（Pipeline）关键机制2.高速缓存（Cache）关键机制3.多核CPU（Multi-Core）关键挑战与解决方案4.乱序执行（Out-of-OrderExecution）关键技术5.其他关键改
Lua语言的计算机体系结构凌嘉遥包罗万象 golang 开发语言后端
Lua语言的计算机体系结构引言Lua是一种轻量级、高效且可扩展的脚本语言，最早由巴西的一个小组开发。它的设计目标是为嵌入式系统提供一个简洁的语言，从而使开发者能够在不同的应用程序中方便地进行扩展和集成。尽管Lua本身是一种面向过程的语言，但它也支持面向对象编程、函数式编程等多种编程范式。因此，研究Lua的计算机体系结构，不仅能帮助我们理解Lua如何实现其功能，还能为其他编程语言的设计与实现提供参考
计算机体系结构的五大流派，你知道几个？绿算技术计算机五大流派 https 信息与通信硬件工程缓存
在计算机的世界里，架构设计是决定性能和应用场景的关键。从经典的冯·诺依曼结构到现代的并行处理结构，每一种体系结构都有其独特的优势和适用场景。今天，我们绿算与大家一起聊聊计算机体系结构的五大流派，以及它们背后的厂商和应用领域。1.冯·诺依曼结构：现代计算机的基石冯·诺依曼结构是现代计算机的基础，几乎所有通用计算机系统都基于这一结构或其变体。它的核心特点是程序和数据共享同一存储空间，通过一条总线进行传
【计算机体系结构、微架构性能分析】core 与 uncore 分别是哪一些部分？区分 core 和 uncore Mercury_Lc #计算机体系结构计算机组成原理 #性能工程计算机体系结构微架构性能分析处理器核心 core与uncore core uncore
在计算机体系结构中，Core和Uncore是描述处理器内部架构的两个重要概念，尤其在多核处理器中更为常见。1.Core（核心）Core指的是处理器中的计算核心，是执行指令和处理数据的基本单元。每个核心都包含独立的执行单元、寄存器、缓存（如L1和L2缓存）以及控制逻辑。多核处理器中，多个核心可以并行执行任务，从而提高计算性能。Core的主要组成部分：算术逻辑单元（ALU）：执行算术和逻辑运算。浮点单
冯诺依曼架构和哈佛架构的主要区别？ web13688565871 面试学习路线阿里巴巴架构微服务云原生
冯诺依曼架构（VonNeumannArchitecture）和哈佛架构（HarvardArchitecture）是两种计算机体系结构，它们在存储器组织、指令处理和数据存取等方面有明显的不同。以下是它们的主要区别：1.存储器结构冯诺依曼架构：在冯诺依曼架构中，程序存储器和数据存储器是共享的，即指令和数据都存储在同一个内存区域（通常是RAM）中。由于指令和数据使用同一条总线来传输，处理器在每次访问内存
如何学习ARM嵌入式系统的设计 AAAA% 学习嵌入式硬件单片机
学习ARM嵌入式系统设计是一个系统性的过程，需要理论知识与实践技能相结合。以下是一份详细的学习路径指南，帮助你逐步掌握ARM嵌入式系统的设计：1.基础知识储备了解计算机体系结构：学习计算机组成原理，了解CPU、内存、IO等基本概念。学习C语言编程：C语言是嵌入式系统开发的主流语言，需要熟练掌握。理解操作系统原理：虽然嵌入式系统可能不总是运行完整的操作系统，但了解操作系统的基本概念对于理解系统设计至
一、系统分析师考试介绍 Rainbow酱系统分析系统分析软考
科目1考点考试介绍考试报名、考试科目、大纲及考点分析、证书价值、常见问题。视频课程规划、推荐资料、学习方法。计算机组成与结构数据的表示：进制转换、编码表示、逻辑运算、浮点数。校验码：奇偶校验码、循环冗余校验码、海明校验码。计算机硬件：硬件组成、CPU、寄存器等。计算机指令：寻址方式、指令流水线计算。计算机体系结构:Flynn分类,指令系统CISC和RISC。计算机存储系统：分级存储、cache、存
冯诺依曼计算机缺点,冯。诺依曼型计算机的缺点及改进方法.docx 游戏葡萄冯诺依曼计算机缺点
文档介绍：冯。诺依曼型计算机的缺点及改进方法从计算机诞生那天起,冯.诺依曼体系结构占据着主导地位,几十年来计算机体系结构理论并没有新理论出现。随着计算机应用范围的迅速扩大,使用计算机解决的问题规模也越来越大,因此对计算机运算速度的要求也越来越高。然而由于传统冯.诺依曼计算机体系结构天然所具有的局限性,从根本上限制了计算机的发展。冯。诺依曼计算机有四个主要部分:中央处理器、存储器、接口电路和外部设备
计算机二级——公共基础+WPS考点没有对象的野指针Z3 软考学习
计算机二级前辅文第1章计算机系统1.1概述1.1.1计算机的发展历程1.1.2计算机体系结构1.1.3计算机系统基本组成1.2计算机硬件系统1.2.1中央处理器1.2.2计算机的基本工作原理1.2.3存储器1.2.4数据的内部表示1.2.5总线和外设1.3操作系统1.3.1操作系统概述1.3.2进程管理1.3.3存储管理1.3.4文件管理1.3.5I/O设备管理习题1第2章数据结构与算法2.1算法
冯诺依曼架构和哈佛架构的主要区别？跟着杰哥学嵌入式架构
冯诺依曼架构（VonNeumannArchitecture）和哈佛架构（HarvardArchitecture）是两种计算机体系结构，它们在存储器组织、指令处理和数据存取等方面有明显的不同。以下是它们的主要区别：1.存储器结构冯诺依曼架构：在冯诺依曼架构中，程序存储器和数据存储器是共享的，即指令和数据都存储在同一个内存区域（通常是RAM）中。由于指令和数据使用同一条总线来传输，处理器在每次访问内存
字节序（Endian）、大端（Big-Endian）、小端（Little-Endian） qfnu08zzr ARM开发操作系统 motorola 存储网络 byte network ibm
在各种计算机体系结构中，对于字节、字等的存储机制有所不同，因而引发了计算机通信领域中一个很重要的问题，即通信双方交流的信息单元（比特、字节、字、双字等）应该以什么样的顺序传送。如果不达成一致的规则，通信双方将无法进行正确的编译码从而导致通信失败。目前在各种体系的计算机中通常采用的字节存储机制主要有两种：大端（Big-Endian）、小端（Little-Endian）。字节顺序（Endian）现代计
冯诺依曼架构和哈佛架构的主要区别？ m0_74824552 面试学习路线阿里巴巴架构微服务云原生
冯诺依曼架构（VonNeumannArchitecture）和哈佛架构（HarvardArchitecture）是两种计算机体系结构，它们在存储器组织、指令处理和数据存取等方面有明显的不同。以下是它们的主要区别：1.存储器结构冯诺依曼架构：在冯诺依曼架构中，程序存储器和数据存储器是共享的，即指令和数据都存储在同一个内存区域（通常是RAM）中。由于指令和数据使用同一条总线来传输，处理器在每次访问内存
大端模式和小端模式蝌蚪123456 java开发
转载自http://blog.csdn.net/hackbuteer1/article/details/7722667在各种计算机体系结构中，对于字节、字等的存储机制有所不同，因而引发了计算机通信领域中一个很重要的问题，即通信双方交流的信息单元（比特、字节、字、双字等等）应该以什么样的顺序进行传送。如果不达成一致的规则，通信双方将无法进行正确的编/译码从而导致通信失败。目前在各种体系的计算机中通常
CPU 指令集架构复杂指令集架构（CISC）和精简指令集架构（RISC） ARM、MIPS、RISC-V和Alpha 指令集架构（Instruction Set Architecture，ISA） EwenWanW AGI 架构 arm开发 risc-v
CPU指令集架构CPU指令集架构是计算机体系结构中与程序设计有关的重要部分。它定义了计算机如何执行和操作指令，是计算机执行程序的基础。指令集架构包括基本数据类型、指令集、寄存器、寻址模式、存储体系、中断、异常处理以及外部IO等多个方面。在CPU指令集架构中，主要有两种类型：复杂指令集架构（CISC）和精简指令集架构（RISC）。复杂指令集架构（CISC）的设计目标是尽可能将任务一次性完成，因此它的
CISC和RISC指令集 TENET- ARM架构架构嵌入式指令集
文章目录1.指令集2.CISC（复杂指令集计算）3.RISC（精简指令集计算）4.RISC的设计初衷5.CISC和RISC流程对比CISC（复杂指令集计算）的实现RISC（精简指令集计算）的实现比较与总结6.CISC与RISC指令对比7.RISC-V1.指令集指令集（InstructionSet）是计算机处理器（CPU）能够识别和执行的所有指令的集合。它是计算机体系结构的一个关键组成部分，定义了处
CSP知识点(人物) IZGRI c++
1958年9月12日，基尔比研制出世界上第一块集成电路，成功实现了把电子管器件集成在一块半导体材料上的构想。2000年，基尔比因发布集成电路而荣获诺贝尔物理学奖。最早提出计算机体系结构的人是冯诺依曼，他提出计算机应该具有五大部件，分别为存储器、运算器、控制器、输入设备和输出设备。其中，控制器和运算器又称CPU，是冯诺依曼计算机体系结构的核心，其他部件都是通过CPU进行通信的。1936年，数学家图灵
《C++内存对齐探秘：优化性能的关键步骤》程序猿阿伟 c++java jvm
在C++编程的深邃世界中，内存对齐是一个常常被忽视却又至关重要的概念。它不仅影响着程序的性能，还与硬件的高效运作紧密相连。让我们一同深入探索如何在C++中进行内存对齐，揭开这一神秘面纱，为我们的编程之旅增添强大的性能优化武器。一、什么是内存对齐内存对齐是指将数据安排在特定的内存地址上，以满足硬件的访问要求。在现代计算机体系结构中，内存访问通常是以特定的字节数为单位进行的，例如4字节、8字节等。如果
并发问题的根源：CPU/内存/IO设备的速度差异码上一元并发编程 java 多线程
CPU、内存、IO设备的速度差异程序整体的性能取决于最慢的操作—读写IO设备为了合理利用CPU的高性能，平衡三者的速度差异，计算机体系结构、操作系统、编译程序做了以下优化：CPU增加了缓存，以均衡与内存的速度差异；操作系统增加了进程、线程，以分时复用CPU，进而均衡CPU与I/O设备的速度差异；编译程序优化指令执行顺序，使得缓存能够更加合理的利用。并发程序的问题根源1.缓存导致的可见性问题单核时代
【jvm】栈顶缓存技术王佑辉 jvm jvm
目录1.说明2.技术背景3.技术原理4.应用场景5.优势与局限5.1优势5.2局限1.说明1.栈顶缓存技术（Top-of-StackCaching，简称ToS）。2.是一种在计算机体系结构中用于提高指令执行性能的优化技术。3.通常与流水线处理器（pipelining）相关，旨在减少数据冒险（datahazards）和控制冒险（controlhazards）,从而提升处理器的执行效率。4.栈顶缓存技
C++竞赛初阶L1-14-第六单元-数组(31~33课)541: T456471 计算书费麓小墨哥 c++免费文章 c++开发语言青少年编程算法数据结构
题目内容下面是一个图书的单价表：计算概论28.9元/本数据结构与算法32.7元/本数字逻辑45.6元/本C++程序设计教程78元/本人工智能35元/本计算机体系结构86.2元/本编译原理27.8元/本操作系统43元/本计算机网络56元/本JAVA程序设计65元/本依次给定每种图书购买的数量，编程计算应付的总费用。输入格式输入一行，含10个非负整数，每两个整数之间有一个空格。第i个整数表示要购买上述
CPU内部结构窥探·「8」--ARMv8的流水线机制冬大大计算机体系结构计算机体系结构 CPU 流水线机制
ARMv8流水线机制分析引言在现代计算机体系结构中，流水线技术是提升处理器性能的重要手段。ARMv8架构作为一款广泛应用于移动设备、嵌入式系统以及服务器中的高效处理器，其流水线机制尤为重要。本文将深入分析ARMv8的流水线机制，探讨其工作原理、设计特点以及优化策略。什么是流水线？流水线是一种将指令执行过程分解为若干个阶段，并使这些阶段能够并行执行的技术。每个阶段完成指令的一部分工作，从而提高整体指
计算机体系结构详解：冯·诺依曼与哈佛体系欢迎交流计算机组成原理嵌入式硬件
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、冯·诺依曼体系结构背景与发展核心特点：优缺点应用领域二、哈佛体系结构三、总结与比较一、冯·诺依曼体系结构背景与发展冯·诺依曼体系结构，又称为普林斯顿体系结构，得名于20世纪40年代中期的约翰·冯·诺依曼及其团队。这一体系结构奠定了现代电子计算机的基本框架，至今仍是大多数计算机系统的核心设计基础。核心特点：数据与指令共享内存
算法部署优化工程师面试题整理发狂的小花 C/C++面试宝典算法面试性能优化计算机视觉
原文来自【知乎-高性能计算方向面试问题总结】个人简介：一个全栈工程师的升级之路！个人专栏：C/C++面试整理CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录整体情况简介高性能计算基础AI框架知识算法题一些比较零碎的问题推荐参考资料整体情况简介面试中的问题基本上分成以下几类：基础的八股文：C/C++，OS，计算机体系结构等。这一部分略，网上已经有很多总结了。高性能计算基础知识：这一部分是
哈佛结构和冯诺依曼结构 UPUPUPEveryday 嵌入式单片机单片机 stm32 嵌入式硬件 mcu
哈佛结构和冯诺依曼结构的联系和区别哈佛结构和冯诺依曼结构是计算机体系结构中两种常见的组织方式，它们有一些联系和区别。联系：数据和指令的存储方式：哈佛结构和冯诺依曼结构都将数据和指令存储在计算机的存储器中，但它们的存储方式略有不同。运算方式：哈佛结构和冯诺依曼结构在进行运算时都采用类似的算法和操作。区别：存储器的划分方式：哈佛结构将指令存储器和数据存储器分开存储，每个存储器有独立的地址空间；而冯诺依
java多线程——并发数据不一致java中的解决方案台风天赋 java多线程多线程 java 并发编程
多线程并发编程线程安全主要是由于多线程并发、同时操作共享变量导致的数据不一致。至于共享变量，需要涉及到计算机体系结构的内容：因为现代计算机都一般是设置了两级甚至三级cache。以两级cache为例：假设此时有两个CUP，线程1 线程2 | | v v CUP1 CUP2 | | v v Cache1-1 Cache2-1 | V 公用c
【软考中级备考笔记】计算机体系结构 lyx7762 笔记软考计算机组成原理
计算机体系结构2月19日–天气：阴转小雪1.冯诺依曼计算机体系结构冯诺依曼将计算机分为了五大部分，分别是：控制器：主要负责协调指令到执行运算器：负责算数和逻辑运算存储器：负责存储在指令执行过程中产生的一些中间变量输出输出设备：用于接收用户输入并将结果显示给用户冯诺依曼计算机体系结构由一下特点：冯·诺依曼计算机主要由五大部件组成，分别是：运算器、控制器、存储器、输入设备和输出设备；冯诺依曼体系结构的
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——计算机体系结构沐风—云端行者研究生复试—面试——速记资料软件工程考研计算机体系结构计算机人工智能
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍3.计算机体系结构1.基本概念2.指令与寻址3.输入输出系统、贮存体系现代：存储器为中心冯诺依曼：运算器为中心段页式：三次段式或页式：两次4.流水技术原理瓶颈段不能被分割6.互联网络
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——JAVA 沐风—云端行者研究生复试—面试——速记资料 java 软件工程开发语言考研
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍1.Java1.==和equals的区别比较基本数据类型是比较的值，引用数据类型是比较两个是不是同一个对象，也就是引用是否指向同一个对象，地址是否相同，equals本质上也是，但是可以重写这个方法，比如String和Integer类。2.为什么重写equals要重写hashcode？我个人
【研究生复试】计算机&软件工程&人工智能研究生复试——资料整理（速记版）——数据库沐风—云端行者研究生复试—面试——速记资料软件工程数据库考研计算机
1、JAVA2、计算机网络3、计算机体系结构4、数据库5、计算机租场原理6、软件工程7、大数据8、英文自我介绍4.数据库1.B+树相对于B树的区别及优势B树中有重复元素，B树没有重复元素B树种每个节点都存储了key和data，B+树内节点去掉了其中指向数据(datarecord)的指针，使得每个节点中可以存放更多的key，意味着树的高度可以被压缩B+树的叶子节点是链表形式，可以更方便的进行顺序遍历
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方