Deconx

CSAPP-Lab04 Architecture Lab 深入解析

穷且益坚，不坠青云之志。

实验概览

Arch Lab 实验分为三部分。在 A 部分中，需要我们写一些简单的Y86-64程序，从而熟悉Y86-64工具的使用；在 B 部分中，我们要用一个新的指令来扩展SEQ；C 部分是本实验的核心，我们要通过理解流水线的过程以及利用新的指令来优化程序。

实验材料中有一个archlab.pdf，按照文档一步步往下走就可以了。make时，可能会缺少相关依赖，安装如下软件即可

sudo apt install tcl tcl-dev tk tk-dev
sudo apt install flex
sudo apt install bison

Part A

在这部分，要用Y86-64汇编代码实现examples.c中的三个函数。这三个函数都是与链表有关的操作，链表结点定义如下

/* linked list element */
typedef struct ELE {
    long val;
    struct ELE *next;
} *list_ptr;

在编写汇编代码之前，我们先回顾一下Y86-64的指令集：

# movq i-->r: 从立即数到寄存器...
irmovq, rrmovq, mrmovq, rmmovq

# Opq
addq, subq, andq, xorq

# 跳转 jXX
jmp, jle, jl, je, jne, jge, jg

# 条件传送 cmovXX
cmovle, cmovl, cmove, cmovne, cmovge, cmovg

call, ret
pushq, popq

# 停止指令的执行
halt

# 寄存器
%rax, %rcx, %rdx
%rbx, %rsp, %rbp
%rsi, %rdi, %r8
%r9, %r10, %r11
%r12, %r13, %r14

sum_list

/* sum_list - Sum the elements of a linked list */
long sum_list(list_ptr ls)
{
    long val = 0;
    while (ls) {
        val += ls->val;
        ls = ls->next;
    }
    return val;
}

本题就是一个链表求和，非常简单。但要注意，这里不仅要写出函数段，还应该写出测试的代码段。直接给出转换后的汇编代码：

# sum_list - Sum the elements of a linked list
# author: Deconx

# Execution begins at address 0
        .pos 0
        irmovq stack, %rsp      # Set up stack pointer
        call main               # Execute main program
        halt                    # Terminate program

# Sample linked list
        .align 8
ele1:
        .quad 0x00a
        .quad ele2
ele2:
        .quad 0x0b0
        .quad ele3
ele3:
        .quad 0xc00
        .quad 0

main:
        irmovq ele1,%rdi
        call sum_list
        ret

# long sum_list(list_ptr ls)
# start in %rdi
sum_list:
        irmovq $0, %rax
        jmp test

loop:
        mrmovq (%rdi), %rsi
        addq %rsi, %rax
        mrmovq 8(%rdi), %rdi

test:
        andq %rdi, %rdi
        jne loop
        ret

# Stack starts here and grows to lower addresses
        .pos 0x200
stack:

注意，应在stack下方空一行，否则汇编器会报错，报错原因我也不清楚。

利用实验文件中给的YAS汇编器进行汇编，YIS指令集模拟器运行测试

./yas sum.ys
./yis sum.yo

得到结果

返回值%rax=0xcba=0x00a+0x0b0+0xc00，结果正确！

rsum_list

/* rsum_list - Recursive version of sum_list */
long rsum_list(list_ptr ls)
{
    if (!ls)
        return 0;
    else {
        long val = ls->val;
        long rest = rsum_list(ls->next);
        return val + rest;
    }
}

这是链表求和的递归实现，按照C语言代码的过程模拟即可，思路非常清晰，可以参考我的注释

# /* rsum_list - Recursive version of sum_list */
# author: Deconx

# Execution begins at address 0
        .pos 0
        irmovq stack, %rsp      # Set up stack pointer
        call main               # Execute main program
        halt                    # Terminate program

# Sample linked list
        .align 8
ele1:
        .quad 0x00a
        .quad ele2
ele2:
        .quad 0x0b0
        .quad ele3
ele3:
        .quad 0xc00
        .quad 0

main:
        irmovq ele1,%rdi
        call rsum_list
        ret

# long sum_list(list_ptr ls)
# start in %rdi
rsum_list:
        andq %rdi, %rdi
        je return               # if(!ls)
        mrmovq (%rdi), %rbx     # val = ls->val
        mrmovq 8(%rdi), %rdi    # ls = ls->next
        pushq %rbx
        call rsum_list          # rsum_list(ls->next)
        popq %rbx
        addq %rbx, %rax         # val + rest
        ret
return:
        irmovq $0, %rax
        ret


# Stack starts here and grows to lower addresses
        .pos 0x200
stack:

测试

结果正确！

copy_block

/* copy_block - Copy src to dest and return xor checksum of src */
long copy_block(long *src, long *dest, long len)
{
    long result = 0;
    while (len > 0) {
        long val = *src++;
        *dest++ = val;
        result ^= val;
        len--;
    }
    return result;
}

数组赋值操作，返回值为原数组各项的按位异或

这段代码的架构与书上图 4-7的例子完全相同，包括常数的处理，循环的设置技巧，退出循环的判断... 照猫画虎即可，当然，我也在后面附上了注释

/* copy_block - Copy src to dest and return xor checksum of src */
# author: Deconx

# Execution begins at address 0
        .pos 0
        irmovq stack, %rsp      # Set up stack pointer
        call main               # Execute main program
        halt                    # Terminate program

# Sample
        .align 8
# Source block
src:
        .quad 0x00a
        .quad 0x0b0
        .quad 0xc00

# Destination block
dest:
        .quad 0x111
        .quad 0x222
        .quad 0x333

main:
        irmovq src, %rdi        # src
        irmovq dest, %rsi       # dest
        irmovq $3, %rdx         # len
        call copy_block
        ret

# long copy_block(long *src, long *dest, long len)
# src in %rdi
# dest in %rsi
# len in %rdx
copy_block:
        irmovq $8, %r8
        irmovq $1, %r9
        irmovq $0, %rax
        andq %rdx, %rdx
        jmp test
loop:
        mrmovq (%rdi), %r10     # val = *src1
        addq %r8, %rdi          # src++
        rmmovq %r10, (%rsi)     # *dest = val
        addq %r8, %rsi          # dest++
        xorq %r10, %rax         # result ^= val
        subq %r9, %rdx          # len--.  Set CC
test:
        jne loop                # Stop when 0
        ret
        
# Stack starts here and grows to lower addresses
        .pos 0x200
stack:

编译运行一下

结果完全正确

Part B

Part B 整合了第 4 章的 homework - 4.51, 4.52。就是实现iaddq指令，将立即数与寄存器相加。可以参考irmovq和OPq指令的计算。在开始之前，我们还是先回顾一下处理一条指令的各个阶段吧！

回顾：指令处理框架

取址：根据 PC 的值从内存中读取指令字节
- 指令指示符字节的两个四位部分，为icode:ifun
- 寄存器指示符字节，为 rA, rB
- 8字节常数字，为 valC
- 计算下一条指令地址，为 valP
译码：从寄存器读入最多两个操作数
- 由 rA, rB 指明的寄存器，读为 valA, valB
- 对于指令popq, pushq, call, ret也可能从%rsp中读
执行：根据ifun计算，或计算内存引用的有效地址，或增加或减少栈指针
- 对上述三者之一进行的操作得到的值为valE
- 如果是计算，则设置条件码
- 对于条件传送指令，检验条件码和传送条件，并据此更新目标寄存器
- 对于跳转指令，决定是否选择分支
访存：顾名思义
- 可能是将数据写入内存
- 若是从内存中读出数据，则读出的值为valM
写回：最多写两个结果到寄存器
更新 PC：将 PC 设置成下一条指令的地址

`iaddq`指令执行过程

iaddq的执行与Opq非常相似，后者需要取出rA与rB分别指示的寄存器进行运算后再写回rB指示的寄存器。而前者与后者唯一的区别就是，不需要从rA中取数，直接立即数计算即可。

指令为：iaddq V, rB
取指：
	icode:ifun <- M_1[PC]
	rA:rB <- M_1[PC+1]
	valC <- M_8[PC+2]
	valP <- PC+10

译码：
	valB <- R[rB]

执行：
	valE <-  valB + valC
	Set CC

访存：
	
写回：
	R[rB] <- valE

更新PC：
	PC <- valP

修改`HCL`代码

接下来要在seq-full.hcl文件中修改代码。由于iaddq的操作与OPq和irmovq类似，比较取巧的做法是，搜索有这两个指令的描述块进行修改即可。本着学习的目的，我们分阶段对所有信号逐个分析

取指阶段

instr_valid：判断指令是否合法，当然应该加上。修改后为

bool instr_valid = icode in 
	{ INOP, IHALT, IRRMOVQ, IIRMOVQ, IRMMOVQ, IMRMOVQ,
	       IOPQ, IJXX, ICALL, IRET, IPUSHQ, IPOPQ, IIADDQ };

need_regids：判断指令是否包括寄存器指示符字节，当然也应该加上

bool need_regids =
	icode in { IRRMOVQ, IOPQ, IPUSHQ, IPOPQ, 
		     IIRMOVQ, IRMMOVQ, IMRMOVQ, IIADDQ };

need_valC：判断指令是否包括常数字，还是要加上

bool need_valC =
	icode in { IIRMOVQ, IRMMOVQ, IMRMOVQ, IJXX, ICALL, IIADDQ };

译码和写回阶段

srcB：赋为产生valB的寄存器。译码阶段要从rA, rB 指明的寄存器读为 valA, valB，而iaddq有一个rB，于是有以下修改

word srcB = [
	icode in { IOPQ, IRMMOVQ, IMRMOVQ, IIADDQ  } : rB;
	icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP;
	1 : RNONE;  # Don't need register
];

dst_E：表明写端口 E 的目的寄存器，计算出来的值valE将放在那里。最终结果要存放在rB中，所以要修改

word dstE = [
	icode in { IRRMOVQ } && Cnd : rB;
	icode in { IIRMOVQ, IOPQ, IIADDQ } : rB;
	icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP;
	1 : RNONE;  # Don't write any register
];

执行阶段

执行阶段ALU要对aluA和aluB进行计算，计算格式为：aluB OP aluA。所以aluaA可以是valA和valC或者+-8，aluaB只能是valB。而iaddq执行阶段进行的运算是valB + valC，于是可知修改

## Select input A to ALU
word aluA = [
	icode in { IRRMOVQ, IOPQ } : valA;
	icode in { IIRMOVQ, IRMMOVQ, IMRMOVQ, IIADDQ } : valC;
	icode in { ICALL, IPUSHQ } : -8;
	icode in { IRET, IPOPQ } : 8;
	# Other instructions don't need ALU
];

## Select input B to ALU
word aluB = [
	icode in { IRMMOVQ, IMRMOVQ, IOPQ, ICALL, 
		      IPUSHQ, IRET, IPOPQ, IIADDQ } : valB;
	icode in { IRRMOVQ, IIRMOVQ } : 0;
	# Other instructions don't need ALU
];

set_cc：判断是否应该更新条件码寄存器，这里应该加上

bool set_cc = icode in { IOPQ, IIADDQ };

访存阶段

iaddq没有访存阶段，无需修改

更新PC阶段

iaddq不涉及转移等操作，也无需修改

测试`SEQ`

编译失败处理办法

编译ssim的时候出现了很多问题：

提示不存在tk.h这个头文件，这是由于实验文件太老。把Makefile修改一下。第 20 行改为

TKINC=-isystem /usr/include/tcl8.6

第 26 行改为

CFLAGS=-Wall -O2 -DUSE_INTERP_RESULT

但是接下来还是报错了

/usr/bin/ld: /tmp/ccKTMI04.o:(.data.rel+0x0): undefined reference to `matherr'
collect2: error: ld returned 1 exit status
make: *** [Makefile:44: ssim] Error 1

这是因为较新版本glibc弃用了这部分内容

解决办法是注释掉 /sim/pipe/psim.c 806、807 line和 /sim/seq/ssim.c 844、845 line。即：有源代码中有matherr的一行和它的下一行

接下来就能编译成功了！虽然会有很多 Warning

测试

第一轮测试

运行一个简单的Y86-64 程序，并将结果ISA模拟器的结果进行比对，输出如下

> ./ssim -t ../y86-code/asumi.yo
Y86-64 Processor: seq-full.hcl
137 bytes of code read
IF: Fetched irmovq at 0x0.  ra=----, rb=%rsp, valC = 0x100
IF: Fetched call at 0xa.  ra=----, rb=----, valC = 0x38
Wrote 0x13 to address 0xf8
IF: Fetched irmovq at 0x38.  ra=----, rb=%rdi, valC = 0x18
IF: Fetched irmovq at 0x42.  ra=----, rb=%rsi, valC = 0x4
IF: Fetched call at 0x4c.  ra=----, rb=----, valC = 0x56
Wrote 0x55 to address 0xf0
IF: Fetched xorq at 0x56.  ra=%rax, rb=%rax, valC = 0x0
IF: Fetched andq at 0x58.  ra=%rsi, rb=%rsi, valC = 0x0
IF: Fetched jmp at 0x5a.  ra=----, rb=----, valC = 0x83
IF: Fetched jne at 0x83.  ra=----, rb=----, valC = 0x63
IF: Fetched mrmovq at 0x63.  ra=%r10, rb=%rdi, valC = 0x0
IF: Fetched addq at 0x6d.  ra=%r10, rb=%rax, valC = 0x0
IF: Fetched iaddq at 0x6f.  ra=----, rb=%rdi, valC = 0x8
IF: Fetched iaddq at 0x79.  ra=----, rb=%rsi, valC = 0xffffffffffffffff
IF: Fetched jne at 0x83.  ra=----, rb=----, valC = 0x63
IF: Fetched mrmovq at 0x63.  ra=%r10, rb=%rdi, valC = 0x0
IF: Fetched addq at 0x6d.  ra=%r10, rb=%rax, valC = 0x0
IF: Fetched iaddq at 0x6f.  ra=----, rb=%rdi, valC = 0x8
IF: Fetched iaddq at 0x79.  ra=----, rb=%rsi, valC = 0xffffffffffffffff
IF: Fetched jne at 0x83.  ra=----, rb=----, valC = 0x63
IF: Fetched mrmovq at 0x63.  ra=%r10, rb=%rdi, valC = 0x0
IF: Fetched addq at 0x6d.  ra=%r10, rb=%rax, valC = 0x0
IF: Fetched iaddq at 0x6f.  ra=----, rb=%rdi, valC = 0x8
IF: Fetched iaddq at 0x79.  ra=----, rb=%rsi, valC = 0xffffffffffffffff
IF: Fetched jne at 0x83.  ra=----, rb=----, valC = 0x63
IF: Fetched mrmovq at 0x63.  ra=%r10, rb=%rdi, valC = 0x0
IF: Fetched addq at 0x6d.  ra=%r10, rb=%rax, valC = 0x0
IF: Fetched iaddq at 0x6f.  ra=----, rb=%rdi, valC = 0x8
IF: Fetched iaddq at 0x79.  ra=----, rb=%rsi, valC = 0xffffffffffffffff
IF: Fetched jne at 0x83.  ra=----, rb=----, valC = 0x63
IF: Fetched ret at 0x8c.  ra=----, rb=----, valC = 0x0
IF: Fetched ret at 0x55.  ra=----, rb=----, valC = 0x0
IF: Fetched halt at 0x13.  ra=----, rb=----, valC = 0x0
32 instructions executed
Status = HLT
Condition Codes: Z=1 S=0 O=0
Changed Register State:
%rax:   0x0000000000000000      0x0000abcdabcdabcd
%rsp:   0x0000000000000000      0x0000000000000100
%rdi:   0x0000000000000000      0x0000000000000038
%r10:   0x0000000000000000      0x0000a000a000a000
Changed Memory State:
0x00f0: 0x0000000000000000      0x0000000000000055
0x00f8: 0x0000000000000000      0x0000000000000013
ISA Check Succeeds

成功！

标准测试

运行一个标准检查程序

> cd ../y86-code; make testssim
../seq/ssim -t asum.yo > asum.seq
../seq/ssim -t asumr.yo > asumr.seq
../seq/ssim -t cjr.yo > cjr.seq
../seq/ssim -t j-cc.yo > j-cc.seq
../seq/ssim -t poptest.yo > poptest.seq
../seq/ssim -t pushquestion.yo > pushquestion.seq
../seq/ssim -t pushtest.yo > pushtest.seq
../seq/ssim -t prog1.yo > prog1.seq
../seq/ssim -t prog2.yo > prog2.seq
../seq/ssim -t prog3.yo > prog3.seq
../seq/ssim -t prog4.yo > prog4.seq
../seq/ssim -t prog5.yo > prog5.seq
../seq/ssim -t prog6.yo > prog6.seq
../seq/ssim -t prog7.yo > prog7.seq
../seq/ssim -t prog8.yo > prog8.seq
../seq/ssim -t ret-hazard.yo > ret-hazard.seq
grep "ISA Check" *.seq
asum.seq:ISA Check Succeeds
asumr.seq:ISA Check Succeeds
cjr.seq:ISA Check Succeeds
j-cc.seq:ISA Check Succeeds
poptest.seq:ISA Check Succeeds
prog1.seq:ISA Check Succeeds
prog2.seq:ISA Check Succeeds
prog3.seq:ISA Check Succeeds
prog4.seq:ISA Check Succeeds
prog5.seq:ISA Check Succeeds
prog6.seq:ISA Check Succeeds
prog7.seq:ISA Check Succeeds
prog8.seq:ISA Check Succeeds
pushquestion.seq:ISA Check Succeeds
pushtest.seq:ISA Check Succeeds
ret-hazard.seq:ISA Check Succeeds
rm asum.seq asumr.seq cjr.seq j-cc.seq poptest.seq pushquestion.seq pushtest.seq prog1.seq prog2.seq prog3.seq prog4.seq prog5.seq prog6.seq prog7.seq prog8.seq ret-hazard.seq

全部都是 Succeeds

回归测试

测试除iaddq的所有指令

专门测试iaddq指令

于是，我们就通过了实验材料中的所有测试用例！

Part C

Part C 在sim/pipe中进行。PIPE 是使用了转发技术的流水线化的Y86-64处理器。它相比 Part B 增加了流水线寄存器和流水线控制逻辑。

在本部分中，我们要通过修改pipe-full.hcl和ncopy.ys来优化程序，通过程序的效率，也就是 CPE 来计算我们的分数，分数由下述公式算出

\[S=\begin{cases} 0, c>10.5\\ 20\cdot \left( 10.5-c \right) , 7.50\leqslant c\leqslant 10.50\\ 60, c<7.50\\ \end{cases} \]

首先，iaddq是一个非常好的指令，它可以把两步简化为一步，所以我们先修改pipe-full.hcl，增加iaddq指令，修改参考 Part B 即可。稳妥起见，修改后还是应该测试一下这个模拟器，Makefile参考 Part B 部分进行同样的修改后编译。然后执行以下命令进行测试：

./psim -t ../y86-code/asumi.yo
cd ../ptest; make SIM=../pipe/psim
cd ../ptest; make SIM=../pipe/psim TFLAGS=-i

当所有测试都显示 Succeed 后，就可以真正开始本部分的重头戏了！

ncopy函数将一个长度为len的整型数组src复制到一个不重叠的数组dst，并返回src中正数的个数。C 语言代码如下

/*
 * ncopy - copy src to dst, returning number of positive ints
 * contained in src array.
 */
word_t ncopy(word_t *src, word_t *dst, word_t len)
{
    word_t count = 0;
    word_t val;

    while (len > 0) {
	val = *src++;
	*dst++ = val;
	if (val > 0)
	    count++;
	len--;
    }
    return count;
}

原汇编代码如下：

# You can modify this portion
	# Loop header
	xorq %rax,%rax		# count = 0;
	andq %rdx,%rdx		# len <= 0?
	jle Done		# if so, goto Done:

Loop:	mrmovq (%rdi), %r10	# read val from src...
	rmmovq %r10, (%rsi)	# ...and store it to dst
	andq %r10, %r10		# val <= 0?
	jle Npos		# if so, goto Npos:
	irmovq $1, %r10
	addq %r10, %rax		# count++
Npos:	irmovq $1, %r10
	subq %r10, %rdx		# len--
	irmovq $8, %r10
	addq %r10, %rdi		# src++
	addq %r10, %rsi		# dst++
	andq %rdx,%rdx		# len > 0?
	jg Loop			# if so, goto Loop:

先分别执行以下命令，对原始代码测试一波 CPE

./correctness.pl
./benchmark.pl

得

Average CPE     15.18
Score   0.0/60.0

利用`iaddq`

首先能够直观看到，为了len--/src++/dst++等操作，对%rdi进行了不少次赋值操作，这些都可以用我们新增的iaddq指令替代。

替代后代码为

# You can modify this portion
	# Loop header
	xorq %rax,%rax		# count = 0;
	andq %rdx,%rdx		# len <= 0?
	jle Done		# if so, goto Done:

Loop:	
	mrmovq (%rdi), %r10	# read val from src...
	rmmovq %r10, (%rsi)	# ...and store it to dst
	andq %r10, %r10		# val <= 0?
	jle Npos		# if so, goto Npos:
	iaddq $1, %rax		# count++
Npos:	
	iaddq $-1, %rdx		# len--
	iaddq $8, %rdi		# src++
	iaddq $8, %rsi		# dst++
	andq %rdx,%rdx		# len > 0?
	jg Loop			# if so, goto Loop:

测试 CPE

Average CPE     12.70
Score   0.0/60.0

虽然分数还是0，但已经有了不少提升

循环展开

根据文档的提示，可以试试循环展开进行优化。循环展开通过增加每次迭代计算的元素的数量，减少循环的迭代次数。这样做对效率提升有什么作用呢？

减少了索引计算的次数
减少了条件分支的判断次数

那么展开几路效率最高呢？我从5路展开开始分别进行了测试

5路：
    Average CPE     9.61
	Score   17.8/60.0

6路：
    Average CPE     9.58
	Score   18.3/60.0
    
7路：
    Average CPE     9.59
	Score   18.2/60.0
    
8路：
    Average CPE     9.62
	Score   17.5/60.0

所以，我选择进行6路展开

	# Loop header
	andq %rdx,%rdx		# len <= 0?
	jmp test
Loop:
	mrmovq (%rdi),%r8
	rmmovq %r8,(%rsi)
	andq %r8,%r8
	jle Loop1
	iaddq $1,%rax
Loop1:
	mrmovq 8(%rdi),%r8
	rmmovq %r8,8(%rsi)
	andq %r8,%r8
	jle Loop2
	iaddq $1,%rax
Loop2:
	mrmovq 16(%rdi),%r8
	rmmovq %r8,16(%rsi)
	andq %r8,%r8
	jle Loop3
	iaddq $1,%rax
Loop3:
	mrmovq 24(%rdi),%r8
	rmmovq %r8,24(%rsi)
	andq %r8,%r8
	jle Loop4
	iaddq $1,%rax
Loop4:
	mrmovq 32(%rdi),%r8
	rmmovq %r8,32(%rsi)
	andq %r8,%r8
	jle Loop5
	iaddq $1,%rax
Loop5:
	mrmovq 40(%rdi),%r8
	rmmovq %r8,40(%rsi)
	iaddq $48,%rdi
	iaddq $48,%rsi
	andq %r8,%r8
	jle test
	iaddq $1,%rax	
test:
	iaddq $-6, %rdx			# 先减，判断够不够6个
	jge Loop				# 6路展开
	iaddq $-8,%rdi
	iaddq $-8,%rsi
	iaddq $6, %rdx
	jmp test2				#剩下的
Lore:
	mrmovq (%rdi),%r8
	rmmovq %r8,(%rsi)
	andq %r8,%r8
	jle test2
	iaddq $1,%rax
test2:
	iaddq $8,%rdi
	iaddq $8,%rsi
	iaddq $-1, %rdx
	jge Lore

代码逻辑非常简单：每次循环都对6个数进行复制，每次复制就设置一个条件语句判断返回时是否加1，对于剩下的数据每次循环只对1个数进行复制。

为了方便分析，我把极端的几个例子的情况列下来：

        ncopy
0       26
1       35      35.00
2       47      23.50
3       56      18.67
4       68      17.00
5       77      15.40
6       69      11.50
7       78      11.14
8       90      11.25
9       99      11.00
10      111     11.10
11      120     10.91
12      112     9.33
13      121     9.31
14      133     9.50
15      142     9.47
16      154     9.62
17      163     9.59
18      155     8.61
...
50      391     7.82
51      400     7.84
52      412     7.92
53      421     7.94
54      413     7.65
55      422     7.67
56      434     7.75
57      443     7.77
58      455     7.84
59      464     7.86
60      456     7.60
61      465     7.62
62      477     7.69
63      486     7.71
64      498     7.78
Average CPE     9.58
Score   18.3/60.0

观察上表，对于小数据而言， CPE 的值非常大，后续可以考虑对小数据进行优化。我们先优化剩余数据的处理，对他们继续进行循环展开。

剩余数据处理

对于剩余数据，我选择3路循环展开。前面的6路与上面代码一样，我就不再贴出来了

# Loop header
	andq %rdx,%rdx		# len <= 0?
	jmp test
Loop:...
Loop1:...
...
Loop4:...
Loop5:...
test:
	iaddq $-6, %rdx			# 先减，判断够不够6个
	jge Loop				# 6路展开
	iaddq $6, %rdx
	jmp test2				#剩下的

L:
	mrmovq (%rdi),%r8
	rmmovq %r8,(%rsi)
	andq %r8,%r8
	jle L1
	iaddq $1,%rax
L1:
	mrmovq 8(%rdi),%r8
	rmmovq %r8,8(%rsi)
	andq %r8,%r8
	jle L2
	iaddq $1,%rax
L2:
	mrmovq 16(%rdi),%r8
	rmmovq %r8,16(%rsi)
	iaddq $24,%rdi
	iaddq $24,%rsi
	andq %r8,%r8
	jle test2
	iaddq $1,%rax
test2:
	iaddq $-3, %rdx			# 先减，判断够不够3个
	jge L
	iaddq $2, %rdx			# -1则不剩了，直接Done,0 剩一个, 1剩2个
    je R0
    jl Done
	mrmovq (%rdi),%r8
	rmmovq %r8,(%rsi)
	andq %r8,%r8
	jle R2
	iaddq $1,%rax
R2:
	mrmovq 8(%rdi),%r8
	rmmovq %r8,8(%rsi)
	andq %r8,%r8
	jle Done
	iaddq $1,%rax
	jmp Done
R0:
	mrmovq (%rdi),%r8
	rmmovq %r8,(%rsi)
	andq %r8,%r8
	jle Done
	iaddq $1,%rax

注意对于3路展开的特殊处理。看第38、39行，通过直接判断剩余数据的数量减少一次条件判断

CPE 值为

Average CPE     9.07
Score   28.5/60.0

提升了很多，但是依然连一般的分数都还没拿到...

消除气泡

注意，程序多次使用了下面的操作：

mrmovq (%rdi), %r8
rmmovq %r8, (%rsi)

Y86-64处理器的流水线有 F(取指)、D(译码)、E(执行)、M(访存)、W(写回) 五个阶段，D 阶段才读取寄存器，M 阶段才读取对应内存值，

即使使用转发来避免数据冒险，这其中也至少会有一个气泡。像这样

mrmovq (%rdi), %r8
bubble
rmmovq %r8, (%rsi)

一个优化办法是，多取一个寄存器，连续进行两次数据复制。

mrmovq (%rdi), %r8
mrmovq 8(%rdi), %r9
rmmovq %r8, (%rsi)
rmmovq %r9, 8(%rsi)

像这样，对%r8和%r9进行读入和读出的操作之间都隔着一条其他指令，就不会有气泡产生了。代码如下：

	# Loop header
	andq %rdx,%rdx		# len <= 0?
	jmp test
Loop:
	mrmovq (%rdi),%r8
	mrmovq 8(%rdi),%r9
	andq %r8,%r8
	rmmovq %r8,(%rsi)
	rmmovq %r9,8(%rsi)
	jle Loop1
	iaddq $1,%rax
Loop1:	
	andq %r9,%r9
	jle Loop2
	iaddq $1,%rax
Loop2:
	mrmovq 16(%rdi),%r8
	mrmovq 24(%rdi),%r9
	andq %r8,%r8
	rmmovq %r8,16(%rsi)
	rmmovq %r9,24(%rsi)
	jle Loop3
	iaddq $1,%rax
Loop3:	
	andq %r9,%r9
	jle Loop4
	iaddq $1,%rax
Loop4:
	mrmovq 32(%rdi),%r8
	mrmovq 40(%rdi),%r9
	andq %r8,%r8
	rmmovq %r8,32(%rsi)
	rmmovq %r9,40(%rsi)
	jle Loop5
	iaddq $1,%rax
Loop5:
	iaddq $48,%rdi
	iaddq $48,%rsi		
	andq %r9,%r9
	jle test
	iaddq $1,%rax
test:
	iaddq $-6, %rdx			# 先减，判断够不够6个
	jge Loop				# 6路展开
	iaddq $6, %rdx
	jmp test2				#剩下的

L:
	mrmovq (%rdi),%r8
	andq %r8,%r8
	rmmovq %r8,(%rsi)
	jle L1
	iaddq $1,%rax
L1:
	mrmovq 8(%rdi),%r8
	andq %r8,%r8
	rmmovq %r8,8(%rsi)
	jle L2
	iaddq $1,%rax
L2:
	mrmovq 16(%rdi),%r8
	iaddq $24,%rdi
	rmmovq %r8,16(%rsi)
	iaddq $24,%rsi
	andq %r8,%r8
	jle test2
	iaddq $1,%rax
test2:
	iaddq $-3, %rdx			# 先减，判断够不够3个
	jge L
	iaddq $2, %rdx			# -1则不剩了，直接Done,0 剩一个, 1剩2个
    je R0
    jl Done
	mrmovq (%rdi),%r8
	mrmovq 8(%rdi),%r9
	rmmovq %r8,(%rsi)
	rmmovq %r9,8(%rsi)
	andq %r8,%r8
	jle R2
	iaddq $1,%rax
R2:
	andq %r9,%r9
	jle Done
	iaddq $1,%rax
	jmp Done
R0:
	mrmovq (%rdi),%r8
	andq %r8,%r8
	rmmovq %r8,(%rsi)
	jle Done
	iaddq $1,%rax

注意，只有rmmovq不改变条件寄存器的值，所以我们也可以把andq插进中间来消除气泡。

CPE 值为

Average CPE     8.16
Score   46.9/60.0

这一步的提升是巨大的！我的分数终于像点样子了！

进一步优化

这里先留个坑。

暂且截图记录我目前为止的最高成就：

运行正确：

分数为：46.8

总结

读 CSAPP 第 4 章时，我理解得很不通透，部分内容甚至有些迷糊。而做完了本实验，通过亲自设计指令，亲自模拟流水线的工作过程并思考如何优化，我对处理器体系结构有了更深的感悟，有一种了然于胸的感觉。
CMU 的这两位大神老师 Randal E. Bryant 和 David R. O'Hallaron 简直令我佩服得五体投地。我本以为他们只是从理论层面上将第 4 章的处理器指令，流水线如何设计等等教授给我们。没想到，他们竟然真正设计实现了这样一套完整的Y86-64模拟器、测试工具供我们学习。本实验尤其是 Part C 每优化一次就能立即看到自己的分数，这犹如游戏闯关一般的体验令我着迷。这一切要归功于两位老师细致的设计，希望有生之年能见他们一次！
作为一个完美主义者，我在 Part C 部分却没有拿到满分，这简直是无法忍受的。但是我着实学业繁忙，不能在这个实验耗费太多时间，只能暂且搁置，暑假回来继续干它！
本实验耗时 3 天，约 17 小时

你可能感兴趣的:(CSAPP-Lab04 Architecture Lab 深入解析)

掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
【Java源码阅读系列44】深度解读Java NIO ByteBuffer 源码 ·云扬· 源码阅读系列之Java java nio 开发语言
JavaNIO（NewInput/Output）中的ByteBuffer是Buffer抽象类的具体子类，专门用于处理字节数据的高效读写。作为NIO的核心组件，ByteBuffer支持堆内存（Heap）和直接内存（Direct）两种存储方式，广泛应用于网络通信、文件IO等场景。本文将结合源码，深入解析ByteBuffer的核心机制、关键方法及设计模式的应用。一、ByteBuffer的核心特性与存储方
移动开发领域 MVP 模式的在线旅游应用开发与预订移动开发前沿旅游 ai
移动开发领域MVP模式的在线旅游应用开发与预订关键词：MVP模式、移动开发、在线旅游、预订系统、架构设计摘要：本文以在线旅游应用的预订功能开发为场景，深入解析MVP（Model-View-Presenter）模式在移动开发中的实践价值。通过“餐厅服务”的生活化类比、核心概念拆解、Kotlin代码实战以及旅游场景的具体应用，帮助开发者理解MVP如何解耦界面与业务逻辑，提升代码可维护性和可测试性。背景
Rust BSS段原理与实践解析萧曵丶 Rust rust 开发语言后端内存模型
在Rust中，BSS段（BlockStartedbySymbol）是程序内存布局的关键部分，专门用于存储未初始化或零初始化的全局/静态变量。以下是从原理到实践的深入解析：一、BSS的核心特性零初始化BSS段中的所有变量在程序加载时自动初始化为0（或对应类型的零值：0、null、false等）。staticmutCOUNTER:usize=0;//实际存储在BSS段磁盘空间优化BSS段在可执行文件中
FastAPI依赖注入：构建高可维护API的核心理念与实战源滚滚AI编程 fastapi log4j
依赖注入（DependencyInjection,DI）作为FastAPI的核心设计模式，通过解耦组件依赖关系、提升代码复用性和可测试性，已成为现代API开发的基石。本文将深入解析其工作原理、高级特性及企业级应用场景。一、依赖注入的核心价值解耦与模块化将数据库连接、认证逻辑等基础设施与业务逻辑分离，避免代码冗余。示例：路由函数无需手动创建数据库连接，通过Depends(get_db)自动注入[ci
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
深入解析：v0、Cursor、Manus等AI编程助手的系统提示词、工具与模型张道宁人工智能
引言在当今快速发展的AI编程领域，涌现出了许多强大的AI编程助手工具，如v0、Cursor、Manus、Same.dev、Lovable、Devin和ReplitAgent等。这些工具通过智能化的代码生成、补全和优化，正在彻底改变开发者的工作流程。v0：Vercel的AIUI生成器系统提示词设计v0的系统提示词专注于将自然语言描述转换为可用的UI代码（主要是React和TailwindCSS）。其
Navicat导出数据库表结构 qq_42676307 数据库 mysql
每一份完善的文档都是为后期维护铺平的道路：针对MySQL导出表结构文档，工具：navicat第一步：navicat新建查询SELECTCOLUMN_NAME列名,COLUMN_COMMENT名称,COLUMN_TYPE数据类型,DATA_TYPE字段类型,CHARACTER_MAXIMUM_LENGTH长度,IS_NULLABLE是否必填,COLUMN_DEFAULT描述FROMINFORMATI
navicat premium导出数据库表结构到Excel（Oracle、MYSQL、SQLServer） Amy_Victoria 数据库数据库 oracle mysql sqlserver
这里使用的navicatpremium是12.0.24版1.Oracle的语句SELECTA.cloumn列名,datatype数据类型,datalength长度,nullable是否为空,b.comments注释FROM(SELECTCOLUMN_NAMEcloumn,DATA_TYPEdatatype,DATA_LENGTHdatalength,NULLABLEnullableFROMALL_
信仰集结！2025 ROG DAY狂欢来袭，超能DIY好物爆燃登场
4月12日，当星城长沙的霓虹与金字塔的信仰之光交相辉映，在长沙市远大城金字塔，所有玩家终端同时收到神秘指令——「ROGDAY」正式启动！这不是普通的科技展会，而是一场由ROGLAB灵感实验室进行的硬核玩家朝圣之旅。与此同时，诸多超能ROGDIY好物也高能亮相，与玩家一起迎接这场电竞狂欢！电竞达人狂欢——特效全开竞技场首先，在此次ROGDAY活动现场的量子计算中心展区内，不仅有激情四射的3A大作，重
MATLAB随机模拟技术在气候模型中的应用
本文还有配套的精品资源，点击获取简介：MATLAB是科学研究和工程领域中广泛使用的一款数学计算与编程软件，尤其在气象学和气候模拟方面有着重要的应用。’Fletcher_2019_Learning_Climate’项目通过MATLAB实现的随机模拟方法帮助理解气候变化。本文将详细探讨该项目的关键内容，包括气候模型的构成、随机过程与统计方法的运用、MATLAB编程技能、气候数据处理与分析、结果可视化以
LabVIEW串口通信实战教程：上位机与下位机数据交互安检
本文还有配套的精品资源，点击获取简介：LabVIEW作为一种图形化编程工具，非常适合开发用于测试、测量和控制的应用程序。本文介绍了一个LabVIEW串口通信实例——“串口助手.vi”，通过它可以作为上位机接收下位机通过串口发送的数据。文章详细解释了LabVIEW中串口通信的关键技术点，包括串口配置、打开和关闭串口、数据读取与写入、错误处理、数据解析、用户界面设计、事件结构以及实时监控。掌握这些技术
kafka 每条消息只会保存到某一个分区 scan724 kafka
也就是说Kafka的消息组织方式实际上是三级结构：主题-分区-消息。主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。官网上的这张图非常清晰地展示了Kafka的三级结构，如下所示其实分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度
debian安装docker Sahas1019 debian docker eureka
debian安装docker/dev/null对于Debian11(bullseye)或更新版本：echo\"deb[arch=$(dpkg--print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg]https://download.docker.com/linux/debian\$(lsb_relea
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
基于 FastAPI + MySQL 打造高性能企业级 RBAC 权限系统源滚滚AI编程 fastapi mysql adb
在企业级应用开发中，精细化的权限控制是保障系统安全的核心需求。基于角色的访问控制（RBAC）通过解耦用户与权限的逻辑关系，大幅提升了权限管理的灵活性和可维护性。本文将深入解析如何基于FastAPI和MySQL构建一套高性能、易扩展的企业级RBAC系统。一、RBAC核心架构设计RBAC（Role-BasedAccessControl）的核心在于三层映射关系：用户（User）：系统操作主体角色（Rol
数据可视化5：MATLAB绘制单组箱线图
箱线图的作用箱形图（又称为「盒须图」或「箱线图」）能方便显示数字数据组的四分位数。箱形图通常用于描述性统计，是以图形方式快速查看一个或多个数据集的好方法。虽然与直方图或密度图相比似乎有点原始，但它们占用较少空间，当要比较很多组或数据集之间的分布时便相当有用。箱线图基本描述该图展示的是一个箱线图（BoxPlot）的主要组成部分及其含义。箱线图是一种用于展示数据分布情况的统计图表，能够直观地反映数据的
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
！LangChain工具选择与调用策略深入解析(42)
LangChain工具选择与调用策略深入解析一、LangChain工具概述1.1工具的定义与作用LangChain中的工具（Tool）是用于扩展语言模型能力的核心组件，它允许开发者将外部功能或资源集成到基于语言模型的应用中。工具的本质是封装了特定功能的可调用单元，例如调用搜索引擎获取实时信息、操作数据库执行查询、调用文件系统读取数据等。通过工具，LangChain能够弥补语言模型自身能力的局限，使
！ LangChain工具选择与调用策略深入解析(41) Android 小码蜂测试专栏 langchain 数据库服务器
LangChain工具选择与调用策略深入解析一、LangChain工具概述1.1工具的定义与作用LangChain中的工具（Tool）是用于扩展语言模型能力的核心组件，它允许开发者将外部功能或资源集成到基于语言模型的应用中。工具的本质是封装了特定功能的可调用单元，例如调用搜索引擎获取实时信息、操作数据库执行查询、调用文件系统读取数据等。通过工具，LangChain能够弥补语言模型自身能力的局限，使
【Go语言-Day 14】深入解析 map：创建、增删改查与“键是否存在”的奥秘吴师兄大模型 Go 语言从入门到精通 golang 开发语言后端人工智能 python go语言大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Mysql介绍与常用语句汇总
Mysql简介MySQL是一个基于SQL（结构化查询语言）的开源关系型数据库管理系统（RDBMS），最初由瑞典公司MySQLAB开发，2008年由SunMicrosystems收购，之后在2010年随Sun一同被Oracle公司收购并继续维护。MySQL采用客户端-服务器（Client-Server）架构，数据库以独立服务进程运行，用户通过网络使用客户端工具或应用程序连接数据库服务，进行数据查询、
【Java基础】Java线程创建方式大揭秘 JosieBook #Java全栈 java 开发语言
文章目录一、引言二、继承Thread类三、实现Runnable接口四、实现Callable接口五、使用线程池六、使用匿名内部类七、使用Lambda表达式（Java8及以上）八、总结一、引言在Java编程中，线程是实现并发编程的重要基础。通过创建多个线程，程序可以同时执行多个任务，从而提高程序的效率和响应性。今天，就让我们一起来深入探讨Java中创建线程的各种方式，了解它们的特点和适用场景。二、继承
Axure9高级教程Axure函数使用手册：掌握原型设计的利器严或蒙
Axure9高级教程Axure函数使用手册：掌握原型设计的利器【下载地址】Axure9高级教程Axure函数使用手册《Axure函数使用手册》专为Axure9.0用户打造，深入解析其丰富的函数功能，助力设计更具交互性的原型。Axure9.0作为一款强大的原型设计工具，其函数是其区别于其他工具的重要特色。本手册详细介绍了各种函数及其与动作的配合，帮助用户轻松掌握常用函数，提升设计效率。无需死记硬背，
FLUX.1 Kontext全景图：下一代AI图像编辑的家族革命与技术图谱 Liudef06小白 AIGC 人工智能 AIGC
FLUX.1Kontext全景图：下一代AI图像编辑的家族革命与技术图谱120亿参数流式变换器驱动，3秒完成像素级编辑，StableDiffusion原班团队打造的AI图像新范式正在重塑创意工作流。2025年夏，BlackForestLabs（黑森林实验室）向全球创意产业投下一枚技术炸弹——FLUX.1Kontext图像编辑模型家族正式亮相。这个由StableDiffusion核心创始团队打造的A
PostgreSQL WAL归档与时间点恢复(PITR)：完整技术指南
PostgreSQL的WAL(预写式日志)归档是实现时间点恢复(Point-In-TimeRecovery,PITR)的核心机制。本文深入解析WAL归档的工作原理，详细说明配置步骤，并提供完整的PITR操作流程。通过实际案例演示如何从备份恢复到指定时间点，帮助数据库管理员掌握这一关键技能，确保企业数据安全。一、WAL归档与PITR基础概念1.1WAL(预写式日志)的核心作用WAL(Write-Ah
Fatal error: Host key verification failed“
https://www.wizlab.it/code/lftp-fix-fatal-error-host-key-verification-failed.html
X-Flux-ComfyUI 技术指南：基于ComfyUI的FLUX扩散模型工作流搭建
X-Flux-ComfyUI技术指南：基于ComfyUI的FLUX扩散模型工作流搭建x-flux-comfyui项目地址:https://gitcode.com/gh_mirrors/xf/x-flux-comfyui前言X-Flux-ComfyUI是一个基于ComfyUI平台的扩展项目，专门为FLUX扩散模型提供了一套完整的工作流节点。本文将详细介绍如何安装配置该扩展，并深入解析各个核心节点的功
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><