题目链接:http://ctf.nuptzj.cn/challenges#ReadAsm2
我比较菜,所以把思路全部敲上来了。
题目很明确告诉我们,这道题考察阅读汇编代码的能力。
在对编译环境和调用约定进行说明之后,只有一个文件和一段C语言代码:
int main(int argc, char const *argv[])
{
char input[] = {0x0, 0x67, 0x6e, 0x62, 0x63, 0x7e, 0x74, 0x62, 0x69, 0x6d,
0x55, 0x6a, 0x7f, 0x60, 0x51, 0x66, 0x63, 0x4e, 0x66, 0x7b,
0x71, 0x4a, 0x74, 0x76, 0x6b, 0x70, 0x79, 0x66 , 0x1c};
func(input, 28);
printf("%s\n",input+1); return 0; }
快速浏览文件(用notepad++打开),得知,文件内是func函数的汇编代码,而这段C是生成flag的主函数。
input的末尾不是'\0',而之后又用printf输出。所以若程序正常,执行func之后,input末尾的0x1c会变成0x00
因此,input是输入的数组,在经过func的一顿操作之后,就变成了答案。
下载附件,逐句分析func函数
00000000004004e6: 4004e6: 55 push rbp 4004e7: 48 89 e5 mov rbp,rsp
先把rbp压入栈,然后把rsp的内容覆盖到rbp。
这样栈帧就向上移动了一节。
其实是func函数的调用。
4004ea: 48 89 7d e8 mov QWORD PTR [rbp-0x18],rdi
4004ee: 89 75 e4 mov DWORD PTR [rbp-0x1c],esi
然后把寄存器rdi和esi的内容压到内存里,从之后的调用来看,应该是两个局部变量。
凭直觉,这是在调用func时传过来的两个参数,但为什么要放在rdi和esi??
回顾一下之前提示的函数调用说明,在洋文里发现了原因。 //System V AMD64 ABI calling conventions
很简洁,读起来非常舒适,大概是说,
调用函数时,前六个指针或者整型参数,在寄存器RDI,RSI,RDX,RCX,R8和R9中传递。
这里有两个参数,所以放在RDI和RSI寄存器内。
用esi而不用rsi的原因是DWORD是双字,是三十二位。
ESI是32位,RSI是64位的寄存器,所以需要用esi。
注,两个字节为一个字(Word),两个字为一个双字(Dword)(4Bytes),四个字为一个四字(Qword)(8bytes)
于是,字符串的指针"input"存在了[rbp-0x18];整型28被存在了[rbp-0x1c]。
那么,这些变量到底是如何在内存中存储的呢……
注:内存内数据的存储: //小端字节序
1、最小存储单位为字节,不是位。
2、栈底的地址大,栈顶的地址小。
3、数据的地址为最低位。
4、高位存高字/低字节,低位存低字/低字节。 //如,0x1234,则12是高位,34是低位
如图:
4004f1: c7 45 fc 01 00 00 00 mov DWORD PTR [rbp-0x4],0x1
把0x1丢给一个局部变量。从之后的表现来看,这是个控制循环的指针变量。姑且称为 " i " 。
4004f8: eb 28 jmp 400522
跳转了跳转了!于是跳过中间步骤直接看400522
400522: 8b 45 fc mov eax,DWORD PTR [rbp-0x4]
400525: 3b 45 e4 cmp eax,DWORD PTR [rbp-0x1c]
400528: 7e d0 jle 4004fa
把i拿出来,再把28拿出来,一比较,如果i<=28,那么就跳到4004fa //4004fa是4004f8的下一条指令
否则(即i>28)则继续运行,
若继续运行,则如下:
40052a: 90 nop
40052b: 5d pop rbp
40052c: c3 ret
显而易见的return。
回来看4004f8
4004fa: 8b 45 fc mov eax,DWORD PTR [rbp-0x4]
4004fd: 48 63 d0 movsxd rdx,eax
400500: 48 8b 45 e8 mov rax,QWORD PTR [rbp-0x18]
400504: 48 01 d0 add rax,rdx
400507: 8b 55 fc mov edx,DWORD PTR [rbp-0x4]
40050a: 48 63 ca movsxd rcx,edx 40050d: 48 8b 55 e8 mov rdx,QWORD PTR [rbp-0x18] 400511: 48 01 ca add rdx,rcx
把i和字符串指针的地址拿出来倒腾来倒腾去,也不知道有什么结果,一步步跑。
4004fa: eax = i;
4004fd: rdx = eax; // i ;
400500: rax = input;
400504: rax += rdx; //rax += i; //rax = input + i ;
400507: edx = i;
40050a: rcx = edx; //rcx = i;
40050d: rdx = input;
400511: rdx += rcx; //rdx += i; //rdx = input + i ;
经过如上分析,可知这一段代码执行之后,rdx和rax内存储的都是input[i]的地址。
//注:movsxd是带符号位扩展寄存器。在这里就是把32位寄存器的内容丢到一个64位寄存器里,带着符号位。//eax是32位,rdx是64位。
400514: 0f b6 0a movzx ecx,BYTE PTR [rdx]
这句实锤了,把rdx指向(input[i])的那个字节拿出来丢到ecx里。
我们知道,char类型的字符恰好是一字节,所以这个就是字符串的某部分。
//注:movzx也是不带符号位扩展寄存器。在这里就是把那个char丢到ecx里,高位用0补足,因为都是英文字符,ASCII码均非负,所以问题不大。
//movsx和movsxd的区别:http://book.51cto.com/art/201210/359678.htm //使用对象不同。
400517: 8b 55 fc mov edx,DWORD PTR [rbp-0x4]
40051a: 31 ca xor edx,ecx
在把字符串的某个字符放到ecx之后,又拿出i,和ecx异或,放在了edx里。
40051c: 88 10 mov BYTE PTR [rax],dl
此时,edx的第八位(dl)是被i异或之后的某字符,放回rax里。 //我盯着"dl"看了半天不知道是啥……还以为是大佬的简写??
//rax_eax_ax_ah_al 64位寄存器的组成
40051e: 83 45 fc 01 add DWORD PTR [rbp-0x4],0x1
最后,i++,然后判断条件,(jle那句)。
看到这里,很显然这就是个for循环.
翻译过来就是:
for(i=1; i<=28; i++) { input[i] ^= i; }
因为异或的逆运算还是异或,所以解密函数也是这个。
所以……
#includeint main() { char input[] = {0x0, 0x67, 0x6e, 0x62, 0x63, 0x7e, 0x74, 0x62, 0x69, 0x6d, 0x55, 0x6a, 0x7f, 0x60, 0x51, 0x66, 0x63, 0x4e, 0x66, 0x7b, 0x71, 0x4a, 0x74, 0x76, 0x6b, 0x70, 0x79, 0x66 , 0x1c}; for(int i=1; i<=28; i++) input[i] ^= i; printf("%s\n",input+1); return 0; }
运行,得到:
flag{read_asm_is_the_basic}