2017-2018-1 20155216 《信息安全系统设计基础》第十四周学习总结
第三章:程序的机器级表示
教材学习内容总结
历史观点
Intel处理器系列俗称x86,开始时是第一代单芯片、16位微处理器之一。
每个后继处理器的设计都是后向兼容的——较早版本上编译的代码可以在较新的处理器上运行。
X86 寻址方式经历三代:
1 DOS时代的平坦模式,不区分用户空间和内核空间,很不安全
2 8086的分段模式
3 IA32的带保护模式的平坦模式
c语言代码、汇编代码、机器代码之间的关系
1、C预处理器扩展源代码,展开所以的#include命名的指定文件;
2、编译器产生汇编代码(.s);
3、汇编器将汇编代码转化成二进制目标文件(.o)
机器级代码:x86主要寄存器
程序计数器(32位,%eip):PC
整数寄存器/通用寄存器(32位,8个,%eax,%ebx,%ecx,%edx,%esi,%edi,%ebp,%esp):存储地址(C指针)或整数数据。有的存储程序重要状态,%esp栈指针(栈顶),%ebp帧指针(当前帧底)。
条件码寄存器(32位, EFLAGS):状态标志,控制标志和系统标志。
段寄存器(16位, 6个)
浮点寄存器(8个,%st(0-7)):存储浮点数据
其它寄存器包括:控制寄存器(CR0-CR4),GDTR,IDTR,TR,LDTR,调试寄存器(DR0-DR7),内存类型范围寄存器MTRR,MSR,MCR,PMC等等。
通用寄存器
%eax 操作数运算
%ebx 指向DS段中数据的指针
%ecx 字符串操作和循环计数器
%edx 输入输出指针
%esi 指向DS段中数据的指针或字符串操作中字符串的复制源
%edi 指向ES段中数据的指针或字符串操作中字符串的复制地
%esp 栈指针(SS段)
%ebp 指向SS段上数据的指针
段寄存器
CS 代码段
DS 数据段
SS 堆栈段
ES 数据段
FS 数据段
GS 数据段
数据表示
对于C语言来说,它支持整型数据、浮点数据等多种采取不同编码方式的数据类型。从机器角度看,他们又是一样的,均表示为一个连续的字节序列。
根据机器的不同,数据使用的字节顺序也有所不同:
小端法:最低有效字节存储在所用字节中的最低地址。随着地址的增大,它在存储器中按照最低字节到最高字节的顺序进行存储。绝大部分Intel兼容机都是采用小端法,如Linux的IA32和x86-64机器,Windows的IA32机器
大端法:最高有效字节存储在所用字节中的最低地址。随着地址的增大,它在存储器中按照最高字节到最低字节的顺序进行存储。大多数IBM和Sun机器采用大端法,如运行Solaris的Sun Sparc处理器
可用程序来测试你的机器中类型为int、float、void *的对象字节表示和字节顺序
#include
typedef unsigned char *byte_p;
void show_bytes(byte_p start,int len){
for(int i=0;i < len;i++)
printf(" %.2x",start[i]);
printf("\n");
}
void show_int(int x){
show_bytes((byte_p) &x,sizeof(int));
}
void show_float(float x){
show_bytes((byte_p) &x,sizeof(float));
}
void show_pointer(void *x){
show_bytes((byte_p) &x,sizeof(void *));
}
void test3(){
int val=0x87654321;
byte_p valp=(byte_p)&val;
show_bytes(valp,4);
show_int(val);
float val1=0x4A564504; //3510593
show_float(val);
printf(" %p\n",&val);
show_pointer(&val);
/**
* 21 43 65 87
* 21 43 65 87
* 7a 35 f1 ce
* 0x7fffb73c3d58
* 58 3d 3c b7 ff 7f 00 00
*/
}
int main(){
test3();
//小端法:21 43 65 87(低地址低字节序列)
//大端法:87 65 43 21(低地址高字节序列)
return 0;
}
数据访问、传送和算术运算
C声明 汇编代码后缀 大小(字节)
char b- 字节 1
short w- 字 2
int l- 双字 4
long l- 双字 4
long long - 8
void * l- 双字 4
float s- 单精度 4
double l- 双精度 8
long double t- 扩展精度 10/12
寻址模式与数据访问
这组IA32整数寄存器,有些可以存储C语言中的指针和整数数据,有些用来记录某些重要的程序状态,而有些用来保存临时数据如局部变量和函数的返回值
所有的8个寄存器都可以作为一个字(16位)或32个字(双字)来访问。并且可以独立访问前4个寄存器的两个低位字节
过程处理中%eax %ecx %edx的保存和恢复不同于接下来的三个寄存器%ebx %esi %edi
堆栈管理中%ebp表示帧指针,%esp表示栈指针。 运行时,栈指针可以移动,因而信息的访问都是相对于帧指针的
在机器指令中这些存储的数据通常称为操作数,它指出执行一个操作中要引用的源数据值,以及放置结果的目标位置。源数据值可以以立即数或从寄存器或存储器中读出,结果可以存放在寄存器或存储器中。
操作数有三种类型:
立即数: 书写方式为$0xFF
寄存器: 用来表示寄存器的内容。用Ea表示任意寄存器a,用引用R[Ea]表示其内容。
存储器引用:根据计算出来的有效存储器地址,访问某存储器位置。用M[Addr]表示对存储在存储器地址Addr开始的b个字节值的引用
下面是不同的数据寻址模式,它允许不同形式的存储器引用。
数据传送命令
数据传送指令主要是由MOV类指定完成,根据操作数的大小不同,把它分成: movb、movw、movl 。
MOV类的指令是将源操作数的值复制到目的操作数中。其中源操作数指定的值要么是一个立即数,要么是存储在寄存器或存储器中,目的操作数指定一个位置,要么是一个寄存器,要么是一个存储器地址。
注意传送指令的两个操作数不能都指向存储器位置,将一个值从一个存储器位置复制到另一个存储器位置需要两条指令-第一条指令由源值加载到寄存器中,第二条将该寄存器写入目的存储器位置中。
如下几个实例(第一个是源操作数,第二个是目的操作数):
movl $0x4050 %eax // 立即数的内容存储到寄存器%eax中,4个字节
movl $-17,(%esp) // 立即数的内容到存储器中,4个字节
movw %bp,%sp // 寄存器的内容复制到另一个寄存器中,2个字节
movl %eax,-12(%ebp) // 寄存器的内容到存储器中,4个字节
movb (%edi,%ecx),%ah // 存储器的内容到寄存器中,1个字节
算术和逻辑操作
A. 加载有效地址
leal 7(%edx,%edx,4),%eax //设置存储器%eax的值为5x+7,%edx的值为x
leal 6(%edx),%eax //设置存储器%eax的值为x+6
B. 一元和二元操作
subl %eax,%edx //从寄存器%edx中减去%eax中
addl %ecx,4(%eax) //从寄存器%eax+4中加上%ecx中
C. 移位操作
sall $2,%eax // x << =n
sarl %c1,%eax // x >> =n
xorl %edx,%edx //等价于movl $0,%edx,但它只需要2个字节,movl需要5个字节编码
条件码和跳转指令
CPU除了提供上面的几个整数寄存器外,还维护着一组单个比特位的条件码,描述最近的算术或逻辑操作特性,用于执行条件分支指令。
CF: 进位标志,表示最近的操作使最高位产生了进位。用于检查无符号操作数的溢出
ZF: 零标志,表示最近的操作得出的结果为0
SF: 符号标志,表示最近的操作得出的结果为负数
OF: 溢出标志,表示最近的操作使补码溢出-正溢出或负溢出
设置条件码
A. 比较和测试指令:它们只设置条件码而不改变任何其他寄存器
cmp S2,S1 通过S1-S2的结果,比较两者的大小
test S2,S1 通过S1&S2的结果(按位与),比如testl %eax,%eax用来检查%eax是正数,负数还是0或者其中一个操作数是掩码,用来指示哪些位应该被测试
B. 根据条件码的组合,使用set指令,不同后缀名表示不同条件
set指令的目的操作数是8个单字节寄存器或者存储一个字节的存储器位置,把该字节位置设置成0或1。它的基本思路是执行比较或测试指令,根据set指令的类型决定计算结果t=a-b:操作数的大小,是有符号的还是无符号的,程序值的数据类型。
C. 跳转指令:无条件的和有条件的
所谓跳转指令是指程序执行时切换到程序中的一个带有标号的地址。跳转指令又分无条件跳转(直接跳转、间接跳转)、有条件跳转
直接跳转中,直接选择一个跳转目标,写法为".L1";间接跳转中,跳转目标是从寄存器或者存储器位置中读出的,写法为"\+操作数指示符",如jmp eax,用寄存器%eax的值作为跳转目标。有条件的跳转指令通常是根据条件码的某个组合,或者跳转或者继续执行代码中的下一条指令,与set指令向匹配。注意:条件跳转只能是直接跳转!
条件语句的翻译-if-else
循环语句的翻译-do-while、while、for
do-while
while
for
switch语句
栈帧结构基础
普通函数、递归函数的调用过程
考虑如下图定义的普通C函数调用,函数caller包括一个对函数swap_add的调用,并且给出了调用swap_add函数前和正在运行时的栈帧结构。注:访问的栈位置有些是相对于栈指针%esp的,有些是相对于基地址指针%ebp的,偏移量都是由相对于这两个指针的栈表示!
栈规则提供了一种机制,每次函数调用都有存储它自己的私有状态信息(保存的返回位置、栈指针、被调用者保存寄存器-很重要,必须先保存)
过程调用中访问信息均是相对于帧指针%ebp而言,$0x4(%ebp)表示的是返回地址,往地址增大的方向$0x8(%ebp)表示的是函数第一个参数,函数如果有多个参数,依次以4递增。本地变量和临时变量则是往地址变小的方向存储
如果在调用过程中,使用了malloc函数,需要说明的是:
一、指针变量是分配在栈上的局部变量,调用结束,该变量自动释放。但由malloc分配在堆的内存-该指针指向的堆内存却并未释放,如果不作处理,就会造成内存泄露;
二、为了防止内存泄露,有两种处理情形:作为返回值,返回那段堆内存的指针,从而不会丢失对那段内存的控制;在栈调用结束前使用free操作手动释放那段内存;
三、指针变量的内存随调用结束自动释放,指针指向的那段内存必须使用free或delete操作释放。因而明确一点的是free之后再解引用那个指针是非法的,因为访问已释放的内存地址是无效的,一般建议释放操作后主动置指针为NULL指针就不会造成误解。
数组和指针
指针,实际上是地址的一种表示方式,它指向某一个类型的对象。指针类型不是机器代码中的一部分,而是C语言提供的一种抽象。
产生指针可用&运算符,它适合于变量、结构、联合和数组的元素,我们常常用leal指令来生成存储器引用的地址。*用于指针的间接引用,它表示一个值,类型与指针的类型相关,它是通过存储器引用来实现的,要么写入数据,要么读取数据。
如下图为与整型数组E有关的表达式。它的起始地址和整数索引i分别存在寄存器%edx、%ecx中
leal指令用来创建地址,movl用来引用存储器(除了第一种和最后一种情况,前者表示复制地址,后者表示复制索引)
数组与指针是有紧密联系的。一个数组的名字既可以直接数组引用又可以像一个指针变量引用(但不能修改)。如a[3]与(a+3)有一样的效果,它均需要用对象类型的大小对偏移量进行伸缩。我们写表达式p+i,指针p的指针为p,则得到的地址计算为p+Li,L是与p相关联的数据类型大小!
指针能够从某种类型强制转换到另一种类型,只改变它的类型,而不改变它的值。所起的效果是改变指针运算的伸缩。如p是一个char类型的指针,那么表达式(int)p+7为p+28,(int*)(p+7)为p+7
对于二维数组,对应的元素的地址的汇编代码表示可以借助移位、加法和伸缩组合来避免直接的乘法工作
结构和联合、数据对齐
C语言提供两种结合不同类型的对象来创建数据类型的机制:
结构: 多个对象组合到一个单位中
联合: 允许用几种不同的类型来引用一个对象
A. 结构体
struct test {
int i;
short c;
int j;
char *p;
char s[0];
};
在结构体中,编译器记录了每个字段的字节偏移,汇编代码通过以结构体的地址加上适当的偏移放访问结构的字段。记test的起始地址为xp,,结合数据对齐的策略:
在64位机器要保证每个元素的K字节数据对齐,各元素的地址为xp、xp+4、xp+8、xp+16、xp+24
在32位机器要保证较大数据类型的4字节数据对齐,各元素的地址为xp、xp+4、xp+8、xp+12、xp+16
以32为例,记结构体类型的指针变量在寄存器%edx中,获取每个字段元素的汇编代码如下(每行代码独立):
movl (%edx),%eax 获得pt->i
movl 4(%edx),%eax 获得pt->c
movl 8(%edx),%eax 获得pt->j
leal 4(%edx),%eax + movl %eax,12(%edx) 获得&pt->c存储在pt->p
movl 16(%edx),%eax 获得pt->s
64位系统:
pt的地址: (nil)
i的地址: (nil)
c的地址: 0x4
j的地址: 0x8
p的地址: 0x10
s的地址: 0x18
32位系统:
pt的地址: (nil)
i的地址: (nil)
c的地址: 0x4
j的地址: 0x8
p的地址: 0xc
s的地址: 0x10
B. 联合类型
联合类型提供了一种方式,绕过了C语言类型系统,允许以多种类型来引用一个对象,并且它的总大小为它最大字段的大小。在某些情况下,联合十分有用
事先知道一个数据结构中的两个不同的字段是互斥的,可将这两个字段声明为联合的一部分,而不是结构的一部分,以减小分配空间的总量。
例如实现一个二叉树的数据结构,每个叶子节点都有一个double的数据,而每个内部节点都有指向两个孩子节点的指针但无数据。
C. 长度为0的数组
默认地零数组在标准C和C++是不允许的,如果使用的话编译时会产生错误。但在GNU C99中,这种用法是合法的,它最典型的用法是置于结构体中的最后一个字段,并且在前面至少有一个其他字段,因而GCC编译时不会产生任何警告或错误。我们称这个数组为柔性数组。
零长度数组定义在结构体内,但并不占用结构体的空间(可用sizeof(某结构体或者char[0])测试,可比较指针方式是否占用空间)。可理解为这是一个没有内容的占位符标识,分配了实质内容后变成了一个有长度的数组
它能够为结构体内的数据分配一段连续的内存,并可以一次性讲内存释放。对比指针,既需要释放指针指向的内存块,又需要释放结构体指针。
分配连续的内存是有利于提高访问速度,并减少了一定量的内存碎片,指针则不可。
对齐
对齐:为了提高存储性能,对象的地址必须是某个值(通常是2,4,8)的倍数。
Linux的对齐策略是2字节数据类型(short)的地址必须是2的倍数。而较大数据类型(如int,int*,float,double)的地址必须是4的倍数。
Windows要求更严格:任何k字节的基本对象的地址都必须是k的倍数。
注意编译器可能在结构末尾添加一些填充使整个结构对齐。这利于定义结构类型数组。
比如:
struct s { /* 地址示例:x为间隙 */
char c; /* bf9483e0: cx-------------- */
short s[2]; /* bf9483e2: --s0s1xx-------- */
int i; /* bf9483e8: --------iiii---- */
char d; /* bf9483ec: ------------dxxx */
};
缓冲区溢出
C对数组引用不做边界检查,同时局部变量和状态信息(寄存器值和返回指针等)都存放在栈中,这使得越界的数组写操作会破坏存储在栈中的状态信息,程序使用被破坏的状态时就会出现严重的错误。
常见的状态破坏称为缓冲区溢出,就是实际保存内容的大小超过了缓冲区大小,导致写越界。缓冲区溢出能被用来让程序执行非本意的函数,这是最常见的通过计算机网络攻击系统安全的方法。
GDB调试器
GDB支持对机器级程序的运行时评估和分析。一般先运行 objdump 来获得程序的反汇编版本,以帮助确定断点等。断点可以设置在函数入口后面,或某个地址。使用gdb 执行程序,遇到一个断点时,程序会停下来,将控制返回给用户。在断点处,可以查看各个寄存器和存储器。还可以单步跟踪程序,一次执行几条命令,或前进到下一个断点。
下面是一些常用的命令:
开始和停止
quit 退出gdb
run 运行程序(设置命令行参数)
kill 停止程序
断点
break func 设置断点在func函数入口
break *0x80483c7 设置断点在地址0x80483c7
delete 1 删除断点1
delete 删除全部断点
执行
stepi 执行一条指令
stepi n 执行n条指令
nexti 执行一条指令(可以通过子例程调用)
continue 恢复执行
finish 运行直到当前函数返回
检查代码
disas 反汇编当前函数
disas func 反汇编func函数
disas 0x80483b7 反汇编在地址0x80483b7附近的函数
disas 0x80483b7 0x80483c7 反汇编在指定地址范围的代码
print /x $eip 十六进制打印程序计数器
检查数据
print $eax 十进制打印%eax的内容
print /x $eax 十六进制打印%eax的内容
print /t $eax 二进制打印%eax的内容
print 0x100 打印0x100的二进制表示
print /x 100 打印100的十六进制表示
print /x ($ebp+8) 十六进制打印%ebp+8的内容
print *(int *) 0xbffff760 打印地址0xbffff760的整数
print *(int *) ($ebp+8) 打印地址%ebp+8的整数
x/2w 0xbffff760 检查地址0xbffff760开始的双字(4字节)
x/20xb func 检查func函数20字节的十六进制表示
有用的信息
info frame 当前栈帧的信息
info registers 全部寄存器的值
help gdb帮助
教材学习中的问题和解决过程
- 问题1:
对于条件码和跳转指令存在较多疑惑
- 问题1解决方案:
可以根据条件码的某种组合来设置整数寄存器或执行条件分支指令。
下面的指令根据条件码的组合将一个字节设置为0或1,可以用 movzbl 指令对高位字节清零来得到32位结果。
跳转指令使执行切换到程序中的一个新位置,跳转的目的地通常用标号指明。当跳转条件满足时,指令会跳转到一条带标号的目的地。
jmp 指令是无条件跳转。可以是直接跳转,以一个标号作为跳转目标,如 .L1 ;也可以是间接跳转,跳转目标从寄存器或存储器中读出,如 *(%eax) 。
条件跳转只能是直接跳转。
代码调试中的问题和解决过程
- 问题1:
无
- 问题1解决方案:
无
代码托管
结对及互评
本周结对学习情况
- [20155214](http://www.cnblogs.com/besti155214/p/8052476.html)
- 结对照片
- 结对学习内容
解答同伴问题:
其他(感悟、思考等,可选)
新的收获:
1、对于第三章的重新学习,重新梳理了一遍数据的表示、C代码和机器级代码的联系。
2、更加深入的学习了汇编语言中的指令。
学习进度条
代码行数(新增/累积) | 博客量(新增/累积) | 学习时间(新增/累积) | 重要成长 | |
---|---|---|---|---|
目标 | 5000行 | 30篇 | 400小时 | |
第三周 | 114/114 | 3/3 | 20/20 | |
第四周 | 136/250 | 2/5 | 18/38 | |
第五周 | 87/337 | 2/7 | 22/60 | |
第六周 | 271/608 | 2/9 | 30/90 | |
第七周 | 185/716 | 2/11 | 30/90 | |
第八周 | 531/1247 | 3/14 | 30/90 | |
第九周 | 439/1686 | 3/17 | 30/90 | |
第十一周 | 153/1839 | 2/19 | 30/90 | |
第十三周 | 628/2467 | 2/21 | 30/90 | |
第十四周 | 0/2467 | 2/21 | 30/90 |
尝试一下记录「计划学习时间」和「实际学习时间」,到期末看看能不能改进自己的计划能力。这个工作学习中很重要,也很有用。
耗时估计的公式
:Y=X+X/N ,Y=X-X/N,训练次数多了,X、Y就接近了。
参考:软件工程软件的估计为什么这么难,软件工程 估计方法
计划学习时间:25小时
实际学习时间:20小时
改进情况:
(有空多看看现代软件工程 课件
软件工程师能力自我评价表)
参考资料
- 《深入理解计算机系统V3》学习指导
- ...