//详情参考《程序员的自我修养》1-6章
精简版:
//在原文基础上做补充和修改
参考原文:https://blog.csdn.net/weixin_40740059/article/details/84075653
如图:c程序的4G虚拟地址空间划分:
在text段中,只有普通局部变量是指令
int gdata1 = 10; //.data 已初始化且初始化不为零的数据
int gdata2 = 0; //.bss 未初始化或初始化为零的数据
int gdata3; //.bss
static int gdata4 = 20; //.data
static int gdata5 = 0; //.bss
static int gdata6; //.bss
int main()
{
int data1 = 30; //.text //只有普通局部变量是指令
int data2 = 0; //.text
int data3; //.text
static int data4 = 40; //.data
static int data5 = 0; //.bss
static int data6; //.bss
return 0;
}
//下文详情参考《程序员的自我修养》39页
一:预编译命令:gcc -E main.c -o main.i ,然后生成.i文件
1.将所有的“#define”删除,展开宏定义
2.处理“#include” 预编译指令,将包含的文件插入到预编译指令的位置。 递归方式展开头文件
3.处理所有的条件预编译指令如:“#if”,“#ifdef”,“#endif”,“#elif”,“#else”
4.删除注释// 和/**/
5.添加行号和文本标识
6.保留 #pragma ,因为编译器要使用
//预编译后的.i文件,不包含任何宏定义,宏已展开,不包含头文件。
二:编译命令:gcc -S main.i -o main.s ,然后生成.s 文件 【编译阶段以一个.cpp或者.c文件为单元编译】
(1)词:关键字,标识符,字面量(数字,字符串),特殊符号(加号,等号)
(2)将标识符放到符号表
(3)将数字,字符串放到符号表
2.语法分析:语法分析器,语法树
3.语义分析:语义分析器
(1)分析静态语义(即编译时期可以确定的语义):声明和类型匹配,类型转换
(2)分析动态语义(即运行时才能确定的语义)
(3)对符号表中的符号进行更新。
4.代码优化 ,生成汇编代码文件:代码生成器,目标代码优化器
代码优化参考百科https://baike.sogou.com/v55223791.htm?fromTitle=%E4%BB%A3%E7%A0%81%E4%BC%98%E5%8C%96
在不改变程序运行效果的前提下,对被编译的程序进行等价变换,使之能生成更加高效目标代码。
等价:不改变程序执行效果;
变换:引起程序形式上的变动.
改进、提高程序途径:
1) 改进算法;
2) 在源程序级上等价变换;
3) 充分利用系统提供的程序库;
4) 编译时优化等。
[inter x86] //汇编代码
int a = 10;
mov dword ptr[a],0Ah //ptr[a] 对a地址解引用后得到a的内存 //0Ah 是10
三:汇编命令:gcc -C main.s -o main.o,然后生成.o文件,即可重定位(重入)的二进制文件
1.将汇编指令翻译成二进制
objdump -t xxx.o查看符号表:
3.生成各种段”Segme”
图为.o目标文件中的段:分别:
(0)ELF header文件头:描述整个文件的文件属性:是否可执行,静态链接还是动态链接级入口地址,目标硬件,目标 操作
(1).text代码段:存放源代码编译后的机器指令。普通局部变量也当做指令
(2).data数据段:存放已初始化的全局变量和局部静态变量
(3)相当于没有的.bss段:,不占据空间,只是下面两种变量的预留位置
记录未初始化的全局变量和局部静态变量的大小总和。(这两种变量默认为0本可以放在.data段,但是没必要,浪费空间。所以就有.bss段,他的存在节省了磁盘空间。.bss段在文件中不占据空间,只是预留位置。)
(4).comment注释信息段。
Linux中ELF文件,bss段:段以符号起始,节省磁盘空间
bss段少了一个数据,和虚拟地址空间上的段不同意义。 (bss段中少的数据,位于COM块中)
强弱符号:强符号是已初始化的全局变量,弱符号是未初始化的全局变量
强弱符号规则:
1.两强:重定义错误 //数据段不可以出现重名
2.一强一弱:选强符号作为所有地址
3.两弱:选字节数大的 <编译器处理>
在汇编完成前,不清楚是否存在强符号无法判断时,则将变量放入COM块中。
四:链接命令:gcc mian.o –o mian ,生成ELF文件(即可执行文件),有头和.data、.text段等
//UND 即未定义区 //找不到
1.段合并:相同段合并<一个段映射一个页面>
合并方式:相似段合并:
而不是这样:下图为错误合并方式:
1.1合并符号表:同名查找,未找到则用本身查找的弱符号,找到则删除弱符号改用强符号
2.符号解析(处理UND):未找到对应的符号进行报错 合并UND
3.分配地址和空间
4.符号的重定位 //test段 <虚假地址改真实,纠正虚假偏移>
链接后的可执行文件中的各个段。