现在的我们写代码大多数用的集成开发环境(IDE),比如Visual Studio、Idea等,这样的IDE一般都将编译和链接的过程一步完成。一句简简单单的Hello World,在我们看来,这一步到位,小菜一碟。可是一句话说的好不是岁月静好,只是有人在替你负重前行。这里面一些复杂的过程,集成工具已经默默的处理掉了。可是当我们写的程序出了一些莫名其妙的错误,让我们头大且掉发,我们只能看到这些问题的表象,难以看清本质,这些问题的本质就是软件运行背后的机理及支撑软件运行的各种平台和工具,如果能够了解这些机制,那么对待这些问题,就会有新的看法。
在ANSI C存在两个不同的环境:
我们知道,计算机只能执行二进制指令,但我们一般写的代码,都不是以二进制形式写,以C语言为例:
#include
int main()
{
printf("C 语言\n");
return 0;
}
这段C语言代码,如果要执行,那么就需要翻译环境将其翻译为二进制指令。我们所使用的一些编译器,就充当着"翻译官"的角色。当然了将我们的源代码,转换成可执行程序,这个翻译的过程能细分为2个步骤编译和链接。
组成一个程序的每个源文件通过编译过程转换成目标代码。
每个目标文件由链接器捆绑在一起,形成一个单一而完整的可执行程序。
链接器同时也会引入标准C函数库中任何被该程序所用到的函数,而且也可以搜索到我们自己写的函数,将需要的函数也链接到程序中。
首先是源代码文件和相关的头文件,被编译成一个 .i 文件。对于C程序来说,它的源文件拓展名是 .c,头文件拓展名是 .h ,而预编译后的文件拓展名是 .i 。
预编译命令(-E表示只进行预编译):
$ gcc -E test.c -o test.i
预编译过程主要处理那些源代码文件中的以 **#**开始的预编译指令。主要处理规则如下:
经过预编译后,.i 文件不包含任何宏定义,因为所有的宏定义已经被展开,并且包含的文件也已经被插入到 .i 。所以无法判断宏定义和头文件是否包含正确,那么接下来就是通过查看编译后的文件进行判断。
编译过程就是把预处理完的文件进行一系列的词法分析、语法分析、语义分析、符号汇总及优化后产生相应的汇编代码文件,这是这个程序构建的核心部分。
编译命令:
$ gcc -S test.i
汇编器是将汇编代码转变成机器可以执行的指令,每一个汇编语句几乎对应一条机器指令。所以汇编器的汇编过程相当于编译器来讲比较简单,它没有复杂的语法,也不用做优化指令,只根据汇编指令和机器指令的对照表一一翻译就可以了。原来汇编才是一个血统纯正的“翻译官”啊,不带任何“感情色彩”。
汇编命令:
$ gcc -c test.s
汇编完成后输出目标文件、将汇编代码翻译成二进制代码(存放到目标文件中),同时形成符号表。
现在软件开发过程中,软件的规模往往都很大,动辄数百万行的代码,如果将这些代码全部都放在一个模块肯定无法想象。所以我们一般在写代码的时候,会分模块,这些模块之间相互依赖又相互独立。
那么链接就能将这些模块拼接起来,最后产生一个可执行的程序。
程序执行的过程:
int main()
{
printf("%s\n", __FILE__);//进行编译的源文件的路径
printf("%d\n", __LINE__);//文件当前行号
printf("%s\n", __DATE__);//文件被编译的日期
printf("%s\n", __TIME__);//文件被编译的时间
//VS2022不支持
printf("%s\n", __STDC__);//如果编译器遵循ANSI C,其值为1,否则未定义
return 0;
}
通过gcc编译器可以发现,这些确实是在预编译阶段,就完成了替换
语法:
#define name stuff
代码示例:
#define MAX 100
#define reg register //为register关键字创建一个简短的名字
#define do_forever for(;;) //死循环
#define CASE break;case //在写case语句的时候自动把break写上。
// 如果定义的stuff过长,可以分成几行写,除了最后一行外,每行的后面都加一个反斜杠(续行符)。
#define DEBUG_PRINT printf("file:%s\tline:%d\t \
date:%s\ttime:%s\n" ,\
__FILE__,__LINE__ , \
__DATE__,__TIME__ )
那么,我们在定义 #define 的时候后面是否要加上 ; 呢?
通过前面的预编译知识,#define 的内容将会被替换,加上 ; 会造成不必要的麻烦。
比如下面的场景:
#define MAX 100;
int main()
{
int m = 0;
if (m >= 0)
m = MAX;
else
m = -1;
return 0;
}
我们通过gcc编译器可以看到在预编译阶段,100 后面的 ==;==也被添加上去了,导致else匹配不到if语句。
#define 机制包括了一个规定,允许把参数替换到文本中,这种通常称为宏或者定义宏。
宏的声明方式:
#define name( parament-list ) stuff
注意:
代码示例:
#define SQUARE(X) X*X //求一个数的平方
int main()
{
printf("%d\n", SQUARE(5));
printf("%lf\n", SQUARE(5.0));
return 0;
}
但是呢,这段代码还存在一定的风险,如果在宏里面输入的是 (5+1),那么就会被替换成 5 + 1 * 5 + 1,这样输出的值就和我们原本的意愿不符合。
这里,我们在宏定义上加括号,就能很好的解决问题。
代码示例:
#define SQUARE(X) (X)*(X) //求一个数的平方
int main()
{
printf("%d\n", SQUARE(5+1));
return 0;
}
//输出 36
那这样就真的避免了风险吗?当然,避免了刚才出的问题,但是又产生了新的问题。
代码示例:
#define DOUBLE(X) (X)+(X) //求一个数的平方
int main()
{
printf("%d\n", 10*DOUBLE(5));
return 0;
}
//输出 55
我们原意是 10 * (5 + 5),可是这里替换成了 10 * 5 + 5,又违背了我们的意愿。
这个问题的解决办法是在宏定义表达式两边加上一对括号就可以了。
#define DOUBLE(X) ((X)+(X)) //求一个数的平方
int main()
{
printf("%d\n", 10 * DOUBLE(5));
return 0;
}
//输出 100
小贴士:
在程序中扩展#define定义符号和宏时,需要涉及几个步骤。
注意:
1.宏参数和 #define 定义中可以出现其他 #define 定义的符号。但是对于宏,不能出现递归。
2.当预处理器搜索 #define 定义的符号的时候,字符串常量的内容并不被搜索。
我们先来看这段代码:
int main()
{
printf("hello world\n");
printf("hello " "world\n");
return 0;
}
这两句printf输出的内容其实都是一样的hello world,那我们就能得出结论:字符串是有自动连接特点的。
有这个结论后,我们就可以这样写代码:
#define PRINT(format,x) printf("the value of "#x" is "format"\n",x)
int main()
{
int a = 10;
PRINT("%d", a);
float b = 1.5;
PRINT("%f", b);
return 0;
}
这里 # 的作用就是把一个宏参数变成对于的字符串。
##的作用
##可以把位于它两边的符号合成一个符号。
它允许宏定义从分离的文本片段创建标识符。
注:这样的连接必须产生一个合法的标识符。否则其结果就是未定义的。
代码示例:
#define CAT(x,y) x##y
// RMB##100
// RMB100
int main()
{
int RMB100 = 20;
printf("%d", CAT(RMB, 100));
return 0;
}
当宏参数在宏的定义中出现超过一次的时候,如果参数带有副作用,那么你在使用这个宏的时候就可能出现危险,导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。
例如:
int main()
{
int a = 1;
int b = a + 1;//无副作用
int c = ++a; //有副作用
return 0;
}
同理,下面这段代码就能充分证明宏参数所引起的副作用
#define MAX(x,y) ((x)>(y)?(x):(y))
int main()
{
//printf("%d\n", MAX(2, 3));
int a = 4;
int b = 5;
int m = MAX(a++, b++);
//预处理之后
//int m = ((a++)>(b++)?(a++):(b++));
// 5 6 7
printf("%d\n", m);
printf("a = %d b = %d\n", a,b);//5 7
return 0;
}
宏通常用于执行简单的运算(两数中求大值)。
那用函数求,和这个有什么区别呢?
当然了,现在写代码时,大部分还是写函数,很少写宏。
宏的缺点:
宏和函数的一个对比:
属性 | #define宏定义 | 函数 |
---|---|---|
代码长度 | 每次使用时,宏代码都会被插入到程序中。除了非常小的宏之外,程序的长度会大幅度增长 | 函数代码只出现于一个地方;每次使用这个函数时,都调用那个地方的同一份代码 |
执行速度 | 更快 | 存在函数的调用和返回的额外开销,所以相对慢一些 |
操作符优先级 | 宏参数的求值是在所有周围表达式的上下文环境里,除非加上括号,否则邻近操作符的优先级可能会产生不可预料的后果,所以建议宏在书写的时候多些括号 | 函数参数只在函数调用的时候求值一次,它的结果值传递给函数。表达式的求值结果更容易预测 |
带有副作用的参数 | 参数可能被替换到宏体中的多个位置,所以带有副作用的参数求值可能会产生不可预料的结果 | 函数参数只在传参的时候求值一次,结果更容易控制 |
参数类型 | 宏的参数与类型无关,只要对参数的操作是合法的,它就可以使用于任何参数类型 | 函数的参数是与类型有关的,如果参数的类型不同,就需要不同的函数,即使他们执行的任务是相同的 |
调试 | 宏不方便调试 | 函数可以逐语句调试 |
递归 | 宏不能递归 | 函数可以递归 |
一般来讲函数的宏的使用语法很相似。所以语言本身没法帮我们区分二者。
那我们平时的一个习惯是:
把宏名全部大写
函数名不要全部大写
用于移除宏定义
#define NAME RMB
#undef NAME
//如果现存的一个名字需要被重新定义,那么它的旧名字首先要被移除。
许多C 的编译器提供了一种能力,允许在命令行中定义符号。用于启动编译过程。
例如:当我们根据同一个源文件要编译出一个程序的不同版本的时候,这个特性有点用处。(假定某个程序中声明了一个某个长度的数组,如果机器内存有限,我们需要一个很小的数组,但是另外一个机器内存大些,我们需要一个数组能够大些。)
#include
int main()
{
int array [SZ];
int i = 0;
for(i = 0; i< SZ; i ++)
{
array[i] = i;
}
for(i = 0; i< SZ; i ++)
{
printf("%d " ,array[i]);
}
printf("\n" );
return 0;
}
这里用gcc以命令行的形式操作,可以观察到,SZ通过命令行定义,发生了替换。
在编译一个程序的时候我们如果要将一条语句(一组语句)编译或者放弃是很方便的。因为我们有条件编译指令。
比如说:
调试性的代码,删除可惜,保留碍事,那么我们可以选择性的编译
代码示例:
#define _DEBUG_ 1
int main()
{
#ifdef _DEBUG_
printf("1\n");
#endif
#ifdef DEBUG //未定义,所以不会编译
printf("0\n");
#endif
return 0;
}
常见的条件编译指令:
1.
#if 常量表达式
//...
#endif
//常量表达式由预处理器求值。
如:
#define __DEBUG__ 1
#if __DEBUG__
//..
#endif
2.多个分支的条件编译
#if 常量表达式
//...
#elif 常量表达式
//...
#else
//...
#endif
3.判断是否被定义
#if defined(symbol)
#ifdef symbol
#if !defined(symbol)
#ifndef symbol
在C语言写的大大大部分的代码中,我们都会用到 #include 这条指令,这条指令可以使另一个文件被编译。
本地文件被包含:
#include "filename"
查找策略:先在源文件所在目录下查找,如果该头文件未找到,编译器就像查找库函数头文件一样在标准位置查找头文件。
如果找不到就提示编译错误。
库文件包含:
#include
那这样来说,是不是包含库文件,就直接用 ==" "==包含不久行了吗?
理论可行,但是不切实际。
当项目十分庞大或者我们不小心多次包含同一个文件时:
这样会造成文件的内容重复,那么我们可以通过条件编译来解决这个问题。
#ifndef _TEST_H_
#define _TEST_H_
//头文件的内容
#endif //_TEST_H_
这样写可能会有些麻烦,写成下面这种形式就简单很多:
//在VS2022中,创建本地头文件,编译器会自动加上
#pragma once
本篇文章参考《程序员的自我修养——链接、装载与库》的第一章内容,之后也会慢慢更新从书本中学到的知识。本周上课听老师讲,计算机的一些专业名称的含义。
比如:计算机科学与技术,科学是摆在技术前面的,扎实的理论基础,更利于我们技术的提升,所以在有一定技术基础的前提下,可尝试学习部分理论,这样会让我们的水平再往上升。