Linux 上可用的 C 编译器是 GNU C 编译器,它建立在自由软件基金会的编程许可证的基础上,因此可以自由发布。 GNU C 对标准 C 进行一系列扩展,以增强标准 C 的功能。
GNU C 允许使用零长度数组,在定义变长对象的头结构时,这个特性非常有用。例如:
char data[0] 仅 仅 意 味 着 程 序 中 通 过 var_data 结 构 体 实 例 的 data[index] 成 员 可 以 访问 len 之 后 的 第 index 个 地 址, 它 并 没 有 为 data[] 数 组 分 配 内 存, 因 此 sizeof(struct var_data)=sizeof(int)。
假设 struct var_data 的数据域就保存在 struct var_data 紧接着的内存区域中,则通过如下代码可以遍历这些数据:
GNU C 中也可以使用 1 个变量定义数组,例如如下代码中定义的“double x[n]”:
int main (int argc, char *argv[])
{
int i, n = argc;
double x[n];
for (i = 0; i < n; i++)
x[i] = i;
return 0;
}
GNU C 支持 case x…y 这样的语法,区间 [x,y] 中的数都会满足这个 case 的条件,请看
下面的代码:
switch (ch) {
case '0'... '9': c -= '0';
break;
case 'a'... 'f': c -= 'a' - 10;
break;
case 'A'... 'F': c -= 'A' - 10;
break;
}
代码中的 case '0'... '9' 等价于标准 C 中的:
case '0': case '1': case '2': case '3': case '4':
case '5': case '6': case '7': case '8': case '9':
GNU C 把包含在括号中的复合语句看成是一个表达式,称为语句表达式,它可以出现在任何允许表达式的地方。我们可以在语句表达式中使用原本只能在复合语句中使用的循环、局部变量等,例如:
#define min_t(type,x,y) \
({type _ _x =(x);type _ _y = (y); _ _x<_ _y? _ _x: _ _y; })
int ia, ib, mini;
float fa, fb, minf;
mini = min_t(int, ia, ib);
minf = min_t(float, fa, fb);
因为重新定义了 _ _xx 和 _ _y 这两个局部变量,所以用上述方式定义的宏将不会有副作用。在标准 C 中,对应的如下宏则会产生副作用:
#define min(x,y) ((x) < (y) ? (x) : (y))
代码 min(++ia,++ib) 会展开为 ((++ia) < (++ib) ? (++ia): (++ib)),传入宏的“参数”增加两次。
typeof(x) 语句可以获得 x 的类型,因此,可以借助 typeof 重新定义 min 这个宏:
#def ine min(x,y) ({ \
const typeof(x) _x = (x); \
const typeof(y) _y = (y); \
(void) (&_x == &_y); \
_x < _y ? _x : _y; })
我们不需要像 min_t(type,x,y) 那个宏那样把 type 传入,因为通过 typeof(x)、 typeof(y) 可以获得 type。代码行 (void) (&_x == &_y) 的作用是检查 _x 和 _y 的类型是否一致。
标准 C 就支持可变参数函数,意味着函数的参数是不固定的,例如 printf() 函数的原型为:
int printf( const char *format [, argument]... );
而在 GNU C 中,宏也可以接受可变数目的参数,例如:
#def ine pr_debug(fmt,arg...) \
printk(fmt,##arg)
这里 arg 表示其余的参数,可以有零个或多个参数,这些参数以及参数之间的逗号构成arg 的值,在宏扩展时替换 arg,如下列代码:
pr_debug("%s:%d",f ilename,line)
会被扩展为:
printk("%s:%d", f ilename, line)
使用“##”是为了处理 arg 不代表任何参数的情况,这时候,前面的逗号就变得多余了。
使用“##”之后, GNU C 预处理器会丢弃前面的逗号,这样,下列代码:
pr_debug("success!\n")
会被正确地扩展为:
printk("success!\n")
而不是:
printk("success!\n",)
这正是我们希望看到的。
标准 C 要求数组或结构体的初始化值必须以固定的顺序出现,在 GNU C 中,通过指定索引或结构体成员名,允许初始化值以任意顺序出现。
指定数组索引的方法是在初始化值前添加“[INDEX] =”,当然也可以用“[FIRST ...LAST] =”的形式指定一个范围。例如,下面的代码定义了一个数组,并把其中的所有元素赋值为 0:
unsigned char data[MAX] = { [0 ... MAX-1] = 0 };
下面的代码借助结构体成员名初始化结构体:
struct f ile_operations ext2_f ile_operations = {
llseek: generic_f ile_llseek,
read: generic_f ile_read,
write: generic_f ile_write,
ioctl: ext2_ioctl,
mmap: generic_f ile_mmap,
open: generic_f ile_open,
release: ext2_release_f ile,
fsync: ext2_sync_f ile,
};
但是, Linux 2.6 推荐类似的代码应该尽量采用标准 C 的方式:
struct f ile_operations ext2_f ile_operations = {
.llseek = generic_f ile_llseek,
.read = generic_f ile_read,
.write = generic_f ile_write,
.aio_read = generic_f ile_aio_read,
.aio_write = generic_f ile_aio_write,
.ioct = ext2_ioctl,
.mmap = generic_f ile_mmap,
.open = generic_f ile_open,
.release = ext2_release_f ile,
.fsync = ext2_sync_f ile,
.readv = generic_f ile_readv,
.writev = generic_f ile_writev,
.sendf ile = generic_f ile_sendf ile,
};
GNU C 预定义了两个标识符保存当前函数的名字, _ _FUNCTION_ _ 保存函数在源码中的名字, _ _PRETTY_FUNCTION_ _ 保存带语言特色的名字。在 C 函数中,这两个名字是相同的。
void example()
{
printf("This is function:%s", _ _FUNCTION_ _);
}
代码中的 _ _FUNCTION_ _ 意味着字符串“example”。 C99 已经支持 _ _func_ _ 宏,因此建议在 Linux 编程中不再
使用 _ _FUNCTION_ _,而转而使用 _ _func_ _:
void example(void)
{
printf("This is function:%s", _ _func_ _);
}
GNU C 允许声明函数、变量和类型的特殊属性,以便手动优化代码和定制代码检查的方法。要指定一个声明的属性,只需要在声明后添加 _ _attribute_ _ (( ATTRIBUTE ))。其中 ATTRIBUTE 为属性说明,如果存在多个属性,则以逗号分隔。 GNU C 支持 noreturn、
format、 section、 aligned、 packed 等十多个属性。
noreturn 属性作用于函数,表示该函数从不返回。这会让编译器优化代码,并消除不必
要的警告信息。例如:
# def ine ATTRIB_NORET _ _attribute_ _((noreturn)) ....
asmlinkage NORET_TYPE void do_exit(long error_code) ATTRIB_NORET;
format 属性也用于函数,表示该函数使用 printf、 scanf 或 strftime 风格的参数,指定
format 属性可以让编译器根据格式串检查参数类型。例如:
asmlinkage int printk(const char * fmt, ...) _ _attribute_ _ ((format (printf, 1, 2)));
上述代码中的第 1 个参数是格式串,从第 2 个参数开始都会根据 printf() 函数的格式串规则检查参数。
unused 属性作用于函数和变量,表示该函数或变量可能不会用到,这个属性可以避免编译器产生警告信息。
aligned 属性用于变量、结构体或联合体,指定变量、结构体或联合体的对齐方式,以字节为单位,例如:
struct example_struct {
char a;
int b;
long c;
} _ _attribute_ _((aligned(4)));
表示该结构类型的变量以 4 字节对齐。
packed 属性作用于变量和类型,用于变量或结构体成员时表示使用最小可能的对齐,用于枚举、结构体或联合体类型时表示该类型使用最小的内存。例如:
struct example_struct {
char a;
int b;
long c;
}_ _attribute_ _((packed));
编译器对结构体成员及变量对齐的目的是为了更快地访问结构体成员及变量占据的内存。例如,对于一个 32 位的整型变量,若以 4 字节方式存放(即低两位地址为 00),则 CPU 在一个总线周期内就可以读取 32 位; 否则, CPU 需要两个总线周期才能读取 32 位。
GNU C 提供了大量内建函数,其中大部分是标准 C 库函数的 GNU C 编译器内建版本,例如 memcpy() 等,它们与对应的标准 C 库函数功能相同。
不属于库函数的其他内建函数的命名通常以 _ _builtin 开始,如下所示。
● 内建函数 _ _builtin_return_address (LEVEL) 返回当前函数或其调用者的返回地址,参数 LEVEL 指定调用栈的级数,如 0 表示当前函数的返回地址, 1 表示当前函数的调用者的返回地址。
● 内建函数 _ _builtin_constant_p(EXP) 用于判断一个值是否为编译时常数,如果参数EXP 的值是常数,函数返回 1,否则返回 0。
例如,下面的代码可检测第 1 个参数是否为编译时常数以确定采用参数版本还是非参数
版本:
#def ine test_bit(nr,addr) \
(_ _builtin_constant_p(nr) ? \
constant_test_bit((nr),(addr)) : \
variable_test_bit((nr),(addr)))
● 内建函数 _ _builtin_expect(EXP, C) 用于为编译器提供分支预测信息,其返回值是整数表达式 EXP 的值, C 的值必须是编译时常数。
Linux 内 核 编 程 时 常 用 的 likely() 和 unlikely() 底 层 调 用 的 likely_notrace()、 unlikely_notrace() 就是基于 _ _builtin_expect(EXP, C) 实现的。
#def ine likely_notrace(x) __builtin_expect(!!(x), 1)
#def ine unlikely_notrace(x) __builtin_expect(!!(x), 0)
若代码中出现分支,则即可能中断流水线,我们可以通过 likely() 和 unlikely() 暗示分支容易成立还是不容易成立,例如:
if (likely(!IN_DEV_ROUTE_LOCALNET(in_dev)))
if (ipv4_is_loopback(saddr))
goto e_inval;
在使用 gcc 编译 C 程序的时候,如果使用“-ansi –pedantic”编译选项,则会告诉编译器不使用 GNU 扩展语法。例如对于如下 C 程序 test.c:
struct var_data {
int len;
char data[0];
};
struct var_data a;
直接编译可以通过:
gcc -c test.c
如果使用“-ansi –pedantic”编译选项,编译会报警:
gcc -ansi -pedantic -c test.c
test.c:3: warning: ISO C forbids zero-size array 'data'