UNIX环境高级编程学习之路(五)----进程环境

对于UNIX环境编程,工作中经常会用到相关知识,作为学习UNIX环境编程的经典书籍–UNIX环境高级编程,是每个UNIX编程人员必看的经典书籍之一,为了将相关知识重新进行学习,以系统的整合所学知识,遂以博文形式作为总结。

1、概述

当程序执行时,其main函数是如何被调用的,命令行参数是如何传递给新程序的;典型的存储空间布局是什么样式,如何分配另外的存储空间,进程如何使用环境变量,进程的各种不同终止方式等。还将说明longjmp和setjmp函数以及他们与栈的交互作用。

2、main函数

main函数原型是:

int main(int argc, char *argv[]);

当内核执行C程序时(使用一个exec函数),==在调用main前先调用一个特殊的启动例程。可执行程序文件将此启动例程指定为程序的起始地址==—这是由连接编辑器设置的,而连接编辑器由C编译器调用。==启动例程从内核取得命令行参数和环境变量值==,然后按上述方式调用main函数做好安排。

3、进程终止

有8种方式使进程终止,其中5种正常终止:

(1)从main返回;
(2)调用exit;
(3)调用_exit或_Exit;
(4)最后一个线程从其启动例程返回;
(5)从最后一个线程调用pthread_exit;

异常终止有3种方式:
(6)调用abort;
(7)接收一个信号;
(8)最后一个线程对取消请求作出响应。
* 退出函数

3个函数用于正常终止一个程序;_exit和_Exit立即进入内核,exit则先执行一些清理处理,然后返回内核。
#include 
void exit(int status);
void _Exit(int status);
#include 
void _exit(int status);

exit 函数总是执行一个标准I/O库的清理关闭操作:对于所有打开流调用fclose函数。
3个退出函数都带一个整型参数。称为终止状态。大多数UNIX系统shell都提供检查终止状态的方法。如果(a)调用这些函数时不带终止状态,或(b)main执行了一个无返回值的return语句,或(c)main没有声明返回类型为整型,则该进程的终止状态是未定义的。但是,若main的返回类型是整型,并且main执行到最后一条语句时返回,那么该进程的终止状态是0。
main函数返回一个整型值与该值调用exit是等价的。于是在main函数中exit(0);等价于return(0);

  • 函数atexit

    一个进程可以登记多至32个函数,这些函数由exit自动调用。我们称这些函数为终止处理程序,并调用atexit函数来登记这些函数。

#include 
int atexit(void (*func)(void));
返回值:若成功,返回0;若出错,返回非0

其中,atexit的参数是一个函数地址,当调用此函数时无需向他传递任何参数,也不期望它返回一个值。exit调用这些函数的顺序与他们登记时候的顺序相反。同一函数如登记多次,他会被调用多次。
exit首先调用各终止处理程序,然后关闭(通过fclose)所有打开流。如若程序调用exec函数族的任一函数,则将清除所有已安装的终止处理程序。
下图显示了一个C程序是如何启动的,以及它终止的各种方式。

注意,内核是程序执行的唯一方法是调用一个exec函数。进程自愿终止的唯一方法是显式或隐式的调用_exit或_Exit。进程也可以非自愿的由一个信号使其终止。

下列程序说明使用atexit函数。

#include 
#include 

static void my_exit1(void);
static void my_exit2(void);

int main(void)
{
    if (atexit(my_exit2) != 0)
        printf("can't register my_exit2");
    if (atexit(my_exit1) != 0)
        printf("can't register my_exit1");
    if (atexit(my_exit1) != 0)
        printf("can't register my_exit1");

    printf("main is done!\n");
    return 0;
}
static void my_exit1(void)
{
    printf("first exit handler\n");
}

static void my_exit2(void)
{
    printf("second exit handler\n");
}

运行该程序为:

终止处理程序每登记一次,就会被调用一次。所以,my_exit1被调用两次,且exit调用这些函数的顺序与它们登记时候的顺序相反。

4、命令行参数

当执行一个程序时,调用exec的进程可将命令行参数传递给新程序。这是UNIX shell的一部分常规操作。

下例程序将所有命令行参数都回显到标准输出上。

#include 

int main(int argc, char **argv)
{
    int i;
    for (i = 0; i < argc; i++)
        printf("argv[%d]\n", i , argv[i]);
    exit(0);
}

编译次程序,得到如下结果:

因为argv[argc]是一个空指针。则我们可以将参数处理循环修改为:
for (i = 0 ; argv[argc] != NULL; i++)

5、环境表

每个程序都接收到一张环境表。与参数表一样。环境表也是一个字符数组指针,其中每个指针包含一个以null结束的C字符串的地址。全局变量environ则包含了该指针数组的地址:

char **environ;

例如,如果该环境包含5个字符串,那么他看起来如下图所示。其中,每个字符串的结尾处都显式的有一个null字节。我们称environ为环境指针,指针数组为环境表,其中各指针指向的字符串称为环境字符串。

在历史上,大多数UNIX系统支持的main函数带3个参数,其中第3个参数就是环境表地址:
int main(int argc, char *argv[], char *envp[]);
通常用getenv和putenv函数来访问指定的环境变量,二不是用environ变量,但是要查看整个环境,则必须用environ指针。environ环境变量指针详见:environ环境变量

6、C程序的存储空间布局

C程序一直有以下几部分组成
- 正文段
这是由CPU执行的机器指令部分。通常,正文段是可以共享的,所以,即使是频繁执行的程序(如文本编辑器、c编译器和shell等)在存储器中也只需要一个副本,另外,正文段常常是只读的,以防止程序由于意外而修改其指令。
- 初始化数据段
通常,将此段称为数据段,它包含了程序中需要明确赋初值的变量。例如,C程序中任何函数之外的声明:
int maxcount = 99;
使此变量以其初始存放在初始化数据段中。==已初始化 的 全局变量 的一块内存区域。==
- 未初始化数据段(bss段)
在程序开始执行之前,内核将此段中的数据初始化为0或空指针。函数外的声明:
long sum[1000];
将此变量存放在非初始化数据段中。==未初始化的全局变量的一块内存区域==


  • 自动变量以及每次函数调用时,所需要保存的信息都存放在此段中。每次函数调用时,其返回地址以及调用者的环境信息(如某些机器寄存器的值)都存放在栈中。然后,最近被调用的函数在栈上为其自动和临时变量分配存储空间。通过以这种方式使用栈,C递归函数可以工作。递归函数每次调用自身时,就用一个新的栈帧,因此一次函数调用实例中的变量集不会影响另一次函数调用实例中的变量。

  • 通常在堆中进行动态存储分配。堆位于未初始化数据段和栈之间。
    典型的存储空间安排

    从上图可以看到,未初始化数据段的内容并不存放在磁盘程序文件中。其原因是,内核在程序开始运行前将他们都设置为0。需要存放在磁盘文件中的段只有正文段和初始化数据段。
    size命令报告正文段、数据段和bss段的长度:

    4列和5列分别是以十进制和十六进制表示的3段总长度。

7、共享库
共享库使得可执行文件中不再需要包含公用的库函数,而只需要所以进程都可引用的存储区中保存这种库例程的一个副本。程序第一次执行或者第一次调用某个库函数时,用动态链接方法将程序与共享库函数相链接。这减少了每个可执行文件的长度,但增加了一些运行时间开销。这种时间开销发生在该程序第一次被执行时,或者每个共享库函数第一次被调用时。共享库的另一个优点是可以用库函数的新版本代替老版本而无需对使用该库的程序重新连接编辑。

8、存储空间分配
ISO C说明了3个存储空间动态分配的函数
(1)malloc,分配指定字节数的存储区。此存储区的初始值不确定。
(2)calloc,为指定数量指定长度的对象分配存储空间。该空间中的每一位(bit)都初始化为0。
(3)realloc,增加或者减少以前分配区的长度。当增加长度时,可能需要以前分配区的内容移到另一个足够大的区域,以便在尾端提供增加的存储区,而新增区域内的初始值则不确定。

#include 
void *malloc(size_t size);
void *calloc(size_t nobj, size_t size);
void *realloc(void *ptr, size_t newsize);
返回值:若成功,返回非空指针;若出错,返回NULL
void free(void *ptr);

函数free释放ptr指向的存储空间。被释放的空间通常被送入到可用存储区池,以后,可在调用上述3个分配函数时再分配。
realloc函数使我们可以增、减以前分配的存储区的长度(最常见的是增加该区)。例如,如果先为一个数组分配存储空间,该数组长度为512,然后在运行时填充它,但运行一段时间后发现该数组原先的长度不够用,此时就可用realloc扩充相应的存储空间。如果在该存储后有足够的空间可供扩充,则可在原存储区位置上向高地址方向扩充,无需移动原先的内容,并返回与传给他相同的指针值。如果在原存储区后没有足够的空间,则realloc分配另一个足够大的存储区,返回新分配区的指针。因为这种存储区可能会移动位置,所以不应当使任何指针指在该区中。
注意,realloc的最后一个参数是存储区的新长度,不是新、旧存储区长度之差。作为一个特例,若ptr是一个空指针,则realloc功能与malloc相同,用于分配一个指定长度为newsize的存储区。
大多数实现所分配的存储空间比所要求的要稍大一点,额外的空间用来记录管理信息–分配块的长度、指向下一个分配块的指针等。

9、环境变量

环境字符串的形式是:   
name =value    

UNIX内核并不查看这些字符串,他们的解释完全取决于各个应用程序。其中一些在登陆时自动设置,有些则由用户设置。
ISO C定义了一个函数getenv,可以用其取环境变量值。

#include 
char *getenv(const char *name);
返回值:指向与name关联的value的指针,若未找到,返回NULL。

我们应当使用getenv从环境中取一个指定环境变量的值,而不是直接访问environ。

除了获取环境变量值,有时也需要设置环境变量。也可能改变现有变量的值,或者增加新的环境变量。

#include 
int putenv(char *str);
函数返回值:若成功,返回0;若出错,返回非0
int setenv(const char *name, const char *value, int rewrite);
int unsetenv(const char *name);
返回值:若成功,返回0;若出错,返回-1

这3个函数的操作如下:
* putenv取形式为name=value的字符串,将其放到环境表中,若name已经存在,则先删除其原来的定义。
* setenv将name设置为value。如果在环境中name已经存在,那么(a)若rewrite非0,则首先删除其现有的定义;(b)若rewrite为0,则不删除现有的定义(name’不设置为新的value,而且也不出错)。
* unsetenv删除name的定义。即使不存在这种定义也不算出错。

10、函数setjmp和longjmp
在C中,goto函数是不能跨越函数的,而执行这种类型跳转功能的函数是setjmp和longjmp。这两个函数对于处理发生在很深嵌套函数调用中的出错情况是非常有用的。
如以下程序:

#include 

#define TOK_ADD 5

void do_line(char *);
void cmd_add(void);
int get_token(void);

int main(void)
{
    char line[1024];
    while (fgets(line, 1024, stdin) != NULL)
        do_line(line);
    exit(0);
}

char *tok_ptr;

void do_line(char *ptr)
{

    int cmd;
    tok_ptr = ptr;
    while((cmd = get_token()) > 0)
    {
        switch(cmd) {
        case TOK_ADD:
            cmd_add();
            break;
        }

    }
}

void cmd_add(void)
{
    int token;
    token = get_token();

}

int get_token(void)
{


}

自动变量的存储单元在每个函数的栈帧中。数组line在main的栈帧中,整型cmd在do_line的栈帧中,整型token在cmd_add的栈帧中。

在编写如上的程序时遇到一个问题,如何处理非致命性的错误。如,cmd_add函数发现一个错误(比如一个无效的数),那么他可能先打印一个出错消息,然后忽略输入行的余下部分,返回main函数并读下一输出行。但是如果这种情况出现在main函数中的深层嵌套中时,用C语言难以做到这一点。
解决这种问题的方法就是使用非局部goto,setjmp和longjmp函数。非局部指的是,这不是由普通的C语言goto语句在一个函数内实施的跳转,而是在栈上跳过若干调用帧,返回到当前函数路径上的某一个函数中。

#include 
int setjmp(jmp_buf env);
返回值:若直接调用,返回0;若从longjmp返回,则为非0

void longjmp(jmp_buf env, int val);

在希望返回的位置调用setjmp,在本例中,此位置在main函数中。因为我们直接调用该函数,所以其返回值为0。setjmp参数env的类型是一个特殊类型的jmp_buf。这一数据类型是某种形式的数组,其中存放在调用longjmp时能用来恢复栈状态的所有信息。因为需要在另一个函数中引用env变量,所以通常将env变量定义为全局变量。
如下为使用setjmp和longjmp函数的例子

#include 
#include 

#define TOK_ADD   5

jmp_buf jmpbuffer;

int main(void)
{
    char line[1024];
    if (setjmp(jmpbuffer) != 0)
    {
        printf("error\n");
    }
    while(fgets(line, 1024, stdin) != NULL)
    {
        do_line(line);
    }
    exit 0;
}

...

void cmd_add(void)
{
    int token;

    token = get_token();
    if (token < 0)
    {
        longjmp(jmpbuffer, 1);
    }
}

执行main时,调用setjmp,它将所需的信息记入变量jmpbuffer中并返回0。然后调用do_line,它又调用cmd_add,假定在其中检测到一个错误。在cmd_add中调用longjmplongjmp之前,栈如下图所示。但是longjmp使栈反绕到执行main函数时的情况,也就是抛弃了cmd_add和do_line的栈帧。调用longjmp造成main中setjmp的返回,但是,这一次的返回值是1。(longjmp的第二个参数)。

11、函数getrlimit和setrlimit
每个进程都有一组资源限制,其中一些可以用getrlimit和setrlimit函数查询和更改。

#include 
int getrlimit(int resource, struct rlimit *rlptr);
int setrlimit(int resurces, const struct rlimit *rlptr);
返回值:若成功,返回0;若出错,返回非0

对这两个函数的每一次调用都指定一个资源以及一个指向下列结构的指针。
struct rlimit {
rlim_t rlim_cur; /soft limit:current limit/
rlim_t rlim_max; /hard limit: maximum value for rlim_cur/

};
在更改资源限制时,需遵循下列3条规则。
(1)任何一个进程都可将一个软限制值更改为小于或等于其硬限制值
(2)任何一个进程都可降低其硬限制值,但他必须大于或者等于其软限制值。这种降低,对普通用户而言是不可逆的。
(3)只有超级用户进程可以提高硬限制值。
常量RLIM_INFINITY指定了一个无限量的限制。
这两个函数的resource参数取下列值之一。

————————————————华丽的风格线————————————————
QQ群:西安C/C++开发者,诚邀您的加入

你可能感兴趣的:(Linux)