在linux中fork函数时非常重要的函数,它从已存在进程中创建一个新进程。新进程为子进程,而原进程为父进程。
#include pid_t fork(void);返回值:自进程中返回0,父进程返回子进程id,出错返回-1
fork()调用时,OS的内核操作
- 进程调用fork,当控制转移到内核中的fork代码后,内核做:
- 分配新的内存块和内核数据结构给子进程
- 将父进程部分数据结构内容拷贝至子进程
- 添加子进程到系统进程列表当中
- fork返回,开始调度器调度
当一个进程调用fork以后,父子进程代码是共享的,而数据是发生了写时拷贝。
测试代码:
#include
#include
#include
int g_val=100;
int main()
{
pid_t id=fork();
if(id==0){
//子进程
int cnt=0;
while(1){
printf("I am child,pid:%d,ppid:%d,g_val:%d,&g_val:%p\n",getpid(),getppid(),g_val,&g_val);
cnt++;
sleep(1);
if(cnt==5){
g_val=200;
printf("child change g_val 100->200 sucess\n");
}
}
}
else //父进程
{
while(1){
printf("I am father,pid:%d,ppid:%d,g_val,&g_val:%p\n",getpid(),getppid(),g_val,&g_val);
sleep(1);
}
}
return 0;
}
从上图我们发现,当cnt==5时,父子进程间g_val的值不一样但是他们地址一样。
- 子进程返回0,
- 父进程返回的是子进程的pid
fork函数是一个系统调用函数,是由OS来进行调用,当发生fork时,在执行return语句时,子进程已经被创建成功了,此时父子进程都会执行return语句。
首先一个父进程可以创建多个子进程,而一个子进程只能有一个父进程。因此,对于父进程来说,父进程是不需要被标识的;而对于子进程来说,子进程是需要被标识的,因为父进程创建子进程的目的是让其执行相应的任务,父进程只有知道子进程的PID才能对该进程进行任务指派。
父进程调用fork以后,为了创建子进程,fork函数内部会进行一系列操作,包括创建子进程的PCB结构,对子进程的mm_struct进行赋值,页表进行映射等,当子进程创建完毕后,操作系统还需要将子进程的进程控制块添加到系统进程列表当中,此时子进程创建完毕。所以说在fork函数内部执行return语句之前子进程已经创建完毕。
首先呢,上述代码发生了写时拷贝,由于fork之后,父子间代码是共享的。父子进程是共同执行,而父子进程中的代码又是同一块物理空间中的代码,但是由于id值不相同,所以父子间会进入不同的条件判断中去。
当子进程被创建时,父子进程间代码是具有共享性的,即它和父进程共用同一块物理内存空间,而当父进程或者子进程中需要修改某些数据时,才会将父进程中的数据拷贝一份,然后进行相关修改操作。这种需要进行数据修改时进行拷贝的技术就叫做写时拷贝技术。
由于进程具有一定的独立性。父子间进程不能相互影响。
子进程不一定会使用父进程的所有数据,并且在子进程不对数据进行写入的情况下,没有必要对数据进行拷贝,我们应该按需分配,在需要修改数据的时候再分配(延时分配),这样可以高效的使用内存空间。
90%的情况下是不会的,但这并不代表代码不能进行写时拷贝,例如在进行进程替换的时候,则需要进行代码的写时拷贝。
- 一个父进程希望复制自己,使父子进程同时执行不同的代码段。例如,父进程等待客户端请求,生成子进程来处理请求。
- 一个进程要执行一个不同的程序。例如子进程从fork返回后,调用exec函数
- 系统中有太多的进程
- 实际用户的进程数超过了限制
- 代码运行完毕,结果正确
- 代码运行完毕,结果不正确
- 代码异常终止
- 正常终止(可以通过 echo $? 查看进程退出码):
- 1. 从main返回
- 2. 调用exit
- 3. _exit
- 异常退出:
- ctrl + c,信号终止
查看Linux下进程所有退出码:
#include
#include
int main()
{
for(int i=0;i<150;i++)
printf("错误码序号%d,错误信息:%s\n",i,strerror(i));
return 0;
}
注意: 我们可以发现Linux下一共有134个进程退出吗,而且每个退出码都有相应的错误信息。
同时我们可以利用echo $?指令来查看相应的进程退出码
_exit函数
- #include
- void _exit(int status);
- 参数:status 定义了进程的终止状态,父进程通过wait来获取该值
- #include
- void exit(int status);
#include
#include
#include
int Add(int n)
{
int sum=0;
for(int i=1;i<=n;i++) sum+=i;
return sum;
}
int main()
{
int ret=Add(100);
if(ret==5050) return 0;
else return 1;
return 0;
}
上面程序是从1到100相加,如果结果是5050,则可以证明如果结果是正确的,那么返回0,不正确则返回1.注意:只有main函数中的return值才能作为进程的退出码,其他自己实现的函数中的return值不能作为进程退出码。如果我们想要在自己写的函数中退出并且还要有相应的进程退出码,那么就是调用exit或者是_exit函数。那么区别在哪里呢?接下来我将会详细分析。
代码1:
#include
#include
#include
#include
int Add(int n)
{
int sum=0;
for(int i=1;i
代码2:
#include
#include
#include
#include
#include
int Add(int n)
{
int sum=0;
for(int i=1;i
两个代码最后的结果相同截图:
我们可以发现代码1和代码2基本上都是相同的,最后进程退出码都是一样的,那么exit和_exit的区别是什么?
测试exit代码:
#include
#include
#include
int main()
{
printf("hello world");
sleep(1);
exit(0);
}
测试_exit代码:
#include
#include
#include
int main()
{
printf("hello world");
sleep(1);
_exit(0);
}
从上述两个比较中我们可以发现:exit最后也会调用exit, 但在调用exit之前,还做了其他工作:1. 执行用户通过 atexit或on_exit定义的清理函数。2. 关闭所有打开的流,所有的缓存数据均被写入3. 调用_exit
区别:_exit是系统调用接口函数,而exit是C语言库函数,,由于使用了_exit函数缓存区还没有来得及刷新出去进程就终止了。而exit函数需要将缓存区中数据刷新等操作,然后再调用系统调用函数_exit。
return退出return是一种更常见的退出进程方法。执行return n等同于执行exit(n),因为调用main的运行时函数会将main的返回值当做 exit的参数。
情况一:向进程发生信号导致进程异常退出。
例如,在进程运行过程中向进程发生kill -9信号使得进程异常退出,或是使用Ctrl+C使得进程异常退出等。
情况二:代码错误导致进程运行时异常退出。
例如,代码当中存在野指针问题使得进程运行时异常退出,或是出现除0的情况使得进程运行时异常退出等。
- 子进程退出,父进程如果不管不顾,就可能造成‘僵尸进程’的问题,进而造成内存泄漏。
- 另外,进程一旦变成僵尸状态,那就刀枪不入,“杀人不眨眼”的kill -9 也无能为力,因为谁也没有办法杀死一个已经死去的进程。
- 最后,父进程派给子进程的任务完成的如何,我们需要知道。如,子进程运行完成,结果对还是不对,或者是否正常退出。
- 父进程通过进程等待的方式,回收子进程资源,获取子进程退出信息。
通过是用man 2 wait来查看关于wait和waitpid函数的文档:
(如果是在vim在需要加上!)
- #include
- #include
- pid_t wait(int*status);
- 返回值:
- 成功返回被等待进程pid,失败返回-1。
- 参数:
- 输出型参数,获取子进程退出状态,不关心则可以设置成为NULL。
#include
#include
#include
#include
#include
int main()
{
pid_t id=fork();
if(id==0){
//子进程
int cnt = 5;
while(cnt)
{
printf("cnt: %d, 我是子进程, pid: %d, ppid : %d\n", cnt, getpid(), getppid());
sleep(1);
cnt--;
}
//直接终止了子进程
exit(0);
}
else{
//父进程
printf("我是父进程, pid: %d, ppid: %d\n", getpid(), getppid());
sleep(7);
pid_t ret=wait(NULL);//阻塞式地等待
if(ret > 0)
{
printf("等待子进程成功, ret: %d",ret);
sleep(1);
}
printf("father is running...");
}
return 0;
}
循环监控进程方式:
while :; do ps ajx | head -1 &&ps ajx| grep myproc|grep -v grep; sleep 1;echo "-------------------------"; done
由上图我们可以发现子进程跑5秒,父进程跑7秒,大概有两秒钟的时间内,子进程处于僵尸状态。由于父进程一直在等待子进程结束然后回收子进程,在这等待的期间,父进程一直处于等待的状态,什么任务都不做,该过程称为阻塞等待。
- pid_ t waitpid(pid_t pid, int *status, int options);
- 返回值:
- 当正常返回的时候waitpid返回收集到的子进程的进程ID;
- 如果设置了选项WNOHANG,而调用中waitpid发现没有已退出的子进程可收集,则返回0;
- 如果调用中出错,则返回-1,这时errno会被设置成相应的值以指示错误所在;
- 参数:
- pid:
- Pid=-1,等待任一个子进程。与wait等效。
- Pid>0.等待其进程ID与pid相等的子进程。
- status:
- WIFEXITED(status): 若为正常终止子进程返回的状态,则为真。(查看进程是否是正常退出)
- WEXITSTATUS(status): 若WIFEXITED非零,提取子进程退出码。(查看进程的退出码)
- options:
- WNOHANG: 若pid指定的子进程没有结束,则waitpid()函数返回0,不予以等待。若正常结束,则返回该子进程的ID。(默认是0,表示阻塞等待)
- 如果子进程已经退出,调用wait/waitpid时,wait/waitpid会立即返回,并且释放资源,获得子进程退出信息。
- 如果在任意时刻调用wait/waitpid,子进程存在且正常运行,则进程可能阻塞。
- 如果不存在该子进程,则立即出错返回。
#include
#include
#include
#include
#include
int main()
{
pid_t id=fork();
if(id==0){
//子进程
int cnt = 5;
while(cnt)
{
printf("cnt: %d, 我是子进程, pid: %d, ppid : %d\n", cnt, getpid(), getppid());
sleep(1);
cnt--;
}
//直接终止了子进程
exit(1);
}
else{
//父进程
printf("我是父进程, pid: %d, ppid: %d\n", getpid(), getppid());
sleep(7);
int status=0;
pid_t ret=waitpid(id,&status,0);//阻塞等待
if(ret > 0)
{
printf("等待子进程成功, ret: %d\n",ret);
printf("status:%d\n",status);
sleep(1);
}
printf("father is running...");
}
return 0;
}
根据上图 ,我们可以发现一个现象,status表示的不是退出码,那status到底是什么?
通过分析status了解到是用来保存进程退出时的状态。
- wait和waitpid,都有一个status参数,该参数是一个输出型参数,由操作系统填充。
- 如果传递NULL,表示不关心子进程的退出状态信息。
- 否则,操作系统会根据该参数,将子进程的退出信息反馈给父进程。
- status不能简单的当作整形来看待,可以当作位图来看待,具体细节如下图(只研究status低16比特位):
验证status代码:
#include
#include
#include
#include
#include
int main()
{
pid_t id=fork();
if(id==0){
//子进程
int cnt = 5;
while(cnt)
{
printf("cnt: %d, 我是子进程, pid: %d, ppid : %d\n", cnt, getpid(), getppid());
sleep(1);
cnt--;
}
//直接终止了子进程
exit(100);
}
else{
//父进程
printf("我是父进程, pid: %d, ppid: %d\n", getpid(), getppid());
sleep(7);
int status=0;
pid_t ret=waitpid(id,&status,0);//阻塞等待
if(ret > 0)
{
printf("等待子进程成功, ret: %d\n",ret);
printf("status:%d\n",(status>>8)&0xff);
sleep(1);
}
printf("father is running...");
}
return 0;
}
此时我们发现获取到了子进程的退出码。那么信号呢?
查看所有信号的方式:kill -l
注意: 这里也可以使用其他信号来终止该进程。如果一个进程异常退出的话,那么该进程的退出码没有任何意义!
- 阻塞等待: 顾名思义,就是进程或是线程执行到这些函数时必须等待某个事件的发生,如果事件没有发生,进程或线程就被阻塞,函数不能立即返回。
- 非阻塞等待:就是进程或线程执行此函数时不必非要等待事件的发生,一旦执行肯定返回,以返回值的不同来反映函数的执行情况,如果事件发生则与阻塞方式相同,若事件没有发生则持续返回一个值来告知事件未发生,进程或线程继续执行,直到事件发生才为最后一次返回。
进一步来说:阻塞等待就是父进程一直等子进程,父进程不做任何事情。而非阻塞等待就是父进程在等待的同时也在做自己的事,在子进程退出后再去读取子进程的退出信息。
#include
#include
#include
#include
#include
int main()
{
pid_t pid = fork();
if(pid < 0)
{
printf("%s fork error\n",__FUNCTION__);
return 1;
}
else if( pid == 0 )
{ //child
printf("child is run, pid is : %d\n",getpid());
sleep(5);
exit(257);
}
else
{
int status = 0;
pid_t ret = waitpid(-1, &status, 0);//阻塞式等待,等待5S
printf("this is test for wait\n");
if( WIFEXITED(status) && ret == pid ){
printf("wait child 5s success, child return code is :%d.\n",WEXITSTATUS(status));
}
else
{
printf("wait child failed, return.\n");
return 1;
}
}
return 0;
}
由图可知:父进程一直等待着子进程退出,什么事情都不做。
#include
#include
#include
#include
#include
int main()
{
pid_t pid = fork();
if(pid < 0){
printf("%s fork error\n",__FUNCTION__);
return 1;
}
else if( pid == 0 ){ //child
printf("child is run, pid is : %d\n",getpid());
sleep(5);
exit(1);
}
else{
int status = 0;
pid_t ret = 0;
do
{
ret = waitpid(-1, &status, WNOHANG);//非阻塞式等待
if( ret == 0 ){
printf("child is running\n");
}
sleep(1);
}while(ret == 0);
if( WIFEXITED(status) && ret == pid ){
printf("wait child 5s success, child return code is :%d.\n",WEXITSTATUS(status));
}
else{
printf("wait child failed, return.\n");
return 1;
}
}
return 0;
}
由图可知:子进程在做自己的事情时,父进程并不是刻意的去等待,而是父进程也在做自己的事情,它们之间只是互不影响,每个1s的时间进行检测。当子进程运行退出时,父进程获取到子进程的退出信息。这种检测方案叫做非阻塞接口的轮询检测方案!
用fork创建子进程后执行的是和父进程相同的程序(但有可能执行不同的代码分支),子进程往往要调用一种exec函数以执行另一个程序。当进程调用一种exec函数时,该进程的用户空间代码和数据完全被新程序替换,从新程序的启动例程开始执行。调用exec并不创建新进程,所以调用exec前后该进程的id并未改变。
当进行进程程序替换时,有没有创建新的进程?
进程程序替换之后,该进程对应的PCB、进程地址空间以及页表等数据结构都没有发生改变,只是进程在物理内存当中的数据和代码发生了改变,所以并没有创建新的进程,而且进程程序替换前后该进程的pid并没有改变。
子进程进行进程程序替换后,会影响父进程的代码和数据吗?
子进程刚被创建时,与父进程共享代码和数据,但当子进程需要进行进程程序替换时,也就意味着子进程需要对其数据和代码进行写入操作,这时便需要将父子进程共享的代码和数据进行写时拷贝,此后父子进程的代码和数据也就分离了,因此子进程进行程序替换后不会影响父进程的代码和数据。
execl需要将参数一个一个传入,而execv传入数组就行。
#include
#include
#include
#include
#include
#include
#define NUM 16
using namespace std;
int main()
{
pid_t id;
id=fork();
if(id==0)
{
//子进程
printf("子进程开始运行,pid:%d\n",getpid());
sleep(3);
char *const _argv[NUM]={
(char*)"ls",
(char*)"-a",
NULL
};
execl("/user/bin/ls","ls","-a","-l",NULL);
//execv("/user/bin/ls",_argv);
exit(1);
}
else
{
//父进程
printf("父进程开始运行,pid:%d\n",getpid());
int status=0;
pid_t id= waitpid(-1,&status,0);//阻塞等待
if(id>0)
{
//打印退出码
printf("wait success,exit code: %d\n", WEXITSTATUS(status));
}
}
return 0;
}
如果想要执行一个程序,必须先找到程序!带路径,不带路径能找到程序吗??
答案是使用PATH,所以我们上面的execlp中的p就是说明这个函数会自己在环境变量PATH中进行查找,你不用告诉我命令在哪里。
#include
#include
#include
#include
#include
#include
#define NUM 16
using namespace std;
int main()
{
pid_t id;
id=fork();
if(id==0)
{
//子进程
printf("子进程开始运行,pid:%d\n",getpid());
sleep(3);
char *const _argv[NUM]={
(char*)"ls",
(char*)"-a",
NULL
};
execlp("ls","ls","-a","-l",NULL);
//execv("/user/bin/ls",_argv);
exit(1);
}
else
{
//父进程
printf("父进程开始运行,pid:%d\n",getpid());
int status=0;
pid_t id= waitpid(-1,&status,0);//阻塞等待
if(id>0)
{
//打印退出码
printf("wait success,exit code: %d\n", WEXITSTATUS(status));
}
}
return 0;
}
这里的l代表的就是将参数一个一个传递进去,e代表的就是环境变量(这个参数会自己维护环境变量),这个函数没有带p,就说明这个函数在运行的时候需要带全路径。
#include
#include
#include
#include
#include
#include
#define NUM 16
using namespace std;
const char*myfile="./pro";
int main()
{
pid_t id=fork();
char* const_env[NUM]={(char*)"MY_val=1234567",NULL};
if(id==0)
{
//子进程
printf("子进程开始运行,pid:%d\n",getpid());
sleep(3);
char *const _argv[NUM]={
(char*)"ls",
(char*)"-a",
NULL
};
execle(myfile,"pro",NULL,const_env);
exit(1);
}
else
{
//父进程
printf("父进程开始运行,pid:%d\n",getpid());
int status=0;
pid_t id= waitpid(-1,&status,0);//阻塞等待
if(id>0)
{
//打印退出码
printf("wait success,exit code: %d\n", WEXITSTATUS(status));
}
}
return 0;
}
这里v代表的是参数要用vector的形式一个一个传入,p代表的是会从PATH路径中寻找,不用再传入全路径了。
#include
#include
#include
#include
#include
#define NUM 16
int main()
{
pid_t id=fork();
if(id==0)
{
//子进程
printf("子进程开始运行,pid:%d\n",getpid());
sleep(3);
char *const _argv[NUM]={
(char*)"ls",
(char*)"-a",
NULL
};
//最后一个参数必须要是NULL,代表传参结束
//实际上是这些命令行参数一个一个传递给main函数
execvp("ls",_argv);
exit(1);
}
else
{
//父进程
printf("父进程开始运行,pid:%d\n",getpid());
int status=0;
pid_t id= waitpid(-1,&status,0);//阻塞等待,一定是子进程先运行完毕,然后父进程获取之后,才退出
if(id>0)
{
//打印退出码
printf("wait success,exit code: %d\n", WEXITSTATUS(status));
}
}
return 0;
}
#define _GNU_SOURCE
#include
#include
#include
#include
#include
#define NUM 16
int main()
{
char *const _env[NUM] = {
(char *)"MY_105_VAL=888777666555",
NULL
};
pid_t id=fork();
if(id==0)
{
//子进程
printf("子进程开始运行,pid:%d\n",getpid());
sleep(3);
char *const _argv[NUM]={
(char*)"ls",
(char*)"-al",
NULL
};
//最后一个参数必须要是NULL,代表传参结束
//实际上是这些命令行参数一个一个传递给main函数
execvpe("ls",_argv,_env);
exit(1);
}
else
{
//父进程
printf("父进程开始运行,pid:%d\n",getpid());
int status=0;
pid_t id= waitpid(-1,&status,0);//阻塞等待,一定是子进程先运行完毕,然后父进程获取之后,才退出
if(id>0)
{
//打印退出码
printf("wait success,exit code: %d\n", WEXITSTATUS(status));
}
}
return 0;
}
这里需要注意需要加入一个宏不然编译不通过: _GNU_SOURCE
第一个参数是要执行程序的路径,第二个参数是一个指针数组,数组当中的内容表示你要如何执行这个程序,数组以NULL结尾,第三个参数是你自己设置的环境变量。
#include
#include
#include
#include
#include
#define NUM 16
int main()
{
char *const _env[NUM] = {
(char *)"MY_105_VAL=888777666555",
NULL
};
pid_t id=fork();
if(id==0)
{
//子进程
printf("子进程开始运行,pid:%d\n",getpid());
sleep(3);
char *const _argv[NUM]={
(char*)"ls",
(char*)"-al",
NULL
};
//最后一个参数必须要是NULL,代表传参结束
//实际上是这些命令行参数一个一个传递给main函数
execve("ls",_argv,_env);
exit(1);
}
else
{
//父进程
printf("父进程开始运行,pid:%d\n",getpid());
int status=0;
pid_t id= waitpid(-1,&status,0);//阻塞等待,一定是子进程先运行完毕,然后父进程获取之后,才退出
if(id>0)
{
//打印退出码
printf("wait success,exit code: %d\n", WEXITSTATUS(status));
}
}
return 0;
}
- 1. 获取命令行
- 2. 解析命令行
- 3. 建立一个子进程(fork)
- 4. 替换子进程(execvp)
- 5. 父进程等待子进程退出(wait)
#include
#include
#include
#include
#include
#include
#define NUM 1024
#define SIZE 32
#define SEP " "
char cmd_line[NUM];
char* g_argv[SIZE];
int main()
{
while(1)
{
printf("[root@localhost myshell]# ");
fflush(stdout);
memset(cmd_line,'\0',sizeof cmd_line);//首先初始化命令行
//读入命令行
if(fgets(cmd_line,sizeof cmd_line,stdin)==NULL) continue;
cmd_line[strlen(cmd_line)-1]='\0';
//对命令行进行解析,使用strtok
g_argv[0]=strtok(cmd_line,SEP);
int index=1;
//添加颜色特殊处理
if(strcmp(g_argv[0],"ls")==0) g_argv[index++]="--color=auto";
//对于ls的别名特殊处理
if(strcmp(g_argv[0],"ll")==0) {
g_argv[0]="ls";
g_argv[index++]="-l";
g_argv[index++]="--color=auto";
}
//这里如果还需要再次解析命令行字符串,那么只需要传NULL即可
while(g_argv[index++]=strtok(NULL,SEP));
if(strcmp(g_argv[0],"cd")==0) {
if(g_argv[1]!=NULL) chdir(g_argv[1]);
continue;
}
pid_t id=fork();
if(id==0){
printf("下面功能让子进程进行的是:\n");
execvp(g_argv[0],g_argv);
exit(1);
}
int status=0;
pid_t ret=waitpid(id,&status,0);//父进程等待子进程
if(ret>0) printf("exit code:%d\n",WEXITSTATUS(status));
}
return 0;
}
这里我们需要注意一下对于内建/内置命令时,我们利用cd命令发现路径没有更改的原因是因为子进程替换程序,在子进程执行确实路径更改了,但是子进程退出后当前路径也就没有了,如果再次查看当前路径是pro的路径。所以这里我们通过使用系统调用chdir来改变当前路径。
如果更改成功返回0,失败返回-1.对于内建/内置命令本质上就是不需要创建子进程去完成任务,父进程就够了。
一个C程序有很多函数组成。一个函数可以调用另外一个函数,同时传递给它一些参数。被调用的函数执行一定的操作,然后返回一个值。每个函数都有他的局部变量,不同的函数通过call/return系统进行通信。 这种通过参数和返回值在拥有私有数据的函数间通信的模式是结构化程序设计的基础。Linux鼓励将这种应用于程序之内的模式扩展到程序之间。如下图
程序之间相互调用的好处:我们都知道各个语言有自己独特的优势,当我们做某一技术开发时,可能需要用到多种语言,而我们最终就是利用程序之间的相互调用使得各个语言之间可以进行衔接
==例如,一个C程序可以通过exec系列函数调用shell脚本、python以及C++等语言实现的程序==
1.Shell脚本
#include
#include
#include
#include
#include
int main()
{
pid_t id=fork();
if(id==0)
{
//child
execl("./test.sh","test.sh",NULL); //调用Shell脚本
//execl("./test.py","test.py",NULL); //调用Python脚本
//execl("./test","test",NULL); //调用Python脚本
exit(1);
}
int status=0;
pid_t ret=waitpid(id,&status,0);
if(ret>0)
{
printf("exit code:%d\n",WEXITSTATUS(status));
}
return 0;
}