信号的产生以及详细讲解了,有兴趣的小伙伴可以去看看,传送门。接下来介绍信号的保存和信号处理。
首先介绍几个新的概念:
注意: 阻塞和忽略是不同的,只要信号被阻塞就不会被递达,但是忽略是在递达之后进行的一种处理动作。
我们知道,信号是保存在内核数据结构中的,下面来看它具体的储存模型:
当我们使用signal注册一个自定义处理方式时,操作系统会将我们定义的函数指针放在handler表中,在信号递达后调用。如果是默认处理方式,会调用handler默认的初始函数指针所对应的函数。
- 信号产生后,操作系统就会修改pending位图,使信号处于未决状态。
操作系统会按照一定的顺序来检查block表和pending表,然后去调用相应信号编号的处理方式来完成信号递达。大概逻辑(伪代码):
if(1<<(signo - 1) & pcb->block)
{
//signo信号被阻塞,不会被递达
}
else
{
if(1<<(signo - 1) & pcb->pending)
{
//信号递达,处理该信号
handler[signo - 1];
}
}
操作系统在对信号进行检测的时候,先检测的是信号的block位图,如果对应信号的比特位被置一,说明该信号被阻塞,就不再去检测pending位图。如果没有被阻塞,才会去检测pending位图,如果相应的位被置一,再去调用handler表中的处理函数。
结论: 如果一个信号没有产生,但是并不妨碍它被阻塞。
被阻塞的信号,在产生之后就会一直处于未决状态,不会被递达,只有当阻塞被解除后才会被递达。
- 默认情况下,所有信号都是不被阻塞的,所有信号都没有产生,也就是block位图和pending位图都是0。
pending图,block图以及handler表是存放在内核数据结构中的,所以只能由操作系统来修改,我们用户如果要修改也能通过操作系统来实现,所以操作系统同样给我们提供了系统调用。
对于block位图和pending位图的修改,操作系统提供了一族系统调用,称为信号集操作函数。
- sigset_t set:信号集变量。
- int signum:信号编号。
- 返回值:成功返回0,失败返回-1。
信号集:
用户在设置pending位图和block位图的时候,并不能直接让系统调用将内核中对于的比特位置一或清0,而是需要预先在一个变量中表达出我们的意愿,然后将这个变量通过系统调用给到操作系统,再由操作系统去修改内核数据结构。
系统提供的信号集操作函数操作的也是也是这个域先处理的变量,之所以也用系统调用来处理这个变量,是因为这个变量不单单是一个32位的整形变量,它的结构和内核是对应的,所以操作也要按照相应的规则。
- 从使用者的角度不必关心具体是如何操作的,只需要使用信号集操作函数来操作sigset_t变量即可。
- sigset_t变量用其他方式是无法操作的,比如用printf去打印,这是没有意义的。
具体操作:
- 在使用sigset_t类型的变量之前,一定要调用sigemptyset进行初始化,使信号集处于确定状态。
此时我们已经对sigset_t变量预处理好了,下一步就是把这个变量交给操作系统了,操作系统同样提供了对应的系统调用。
sigprocmask():
该系统调用是专门用来修改内核数据结构中的block位图的。
- int how:修改方式,有三个选项:
SIG_BLOCK:在block原有位图基础上添加sigset_t变量中设置的比特位。
SIG_UNBLICK:在bolck原有位图解除上删除sigset_t变量中设置的比特位。
SIG_SETMASK:用sigset_t变量覆盖原有的block位图。一般使用这个。- set:我们设置好的sigset_t变量。
- oldeset:这是一个输出型参数,将原本block位图输出到这个sigset_t变量中。
- 返回值:设置成功返回0,失败返回-1。
sigpending():
这是专门用来获取内核数据结构中的pending位图的。
- set:这是一个输出型参数,用来返回从内核中获取的pending位图情况。
- 返回值:成功返回0,失败返回-1。
此时我们可以利用上面的系统调用做一个小的实验,来验证某个信号被阻塞后,它的pengding位图会被置一,但是不会被递达。
将编号为2号和3号的信号阻塞,并且用自定义处理方式来处理2号和3号信号,一旦递达就会被处理,打印出信号的编号,但是不退出。
循环打印内核数据结果中的pending位图,观察进程在接收到2号和3号信号后的位图变化。
所以说,被阻塞的信号,即使产生也是处于未决状态,不会被递达。
现在我们知道,进程在接收到信号后并不是立刻处理的,而是在适当的时候,那这个适当的时候到底是什么时候呢?
- 从内核态返回用户态的时候信号递达。
信号只是处理的话非常简单,就是在执行默认的处理方式或者自定义方式,再或者是忽略,最重要的是信号处理的时机,也就是信号的捕获。
首先来看什么是内核态和用户态:
- 用户态:正在执行用户层的代码,此时CPU的状态是用户态。
- 内核态:正在通过系统调用访问内核或者硬件资源时,此时CPU的状态是内核态。
虽然系统调用是在我们的代码中写的,也就是用户在使用,但是具体的执行者是内核,也就是操作系统。
现在是知道了什么是用户态,什么是内核态,但是操作系统是怎么知道当前进程的身份状态的呢?
CPU中的寄存器虽然只有一套,但是有很多,有可见寄存器,如eax,ebx等等,还有很多的不可见寄存器,凡是和当前进程强相关的,都属于当前进程的上下文数据。
如上图中:
- CR3寄存器:专门用来表征当前进程的运行级别的。
0:表示内核态,此时访问的是内核资源或者硬件。
3:表示用户态,此时执行的是用户层的代码。
操作系统是一个进行软硬件资源管理的软件,它很容易就可以获取到CPU中CR3寄存器中是0还是3,从而知道当前是用户态还是内核态。
执行系统调用时,执行者是操作系统,而不是用户。那么又存在一个问题,一个进程是怎么跑到操作系统中执行代码的呢?
对进程地址空间进行一个补充介绍:
- 每一个进程地址空间中的3~4GB的内容都是一样的,因为它们都通过同一个内核级页表和内存中的内核相映射。
还记得动态链接吗?通过代码段的位置无关码跳转到共享区从内存中映射过来的动态库来执行相应的方法。系统调用和它的原理一样:
此时又有一个问题,为什么我们的代码中不能访问这3~4GB的空间,而系统调用就跳转到这1GB的内核空间中进行访问了呢?我们都是用户的代码啊?
- 因为从代码段跳转到内核空间中后,CPU中的CR3寄存器从3变成了0。
- 意味着进程运行级别从用户态变成了内核态,也就是执行者从用户变成了操作系统,所以可以对这1GB的内核空间进行访问。
所以说,系统调用前一部分是由用户在执行,其余部分由操作系执行。
此时再来理解信号处理的时机—从内核态返回到用户态,这句话的含义:
以我们最熟悉的系统调用为例:
上面过程的伪代码形式:
- 涉及到的系统调用无需详细了解,只需要知道是通过系统调用实现的即可。
上面过程中存在一个问题,在执行自定义处理方式的时候,为什么必须从内核态切换成用户态去执行用户定义的处理方式呢?不能直接以内核态的身份去执行吗?
- 不可以。理论上是绝对可以实现的,因为内核态比用户态高,高级别去处理低级别肯定是可以的。
- 但是操作系统不相信任何人,如果自定义处理方式中有用户的恶意代码,而此时又以操作系统身份去执行,那么就会导致问题。
- 所以必须得切换到用户身份去执行自定义处理方式才能保证系统的安全。
两个独立的流程:
此时就存在了两个流程,一个是main函数所在的执行流程,一个是自定义处理方式的执行流程:
- 上面整个过程可以看成一个无穷大符号加一条线,线的上边是用户态,下边是内核态。
- 每经过一次黑线就会发生一次身份状态的改变,一共改变了四次。
上面这种自定义处理方式是最复杂的情况,如果是SIG_DFL(默认处理方式)和SIG_IGN(忽略方式),以内核态身份就可以处理,然后就可以直接返回到用户代码中系统调用的位置,少了两次身份的转变。
- 因为默认方式和忽略方式是被写入到操作系统中的,被操作系统所信任的方式。
- int signum:信号编号。
- act:这是一个结构体变量,结构体中包括多个属性,sa_handler赋值自定义处理方式,暂时将sa_flags都设为0,其他暂时不用管。
- oldact:是一个输出型的结构体变量,将原本的捕捉方式放入这个结构体变量中。
- 返回值:成功返回0,失败返回-1。
在进程开始运行后,我们在10s内发送了很多次2号信号,但是最终只捕获了两次。
注意: 进程处理信号的原则是串行的处理同类型的信号,不允许递归,所以同类型的多个信号同时产生,最多可以处理两个。
上面内容,系统调用signal也可以实现,那么sigaction相对于signal有什么优势呢?
刚刚代码中,由于在2号信号的自定义处理中没有结束进程,所以只能用其他信号来结束这个进程,如上图中使用的是3号信号。
还是使用上面的代码,只是在act结构体变量中sa_mask成员中增加了3号信号,并且给3号信号注册了自定义处理方式。
在第一个2号信号被捕获的时候,同时阻塞了第二个2号信号和3号信号,此时pending位图的第二个和第三个比特位都是1,但是当第一个2号信号递达完成后,先处理的是第二个2号信号而不是3号信号。
- 一般一个信号被解除屏蔽的时候,会自动递达这个信号,如果该信号pending位图的比特位是1的话就会递达,是0的话就不做任何处理。
如上图所示链表,在插入节点的时候捕获到了信号,并且该信号的自定义处理方式中也调用了插入节点的函数。
- 重入:像insert函数这样,在main流程中调用还没有返回时就再次被handler流程调用再次进入该函数。
insert函数访问的是一个全局链表,有可能会因为重入和造成错乱,像insert这样的函数就称为不可重入函数。
如果一个函数只访问自己的局部变量或参数,则不会造成错乱,此时这样的函数就称为可重入函数。
注意: 可/不可重入是函数的特性,是中性的,并不是问题,所以也不需要被解决。
我们目前使用的大部分结构都是不可以重入函数!!!。
符合以下条件之一的就是不可重入函数:
- 调用了malloc或者free,因为malloc也是用全局链表来管理堆的。
- 调用了标准I/O库函数,标准I/O库的很多实现都以不可重入的方式使用全局数据结构。
int quit = 0;
void handler(int signo)
{
printf("pid:%d,捕捉到的信号编号是:%d\n",getpid(),signo);
printf("quid:%d",quit);
quit = 1;
printf("->%d\n",quit);
}
int main()
{
signal(2,handler);
while(!quit);
printf("pid:%d,我是正常退出的\n",getpid());
return 0;
}
定义全局变量quit,当quit是0的时候,一直进行while循环,当quit变成1的时候,结束循环,进程正常退出。
信号2注册自定义处理方式,在函数中将全局变量改成1,让main函数控制的流程正常结束。
在接收到2号信号后,quit从0变成1,所以main流程也正常结束了,不再循环。
我们的编译器会进行很多的优化,比如debug版本和relase版本中的assert就会被优化。在使用g++编译器的时候,可以指定g++的优化级别。
g++ -o $@ $^ -O3
指定使用级别为3的编译器优化选项。
仍然是上面代码,运行起来后,发送2号信号,quit是从0变成了1,但是进程并没有结束,还是在运行,再次发送2号信号,quit从1变成1,进程还在继续。
上诉现象的原因是什么?肯定是和优化有关,因为我们加了-O3选项。
在没有优化前,CPU每次都是从物理内存中拿到quit的数据,再去指向while循环,所以当quit从0变成1后,CPU中寄存器的数据也会及时从0变成1,所以while循环会停下来。
但是采用优化方案后:
- 在main控制的执行流中,quit没有进行修改,也没有写入,只是被读取,所以在第一次将从物理空间读取到寄存器中便不再读取了,每次执行while时候都是使用的寄存器中的quit值,所以始终都是0。
- 在handler执行流中,对quit进行了修改,所以物理内存中的quit从0变成了1。
导致上面现象的原因就是CPU执行while时的quit和物理内存中的quit不是一个值。
可以看到,此时在handler的执行流中修改了quit值,并且CPU中该值也得到了及时更新,所以程序可以正常结束。
在学习进程控制的时候,使用wait和waitpid系统调用何以回收僵尸进程,父进程可以阻塞等待,也可以非阻塞等待,采用轮询的方式不停查询子进程是否退出。
实际上,子进程的退出并不是悄无声息的,在子进程退出时,会发出SIGCHLD信号给父进程。
给SIGCHLD信号注册自定义处理方式,打印捕捉到的信号编号。父进程创建处子进程后,子进程在5次循环后退出,父进程始终循环。
可以看到,子进程在退出时,发出了编号为17的SIGCHLD信号,被父进程捕捉到了。
- 我们就可以通过在17号信号的自定义处理函数中进行进程等待来回收子进程。
- 采用这种方式时,main执行流中的父子进程都不会收到影响,当子进程退出时,handler执行流进行进程等待,回收子进程资源。
waitpid的第一个参数可以填-1,此时只要是该父进程的子进程退出就会被回收。
在17号信号的自定义处理函数中,循环回收所有子进程,只要是子进程都会被循环回收。
可以看到,父进程既回收了退出的子进程,而且还不影响父进程干自己的事,因为回收工作是在SIGCHLD信号的自定义处理函数中进行的。
SIGCHLD信号的默认处理方式是Ign,也就是忽略的意思。
- 虽然SIGCHLD默认的处理方式就是忽略,但是默认的忽略不会回收子进程,只有显式注册为SIG_IGN(忽略)方式才会自动回收退出的子进程。
至此,加上上一篇文章,信号的整个生命周期都介绍完了,重点在于新的产生,信号保存,以及信号捕捉上面,其它衍生的知识了解即可。