一、进程
1.1. 进程概念
在某种程度上, 可以将应用程序看成是一个进程(Process),其将会消耗耕种各样的计算机资源。
进程定义&特点
一个具有一定独立功能的程序在一个数据集合上的一次动态执行过程。
- 动态性:可动态创建,结束进程。
- 并发性:进程可以被独立调度并占用处理机运行。并发并行
- 独立性:不同的进程的工作不互相影响。
- 制约性:因访问共享的数据&资源或者进程同步而产生制约。调度
程序的组成
程序 = 算法 + 数据结构
进程的组成
进程=程序+数据+进程控制块(PCB)
- 进程中的数据表结构:进程控制块(Process Control Block,PCB)
- 进程中的算法:进程控制算法
进程控制块(PCB)
操作系统管理控制进程运行所用的信息集合,即PCB是进程存在的唯一标志,其一一对应。
PCB含有信息:
1、进程标识信息:如本进程的标识(进程号,执行的次数…),本进程的产生者标识(父进程标识),用户标识。
2、处理机状态信息保存区(保存进程的运行现场信息)
i. 用户可见寄存器: 用户程序可以使用的数据,地址等寄存器。
ii. 控制和状态寄存器: 如程序计数器(PC),程序状态字(PSW)。
iii. 栈指针:过程调用/系统调用/中断处理和返回时需要用到它。找到当前运行的位置。
3、进程控制信息:(进程进行管理和控制调度)
i. 调度和状态信息:用于操作系统调度进程并占用处理机使用。
ii. 进程间通信信息:为支持进程间与通信相关的各种标识,信号,信件等。这些信息存在接受方的进程控制块中。
iii. 存储管理信息:包含有指向本进程映射存储空间的数据结构。
vi. 进程所用资源:说明有进程打开、使用的系统资源,如打开的文件等。
v. 有关数据结构连接信息:进程可以连接到一个进程队列中,或连接到相关的其他进程的PCB。
PCB的组织方式:
- 链表:同一状态的进程其PCB称一链表,多个状态对应多个不同的链表。各个状态的进程形成不同的链表:就绪链表,阻塞链表。
- 索引表:同一个状态的进程归入一个index表(由index指向PCB),多个状态对应多个不同的index表。各个状态的进行形成不同的索引表:就绪索引表、阻塞索引表
一般来说会采取链表,因为进程的控制是动态的插入和删除的,所以链表组织方式比较方便,而索引开销比较大。当然如果一开始就固定住了进程的数目,索引也不失为一个选择。
进程和程序的联系
- 程序是产生进程的基础:(限定进程的功能
- 程序的每次运行构成不同的进程:(体现在输入不同导致输出不同
- 进程是程序功能的体现
- 通过多次执行,一个程序可对应多个进程:(通过调用关系,一个进程可包括多个程序:多对多的关系
- 进程是动态的,程序是静态的;程序是有序代码的集合;进程是程序的执行,进程有核心态/用户态。
- 进程是暂时的,程序是永久的;进程是一个状态变化的过程,程序可长久保存。
- 进程与程序的组成不同;进程=程序+数据+进程控制块PCB(既进程状态信息)
1.2. 进程状态
进程的生命
指的是从进程的创建到结束。包括以下五个事件:
1).进程创建(就绪态,Ready)
进程创建的3个主要事件:
- 系统初始化时
- 用户请求创建一个新进程
- 正在运行的进程执行了创建进程的系统调用
---->就绪态
PS:就绪态的出现是由于调度机制的存在。调度机制就是分配运行和就绪态,来对进程调度。
2)进程运行(运行态,Running)
内核选择一个就绪的进程,让它占用处理机并执行(其中涉及到调度算法)
调度算法解决问题:选择哪个程序进入运行态。
就绪态---->执行态
3)进程等待(阻塞态,Blocked)
在以下情况下,进程等待(阻塞):
- 请求并等待系统服务,无法马上完成
- 启动某种操作,无法马上完成
- 需要的数据没有到达
执行态---->阻塞态
PS:进程等待事件的发起是有自己发起的。因为进程只能自己阻塞自己,因为只有进程自身才能知道何时需要等待某种事件的发生。
4)进程唤醒
在以下情况下,进程唤醒:
- 被阻塞进程需要的资源可被满足
- 被阻塞进程等待的事件到达
- 将该进程的PCB插入到就绪队列
阻塞态---->就绪态
PS:进程只能被别的进程或者操作系统唤醒
5)进程结束
在以下情况下,进程结束:
- 正常退出(自愿的)
- 错误退出(自愿的)
- 致命错误(操作系统强制性的)
- 被其他进程所杀(强制性的)
6)其他状态
创建状态(New):一个进程正在被创建,还没到就绪状态。(很快完成)
结束状态(Exit):一个进程正在在从系统中消失的状态。
五状态变化图
- NULL->New: 一个新进程被产生出来执行一个程序。
- New->Ready: 当进程被创建完成并初始化后,一切就绪准备运行时,变为就绪状态。(不会持续很久,也就只是一个PCB的初始化。)
- Ready->Running :处于就绪状态的进程被进程调度程序选中后,就分配到处理机上来运行。
- Running->Exit :当进程表示它已经完成或出现错误,当前运行进程会有操作系统作结束处理。
- Running->Ready :处于运行状态的进程在其运行过程中,由于分配给它的处理机时间片用完而让出处理机。(操作系统完成)
- Runing->Blocked :当进程请求某样东西切必须等待时。(例如等待一个定时器的到达,读写文件,因为过程比较慢)
- Blocked->Ready :当进程要等待某事件到来时,它从阻塞状态变到就绪状态。(同样由操纵系统完成)
1.3. 进程挂起
进程挂起(Suspend):把一个进程从内存转到外存,将挂起的进程映像在磁盘上。意味着进程没有占用内存空间(能够合理利用系统内存资源)
- 阻塞挂起状态(Blocked-suspend):进程在外存并等待某事件的出现->进入就绪挂起状态。
- 就绪挂起状态(Ready-suspend):进程在外存,但只要进入内存,即可运行。
挂起中的状态转换
- 阻塞到阻塞挂起:没有进程处于就绪状态或就绪进程要求更多内存资源时,会进行这种转换,以提高新进程或运行就绪进程;
- 就绪到就绪挂起:当有高优先级阻塞(系统认为会很快就绪的)进程和低优先级就绪进程时,系统会选择挂起低优先级就绪进程;
- 运行到就绪挂起:对抢先式分时系统,当有高优先级阻塞挂起进程因事件出现(空间不够)而进入就绪挂起,系统可能会把运行进程转到就绪挂起状态。
- 阻塞挂起到就绪挂起:当有阻塞挂起进程相关事件出现时(也就是条件满足),系统会把阻塞挂起进程转换到就绪挂起进程。
解挂/激活
解挂/激活(Activate):把一个进程从外存转到内存。包括以下两种情况:
- 就绪挂起到就绪:没有就绪进程或挂起就绪进程优先级高于就绪进程时,会进行这种转换。
- 阻塞挂起到阻塞:当一个进程释放足够内存时,系统会把一个高优先级阻塞挂起(系统认为会很快出现所等待的事件)进程转换为阻塞进程。
1.4. 进程控制
以进程为基本结构的os,选择某一个进程变成某一种状态都是有操作系统来完成的。最底层为CPU调度程序(包括中断处理等)。上面一层为一组各式各样的进程。
状态队列
状态队列是操作系统管理进程的一个很重要的数据结构
- 由操作系统来维护一组队列,用来表示系统当中所以进程的当前状态;
- 不同的状态分别用不同的队列来表示(就绪队列,各种类型的阻塞队列);
- 每个进程的PCB都根据它的状态加入到相应的队列当中,当一个进程的状态发生变化时,它的PCB从一个状态队列中脱离出来,加入到另外一个队列。
调度原则:选择什么进程执行
1.5. 上下文切换
定义:停止当前运行的进程(从运行状态改变成其他状态)并且调度其他进程(转变成运行状态的)的过程,称为进程的上下文切换(context switch)
进程的上下文切换所具体切换的进程所用到的寄存器,使用要关注cpu有哪些寄存器(PC程序计数器,SP堆栈指针)。而在做进程切换的时候,需要将这新信息保存到进程控制块的某一个地方上。开销是越小越好,所以上下文切换由汇编指令完成。
操作系统为活跃进程准备了进程控制块(PCB)
操作系统将进程控制块(PCB)放置在一个合适的队列里,这队列在系统运行时有三种情况状态:
- 就绪队列
- 等待I/O队列(每个设备的队列)
- 僵尸队列
进程在队列中的变化:
- 进入等待队列: 执行中的进程由于某些原因被被阻塞了
- 进入就绪队列:一是被阻塞的进程被唤醒,从而离开相应的等待队列,并插入就绪队列;二是执行态的进程由于中断,或时间片用完,再或者被抢占,而转入就绪态,并被插入就绪队列
二、线程
2.1. 线程概念
线程定义&特点
进程当中的一条执行流程为线程(Thread)
- 一个进程中可以同时存在多个线程
- 各个线程之间可以并发地执行
- 各个线程之间可以共享地址空间和文件等资源
- 缺点:一个线程奔溃,会导致其所属进程的所以线程奔溃,安全没有一定的保障。
线程组成
线程 = 进程 - 共享资源
- 进程把一组相关的资源组合起来,构成了一个资源平台(环境),包括地址空间(代码段,数据段)、打开的文件等各种资源;
- 代码在这个资源平台上的一条执行流程。
线程所需的资源
PS: 线程独占资源&共享资源:
- 独占资源:Register and stack to promiss the program running along.
- 共享资源:code, data and files.
线程和进程的比较
- 进程是资源分配单位,线程是CPU调度;
- 进程拥有一个完整的资源平台,而线程只独享必不可少的资源,如寄存器和栈;
- 线程同样具有就绪、阻塞和执行三种基本状态,同样具有状态之间的转换关系;
- 线程能减少并发执行的时间和空间开销;
消耗时间分析:
- 线程的创建时间比进程短;
- 线程的终止时间比进程短;
- 同一进程内的线程切换时间比进程短;
- 由于同一进程的各线程间共享内存和文件资源,可直接进行不通过内核的通信
PS:切换进程的时候,需要把页表也切换掉,切换页表的开销比较大,因为硬件的信息无效,需要重新加载。而进程不需要切换页表。
2.2. 线程实现
三种实现方式:
- 用户线程:在用户空间实现;(操作系统看不见)
- 内核线程:在内核中实现;(操作系统看得见)
- 轻量级进程:在内核汇总实现,支持用户线程
用户线程(User thread,U)
线程控制块(TCB)是在库里面实现的,对于操作系统而言,其看不见TCB,只能看见进程的信息,但是进程里面的线程信息,是有线程管理的库来实现的。
在用户空间实现的线程机制,它不依赖与操作系统的内核,由一组用户级的线程库函数来完成线程的管理,包括进程的创建,终止,同步和调度等。
- 由于用户线程的维护由相应进程来完成(通过线程库函数),不需要操作系统内核了解用户线程的存在,可用于不支持线程技术的多进程操作系统;
- 每个进程都需要它自己私有的线程控制块(TCB)列表,用来跟踪记录它的各个线程的状态信息(PC,栈指针,寄存器),TCB由线程库函数来维护;
- 用户线程的切换也是由线程库函数来完成,无需用户态/核心态切换,所以速度特别快;
- 允许每个进程拥有自定义的线程调度算法。否则如果进程被操作系统调度为阻塞态,则其下的所有线程都无法允许。
用户线程的缺点:
- 如果一个线程发起系统调用而阻塞,则整个进程在等待。因为操作系统只能看见进程,所以这个进程阻塞,进程下的所有线程都会阻塞。
- 当一个线程开始执行后,除非它主动地交出CPU的使用权,否则它所在的进程当中的其他线程将无法运行。
- 由于时间片分配给进程,故与其他进程比,在多线程执行时,每个线程得到的时间片较少,执行会较慢。
内核线程(Kernal Thread, KT)
内核线程就是内核的分身,一个分身可以处理一件特定事情。这在处理异步事件如异步IO时特别有用。内核线程的使用是廉价的,唯一使用的资源就是内核栈和上下文切换时保存寄存器的空间。支持多线程的内核叫做多线程内核(Multi-Threads kernel )。
- 处理器竞争:可以在全系统范围内竞争处理器资源;
- 使用资源:唯一使用的资源是内核栈和上下文切换时保持寄存器的空间
- 调度:调度的开销可能和进程自身差不多昂贵
- 同步效率:资源的同步和数据共享比整个进程的数据同步和共享要低一些。
轻量级进程(LightWeight Process, LWP)
轻量级进程(LWP)是建立在内核之上并由内核支持的用户线程,它是内核线程的高度抽象,每一个轻量级进程都与一个特定的内核线程关联。内核线程只能由内核管理并像普通进程一样被调度。在linux中被使用。
由于每个LWP都与一个特定的内核线程关联,因此每个LWP都是一个独立的线程调度单元。即使有一个LWP在系统调用中阻塞,也不会影响整个进程的执行。
与普通进程区别:LWP只有一个最小的执行上下文和调度程序所需的统计信息。
- 处理器竞争:因与特定内核线程关联,因此可以在全系统范围内竞争处理器资源
- 使用资源:与父进程共享进程地址空间
- 调度:像普通进程一样调度
轻量级进程具有局限性。
- 首先,大多数LWP的操作,如建立、析构以及同步,都需要进行系统调用。系统调用的代价相对较高:需要在user mode和kernel mode中切换。
- 其次,每个LWP都需要有一个内核线程支持,因此LWP要消耗内核资源(内核线程的栈空间)。因此一个系统不能支持大量的LWP。
LWP与进程和内核关系