进程概念详解

目录

进程是什么?

描述进程:进程控制块-PCB

task_struct 

task_struct 是什么?

task_struct内容分类

组织进程 

查看进程 

fork创建子进程

进程状态 

 僵尸进程

孤儿进程 

进程优先级 

其他概念 


进程是什么?

一般书上说:进程是运行当中的程序,是担当分配资源的实体。

那么?程序是如何被运行的呢?

我们写好程序代码后,会将程序文件存储到磁盘中,要运行一个程序,首先会将程序代码文件加载到内存中,然后由cpu去运行。

但是,只要程序被加载到内存,它就是一个完整的进程吗?进程和程序仅仅是存储位置不同吗?

当然不是,进程需要消耗资源,那么它就一定会被操作系统所进行管理。

操作系统要管理:首先要先描述,再组织

那么操作系统如何对进程进行管理呢?

描述进程:进程控制块-PCB

当程序被加载到内存后,操作系统会为该程序创建进程控制块,简称PCB,PCB当中存储着该进程属性的集合。

所以,完整的进程是什么?

进程=程序代码数据+相关数据结构(也就是进程控制块)。 

进程概念详解_第1张图片  

task_struct 

task_struct 是什么?

task_struct 是linux当中描述进程的结构体,它存储着进程信息。

task_struct与PCB的关系就是,task_struct是一种具体的PCB,它是linux环境下具体的PCB。 

task_struct内容分类

 标识符:描述本进程的唯一标识,简称PID。

状态:任务状态,退出代码,退出信号等

优先级:相对于其他进程的优先级。

 程序计数器:程序中即将被执行的下一条指令的地址。

内存指针 :包括程序代码和相关数据的指针,还有和其他进程共享的内存块指针。

 上下文数据:进程执行时,处理器的寄存器当中该进程的数据。(下文详解)

I/O状态信息:显示的IO请求,分配给进程的IO设备和被进程使用的文件列表。

记账信息:包括处理器时间总和,使用的时钟数总和,时间限制,记帐号等。

 其他信息

组织进程 

每个进程都对应着一个进程控制块,操作系统将这些进程控制块用链表形式组织起来,这样对于进程的管理,就变成了对链表的增删查改。

 进程概念详解_第2张图片

查看进程 

获取PID:getpid()

获取PPID:getppid(),PPID表示父进程的ID。

getpid(),getppid()属于系统调用,头文件为sys/types.h 

我们使用的XShell软件本质就是一款命令解释器,我们输入指令后,shell不会自己去解释指令,而是会产生子进程bash去解释这条指令给内核。

为什么要这么做呢?因为如果我们输入了错误指令,产生了错误影响,不能影响我xshell运行,

就相当于某公司员工出了问题,为了不影响公司声誉,公司对外宣称该员工与公司无关。

这样即使出了问题,也不影响公司的整体运行。

这样就由bash来解释这条指令,bash进程就是该指令的父进程。 

进程概念详解_第3张图片

进程概念详解_第4张图片

每个进程被创建后,会在/proc目录下以该进程PID为名形成目录。 

我们可以通过ls /proc/pid查看该进程

 进程概念详解_第5张图片

 下面我们通过ls -l指令查看该进程详细信息。

进程概念详解_第6张图片

 两个重要概念:cwd:表示当前工作目录,程序当中创建文件,默认在该目录下。

                           exe:表示当前执行的程序是谁。

我们也可以通过其他指令查看进程信息。

 ps axj 或 ps ajx或 top

进程概念详解_第7张图片

 进程概念详解_第8张图片

fork创建子进程

 fork属于系统调用,作用是创建子进程。

fork函数有两个返回值,对于父进程返回子进程pid,对于子进程返回0

进程概念详解_第9张图片

 通过fork函数,可以让一个程序产生两个不同的结果。

通过fork创建的子进程,子进程的PCB以父进程为模板构建,子进程的代码完全和父进程共享,因为代码是不可以被更改的,而父子进程的数据是临时共享的,当父子进程数据要更新时,会发生写时拷贝,因为进程之间是相互独立的,为了防止一个进程数据改变时影响另一个进程,所以在数据发生改变时,对数据拷贝再更改,保证进程之间的独立性。

进程状态 

 下面展示linux状态源码:

/*
* The task state array is a strange "bitmap" of
* reasons to sleep. Thus "running" is zero, and
* you can test for combinations of others with
* simple bit tests.
*/
static const char * const task_state_array[] = {
"R (running)", /* 0 */
"S (sleeping)", /* 1 */
"D (disk sleep)", /* 2 */
"T (stopped)", /* 4 */
"t (tracing stop)", /* 8 */
"X (dead)", /* 16 */
"Z (zombie)", /* 32 */
};

为什么要设置这么多状态?

因为系统资源很少,而进程又很多,不是说进程想干嘛就干嘛,为了保证平衡,所以要合理分配系统资源。

而系统中调度模块就是为了较为平衡分配资源而存在的。

R状态:并不意味着进程在被运行,它表明进程要么在运行中,要么在运行队列里。

S状态:休眠状态,等待事件完成,可以被唤醒。

D状态:深度休眠状态,与S状态相似,但是不可被操作系统杀死。

T状态:暂停状态,无法被唤醒。

X状态:死亡状态

Z状态:僵尸状态

当进程所需资源充足,满足运行条件时,该进程的PCB会被调度模块分配到运行队列中,等待cpu运行,而其他不满足运行条件的进程,被放在等待队列中,称为挂起或阻塞状态

但是为什么R状态并不意味着该进程一直在运行呢?

还是因为资源问题,你这个进程要运行10s,操作系统要是一直让你运行,其他进程怎么办呢?

所以,我们从资源管理器中看到很多进程占用资源,好像一直在运行,这是错误的。

看似好多进程一直在运行,其本质是操作系统根据时间片(单个进程的单次运行最长时间,灰常短),快速切换进程运行的结果。

进程概念详解_第10张图片

进程概念详解_第11张图片

运行队列进程处于R状态,而等待队列进程处于S或D或T状态。 

 当系统负载高时,资源不够用,操作系统可能会杀掉S状态,而D状态进程处于深度睡眠,不可中断,即使你是操作系统也无法给他杀掉(D状态就是爷,不干事,你也管不了我)。

 到这里,问题又来了,既然操作系统不让进程一直运行,一直在切换,那么我怎么知道你这个程序运行到哪一步呢?

因为只有一份寄存器,所以进程在离开时,要将数据拷贝一份,再下次回来运行的时候,再把数据拷贝回寄存器,然后接着运行。

这种与进程强相关的临时数据就被称作上下文数据

T状态 :

进程概念详解_第12张图片

我们可以通过发送SIGSTOP 使进程进入T状态,也就是发送SIGCONT使进程退出T状态。

  

进程概念详解_第13张图片

我们可以发现退出T状态后S少了+号,这表示该进程由前端运行变成后端运行,后端运行时,我们可以输入命令,而前端不行。

 X,Z状态:

当程序执行完毕,直接退出是不行的!操作系统需要知道你这个程序是正常结束,还是非正常结束,要是没有这一步,万一出错,谁背锅?

所以,在程序执行完毕后,该进程会先进入Z状态,也就是僵尸状态,此时由父进程读取其退出码,

读取完毕后,进入X状态,也就是死亡状态,接着才被操作系统释放。

我们无法观测到X状态,因为一进入X状态,该进程立马就被释放了。

 僵尸进程

 处于僵尸状态的进程就是僵尸进程。

下面举一个例子:父进程一直处于运行态,不读取子进程退出码,此时子进程就会一直处于僵尸状态。 

 进程概念详解_第14张图片

进程概念详解_第15张图片

 那么,僵尸进程有什么危害呢?

僵尸状态必须一直持续,直到父进程读取它的退出码。

僵尸状态也需要被维护。维护僵尸状态就是要维护它的数据信息,PCB。

那么一直不回收就是造成内存资源浪费,造成内存泄漏。

孤儿进程 

 子进程没噶,父进程先噶,此时子进程会被1号进程接管。

这种进程就叫孤儿进程。

进程概念详解_第16张图片

进程优先级 

 进程优先级,表示cpu资源分配的先后。

 优先级高,先分配。

 通过优先级,可以极大提高系统性能。

查看系统进程优先级:ps -al 

进程优先级为PRI,值越小优先级越高。

而NI表示nice值,表示优先级修正值。 

默认PRI为80

PRI(new)=PRI(old)(默认为80)+ NI

 NI有40哥级别,-20到19.

修改nice值:top指令 进入后按r 

其他概念 

竞争性:进程数目多,而cpu只有几个,甚至一个,所以进程之间具有竞争属性,为了高效运行,便有了优先级。

独立性:多个进程之间,独立享受资源,运行期间互不干扰。

并发性:多个进程在一个cpu下通过切换,不同时运行,一段时间内,让多个进程都得以推进。

并行性:多个进程在多个cpu下分别执行,同时运行。

你可能感兴趣的:(linux,运维,服务器)