【Linux--进程】

目录

  • 一、基本概念
    • 1.1描述进程-PCB
    • 1.2task_struct中内容分类
  • 二、了解进程
    • 2.1查看进程
    • 2.2通过系统调用获取进程标识符
  • 三、fork创建进程
    • 3.1fork()函数
    • 3.2写时拷贝
  • 四、进程的状态
    • 4.1操作系统学科里的进程状态(运行、阻塞、挂起)
    • 4.具体的Linux状态是如何维护的
  • 五、进程的优先级
  • 六、环境变量
    • 6.1 环境变量的基本概念
    • 6.2和环境变量相关命令
    • 6.3获取环境变量的方式
  • 七、进程地址空间
    • 7.1程序地址空间
    • 7.2写时拷贝

一、基本概念

  • 课本概念:程序的一个执行实例,正在执行的程序等
  • 内核观点:担当分配系统资源(CPU时间,内存)的实体。

1.1描述进程-PCB

操作系统是一个软硬件资源管理的软件,那么相比进程也要被操作系统(OS)管理。
那么操作系统是如何对进程进行管理的呢?答案肯定是:先描述,在组织,对一个进程我们首先要用计算机语言对其进行描述,再利用相关的数据结构将其组织管理起来。
在操作系统的书籍上称描述进程的结构体为pcb,在linux操作系统下这个结构体叫做task_struct,这是在操作系统内核中创建的一种数据结构。但是一台计算机上会同时有多个进程(你可以打开你的任务管理器,看到许多进程正在跑着),操作系统是如何将这么多进程组织起来的呢?
是将各个进程的pcb(process control block)利用链表这种数据结构对其组织起来。
【Linux--进程】_第1张图片

1.2task_struct中内容分类

操作系统内核中创建pcb来完成对进程的管理,那么这个结构体里究竟都有什么内容呢?

  • 标示符: 描述本进程的唯一标示符,用来区别其他进程。
  • 这里的标示符指的是PID
  • 状态: 任务状态,退出代码,退出信号等。
  • 优先级: 相对于其他进程的优先级。
  • 程序计数器: 程序中即将被执行的下一条指令的地址。
  • 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
  • 上下文数据: 进程执行时处理器的寄存器中的数据。
  • I/ O状态信息: 包括显示的I/O请求,分配给进程的I/ O设备和被进程使用的文件列表。
  • 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
  • 其他信息
//截取源码部分
struct task_struct {
	volatile long state;//状态	/* -1 unrunnable, 0 runnable, >0 stopped */
	void *stack;//栈
	atomic_t usage;
	unsigned int flags;	/* per process flags, defined below */
	unsigned int ptrace;

	int lock_depth;		/* BKL lock depth */
    /* task state */
	int exit_state;
	int exit_code, exit_signal;
	int pdeath_signal;  /*  The signal sent when the parent dies  */
	/* ??? */
	unsigned int personality;
	unsigned did_exec:1;
	unsigned in_execve:1;	/* Tell the LSMs that the process is doing an
				 * execve */
	unsigned in_iowait:1;


	/* Revert to default priority/policy when forking */
	unsigned sched_reset_on_fork:1;

	pid_t pid;//标识符
	pid_t tgid;
    //...
};

二、了解进程

2.1查看进程

先看看猪跑的样子(嘿嘿)。
进程的信息可以通过 /proc 系统文件夹查看
【Linux--进程】_第2张图片
大多数的进程同样可以通过top、ps这样的工具来查看
【Linux--进程】_第3张图片
自己创建一个进程
普通的代码:
【Linux--进程】_第4张图片
【Linux--进程】_第5张图片

2.2通过系统调用获取进程标识符

  • 进程id(PID)
  • 父进程id(PPID)
    【Linux--进程】_第6张图片
    【Linux--进程】_第7张图片
    这里可以看到test的pid是13414而它的ppid为9927,它的父进程是什么呢?
    其实可以查看下。
    ps -axj | head -1 && ps -axj | grep bash | grep -v grep
    在这里插入图片描述
    结论:我们自己写的程序是通过bash来创建子进程执行的,所以使用命令行bash启动的程序,其父进程都是bash。

三、fork创建进程

3.1fork()函数

fork 函数的作用是创建一个子进程,函数声明如下:
【Linux--进程】_第8张图片
这里提一下返回值,父进程创建成功会返回子进程的PID,创建失败返回 -1,创建出子进程以后,子进程也会执行fork,但是子进程不会继续创建新的进程,因此返回值是0。这是我们辨别父子进程的关键依据。

  • 子进程运行 fork()函数 返回0
  • 父进程运行 fork()函数 返回子进程的PID
    fork()函数调用后的变化:
    fork之后,执行流会变成两个执行流
    fork执行之后父子进程,父子进程谁先执行是随机的由调度器决定先调度谁
    fork之后,fork之后的代码共享,通常我们采用if else 语句来进行分流,父子进程执行不同的代码
    不同进程之间是相互独立的,父子进程也是如此,这是如何实现的呢?
    对于代码:代码是只读的,父子进程公用一份代码谁读谁的代码互不影响。
    对于数据:当有一个执行流想要修改数据的时候会发生写时拷贝(下面的进程地址空间会提到),来保证进程的独立性。
    使用fork( )创建子进程的例子:
    【Linux--进程】_第9张图片
    【Linux--进程】_第10张图片
    【Linux--进程】_第11张图片
    打印的顺序不一定是先打印父进程,然后打印子进程,顺序是随机的,子进程被创建以后,会立马加入到运行队列中,谁先运行完,就先打印
    问题:为什么要给子进程返回0给父进程返回子进程的pid?
    答案:返回不同的返回值,是为了区分让不同的执行流执行不同的代码块!一般而言fork之后的代码父子共享。一个父进程可以有多个子进程,而一个子进程可以有多个父进程,给父进程返回子进程的pid可以用来标识子进程的唯一性其目的也是为了区分子进程。

3.2写时拷贝

写时拷贝现象:
先看以下代码与执行结果。
【Linux--进程】_第12张图片
我们发现,两次打印的值居然不一样,不是说父子进程共享一份数据和代码吗??
答案是发生了写时拷贝!!
写时拷贝原理:
【Linux--进程】_第13张图片
【Linux--进程】_第14张图片

四、进程的状态

4.1操作系统学科里的进程状态(运行、阻塞、挂起)

运行状态:
【Linux--进程】_第15张图片
阻塞状态:
当一个进程的资源没有就绪时,系统会把这个进程放入等待队列中,当这个资源就绪时,就会把进程从等待队列放入运行队列中。
挂起状态:
假设操作系统的内存严重不足时,将等待队列中进程的代码和数据“换出”时,这个进程的状态为挂起状态。

4.具体的Linux状态是如何维护的

下面的状态在kernel源代码里定义:

/*
 * The task state array is a strange "bitmap" of
 * reasons to sleep. Thus "running" is zero, and
 * you can test for combinations of others with
 * simple bit tests.
*/
static const char * const task_state_array[] = {
"R (running)", /* 0 */
"S (sleeping)", /* 1 */
"D (disk sleep)", /* 2 */
"T (stopped)", /* 4 */
"t (tracing stop)", /* 8 */
"X (dead)", /* 16 */
"Z (zombie)", /* 32 */
}; 
  • R运行状态(running):并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。
  • S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡(interruptible sleep))。
  • D磁盘休眠状态(Disk sleep)有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的
    进程通常会等待IO的结束。
  • T停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可 以通过发送 SIGCONT
    信号让进程继续运行。
  • X死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态。

僵死状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用,后面讲)
没有读取到子进程退出的返回代码时就会产生僵死(尸)进程僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。
所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态
僵尸进程的危害:
进程的退出状态必须被维持下去,因为他要告诉关心它的进程(父进程),你交给我的任务,我办的怎
么样了。可父进程如果一直不读取,那子进程就一直处于Z状态?是的!
维护退出状态本身就是要用数据维护,也属于进程基本信息,所以保存在task_struct(PCB)中,换句话
说,Z状态一直不退出,PCB一直都要维护?是的!
那一个父进程创建了很多子进程,就是不回收,是不是就会造成内存资源的浪费?是的!因为数据结构
对象本身就要占用内存,想想C中定义一个结构体变量(对象),是要在内存的某个位置进行开辟空
间!
孤儿进程:
父进程如果提前退出,那么子进程后退出,进入Z之后,那该如何处理呢?
父进程先退出,子进程就称之为“孤儿进程”
孤儿进程被1号init进程领养,当然要有init进程回收喽

五、进程的优先级

问题1:什么是优先级
进程的优先级代表了对于资源的访问,谁先访问,谁后访问。
问题2:为什么要有进程优先级
因为资源是有限的,进程是多个的,注定了进程之间的竞争关系!操作系统必须保证进程的良性竞争,确认优先级。
问题3:怎么修改优先级
【Linux--进程】_第16张图片

  • UID : 代表执行者的身份
  • PID : 代表这个进程的代号
  • PPID :代表这个进程是由哪个进程发展衍生而来的,亦即父进程的代号
  • PRI :代表这个进程可被执行的优先级,其值越小越早被执行
  • NI :代表就是我们所要说的nice值了,其表示进程可被执行的优先级的修正数值
    Linux不想过多的让用户参与优先级的调整,在我们对应的范围内进行优先级调整,nice:[-20,19]
    PRI值越小越快被执行,那么加入nice值后,将会使得PRI变为:PRI(new)=PRI(old)+nice。
    用top命令更改已存在进程的nice:
  • top
  • 进入top后按“r”–>输入进程PID–>输入nice值

六、环境变量

6.1 环境变量的基本概念

  • 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数
  • 如:我们在编写C/C++代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但
    是照样可以链接成功,生成可执行程序,原因就是有相关环境变量帮助编译器进行查找。
  • 环境变量通常具有某些特殊用途,还有在系统当中通常具有全局特性

6.2和环境变量相关命令

  1. echo: 显示某个环境变量值
  2. export: 设置一个新的环境变量
  3. env: 显示所有环境变量
  4. unset: 清除环境变量
  5. set: 显示本地定义的shell变量和环境变量

6.3获取环境变量的方式

1.命令行第三个参数

#include 
int main(int argc, char *argv[], char *env[])
{
 int i = 0;
 for(; env[i]; i++){
 printf("%s\n", env[i]);
 }
 return 0;
}

2.通过第三方变量environ获取

#include 
int main(int argc, char *argv[])
{
 extern char **environ;
 int i = 0;
 for(; environ[i]; i++){
 printf("%s\n", environ[i]);
 }
 return 0;
}

总结:
环境变量是系统提供的一组name=value形式的变量,不同的环境变量有不同的用户,通常具有全局属性,可以被子进程继承。
我们所运行的进程都是子进程,bash在启动时会从操作系统的配置文件中读取环境变量的信息,子进程会继承父进程交给他的环境变量。

七、进程地址空间

7.1程序地址空间

【Linux--进程】_第17张图片
验证的代码及结果:
【Linux--进程】_第18张图片

7.2写时拷贝

【Linux--进程】_第19张图片
【Linux--进程】_第20张图片
所谓的地址空间是什么?
本质上是一个描述进程可视范围的大小,地址空间内一定要存在各种区域的划分,对线性地址进行start、end即可。
地址空间本质是内核的一个数据结构对象,类似PCB一样,地址空间也是要被操作系统管理的:先描述、在组织
【Linux--进程】_第21张图片
为什么要有进程地址空间:
1.让进程以统一的视角看待内存。
2.增加进程虚拟空间可以让我们访问内存的时候,增加一个转换的过程,在这个转换的过程中,可以对我们的寻址请求进行在审查,一旦有异常访问,直接拦截,该请求不会到达物理内存,保护物理内存。
3.因为有地址空间和页表的存在,将进程管理模块和呢村管理模块进行解耦合!

你可能感兴趣的:(linux)