回顾上文,操作系统是通过先描述再组织,进而管理软硬件资源的一款软件。那先组织再描述再组织的是什么呢?就是我们今天要讲的进程!
操作系统是一款软件,那么它是如何加载到内存呢?其实,计算机在开机时早已做好准备,在你按下开机键的那一刻,BIOS(基本输入输出系统,英文: Basic Input Output System)芯片
就开始启动,开始做准备工作,通电唤醒CPU,IO接口,内存等资源
,有了CPU这一名大将,便可以接着加载硬件资源,比如:网卡,显卡,磁盘等
。接着再找到操作系统的引导文件
,借助引导文件,将操作系统从磁盘加载到内存
中,接着操作系统就开始一顿乱杀。
再来想一个问题,那我们的qq是如何运行的呢?学到现在我们应该都知道可执行程序,也就是一个可以执行的文件,一般都在磁盘当中,那点击它之后,便在计算机系统中运行了起来,这之间需经过什么过程么?
可执行程序的数据在磁盘当中,要想运行,首先需要加载到内存当中,因为磁盘的运行速度很慢只有1ms左右
,而内存的运行速度在100ns左右
,能更好的适配CPU中寄存器10ns左右
的速度, 然后操作系统该如何管理加载到内存的数据呢?不可能直接管理一大堆数据吧?那么多的程序要运行,数据该多大?这样操作系统不得累死,为了操作系统管理方便,于是便将需要进行管理的属性信息
组织到一块,统一进行管理,那操作系统管理的属性信息就叫做PCB(process control block),在Linux下叫做task_struct。以下我们统称为task_struct。
这是task_struct的源码:供参考。
struct task_struct {
volatile long state; //说明了该进程是否可以执行,还是可中断等信息
unsigned long flags; //Flage 是进程号,在调用fork()时给出
intsigpending; //进程上是否有待处理的信号
mm_segment_taddr_limit; //进程地址空间,区分内核进程与普通进程在内存存放的位置不同
//0-0xBFFFFFFF foruser-thead
//0-0xFFFFFFFF forkernel-thread
//调度标志,表示该进程是否需要重新调度,若非0,则当从内核态返回到用户态,会发生调度
volatilelong need_resched;
int lock_depth; //锁深度
longnice; //进程的基本时间片
//进程的调度策略,有三种,实时进程:SCHED_FIFO,SCHED_RR,分时进程:SCHED_OTHER
unsigned long policy;
struct mm_struct *mm; //进程内存管理信息
int processor;
//若进程不在任何CPU上运行, cpus_runnable 的值是0,否则是1这个值在运行队列被锁时更新
unsigned long cpus_runnable, cpus_allowed;
struct list_head run_list; //指向运行队列的指针
unsigned longsleep_time; //进程的睡眠时间
//用于将系统中所有的进程连成一个双向循环链表,其根是init_task
struct task_struct *next_task, *prev_task;
struct mm_struct *active_mm;
struct list_headlocal_pages; //指向本地页面
unsigned int allocation_order, nr_local_pages;
struct linux_binfmt *binfmt; //进程所运行的可执行文件的格式
int exit_code, exit_signal;
intpdeath_signal; //父进程终止是向子进程发送的信号
unsigned longpersonality;
//Linux可以运行由其他UNIX操作系统生成的符合iBCS2标准的程序
intdid_exec:1;
pid_tpid; //进程标识符,用来代表一个进程
pid_tpgrp; //进程组标识,表示进程所属的进程组
pid_t tty_old_pgrp; //进程控制终端所在的组标识
pid_tsession; //进程的会话标识
pid_t tgid;
intleader; //表示进程是否为会话主管
struct task_struct*p_opptr,*p_pptr,*p_cptr,*p_ysptr,*p_osptr;
struct list_head thread_group; //线程链表
struct task_struct*pidhash_next; //用于将进程链入HASH表
struct task_struct**pidhash_pprev;
wait_queue_head_t wait_chldexit; //供wait4()使用
struct completion*vfork_done; //供vfork()使用
unsigned long rt_priority; //实时优先级,用它计算实时进程调度时的weight值
//it_real_value,it_real_incr用于REAL定时器,单位为jiffies,系统根据it_real_value
//设置定时器的第一个终止时间.在定时器到期时,向进程发送SIGALRM信号,同时根据
//it_real_incr重置终止时间,it_prof_value,it_prof_incr用于Profile定时器,单位为jiffies。
//当进程运行时,不管在何种状态下,每个tick都使it_prof_value值减一,当减到0时,向进程发送
//信号SIGPROF,并根据it_prof_incr重置时间.
//it_virt_value,it_virt_value用于Virtual定时器,单位为jiffies。当进程运行时,不管在何种
//状态下,每个tick都使it_virt_value值减一当减到0时,向进程发送信号SIGVTALRM,根据
//it_virt_incr重置初值。
unsigned long it_real_value, it_prof_value, it_virt_value;
unsigned long it_real_incr, it_prof_incr, it_virt_value;
struct timer_listreal_timer; //指向实时定时器的指针
struct tmstimes; //记录进程消耗的时间
unsigned longstart_time; //进程创建的时间
//记录进程在每个CPU上所消耗的用户态时间和核心态时间
longper_cpu_utime[NR_CPUS],per_cpu_stime[NR_CPUS];
//内存缺页和交换信息:
//min_flt, maj_flt累计进程的次缺页数(Copyon Write页和匿名页)和主缺页数(从映射文件或交换
//设备读入的页面数);nswap记录进程累计换出的页面数,即写到交换设备上的页面数。
//cmin_flt, cmaj_flt,cnswap记录本进程为祖先的所有子孙进程的累计次缺页数,主缺页数和换出页面数。
//在父进程回收终止的子进程时,父进程会将子进程的这些信息累计到自己结构的这些域中
unsignedlong min_flt, maj_flt, nswap, cmin_flt, cmaj_flt, cnswap;
int swappable:1; //表示进程的虚拟地址空间是否允许换出
//进程认证信息
//uid,gid为运行该进程的用户的用户标识符和组标识符,通常是进程创建者的uid,gid
//euid,egid为有效uid,gid
//fsuid,fsgid为文件系统uid,gid,这两个ID号通常与有效uid,gid相等,在检查对于文件
//系统的访问权限时使用他们。
//suid,sgid为备份uid,gid
uid_t uid,euid,suid,fsuid;
gid_t gid,egid,sgid,fsgid;
int ngroups; //记录进程在多少个用户组中
gid_t groups[NGROUPS]; //记录进程所在的组
//进程的权能,分别是有效位集合,继承位集合,允许位集合
kernel_cap_tcap_effective, cap_inheritable, cap_permitted;
int keep_capabilities:1;
struct user_struct *user;
struct rlimit rlim[RLIM_NLIMITS]; //与进程相关的资源限制信息
unsigned shortused_math; //是否使用FPU
charcomm[16]; //进程正在运行的可执行文件名
//文件系统信息
int link_count, total_link_count;
//NULL if no tty进程所在的控制终端,如果不需要控制终端,则该指针为空
struct tty_struct*tty;
unsigned int locks;
//进程间通信信息
struct sem_undo*semundo; //进程在信号灯上的所有undo操作
struct sem_queue *semsleeping; //当进程因为信号灯操作而挂起时,他在该队列中记录等待的操作
//进程的CPU状态,切换时,要保存到停止进程的task_struct中
structthread_struct thread;
//文件系统信息
struct fs_struct *fs;
//打开文件信息
struct files_struct *files;
//信号处理函数
spinlock_t sigmask_lock;
struct signal_struct *sig; //信号处理函数
sigset_t blocked; //进程当前要阻塞的信号,每个信号对应一位
struct sigpendingpending; //进程上是否有待处理的信号
unsigned long sas_ss_sp;
size_t sas_ss_size;
int (*notifier)(void *priv);
void *notifier_data;
sigset_t *notifier_mask;
u32 parent_exec_id;
u32 self_exec_id;
spinlock_t alloc_lock;
void *journal_info;
};
像这样一个进程信息,操作系统并不会进行直接管理,而是将这样的进程放到指定的内存区域,然后自己弄个结构体指针,通过指针找到对应的进程即可。
那如果有很多的进程呢?我们可以从task_struct的源码中寻找答案:
//用于将系统中所有的进程连成一个双向循环链表,其根是init_task
struct task_struct *next_task, *prev_task;
因此:操作系统的管理成本其实很低,只需要一个指针的大小,便可以管理所有存在内存中的task_struct。
那数据呢?有了task_struct你的信息和数据便也得到了管理,因为你的task_struct也会指向数据,方便对数据做更改和写入。
此时再开一个窗口会话,查看此进程的信息。
ps命令
ps ajx | less
ps aux --sort -pcpu | less
//将cpu占用资源进行排序
ps aux --sort -pmem | less
//将内存占用资源进行排序
说明:一个进程只能有一个pid,一个可执行程序执行多次pid不同。
如何在进程里面查看pid与ppid呢?
介绍两个函数(系统调用接口):getpid() 与 getppid()
补充小知识点:kill -9 【进程id】 可以杀掉进程。
那进程一般都存在哪呢?
在 Linux 下我们可以通过/proc(存的是内存级文件)目录中查看相关进程的信息,可以通过pid查看详细信息。
下面我们一个一个解释,首先父子进程的代码共享,画出图是这样的:
那为啥代码可以共享呢?因为代码不可以被修改!
其次我们再解释fork的原理,fork是一个函数。
其功能是完成子进程的task_struct创建,并对子进程的数据进行初始化,让子进程指向父进程的代码
,在其返回时其实是父进程与子进程执行同一块代码
,但其身份不同
所以返回两个返回值,父进程接收子进程的pid是为了管理子进程
。因为是父进程把子进程创建出来的!
那数据是能够被修改的,总不可能使用同一块数据吧?是这样的。我们猜测是将数据拷贝出来一份给子进程使用,但是这样可能会导致资源浪费严重,万一子进程只修改一个数据呢?全部拷贝损耗有点大了!
还记得我们之前讲过一种技术吗?——写时拷贝(C++拷贝构造)。
当只进行访问时,我们使用同一块数据,但当对数据进行修改时,我们对数据再进行拷贝,这样极大地提升了对内存资源的使用效率。
那我们画出的完整的图应该是这样的:
再来谈谈bash命令行,我们执行的命令一般都是bash的子进程,那bash里面是如何创建子进程的呢?肯定绕不过系统调用接口——fork。
总结一下:
父进程创建出子进程,并对子进程进行管理(fork对父进程返回子进程pid)
.父子进程代码共享
。当子进程进行只读时,共享
,当子进程进行修改时会发生写时拷贝,从而进行修改拷贝之后的数据
,因此数据可能共享
,但共享部分的不同进程的访问权限不同!
总结:形成此进程的原理很简单,子进程在运行结束时,应该交由父进程进行管理释放,但父进程由于在忙着自己的事情,因此父进程腾不出手将子进程进行释放。
解决方法:此时我们是不能进行kill命令,杀掉此进程的,因为此进程是僵尸进程,算死过一次了,鞭尸并不管用,而应该杀掉父进程,这样子进程的资源就交由操作系统(init进程)进行管理释放。
那为什么需要操作系统来管呢?它的爷爷进程管不了吗?这就需要考虑我们之前的原因是父进程把子进程创建出来的,那释放资源的信息是放在父进程中的,爷爷进程咋进行管理?是管不了的!因此释放资源的操作是由父进程进行管理,要么就是操作系统亲自进行管理。
那为啥这个进程叫孤儿进程呢?因为创建它的进程,被干掉了,就相当于世上唯一的亲人没了,只能被操作系统进行领养,成了孤儿,就叫做孤儿进程。
在网上我们可能会看到各种层出不穷的状态:
还有很多,这一般都是教材上统一描述计算机系统的一些图解,但真正上我们用的并不多,下面我们从几个常用的状态来理解操作系统的状态~
毫无疑问,就是把进程放在CPU上跑,可是CPU又不是只跑一个进程,而是多个进程,因此操作系统该如何进行管理呢?
图解:
其实,每一个运行的进程,被放在了一个运行对列中排队,当该一个进程跑时,我们就把此进程放在CPU中跑,等跑一段时间再将此进程放下来换另一个对列,这个在CPU跑的时间段,我们称之为时间片。
听过函数栈帧的想必都知道,在计算机中代码的运行在底层都转换为了汇编指令的执行,一般都是使用的寄存器来执行这些指令,那我们常见的寄存器有哪些呢?
ebp:栈底寄存器
esp:栈顶寄存器
功能:维护当前正在使用的函数空间
eax:通用寄存器,保留临时数据,常用于返回值,也用于赋值。
ebx:通用寄存器,保留临时数据——通常是用于初始化用户栈
eip: 指令寄存器,保存当前指令的下一条指令的地址,确保上一条指令能够继续运行下去。
这里我再强调一下,eip,也叫程序计数器,称为pc指针
,其作用我举个具体场景进行分析。
#include
int Add(int x, int y)
{
int z = 0;
z = x + y;
return z;
}
int main()
{
int a = 3;
int b = 5;
int ret = 0;
ret = Add(a, b);
printf("%d\n", ret);
return 0;
}
调用函数的执行流:
可以看出,我们在调用函数时,跳转到了函数地址处所在的代码段,执行函数的代码,但执行完了,怎么返回呢?其实涉及到两个操作,第一个就是在call地址时,就把call指令的下一条指令进行了压栈操作
,第二个就是在pop时,当执行ret返回命令时,会把压栈的地址再压入eip程序指针中,确保能执行到下一条指令。
到此我们提出来一个问题:当程序执行到一半,时间片到了,这该怎办呢?
是执行信息打包让进程带走,还是让CPU默默承受这一切?肯定是打包带走了,CPU才屁大一点地方,都给占用了,那进程还跑不跑了?
说明:CPU是ns级别的,换算成s是10-9 次方,一般我们的进程放在CPU上运行10-6 次方秒,这已经足以让CPU做大量的工作,一般情况下,我们肉眼是观察不到计算机在轮流执行着进程,如果观察到了,那未免这个操作系统设计的也太挫了。
这里涉及到计算机的运行设置:
多个CPU跑多个程序
。一个CPU跑多个程序
。一张图带你理解操作系统如何管理硬件资源:
这个状态主要是为了解决阻塞态,会导致浪费内存资源的问题
, 因为在阻塞状态中,可能后面还会有一大堆的等待进程, 进程的代码和数据并没有多大的用处,甚至还会浪费系统资源,因此为了提高内存的使用效率,可以将还没排上队的进程的代码和数据先放在磁盘中,等到这个进程了,再从磁盘中读取出来,接着进行使用。
在前面,我们其实已经说明了两种状态:僵尸状态和孤儿状态。
运行查看进程:
D状态是一种比较深层次的睡眠状态,什么算比较深呢?也就是说操作系统都无法唤醒你,我们之前讲的S状态算是一种浅度睡眠,操作系统能进行杀死操作,而D状态操作系统是无法进行杀进程的,也就是说你给它发送kill -9 命令是不管用的!
为啥要这样做呢?因为当你在进行大量的磁盘写入状态时,你的进程是处于睡眠状态的,如果是浅度睡眠,也就是S状态,万一哪一天,系统资源不够,操作系统看你不顺眼,直接把你这个进程干掉了,你说你找谁说理去,操作系统只是在执行其应有的职责而已,这时为了解决这种问题,就有了D状态这一概念,在我写入磁盘文件不许操作系统的打扰,直到我写完了再说。
9号:杀死进程。18号:继续进程。19号:停止进程。
观察流程:
说明:还有一个X状态(dead状态),一般是无法看到的,因为经过上面的实验可以得出,进程结束之后会变成僵尸状态,等待父进程进行资源回收。
在命令行输入:
ps len | grep 【进程】
pri:优先级
也可以通过top命令查看进程:
注意:nice值是可以修改的但是区间在[-20,19],pid(old)一经设置便不可以被直接修改。
原因:调度器为了公平分配资源,禁止随意大量高频次的修改pri,这样在一定程度上会导致进程的饥饿问题(也就是有的进程可能分配到不足的CPU的资源),进而严重上会导致程序瘫痪。
命令:
nice -n 【nice值】 【进程】
图解:
命令:
renice -n 【nice值】 【进程pid】
如果要解决的话有两种办法,其一就是把可执行程序移到/user/bin路径下。
其二就是在默认路径上再加上我们的当前路径即可。
我们使用第二种方法:
可以证明:bash是从PATH命令行中查找的命令。
那如果我们一不小心将PATH覆盖呢?
不用担心,因为PATH是内存级的变量,在启动xshell时,系统会默认将环境变量加载到内存中,如果你覆盖了,只需重启xshell即可
。
export 【变量=初始值】
将变量设置为环境变量。
这是main函数的前两个参数:
int main(int argv, char* argv[])
{
return 0;
}
运行结果:
再来谈一下第二个参数的内存布局:
int main(int argv, char* argv[])
{
int i = 0;
for(i = 0; argv[i]; i++)
{
printf("%s\n",argv[i]);
}
return 0;
}
除了命令行参数,还存在着一个环境变量参数:
int main(int argv, char* argv[], char* env[])
{
return 0;
}
但是我们可能会对此命令产生疑问:
内建命令
。这里再补充两点:
unset 【变量】
set
今天的分享就到这里了,如果觉得文章不错,点个赞鼓励一下吧!我们下篇文章再见
!