阅读地址:https://www.doc88.com/p-07087840194492.html
GUN是对于类Unix封闭源码而产生的。一开始没有形成内核,产生了一堆语言编译器、shell、glibc代码库等。它们开源,并且可以方便的在多平台进行移植。
torvalds linus因此开发出了一个高效的内核,用以编译和运行各种GUN项目。之后,继续开发以支持提升文件系统,网络,设备驱动和多进程。
版本号模型:x.y.z,其中x代表主要版本,y代表主要版本的小版本,z代表对小版本的修订版本。
固定:当前的开发版本如2.3.z被认为稳定之后,就会被作为2.4的稳定版本发布,开启下一个小版本。
linux发行版:早期,操作系统是一个个组成,需要用户自己来组装如文件系统。因此,linux分销商发布了发行版,其中自动化了各种软件的安装过程。
unix被AT&T公司出售后,衍化出了两种版本:BSD和system V规范。
内核执行以下任务:
现代CPU处理器允许操作至少两种不同的模式:user 模式和kernel模式。硬件说明允许能够在两种模式间相互切换。虚拟内存区域将会被划分标记为用户空间和内核空间,并阻止非法访问。
对应两种模式,访问内存管理、启动设备IO等等需要在处理器的kernel内核模式下才能进行。对于程序员来说,通过进程创建资源,实际上是要求内核模式下进行操作。
每个用户是唯一标识的,并且用户可能属于组。
超级用户本质上是绕过了系统中的所有权限检查,并可以向系统中的任何用户进程发送信号。
文件系统:内核组织了一个单一的层级结构,来组织所有磁盘上的文件。根目录是/
。目录也是一种特殊的文件,其内容指向了下一个表(包含子文件的名称和引用)。
当前目录:每个进程都需要有一个当前目录/工作目录。
文件权限:每个文件权限都有一个所属的用户ID和组ID,以定义文件所有权。所有权能确定所有用户对于该文件的访问权限。
文件IO模型:内核提供了一种类型的文件:一个连续的字节流,具体包括磁盘文件、磁盘、磁带,可以通过lseek()
系统调用进行随机读写。
文件描述符:IO系统调用能够将打开的文件作为一个文件描述符,通常为一个非负整数。通常shell继承的进程默认拥有三种文件描述符,0,1,2表示输入/输出/错误输出,对应stdin,stdout,stderr。
stdio c标准库。c程序通过标准库方法,完成IO操作。
参数与命令行参数:c程序能够访问命令行参数,该参数将在程序运行时被提供给命令行。常见定义如下:int main(int argc, char *argv[])
,默认下argv[0]
将会是程序的名称。
进程:加载程序到内核中,内核并设置数据结构以记录进程ID、终止状态、用户ID和组ID。
进程内存布局,分为四个部分:文本,数据,内存堆(动态请求和分配额外内存),栈(增长的,用于分配函数和变量信息)
进程创建和程序执行:使用fork创建子进程,一个拷贝得到的完全副本(包括数据和堆栈内容)。使用execve销毁进程,包括子进程使用的一切数据、堆栈内容等。在c标准库中,基于同一个execve系统调用的基础上,提供了多个函数方法。
进程和父进程:每个进程有唯一的整数进程标识符(PID),同样有一个父进程标识符(PPID)。
进程终止和终止状态:两种方式终止一个进程:1. 进程调用_exit()
终止自己。2. 传递进程信号,以终止自己。其中前者可以设置进程的终止状态,后者根据信号判断终止状态。默认0表示进程执行成功,多少shell通过$?
变量获取上一个进程的终止状态。
进程用户和组标识符:真实ID表示进程真正所属(被继承)。有效ID表示进程能够拥有的执行权限(可授权)。补充ID表示补充权限(被继承)。
特权进程:用户ID 0拥有特权,绕过内核权限机制。此外,可以通过set-user-ID 机制设置有效ID,允许进程获取对应用户权限。
特权能力:内核2.2之后,特权操作被划分为若干特权能力,特权ID 0 被定义为能够操作所有特权能力的权限。单个特权能力与其他特权操作进行了隔离,通常功能名称以CAP开头,如CAP_KILL。
init进程:启动系统后,内核将创建一个特殊的进程为init,是所有进程的父亲,对应程序文件为/sbin/init
。所有进程将由其创建,或者由其后代进程创建。init进程用于进程ID 1,并运行特权用户。进程ID 1无法被终止,除非关机。init的主要任务是创建并监视运行中的一系列进程。
daemon后台进程:长久存在,没有绑定IO的终端。如syslog
, httpd
环境列表:进程维护一个环境列表在用户空间内存中,存储键值对。创建子进程时,环境列表同样被拷贝,并可以作为进程间通信的方式之一。
资源消耗:进程消耗资源如打开文件,内存和CPU时间。setlimit
系统调用设置消耗资源上限。软限制指定了进程消耗的资源,硬限制指定了进程消耗资源的上限。非特权用户进程可以调整软限制的值,为0~硬限制的范围内。子进程将会从父进程继承该限制值。
内存映射:内存映射将内容映射到进程的虚拟内存空间。映射通常有两种:1.文件映射2.匿名映射。进程间可以共享映射的内存页,进行通信。内存映射用途包括可执行文件文本、分配内存、文件IO、进程间通信等等。
静态和共享库:对象库是一个文件,包含编译代码对象。分为两种:静态库和共享库。对于静态库,程序通过链接的方式,从各种模块和函数引用中提取所需对象模块的副本,复制到生成的新的可执行文件之中,这种方式成为静态链接。对于共享库,程序记录一条引用链接,在运行时通过动态链接器,找到对象库中对应模块的定义进行调用,共享库全局只保留一个代码副本。
进程通信和同步:IPC机制广泛存在,有时相互重叠,因为分别来自于system v 和 BSD。IPC 包括以下:
信号:可称为软中断,通常由内核、其他进程、进程本身发起。以下情形之中发起信号:
进程受到信号后,可以选择的动作包括:忽略,被杀死,挂起直到收到指定信号。信号通常会在下次程序执行时被调用,但也可能被作为信号掩码处理,在进程阻塞期间,信号同样被阻塞等待。
线程:每个线程都有自己的包含局部变量和函数调用链接信息的堆栈,但是内存空间、代码全部为同一个进程所共享。线程通过共享的全局变量进行通信,操作条件变量和互斥体是原子级别的。线程的优势在于更加方便地实现多线程。
进程组和任务控制:如ls -l | sort -kSn | less
中三种进程将会共享一个进程组ID,并且由job 作业控制机制安排执行。内核允许在流程组的所有成员上执行各种操作,特别是信号的传递,因此可以挂起或恢复管道上的所有进程。
会话:会话也是一种进程组,并且将终端IO直接绑定在了进程组之上。
伪终端:通过主从设备实现,如ssh、telnet都是在从设备上做命令输出。
时间和日期:真实时间指从1970开始的计时。进程时间,指进程获得CPU处理的时间总和。
实时应用:应用要求程序进行快速响应。
/proc
文件系统:/proc
虚拟文件系统提供了内核数据结构的接口。
系统调用:系统调用的特性包括:1.从用户态切换到内核态2.固定的系统调用数字3.每个系统调用指定了需要将参数从用户空间传递到内核空间之中。一个系统调用的流程如下:1.调用C库封装的系统调用2.C库将参数传递到内存空间寄存器3.C库将系统调用号传递到寄存器4.C库执行trap中断,从用户态切换到内核态5.执行系统调用程序6.通过全局变量errno
返回执行结果。
库函数:更加方便地被上层调用。
标准C库:glibc,/lib/libc.so.6
,可作为执行程序得到版本号。
错误处理:所有程序处理都会返回执行状态值,错误通常表示为-1
。
可移植性:为了可移植性要求,我们需要在头部定义宏变量保持统一。系统数据类型内涵同样在不同的平台保持统一标准。
概览:文件描述符用于引用所有类型的打开文件,包括管道、FIFOs、套接字、端子、设备和常规文件。通常进程有一组描述符,进程会继承shell的三个标准IO。文件IO的关键四个系统调用包括:open,read,writer,close。得到fd
文件描述符后,通过传输参数,完成系统调用。参考例子。
通用IO模型:通用IO模型的目的是确保所有文件系统和设备类型,能够实现同一组标准IO系统调用。对于额外的设备特性,则通过ioctl()
系统调用进行操作。
打开文件:指定权限参数,并作为缺省值。
创建文件:
读取文件:buffer参数提供了地址,用以将读取内容替换进内存地址中。在读取管道、套接字时,以换行号\n
作为结尾。
写入文件:buffer参数同样提供了写入数据的存储地址,count表示字节数,fd表示将要写入的目标文件。
关闭文件:该系统调用关闭一个打开的文件描述符,并释放以供进程后续使用,在进程终止时,所有打开的文件描述符都将会关闭。应手动关闭文件描述符,以保证资源合理使用。
更改文件偏移量:对于每个打开的文件,内核将会指定一个文件偏移量,或者说是文件读写指针,文件的下一次读写将会从偏移量的位置开始,通过连续的偏移读写,完成连续的文件内容读写。通过lseek()
系统调用进行调整偏移量。
通用IO模型外的文件操作:ioctl()
用于调用IO模型外的操作。
原子性和竞赛条件:内核保证所有的系统调用都是以原子性的操作完成,而不会被其他进程/线程中断。原子性避免了竞赛条件的产生。这里提及了两种竞赛条件:1.双进程打开文件, 进程B抢占创建文件,造成进程A创建了文件的错觉。2.数据覆盖写,双进程同时写入一个文件,导致出现数据覆盖的现象。
文件控制操作:fcntl()
系统调用只能在打开的文件上执行一组任意操作。
更改打开文件状态:使用fcntl()
系统调用能够更改打开文件的状态。
文件描述符与打开文件:进程维护一组文件描述符,多个进程的相关文件描述符,将会指向内核维护的全局文件描述符表,该表中描述符唯一地通过inode ptr
指针指向了inode
文件系统位置。
复制文件描述符:三个系统调用,dup1、dup2、dup3,不同之处在于参数和函数的含义略微区别。
偏移文件IO:pread()和pwrite(),类似前文的偏移文件读写。
收集散点IO:读写系统调用中,使用buffer来收集数据。readv方法能够在一个调用中传输多个数据缓冲区buffer,对磁盘进行读写时,将会组成连续的序列读写。
截断文件:两个系统调用截断文件内容,参数分别为路径以及文件描述符。
非阻塞IO:两种情况使用非阻塞IO,1.文件无法打开直接报错2.文件打开后,之后的系统调用无法执行直接报错。非阻塞IO适合用于设备、管道、FIFOs、套接字。
大文件IO:大文件IO需要一个更大的文件偏移量数据类型off_t。
/dev/fd
目录:内核提供的虚拟文件系统,其中/dev/fd/n
表示了进程使用的文件描述符数字。
创建临时文件:两种方法创建,mkstemp和tmpfile。
进程和程序:其包含程序格式说明、机器语言说明、程序入口地址、数据、符号和重定位表、共享库和动态链接库、其他信息。一个程序可以用来构造许多进程。进程由代码、用户空间内存、内核相关数据结构等构成,内核数据结构包括标识符号ID、虚拟内存表、打开文件描述符、信息传递和处理相关信息、进程资源使用限制、当前工作目录和其他信息。
进程ID和父进程ID:通过getpid和getppid获取两个id。
进程内存布局:text段(包括程序说明),初始数据段(全局变量和静态变量),非初始数据段(动态申请的变量),栈(动态增长的栈帧,直接体现为函数调用),堆(进程动态申请的内存,堆的顶端为中断)
虚拟内存管理:参考进程的经典内存布局,虚拟地址从0x00000000
到0xC0000000
之间。虚拟内存将内存地址划分为内存页帧,这些页构成了驻留集。(该图中,堆在下,栈在上,二者往中间申请发展未分配内存)
栈和栈帧:函数参数和本地变量,在函数调用时将会自动创建并在完成后自动消失。函数相关变量在寄存器中,当函数调用另一个函数时,这些信息将被存储在被调用函数的堆栈中,之后得以恢复。(这部分内容得以在函数连续调用间进行传递)
命令行参数:argc指定参数数量。
环境列表:环境变量从父进程中继承,通过setenv等方法进行更改。
执行非本地Goto:使用setjmp
和longjmp
方法进行跳转。应尽量避免。
分配堆内存:程序使用的额外内存需要在堆中申请。
程序中断:重新调整堆内存大小,如同设置程序中断一样简单。(程序中断通过重置指针位置、加载程序、运行CPU处理,完成中断)。通过 brk 和 sbrk 能够重新设置堆顶位置,一个为目标位置,一个为增量。
分配堆内存:使用malloc函数家族来分配和释放堆内存。(比程序中断的方式更加好用的接口)。malloc返回size字节的新堆内存地址,free释放ptr指针对应的内存块。
函数实现:malloc函数扫描free list找到大小接近的可用内存块,并分割多余的部分;如果空闲列表中无适合的块,那么将调用sbrk申请堆顶的更多内存,该算法通常以倍数级别扩张,以减少调用 sbrk的次数。free函数在释放内存块进入空闲列表时,需要知道字节长度;该长度在malloc进行申请的时候,就使用额外的数据结构以保存。
监控malloc包:提供了mallopt和mallinfo方法以监控堆内存调用信息。
其他函数:calloc能够同时分配多个内存块。realloc能够重新调整上一步malloc申请的内存块大小。
内存对齐:非UNIX标准实现,相关函数能够以二的次方大小作为边界对齐来申请新的内存。
分配内存栈:alloca直接通过增加栈顶的大小,完成内存申请。如果出现溢出,那么运行结果不可预料。这里的实现就是简单的调整栈顶指针,并且无需额外的数据结构信息。
密码文件:格式。
shadow密码文件:
用户组文件:
检索用户和组信息:函数getpwnam和getpwuid,检索/etc/passwd
文件。getgrnam和getgrgid,检索/etc/group
文件。
加密:单向加密函数,crypy函数。
真实用户ID:进程执行时,使用的是文件系统的真实用户ID,而非有效用户ID。
有效用户ID:
函数设置ID:
保存ID:
补充组ID:
函数检索和修改三种ID:
日历时间:从1970年经过的时间数量。gettimeofday和time函数。
时间转化函数:对各种的日期时间格式进行相互转换。转化为包括可打印,时间单元(年/月/日),time_t数据类型。
时区:
本地化:
更新系统时钟:使用setimeofday和adjtime函数,通常应用程序不使用该函数。
软时钟:通过硬件抖动的单元来测量时间,频率在100~1000HZ,因此单位时间可调整在10毫秒、4毫秒、1毫秒级别。
进程时间:内核通常将CPU分为两种时间,User CPU时间和System CPU时间,分别表示进程在用户模式和内核模式下的时间分配。函数clock将能够返回着两种时间值。
系统限制:SUSv3通常指定了各种资源的限制的最小值。(也就是不能超过该值,可以提高值以获得更多资源使用。)
三种值:运行时不变量,路径相关变量,运行时增量
运行时检索限制:应用可以通过sysconf
在运行时检索相关的限制值。
运行时检索文件限制:运行时获取文件相关的资源限制值,通过pathconf
和fpathconf
方法进行获取。
不确定限制:不确定限制时,我们需要自己估算相关的值,方式包括:假定最小值,忽略,写程序检验,使用三方工具。
系统选项:另外一些选项用于支持实时信号等特性,但这些特性并非一定有。常量值为-1代表不支持,0代表可能支持,1代表支持。
/proc
文件系统:虚拟文件系统负责将系统内核运行信息映射到文件上,进行查看和修改。
/proc/PID
进程信息:包括cmdline(命令行参数),cwd(符号链接),environ(环境列表),exe(文件符号链接以执行),fd(文件描述符),maps(内存映射),mem(进程虚拟内存),mounts(进程挂载点),root(链接根目录),status(进程信息,信号等),task(子进程目录,linux2.6后)。通过更改文件值,能够变更系统配置,如/proc/sys/kernel/pid_max
等。
目录结构:参考结构图。其中/proc/net
和/proc/sys
分别代表网络信息和系统运行信息。
系统标识:使用函数uname
进行标识。
内核缓存文件IO:内核通过将文件内容缓存在内存介质中,提升读写文件的效率。这种提升,包括下次读写,以及批量读写带来的性能提升。设置不同的缓存大小,将会影响读写的性能。
stdio标准库缓存:c函数通过申请内存空间来缓存IO,并通过fflush操作手动进行刷盘。使用setvbuf/setbuf/setbuffer函数进行操作。
控制内核文件IO:同步IO数据完整性和同步IO文件完整性,通过机制实现,通过fsync和fdatasync可完成同步。通过O_SYNC
参数完成所有同步。
IO缓存总结:参考图。内核IO和stdio标准库IO都利用了内存缓存。
内核IO模式的建议:posix_fadvise()系统调用允许一个进程通知内核其访问文件数据的模式。
绕过缓存直接IO:直接IO大部分时候并不会提升读写的性能。直接IO获取性能的前提包括:1.内存对齐2.偏移量是倍数3.数据长度是倍数。
文件IO的混合库函数和系统调用:可将C库函数和系统调用混合使用,过程中C库函数将会并入内核缓存IO之中。
设备特殊文件:对应系统设备,每种文件类型存在一个相应的设备驱动程序,用以提供统一的IO操作。即通用IO模型以及ioctl相关操作,以隐藏单个设备在操作上的差别。(例如对于usb而言,是通过D+和D-数据线进行数据操作,有些硬件接口还带有控制线。)这些统一操作产生出一个抽象设备。设备通常分为两种:字符设备、块设备。
设备ID:每个设备文件都有一个主要ID号和一个次要ID号。主ID带有设备的一般类别,内核用以查找适配驱动程序,次ID用以唯一标识通用类中的特定设备。
磁盘和分区:硬盘驱动器是机械设备。磁盘分区值硬盘会被内核划分为多个分区,包括文件系统、数据、交换区。
文件系统:通过mkfs
命令创建一个文件系统。文件系统中分配空间的基本单元是一个逻辑块。通常为1024、2048、4096字节。分区和文件系统的结构通常为,启动块+超级文件块+inodes表+数据块,其中超级文件块是对文件系统自身的描述。
inodes:inodes表中包含了对文件系统中的每个文件的一个inode引用。
虚拟文件系统:文件系统类型分为多种,如ext4、NFS等等,VFS虚拟文件系统在其基础上进行抽象,提供了通用操作模型。
日志文件系统:系统宕机后,启动时可能出现文件一致性的问题。日志文件系统提供了一种机制,能够在开机快速检查并恢复文件一致性。
单目录层级和挂载点:
挂载和卸载文件系统:
高级挂载特性:内核2.4之后,可以在多个挂载点挂载多个文件系统设备。多次挂载,重复地挂载点能够覆盖旧挂载点,让其不可见。
tmpfs虚拟内存文件系统:tmpfs是存在于内存中的虚拟文件系统,而非磁盘上。
获取文件系统信息:库函数statvfs
。
检索文件信息:三个系统调用,检索i-node中有关文件的信息。
文件时间戳:st_atime/st_mtime/st_ctime域分别代表了最后一次访问、修改内容、状态更改的时间。
修改时间戳:使用utime和utimes方法。使用utimensat和futimens方法。
文件所有权:新建文件取决于当前进程的有效用户ID。
更改文件权限:chown,fchown,lchown。
常规文件权限:
目录权限:读、写、执行。
权限检查算法:内核在检查文件权限时,同样会检查前缀目录的权限是否符合。
set-user-id,sticky bits粘位:粘位在旧Unix中用来表示被固定在内存中不被驱逐,在新标准中,用来表示在一个开放目录下,用户只能删除和更改自己所创建的文件,而无法操作其他用户创建的文件。
文件创建掩码:umask()
函数能够确定新建文件的默认权限。
更改文件权限:库函数chmod和fchmod。
inode flag:某些文件系统运行在inode节点上设置flag标志,得以拓展属性。ext4、XFS等文件系统具备该特性。
拓展属性简称EAs
。
概览:EAs可以用于实现访问控制列表和文件功能,也可以用于其他用途,例如记录文件版本、文件MIME类型或字符集信息、图形图标等。
EA名称空间:四个值,用户的、受信任的、系统的和安全性的。inode可以在同个/不同名称空间具备多个EA拓展属性。
从sh中创建和看待EAs:通过setfattr和getfattr可以设置和获取EAs。
EAs实现细节:
操作EA系统调用:包括setxattr/lsetxattr/fsetxattr等。
访问控制列表用于对用于权限进行更加精准的控制,精确到每个用户有不同的权限。
概览:ACL是一系列ACL条目,为每个独立用户和组定义文件权限。tag表示用户类别,qualifier表示用户标识ID,permissions表示对应权限。
ACL权限检测算法:同linux权限
ACL长短文本格式:该格式类似于/etc/passwd
的文本形式。
ACL_MASK条目和组类:掩码用于规定组类获得授权的上限。
查看ACL权限:使用getfacl和setfacl命令进行查看。
默认ACLs和文件创建:使用posix_acl_default属性可以完成文件创建的默认权限。
ACL实现限制:各类文件系统对ACL条目的数量进行了限制,过多使用ACLs会导致大量的ACL条目的出现。
ACL API:参考结构图。几种不同的调用方法,创建acl条目以及文件。
每个进程有两个属性,一个指向根目录,一个指向工作目录。
目录和硬链接:目录类似常规文件,不同在于其在inode表中被标记为不同的文件类型,目录是一种特殊类型的文件,其中包含文件名和inode-编号(表示子节点)组成的表。I-node表包括许多i-node节点结构,其中有data block pointers指向数据块。硬链接指向了inode节点编号,缺点在于无法跨系统、无法指向目录。
软链接:符号链接直接指向数据块的文件名,可以是绝对路径或者相对路径。
创建和移除硬链接:系统调用link和unlink。
改变文件名称:
使用符号链接:使用symlink和readlink。
创建和移除目录:使用mkdir和rmdir。
删除文件和目录:使用remove。
读取目录:使用opendir和readdir。
文件目录遍历:使用nftw。
进程的当前工作目录:检索当前目录和更改当前目录。
对目录文件描述符进行操作:
改变根目录:chroot。
解析文件名称:realpath,解析所有符号链接应用,生成一个字符串。
解析路径名称:获取路径名称dirname和文件名basename。
inotify和dnotify(旧)机制能够监控文件的变化。
概览:使用inotify接口的流程如下,1.初始化实例2.添加内核监控列表,之后将生成对应的inotify文件描述符3.应用读取文件描述符判断发生的事件4.完成监控,关闭文件描述符。第三步可以将读取过程和select、poll、epoll、信号驱动IO等结合。
inotify API:初始化方法。
事件:inotify事件种类。
读取事件:
队列限制:内核监控列表占用内存,因此存在上限。在/proc/sys/fs/inotify
文件中进行定义。
话题包括:各种信号、内核生成信号以及进程的系统调用发起对另一个进程的信号、进程回应信号的方式、进程信号掩码阻塞信号、进程挂起等待信号传递。
概览:信号类似于信号中断,无法预测到达的时间。信号分成两类,1.标准信号编号1-31。2.实时信号,经过某些事件而产生。
生成动作:忽略信号,进程被杀死,生成核心转储文件,进程停止,暂停的进程继续执行。
信号类型和默认动作:linux信号手册中超过了31个信号编号,但实际上其余的功能时重复的。功能参考列表。
更改信号配置:库函数两种方法signal和sigaction。
信号句柄:当指定信号到达时,信号句柄将被调用。
发送信号:kill(),通过pid可以对进程组进行操作。
检查信号存在:
其他方式发送信号:
显示信号描述:
信号集:系统中使用sigset_t表示多个信号。
信号掩码:对每个进程,内核维护一个信号掩码。在信号掩码中的指定信号类型将被阻塞。当新的信号传递时将被延迟,直到掩码中的信号类型被删除为止。
挂起信号:进程挂起时,信号同样会被阻塞。
信号未排队:多个传递的同个信号,将会在队列中被记录为一个等待信号。
更改信号配置:使用sigaction进行。
等待信号:使用pause进行暂停进程,直到被中断。
设计信号句柄:1.信号处理程序会设置一个全局标志,主程序会定期检查该标志。2.信号处理程序执行某种类型的清理,之后终止进程并跳转。
重入函数:如果一个函数可以在同一进程中被多个执行线程安全地同时执行,则它称为重入。
线程安全函数:指实现从信号处理程序调用时保证安全的函数。通常是因为其可重入、或者通过不被信号中断程序处理实现。
全局变量和sig_atomic_t数据类型:数据类型sig_atomic_t保证了读写过程的原子性。
终止信号处理程序的其他方法:
从信号处理程序执行非本地跳转:
异常终止进程:终止调用进程,并导致其产生一个核心转储。核心转储文件是进程最后执行的内存映像文件。
处理备用堆栈上的信号:当栈增长超出范围时,产生sigsegv信号进行中断。
SA_SIGINFO标志:提供关于信号的附加信息的结构。
中断和重启系统调用:通过SA_RESTART标志重启信号。
核心转储文件:是进程内存的映像文件。
发送、配置和处理的特殊情况:SIGKILL and SIGSTOP信号无法改变配置。SIGCONT and stop signals该信号略有不同将导致信号继续执行。
可中断和不可中断的进程睡眠状态:睡眠进程分为两种状态,可中断和不可中断。
硬件产生的信号:SIGBUS、SIGFPE、SIGILL和sigsegv可以由于硬件异常而生成,并通常由kill函数进行发送。
同步和异步信号的生成:信号的到达通常是不可预测的,即异步信号。一些特列,如硬件导致的错误,则进程在执行过程中直接生成了信号并杀死自己的进程,这种信号类型称为同步信号。
信号传递的时间和顺序:
signal()的实现和可移植性:参考实现代码。
实时信号:Linux内核定义了32个不同的实时信号,编号从32到63。我们可以像处理标准信号一样处理实时信号的事件。
使用掩码等待信号:使用掩码的原因,在于保证代码的关键部分不会被外部信号中断。之后将会解除掩码,等待信号到达。
同步等待信号:使用sigwaitinfo函数来同步地等待一个信号,以执行。
通过文件描述符抓取信号:信号将会产生对应的文件描述符,通过监控文件描述符来判断信号情况。
使用信号进行进程间通信:可以作为进程间通信IPC的一种方式,缺点在于慢。
早期信号接口(System V和BSD):
计时器允许进程在指定的时间后生成一个通知。休眠允许进程/线程挂起一段固定的时间。
间隔计时器:该setitimer系统调用建立一个间隔定时器,在未来的一个时间点过期。该计时器能够按照固定间不断地生成信号。
简单计时器:该alarm系统调用建立一个仅会过期一次的计时器。
调度和计时器精度:根据系统负载,实际进程可能在计时器过期后的很短时间内运行。这种时间通常受到软硬件精度的限制。
阻塞操作的过期时间:实时计时器的一种用途是用于对阻塞操作设置一个过期时间。例如用户在指定时间内没有进行输入操作,则我们将会取消read终端操作。
执行挂起固定间隔:低精度函数sleep,高精度函数nanosleep。
POSIX时钟:获取和设置时钟的相关信息的库函数。
POSIX间隔计时器:几种限制1.只有三种类型的计时器ITIMER_REAL,ITIMER_VIRTUAL,ITIMER_PROF。2.唯一计时器通知过期的方法是通过信号3.一旦信号被阻塞,我们无法判断计时器是否溢出了
通过信号接收通知:通过信号句柄,我们接收信号,两种方法1.sigwaitinfo 2.sigtimedwait。两种机制将会接收到同一个数据结构。
计时器溢出:由于一旦信号阻塞后无法获取溢出信息,即时通过实时信号排列也无法解决。一种新的方式是通过判断过期次数,例如计时器信号已过期三次,那么计时器溢出次数就为2。
通过线程通知:
通过文件描述符通知:在前文我们知道,可以通过内核对信号生成的文件描述符判断信号到达。计时器同样会生成信号,因此linux2.6后可以通过文件描述符判断计时器是否到达。
概览:关键的四个系统调用,fork创建子进程,exit终止进程,wait等待子进程,exec加载新程序作为进程内容。关联流程参考结构图。
创建新进程:通常新进程是父进程的副本,包括文本段、堆栈、数据段等,它们将记录返回点,以进行精确跳转,更改副本内容不会影响父进程的相关变量。
父子进程文件共享:fork操作时,子进程将接收到父进程的所有文件描述符。当父子进程同时使用一个打开的文件时,使用共享文件偏移量确保父子进程不会相互覆盖彼此输出的内容。
fork内存语义:副本。子进程复制文本段(只读),数据段、堆栈段、页面(写时复制)
vfork系统调用:
fork后的竞赛条件:竞赛条件下,无法确定进程访问CPU的先后顺序。
通过信号同步避免竞赛条件:一个进程等待信号,一个进程完成操作后发送信号,从而固定进程的先后执行顺序。(实际情况下,这种过程更可能通过信号量、文件锁和消息传递来完成。)
终止进程:进程通常两种方式终止1.异常终止2.信号传递引起进程终止。
进程终止流程:打开的文件描述符/流被关闭,释放文件锁,共享内存段分离,添加信号量,发送子信号到进程组或子进程,消息队列和信号量被关闭,删除所有内存锁,禁止新的内存映射操作。
终止句柄:应用退出时,可能还需要一些清理操作。
注册终止句柄:两种方式1.atexit方法2.on_exit方法。
fork,buffer,exit间的交互:一个应用例子。
通常两种技术,系统调用wait和SIGCHLD信号的使用。
等待子进程:wait方法等待子进程调用结束并返回终止状态,期间将会阻塞当前进程。
waitpid系统调用问题:等待多个子进程时,只能监控下一个,无法监控特定;无法监控停止后恢复的子进程。
wait状态值:
通过信号句柄终止进程:我们可以使用一个进程来等待终止信号,执行相关的清理操作。此时需要注意接收的终止信号应该是针对其父进程的。
waitid系统调用:
孤儿和僵尸进程:孤儿进程指父进程终止而子进程仍旧存在。在子进程完成任务后,需要等待父进程稍后执行,此时内核将该子进程标记为僵尸进行处理。如果父进程创建了子进程却没有进行等待,进程表中将会产生大量的僵尸进程,僵尸无法被信号杀死,因此只能杀死父进程。
SIGCHLD信号:由于上述问题,一种新的方式是通过SIGCHILD信号处理程序应用僵尸进程。
SIGCHLD句柄:子信号出现后,SIGCHLD信号将被发送到父进程,父进程使用句柄来捕获该信号,并等待没有僵尸进程出现。
已停止的子进程的SIGCHLD信号传递:
忽略死去的子进程:句柄的处理程序将能够显示地处理死去的子进程,减少僵尸产生。
执行新程序:execve()
系统调用加载新程序到内存中,并丢去旧程序,替换新的进程堆栈、数据。该系统调用在fork的过程中会被频繁的使用。
exec相关库函数:更好利用的接口,加载filename路径。
path环境变量:用于搜索可执行程序。
指定参数列表:
执行文件描述符引用的文件:过程是打开文件、校验和执行。
解释脚本:解释器能够以文本的形式读取命令并执行程序,与执行编译后的二进制程序不同。
文件描述符和exec:执行期间可以进行IO重定向,通常文件描述符只会打开一次,并为所有资源共享。
信号和exec:exec期间在丢弃当前进程的文本段时,将会产生SIG_DEF信号。
执行shell命令:使用system()系统调用执行。system调用可以通过四个基本系统调用fork、exec、wait、exit进行实现。
进程统计:进程终止时,内核将会统计该进程对所有资源的消耗情况。该特性可以禁用。
clone系统调用:clone能够在复制进程的过程中,进行更加精细的控制,其主要用途在于线程的实现。
clone标志位:用于更加精细地控制相关资源和数据结构。
克隆子进程的waitpid拓展:
进程创建速度比较:
进程属性在exec和fork的变化:参考表,展现调用期间将会保留的部分进程属性。
概览:线程同样是一种允许应用程序并发地执行多个任务的机制。进程中的线程并发执行,在多处理器上并行执行。单个线程的内存栈包含在进程的内存栈顶部。线程共享了进程的部分属性,并且方便地进行共享变量传递值。
Pthreads API背景:pthreads数据类型。
线程创建:程序启动,进程由单个线程组成,即主线程(初始线程)。使用 pthread_create以创建一个新的线程。
线程终止:四种终止方式1.线程启动后返回。2.线程调用pthread_exit。3.线程被 pthread_cancel取消。4.其他线程调用exit导致所有线程退出,进程结束。
线程ID:
连接终止的线程:函数pthread_join将等待标识的线程终止,并获取状态。(阻塞等待)
连接线程:函数pthread_detach在线程终止时标记为分离的(与进程)线程,让内核清理。
线程属性:
线程对比进程:优点-共享数据容易,创建和上下文切换快。缺点-线程需要保证多线程安全,线程会相互影响(因为共享虚拟内存地址空间),大量线程将会占用大量内存。
两种机制:互斥体(阻止同时访问),条件变量(运行线程通知其他线程共享变量状态变化)。
互斥体:通过互斥体保证多个线程不会同时尝试修改同一个变量。
静态互斥体:静态声明。
加锁和解锁互斥体:通过 pthread_mutex_lock和 pthread_mutex_unlock完成该操作。
互斥体性能:
互斥体死锁:当需要的资源都被对方占用加锁的时候,就造成了死锁。(这里是需要同时访问两个以上不同的共享资源时,会产生这种情况)。避免死锁的一种最简单的方式是始终按照顺序的情况访问资源。
动态初始化互斥体:
互斥体属性:
互斥体类型:PTHREAD_MUTEX_NORMAL、PTHREAD_MUTEX_ERRORCHECK、PTHREAD_MUTEX_RECURSIVE。
条件变量:条件变量运行一个线程通知其他线程状态变化,其他线程能够得到通知。
静态条件变量:
信号传递和等待条件变量:pthread_cond_wait将阻塞线程以等待条件变量的通知。
测试条件变量谓词:
动态分配条件变量;
线程安全:如果一个函数可以同时被多个线程安全地调用,并且保持一致的结果预测,那么它就是线程安全的。
一次初始化:库函数pthread_once执行一次初始化操作。用以确保某些初始化操作。
线程指定数据:特定于线程的数据,允许一个函数为每个调用该函数的线程维护一个变量的单独副本。
线程指定数据API概览:通常通过特定的键来区分并管理不同的线程使用的数据。
线程指定数据API细节:函数pthread_key_create将创建一个特定数据键,并返回。
使用线程指定数据API:
使用限制:
线程本地存储:线程本地存储也提供了持久的每个线程存储。
取消线程:函数pthread_cancel。
取消状态和类型:线程可控制它响应取消请求的方式。
取消点:取消点是预定义的一组函数中的任意调用,这些函数调用能够无限阻塞线程。(意味着只有线程到达取消点的函数执行位置,才能执行取消操作。例如在外部的异常信号达到时,仍旧会保证线程完成每个取消点的函数调用。)当接收到取消请求时,启用可取消性并延迟的线程在下一次到达取消点时终止。如果线程没有被分离,那么进程中的其他线程必须与它连接,以防止它成为僵尸线程。
测试取消线程:
清理句柄:当取消线程时,将自动执行清理句柄。
异步取消:
两种线程实现,linux线程和NPTL。
线程栈:每个线程有固定堆栈,32位对应2MB,64为对应32MB。线程堆栈大小可更改。
线程和信号:信号模型早于线程模型,因此存在复杂的兼容问题。
信号模型映射到线程模型:(总体上来说,线程包含在进程内,信号对于进程的控制暂时是完善的,因此线程的信号控制,多数基于进程的基础上进行设计和理解。例如一个信号先发给进程中的全体线程,然后才是线程的个体。)
操作线程信号掩码:同进程信号掩码。保护过程不被中断。
发送信号到线程:函数 pthread_kill。
合理处理异步信号:所有线程继承信号掩码,建立专用线程来接受信号。
线程和过程控制:在进程调用exec和fork子进程时,将优先于线程。将造成子线程消失。
线程实现模型:三种模型,表示线程映射到内核调度实体(KSEs)上的数量关系。
多对一(M:1)实现(用户级线程):
一对一(1:1)个实现(内核级线程):
多对多(M:N)实现(两级模型):
POSIX线程的Linux实现:
linux线程:
NPTL线程:
Pthread API高级特性:实时调度,线程同步的屏障、读写锁、自旋锁。
流程组是相关流程的集合,而会话是相关流程组的集合。
概览:进程组是拥有共同PGID的多个集合的进程。进程组的生命周期到所有成员离开组为止。会话是进程组的集合,具有SID。前景进程组和背景进程组,在终端关闭时,内核将向进程发送一个SIGHUB信号。
进程组:一个进程可以使用getpgrp()获取其进程组ID,在作业控制文件中使用setpgid()。
会话:会话是进程组的集合。getsid()系统调用返回由pid指定的进程的会话ID。
控制终端和控制过程:所有进程都可以有一个终端。
前景和背景进程组:前景进程组是唯一可以在控制终端上自由读写的进程组。
SIGHUP信号:控制过程失去其终端连接时,内核会向它发送一个SIGHUP信号来通知它,SIGHUP的默认操作是终止一个进程。
Shell处理SIGHUP信号:
SIGHUP和控制过程的终止:终端断开将会导致发送SIGHUB信号导致控制过程终止。
作业控制:作业控制允许shell用户同时执行多个命令(作业)。在Shell中使用作业控制:放置在后台的每个作业都由shell分配了一个唯一的作业编号。
实现作业控制:
SIGTTIN和SIGTTOU信号:
处理作业控制信号:作业控制对于多数程序来说是透明的,对于进程而言不需要采取特殊操作来处理作业控制信号。
处理被忽略的作业控制和终端产生的信号:
孤儿进程组:父进程终止后被init采用的进程是孤儿进程,同时也是孤儿进程组的一部分。
SIGTSTP, SIGTTIN, 和SIGTTOU信号:
决定何时和哪些进程获得访问CPU。
进程优先级(nice值):调度进程的默认模型是循环分时,每个进程依次被允许在很短的时间内使用CPU,称为时间片或量子。同时进程属性nice值,能够间接地影响内核的调度算法,nice值从-20(高)~+19(低)优先级,更大的整数意味着更容易被CPU调度。
检索和修改优先级:能够修改nice值。
实时进程调度概览:
SCHED_RR策略:该策略下,相同优先级的进程以循环分时的方式执行。一个进程每次使用CPU时都会接收到一个固定长度的时间片。在SCHED_FIFO策略中,按照FIFO顺序访问CPU。
SCHED_FIFO策略:
SCHED_BATCH和SCHED_IDLE策略:内核2.6条件了两个非标准的调度策略。
实时过程调度API:
实时优先范围:sched_get_priority_min函数返回策略的可用优先级范围。
修改和检索策略和优先级:将会更改优先级。
影响对调度参数的更改的特权和资源限制:特权CAP_SYS_NICE可以对任意进程的调度策略和优先级进行任意更改。
防止实时进程锁定系统:失控的实时进程可能通过占用CPU来锁定系统,有几种方法能够防止这种现象。
放弃CPU:通过阻塞自己(相关系统调用),或者调用sched_yield函数。
SCHED_RR时间片:获得策略下能够分配的时间片长度。
CPU亲和性:内核2.6视图保证进程的软CPU亲和性,使得始终安排在一个CPU上执行(因为切换CPU需要先将进程数据刷新到CPU缓存中,然后刷新到主存中。)。使用 sched_setaffinity()来更改进程的CPU亲和性。
每个进程都会消耗系统资源,如内存和CPU时间。
进程资源使用情况:使用getrusage获取系统资源统计信息。
进程资源限制:每个进程都有一组资源限制。使用 getrlimit()和setrlimit()允许进程获取和修改其资源限制。
具体资源限制的细节:提供关于Linux上可用的每个资源限制信息。包括RLMIT_AS、RLIMIT_CORE等等。
概览:许多标准守护进程作为特权进程运行。
创建一个后台进程:创建后台进程的流程-1.父进程退出,子进程继续2.子进程启动新会话3.确保进程不会绑定控制终端4.清除进程umask,确保具有目录权限5.更改进程的当前目录6.关闭守护进程从其父进程继承来的所有打开的文件描述符7.之后通常会打开/dev/null,并拷贝新的文件描述符dup2。
写后台进程:
使用SIGHUP信号重新初始化后台进程:
使用syslog记录消息和错误:系统管理员很难管理多个应用程序日志文件,并同时监控它们是否有错误消息。syslog工具能够将所有的相关日志收集到一起。
syslog API:
共享库是一种将库函数放置到单个单元中的技术,该单元可以在运行时由多个进程共享。
对象库:是一种对象文件,通过将源码文件编译成相应的对象文件,然后将所有对象文件链接在一起生成可执行程序。
静态库:静态链接库,程序编译是将引用链接库的副本,形成可执行文件。
共享库概览:静态库程序生成的可执行文件包含链接到程序中的所有对象文件的副本。
创建和使用共享库:
使用共享库的有用工具:ldd、objdump、readelf、nm命令。
共享库版本和命名规格:共享库的使用需要考虑程序不同版本的兼容问题。共享库的每个不兼容版本都由唯一的主要版本标识符区分。
安装共享库:使用LD_LIBRARY_PATH环境变量来确保动态链接器搜索该目录。目录文件通常在/usr/lib、/lib、/usr/local/lib等。
兼容库对比不兼容库:
更新共享库:共享库的优点之一是,即使运行程序使用现有版本,也可以安装新的主版本或小版本。更新操作即创建新的库版本,放置到适当的目录中,并根据需要更新命令和链接器名称符号链接。
指定库搜索目录文件:使用LD_LIBRARY_PATH指定静态库搜索目录。
运行时查找共享库:即通过动态链接器查找相关依赖库。
运行时符号解析:
使用静态库代替共享库:当用户不希望在本地安装共享库的时候,通过静态库完成程序是更好的选择。
动态加载库:动态链接器将加载程序的动态依赖项列表中的所有共享库。通过dlopen加载共享库到虚拟内存地址空间。
控制符号可见性:共享库设计时,应隐藏细节,只使得有用的符号和变量可用。
链接器版本脚本:ld使用 ––version–script指定版本。
初始化和终止化函数:定义一个或多个函数,并在加载和卸载共享库时自动执行这些函数。从而在使用共享库时执行初始化和终止化相关的操作。
预加载共享库:将环境变量LD_PRELOAD定义为一个字符串,其中相关的共享库名称,将会在任何其他共享库之前加载。
监控动态链接器:监视动态链接库操作,可以知道其在哪里搜索库。
可以用于在进程和线程间进行相互通信和同步操作的工具。
IPC工具分类:三种包括1.通信2.同步3.信号。
通信工具:包括1.数据传输工具(字节流,消息,伪终端)2.共享内存。
同步工具:包括1.信号量2.文件锁3.互斥体和条件变量。
对比IPC工具:参考表格特性对比。
管道允许一个进程的输入作为另一个进程的输出。FIFOs允许无关联的两个进程连接(包括时间、空间上无关。)
概览:进程不必知道对方的存在,只是从管道中读取和写入数据。管道本质是个字节流或者内存缓存区。当stdio缓存区被填充时便会造成管道清空。
创建管道和使用管道:
用管道进行进程同步:子进程打开文件描述符后输入并关闭,然后父进程打开获取。(可联系下文的匿名文件映射,实际上在内存中完成IPC通信)
使用管道连接过滤器:
通过管道与Shell命令对话:调用popen和和pclose。
管道和stdio缓存区:写入模式下,只有当stdio缓冲区被填充或我们使用pclose()关闭管道时,输出才会被发送到管道另一端的子进程。
FIFOs:是管道的改进,唯一区别在于用于名称。可以用于客户端和服务端的连接。
使用FIFOs和tee:可以在管道中创建一个分叉,以便将进程输出的副本发送到管道中的继任者之外的另一个进程。(其中将产生两种输出文件。)
C/S应用使用FIFOs:
非阻塞IO:打开FIFO时,如果FIFO的另一端尚未被打开,它就会被阻塞。指定O_NONBLOCK标志时,不阻塞,IO失败是将直接返回。
read() 和 write()调用读写管道和FIFOs:非阻塞IO无法打开读写时,将会直接返回失败。
进程间通信的三种方式:消息队列,信号量,共享内存。
消息队列类似于管道。不同在于读取管道是读取字节流,读取消息队列则是一次一个消息单元,有明确的信息结构。
此外,每个消息都有一个整数类型,消息可以按照先入先出的顺序,在队列之中进行检索。
信号量的一个常见用途是同步对共享内存块的访问,以防止一个进程在另一个进程更新共享内存的同时访问共享内存。
信号量不用于传输数据,而是作为一个同步的标志。
信号量是一个整数值,可以进行加减(可能对应线程标志的数量。)当数值为负数时,会导致调用进程被阻塞。
共享内存允许两个或多个进程共享物理内存的同一区域(通常称为段),以传输数据。
共享内存被放置在用户空间内存的一部分,因此不需要内核干预。与管道和消息队列相比,共享内存提供了快速IPC,能够在缓冲区中,两种进程分别读取和读出,进行快速的数据复制。
概览:内存映射将进程的虚拟地址空间映射到文件上,包括1.文件映射2.内存映射。进程A的映射内存可以和进程B的映射内存指向相同的RAM地址,包括1.共享相同的物理内存页面。2.子进程共享父进程的物理内存页面。此时共享内存进一步划分为两种:1.私有映射,进程A对内存修改对于其他进程不可见。2.共享映射,进程A对内存修改对所有进程可见。
四种类型:根据上述定义分为四种映射包括1.私有文件映射2.私有匿名映射3.共享文件映射4.私有匿名映射。
创建内存映射:函数mmap。内存保护,内存偏移地址和引用地址的内存对齐限制(该地址必须实现内存对齐)。
取消内存映射:能够从虚拟地址内存中删除一个内存映射。
文件映射:操作步骤包括1.通过open()函数获取一个文件描述符2.使用文件描述符fd调用映射操作。
私有文件映射:常见的两种用途1.映射程序文本段(只读,参考前文)2.映射可执行文件或共享库中初始化的数据段。
共享文件映射:多个进程创建同一个文件区域的共享映射,共享相同的内存物理页面。并且对映射内容的修改将会写入到文件之中。常见用途1.通过内存映射实现IO 2.进行IPC通信。(参考前文,通信转化为文件描述符的变化,内存内容的修改被传递到底层映射文件上)。内存映射IO依赖于内核机制以确保内存的改写体现到映射的文件之上。(参考前文,这里中间还会涉及到内核空间和用户空间缓存)。
边界情况:
内存保护和文件访问模式交互:映射内存和文件之前存在操作模式。包括以PROT_READ只读或O_RDWR读写模式打开映射文件。
同步一个映射区域:映射文件同步可能在任意时刻发生,我们可以通过msync函数进行同步。其中涉及两种模式-1.同步模式2.异步模式。这里的区别在于同步期间,内容是否为其他访问进程可见。
其他mmap标志:其他标签值对映射区域控制。
匿名映射:指不指定文件的映射方式。用途包括-1.创建初始化为0的内存块(如内存申请)2.不指定文件的父子进程共享内存的通信方式。
更新映射区域:函数mremap更改内存映射的区域位置。
MAP_NORESERVE和交换空间过度提交:大型程序可能申请很长的内存映射地址,但是实际只使用一个小部分。内核机制确保当内核,即程序实际访问一个内存页面时,才为其映射的内存页面保留地址内容,该机制为延迟交换保留机制。
OOM杀手:OOM即内存不足,当内存空间耗尽时,OOM将会杀死大型进程(优选杀死)。
MAP_FIXED标志:强制内存页面对齐。
非线性映射:通常内存和文件为线性映射关系,即连续的一对一。非线性映射指文件内容页面需要在连续的内存地址中以不同的顺序实现,地址乱序的情形。
改变内存保护:内存保护用于阻止进程对于其他虚拟内存区域的非法访问与读写。
内存锁:锁定内存保护是为了防止内容被从物理内存上交换出去。使用内存锁对于提供应用性能和减少消耗都有用。通过mlock和mlockall函数操作进行加锁。
决定内存驻点:使用mincore函数报告当前虚拟内存页面中哪些内存驻留在RAM中。用该函数可以判断内存锁是否生效。
建议未来的内存使用模式:提供性能模式,通过设置通知内核调度进程,关于从addr开始的指定长度的内存页的使用模式,包括NORMAL、RANDOM、SEQUENTIAL、WILLNEED、DONTNEED等模式进行。
处理前文的同步技术信号和信号量,这里针对文件提供了文件锁。
概览:flock系统调用对整个文件放置一个锁,锁定的文件目标通过fd文件描述符指定。当所有重复文件描述符被关闭时,文件锁也自动释放。
flock缺点:需要对整个文件锁定,进程协作操作文件部分不方面。
用fcntl()记录锁定:记录锁能够记录文件字节,能够锁定文件中的单位字节。三种模式包括-1.F_SETLK 2.F_SETLKW 3.F_GETLK。
flock锁细节:
死锁:通常是锁定A被锁定B相互锁死,构成闭环。
锁性能:内核锁的数据结构能够被合并为新锁,以优化锁的表示。内核将文件锁维持为一个链表的形式。当添加新锁时,内核将会检查新锁是否与链表上的已有所冲突。
fcntl锁细节:该锁继承的锁将会是副本,解锁时不会影响到父进程持有的锁。这点和flock锁不同。
锁定启动和队列锁定请求的优先级:关于多个进程获取可用锁的优先级别,内核提供策略为:按照顺序使用,读锁和写锁不作区别。
强制锁定:上述两种锁是咨询型,进程可以选择忽略而直接对文件进行IO。内核支持进行强制锁定。
/proc/locks文件:/proc/locks文件中包含了系统中当前可用的锁集。
只运行一个进程:许多守护进程确保只有一个程序运行在当前机器上,常见方式是在进程中保持维护对一个文件的写锁。如果启动了其他进程,将无法获取该写锁。
旧锁技术:
概览:套接字提供了不同主机的进程IPC通信,至少两种套接字类型,包括-1.流套接字 2.数据报套接字。流套接字是TCP套接字的实现,数据报套接字是UDP套接字的实现。关键系统调用包括创建、绑定、监听、接收、连接套接字。
通用的套接字地址结构:结构用于保存套接字的寻址信息。
流套接字:类似于电话系统。流套接字通常被分为主动和被动,当套接字处于监听状态,其持有被动标志,进入被动的连接挂起队列。
流套接字IO:两种fd和进程需要通过内核空间的缓存区。
数据报套接字:类似于邮件系统。
UNIX域套接字地址:用于定义套接字地址信息的数据结构。
UNIX域中的流套接字:程序例子。
UNIX域中的数据报套接字:程序例子。
UNIX域套接字权限:进程通信的权限,取决于进程对于fd文件描述符的读写权限。
正在创建已连接的套接字对:
Linux抽象套接字命名空间:名称空间,能够避免UNIX域名称的冲突。
网络:互联网能够隐藏不同物理网络的细节,以便向所连接网络上的所有主机提供一个统一的网络架构。
网络协议层:网络层和协议层被实现在内核空间之中。
数据链路层:封装帧,并且传输帧。
网络层:
传输层:注意TCP和UDP的区别。
UDP:
TCP:数据段打包(分段包含校验和,以校正传输错误),确认重传和超时(TCP传输到达后将产生一个积极的确认),序列(传输的数据将带有序列编号),流量控制(通过缓冲区来控制流量的大小,防止接收方无法承受。),拥塞控制(1.慢启动算法,2.拥塞避免算法。防止网络线路无法承受。)
RFC注释请求:关于RFC文档的相关地址如下
知名RFC:参考列表。
网络域套接字:
网络字节顺序:
数据表示:
网络套接字地址:包含IPv4和IPv6。
主机和服务转换函数:
DNS域名:
协议独立的主机和服务转换:
一个互联网域套接字库:
UNIX与互联网域套接字之间的兼容问题:
迭代和并发服务器:迭代服务器被设计于处理一个客户端请求。并发服务器并设计于处理多个客户端请求。
echo迭代服务器例子:echo服务器不断地读取数据报,并将每个数据报的一个副本返回给发送方。
echo并发服务器例子:echo通过创建子进程和线程的方法,对接处理多个客户端的请求。
其他并发服务器的设计:在每分钟处理几千个请求的情况下,需要考虑其中几种方法。
inetd后台进程:inetd守护进程的设计是为了消除运行大量不经常使用的服务器的需要。因为大量的服务器进程是等待着不频繁的连接请求或数据报。
部分读写的流套接字:
特定于套接字的I/O系统调用:
sendfile系统调用:
检索套接字地址:
TCP细节:
TCP段格式:
TCP序列号和确认:
TCP状态机和状态转换图:由于连接双方的协调,两种端点被设计成为状态机,影响事件以变更状态机状态,包括以下状态:
TCP连接建立:参考TCP状态转换图。
TCP连接终止:
TIME_WAIT状态:等待连接,并阻止连接信息脱离被重用。
监控套接字netstat:
使用tcpdump监控TCP流量:
套接字选项:
TCP对比UDP:
高级特性:
可分类为水平,边缘通知。水平通知只要状态在1或者0将会发出通知;边缘通知当状态从0到1或者状态从1到0时会发出通知。
三种模型:IO多路复用,信号驱动IO,linux epoll模型。
概览:前文中的IO模型都只对一个文件执行IO,单还可能需要同时监控多个文件是否出现了IO。如果通过每个文件进行IO轮询可能产生的问题包括响应的延迟以及对CPU时间片的浪费。因此可以用上述三种模型来实现该需求。
水平通知和边缘通知:水平通知认为文件已就绪可以访问(例如文件状态保持在一个状态位上),边缘通知在文件状态变化时发出通知(例如实现了IO活动,如键盘输入,发出通知)。select和poll是长期形成的水平通知模型,驱动IO是边缘通知模型,epoll是linux特有的具备前二者的模型。
将可选IO模型和非阻塞IO一起使用:
IO多路复用:允许我们同时监控多个文件描述符,select和poll可以监控常规文件、终端等等各类文件描述符。
select:
poll:和select的区别在于参数指定fd文件描述符的方式不同。
判断文件就绪:select和poll通过判断文件描述符的就绪标志来判断。包括可读、可写、异常的状态集。参考说明,对于常规文件、终端、管道、套接字状态位的表示略有不同。
实现细节:二者都使用相同的一组内核内部轮询例程,每个例程都返回有关单个文件描述符的准备就绪情况的信息。
性能:在文件描述符的稀疏(更大的整数范围和更小的密度)程序大时,poll调用表示的性能更好。
信号驱动IO:该模型下通过进程调用select或poll,查询文件描述符是否产生IO并获取通知信号。
epoll API:epoll的优点在于监控大量的文件性能更好。内核生成一个epoll实例并被文件描述符引用,其中包含了目标监控文件描述符的信息(即将监控的文件描述符状态集中在一个地方)
创建epoll: epoll_create指定监控描述符的数量。
更改epoll监控:所有监控目标被维护在一个列表之中。
等待epoll事件:
epoll性能:
细节:
等待信号和文件描述符:例子。
pselect调用:
自身管道技巧: