【Linux从0到1】第八篇:基础IO

文章目录

  • 一、C文件接口
  • 二、系统文件I/O
    • 2.1 open基本使用
    • 2.2 open函数返回值
  • 三、文件描述符fd
    • 3.1 什么是文件描述符
    • 3.2 文件描述符的分配规则
    • 3.3 重定向
  • 四、使用 dup2 系统调用
  • 五、FILE
  • 六、理解文件系统
    • 6.1 inode
    • 6.2 理解硬链接
    • 6.3 软链接
  • 七、动态库和静态库
    • 7.1 静态库与动态库概念
    • 7.2 制作和使用静态库
    • 7.3 制作和使用动态库


一、C文件接口

【Linux从0到1】第八篇:基础IO_第1张图片
【Linux从0到1】第八篇:基础IO_第2张图片

【Linux从0到1】第八篇:基础IO_第3张图片
【Linux从0到1】第八篇:基础IO_第4张图片
在这里插入图片描述

  • stdin :键盘
  • stdout :显示器
  • stderr:显示器
    C默认会打开三个输入输出流,分别是stdin, stdout, stderr
    仔细观察发现,这三个流的类型都是FILE*, fopen返回值类型,文件指针
    【Linux从0到1】第八篇:基础IO_第5张图片
    【Linux从0到1】第八篇:基础IO_第6张图片
    【Linux从0到1】第八篇:基础IO_第7张图片

【Linux从0到1】第八篇:基础IO_第8张图片
【Linux从0到1】第八篇:基础IO_第9张图片

二、系统文件I/O

2.1 open基本使用

操作文件,除了上述C接口(当然,C++也有接口,其他语言也有),我们还可以采用系统接口来进行文件访问,先来直接以代码的形式,实现和上面一模一样的代码
【Linux从0到1】第八篇:基础IO_第10张图片
pathname: 要打开或创建的目标文件
flags(标志位): 打开文件时,可以传入多个参数选项,用下面的一个或者多个常量进行“或”运算,构成flags。
参数:
O_RDONLY: 只读打开
O_WRONLY: 只写打开
O_RDWR : 读,写打开
这三个常量,必须指定一个且只能指定一个
O_CREAT : 若文件不存在,则创建它。需要使用mode选项,来指明新文件的访问权限
O_APPEND: 追加写
【Linux从0到1】第八篇:基础IO_第11张图片
返回值:
成功:新打开的文件描述符
失败:-1
mode_t理解:直接 man 手册,比什么都清楚。
open 函数具体使用哪个,和具体应用场景相关,如目标文件不存在,需要open创建,则第三个参数表示创建文件
的默认权限,否则,使用两个参数的open。
【Linux从0到1】第八篇:基础IO_第12张图片

【Linux从0到1】第八篇:基础IO_第13张图片
【Linux从0到1】第八篇:基础IO_第14张图片
【Linux从0到1】第八篇:基础IO_第15张图片

2.2 open函数返回值

在认识返回值之前,先来认识一下两个概念: 系统调用 和 库函数

  • 上面的 fopen fclose fread fwrite 都是C标准库当中的函数,我们称之为库函数(libc)。

  • 而, open close read write lseek 都属于系统提供的接口,称之为系统调用接口
    【Linux从0到1】第八篇:基础IO_第16张图片
    【Linux从0到1】第八篇:基础IO_第17张图片
    【Linux从0到1】第八篇:基础IO_第18张图片
    【Linux从0到1】第八篇:基础IO_第19张图片
    【Linux从0到1】第八篇:基础IO_第20张图片
    【Linux从0到1】第八篇:基础IO_第21张图片

  • 回忆一下我们讲操作系统概念时,画的一张图

【Linux从0到1】第八篇:基础IO_第22张图片
系统调用接口和库函数的关系,一目了然。
所以,可以认为,f#系列的函数,都是对系统调用的封装,方便二次开发

三、文件描述符fd

3.1 什么是文件描述符

通过对open函数的学习,我们知道了文件描述符就是一个小整数
【Linux从0到1】第八篇:基础IO_第23张图片
【Linux从0到1】第八篇:基础IO_第24张图片
那么怎么解释呢?
在这里插入图片描述

【Linux从0到1】第八篇:基础IO_第25张图片
0 & 1 & 2

  • Linux进程默认情况下会有3个缺省打开的文件描述符,分别是标准输入0, 标准输出1, 标准错误2.
  • 0,1,2对应的物理设备一般是:键盘,显示器,显示器
    所以输入输出还可以采用如下方式
    【Linux从0到1】第八篇:基础IO_第26张图片
    【Linux从0到1】第八篇:基础IO_第27张图片
    【Linux从0到1】第八篇:基础IO_第28张图片
    【Linux从0到1】第八篇:基础IO_第29张图片
    【Linux从0到1】第八篇:基础IO_第30张图片
    【Linux从0到1】第八篇:基础IO_第31张图片
    【Linux从0到1】第八篇:基础IO_第32张图片
    而现在知道,文件描述符就是从0开始的小整数。当我们打开文件时,操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用,所以必须让进程和文件关联起来。每个进程都有一个指针*files, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数组,每个元素都是一个指向打开文件的指针!所以,本质上,文件描述符就是该数组的下标。所以,只要拿着文件描述符,就可以找到对应的文件

3.2 文件描述符的分配规则

直接看代码
【Linux从0到1】第八篇:基础IO_第33张图片
【Linux从0到1】第八篇:基础IO_第34张图片
输出发现是 fd: 3
关闭0或者2,在看
【Linux从0到1】第八篇:基础IO_第35张图片
【Linux从0到1】第八篇:基础IO_第36张图片
【Linux从0到1】第八篇:基础IO_第37张图片
【Linux从0到1】第八篇:基础IO_第38张图片
发现是结果是: fd: 0 或者 fd 2 可见,文件描述符的分配规则:在files_struct数组当中,找到当前没有被使用的最小的一个下标,作为新的文件描述符

3.3 重定向

那如果关闭1呢?看代码:
【Linux从0到1】第八篇:基础IO_第39张图片
【Linux从0到1】第八篇:基础IO_第40张图片
此时,我们发现,本来应该输出到显示器上的内容,输出到了文件 myfile 当中,其中,fd=1。这种现象叫做输出重定向。常见的重定向有:>, >>, <

追加重定向>>
【Linux从0到1】第八篇:基础IO_第41张图片

【Linux从0到1】第八篇:基础IO_第42张图片
那重定向的本质是什么呢?
【Linux从0到1】第八篇:基础IO_第43张图片
1和2都是往显示器上打印,那么他们有什么不同呢?
【Linux从0到1】第八篇:基础IO_第44张图片

【Linux从0到1】第八篇:基础IO_第45张图片
【Linux从0到1】第八篇:基础IO_第46张图片
【Linux从0到1】第八篇:基础IO_第47张图片

四、使用 dup2 系统调用

【Linux从0到1】第八篇:基础IO_第48张图片
【Linux从0到1】第八篇:基础IO_第49张图片
【Linux从0到1】第八篇:基础IO_第50张图片
【Linux从0到1】第八篇:基础IO_第51张图片
【Linux从0到1】第八篇:基础IO_第52张图片

五、FILE

  • 因为IO相关函数与系统调用接口对应,并且库函数封装系统调用,所以本质上,访问文件都是通过fd访问的。
  • 所以C库当中的FILE结构体内部,必定封装了fd,也维护了与C缓冲区相关的内容。
    【Linux从0到1】第八篇:基础IO_第53张图片
    【Linux从0到1】第八篇:基础IO_第54张图片
    【Linux从0到1】第八篇:基础IO_第55张图片
    【Linux从0到1】第八篇:基础IO_第56张图片
    【Linux从0到1】第八篇:基础IO_第57张图片

显示器刷新方式是行缓冲,而其他文件的刷新方式是全缓冲
我们提前将1关闭,打开了一个新文件,根据文件描述符分配规则,这个文件的fd就是1,那么刷新方式也就有行缓冲变为了全缓冲,如果我们没有提前关闭fd,那么程序退出数据就会自动从C缓冲区刷新到OS缓冲区中,也就会在文件中看到hello world,但是此时如果我们提前将fd关闭,那么就不会刷新到文件中,也就不会看到hello world

【Linux从0到1】第八篇:基础IO_第58张图片
【Linux从0到1】第八篇:基础IO_第59张图片
再看一个例子
【Linux从0到1】第八篇:基础IO_第60张图片
【Linux从0到1】第八篇:基础IO_第61张图片

这是因为显示器的刷新策略是行刷新,在我们关闭标准输出的时候数据已经由C缓冲区刷新到OS缓冲区了,所以我们会在屏幕上看到打印的三条消息,但是我们重定向到文件当中的时候,刷新策略由行缓冲变为了全缓冲,再关闭标准输出,所以数据就不会刷新到OS缓冲区中,也就不会在文件中看到hello world,但是为什么可以在文件中看到hello标准输出呢?因为write是系统调用接口,直接就会写入到OS缓冲区。

【Linux从0到1】第八篇:基础IO_第62张图片
【Linux从0到1】第八篇:基础IO_第63张图片

  • 一般C库函数写入文件时是全缓冲的,而写入显示器是行缓冲。
  • printf fwrite 库函数会自带缓冲区(进度条例子就可以说明),当发生重定向到普通文件时,数据的缓冲方式由行缓冲变成了全缓冲。
  • 而我们放在缓冲区中的数据,就不会被立即刷新,甚至fork之后
  • 但是进程退出之后,会统一刷新,写入文件当中。
  • 但是fork的时候,父子数据会发生写时拷贝,所以当你父进程准备刷新的时候,子进程也就有了同样的一份数据,随即产生两份数据。
  • write 没有变化,说明没有所谓的缓冲

解决方法就是提前刷新到OS缓冲区
【Linux从0到1】第八篇:基础IO_第64张图片
【Linux从0到1】第八篇:基础IO_第65张图片

如果有兴趣,可以看看FILE结构体

typedef struct _IO_FILE FILE; 在/usr/include/stdio.h

/usr/include/libio.h
struct _IO_FILE {
	int _flags; /* High-order word is _IO_MAGIC; rest is flags. */
#define _IO_file_flags _flags
	//缓冲区相关
	/* The following pointers correspond to the C++ streambuf protocol. */
	/* Note: Tk uses the _IO_read_ptr and _IO_read_end fields directly. */
	char* _IO_read_ptr; /* Current read pointer */
	char* _IO_read_end; /* End of get area. */
	char* _IO_read_base; /* Start of putback+get area. */
	char* _IO_write_base; /* Start of put area. */
	char* _IO_write_ptr; /* Current put pointer. */
	char* _IO_write_end; /* End of put area. */
	char* _IO_buf_base; /* Start of reserve area. */
	char* _IO_buf_end; /* End of reserve area. */
	/* The following fields are used to support backing up and undo. */
	char *_IO_save_base; /* Pointer to start of non-current get area. */
	char *_IO_backup_base; /* Pointer to first valid character of backup area */
	char *_IO_save_end; /* Pointer to end of non-current get area. */
	struct _IO_marker *_markers;
	struct _IO_FILE *_chain;
	int _fileno; //封装的文件描述符
#if 0
	int _blksize;
#else
	int _flags2;
#endif
	_IO_off_t _old_offset; /* This used to be _offset but it's too small. */
#define __HAVE_COLUMN /* temporary */
	/* 1+column number of pbase(); 0 is unknown. */
	unsigned short _cur_column;
	signed char _vtable_offset;
	char _shortbuf[1];
	/* char* _save_gptr; char* _save_egptr; */
	_IO_lock_t *_lock;
#ifdef _IO_USE_OLD_IO_FILE
};

【Linux从0到1】第八篇:基础IO_第66张图片
【Linux从0到1】第八篇:基础IO_第67张图片

六、理解文件系统

我们使用ls -l的时候看到的除了看到文件名,还看到了文件元数据
【Linux从0到1】第八篇:基础IO_第68张图片

每行包含7列:

  • inode(系统用来标识文件)
  • 模式0
  • 硬链接数
  • 文件所有者
  • 大小
  • 最后修改时间
  • 文件名

ls -l读取存储在磁盘上的文件信息,然后显示出来
【Linux从0到1】第八篇:基础IO_第69张图片

6.1 inode

为了能解释清楚inode我们先简单了解一下文件系统
【Linux从0到1】第八篇:基础IO_第70张图片
Linux ext2文件系统,上图为磁盘文件系统图(内核内存映像肯定有所不同),磁盘是典型的块设备,硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的,并且不可以更改。例如mke2fs的-b选项可以设定block大小为1024、2048或4096字节。而上图中启动块(Boot Block)的大小是确定的,

  • Block Group:ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。政府管理各区的例子
  • 超级块(Super Block):存放文件系统本身的结构信息。记录的信息主要有:bolck 和 inode的总量,未使用的block和inode的数量,一个block和inode的大小,最近一次挂载的时间,最近一次写入数据的时间,最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏,可以说整个文件系统结构就被破坏了
  • GDT,Group Descriptor Table:块组描述符,描述块组属性信息,有兴趣的同学可以在了解一下
  • 块位图(Block Bitmap):Block Bitmap中记录着Data Block中哪个数据块已经被占用,哪个数据块没有被占用
  • inode位图(inode Bitmap):每个bit表示一个inode是否空闲可用。
  • i节点表:存放文件属性 如 文件大小,所有者,最近修改时间等数据区:存放文件内容
  • 数据区:存放文件内容

将属性和数据分开存放的想法看起来很简单,但实际上是如何工作的呢?我们通过touch一个新文件来看看如何工作
【Linux从0到1】第八篇:基础IO_第71张图片
【Linux从0到1】第八篇:基础IO_第72张图片

目录也是文件,那么目录里面存放的是什么呢?文件名:inode编号

创建一个新文件主要有一下4个操作:

  1. 存储属性
    内核先找到一个空闲的i节点。内核把文件信息记录到其中
  2. 存储数据
    该文件需要存储在三个磁盘块,内核找到了三个空闲块:300,500,800。将内核缓冲区的第一块数据复制到300,下一块复制到500,以此类推。
  3. 记录分配情况
    文件内容按顺序300,500,800存放。内核在inode上的磁盘分布区记录了上述块列表
  4. 添加文件名到目录
    新的文件名myfile。linux如何在当前的目录中记录这个文件?内核将入口(790808,myfile)添加到目录文件。文件名和inode之间的对应关系将文件名和文件的内容及属性连接起来。

6.2 理解硬链接

我们看到,真正找到磁盘上文件的并不是文件名,而是inode。 其实在linux中可以让多个文件名对应于同一个inode。

【Linux从0到1】第八篇:基础IO_第73张图片
硬链接本质上不是一个独立的文件,而是一个文件名和inode编号的映射关系,因为自己没有独立的inode。
【Linux从0到1】第八篇:基础IO_第74张图片
【Linux从0到1】第八篇:基础IO_第75张图片
我们在删除文件时干了两件事情:1.在目录中将对应的记录删除,2.将硬连接数-1,如果为0,则将对应的磁盘释放
【Linux从0到1】第八篇:基础IO_第76张图片

6.3 软链接

硬链接是通过inode引用另外一个文件,软链接是通过名字引用另外一个文件,在shell中的做法
【Linux从0到1】第八篇:基础IO_第77张图片

【Linux从0到1】第八篇:基础IO_第78张图片
【Linux从0到1】第八篇:基础IO_第79张图片
acm
下面解释一下文件的三个时间

【Linux从0到1】第八篇:基础IO_第80张图片

  • Modify 文件内容最后修改时间(修改文件的内容可能会修改文件的属性:比如改变文件的大小)
    【Linux从0到1】第八篇:基础IO_第81张图片
  • Change 属性最后修改时间
    【Linux从0到1】第八篇:基础IO_第82张图片
  • Access 最后访问时间(在较新的Linux内核当中,Access时间不会被立即更新,而是有一定时间的间隔,OS才会自动进行更新时间)
    【Linux从0到1】第八篇:基础IO_第83张图片

七、动态库和静态库

7.1 静态库与动态库概念

  • 静态库(.a):程序在编译链接的时候把库的代码链接到可执行文件中。程序运行的时候将不再需要静态库
    【Linux从0到1】第八篇:基础IO_第84张图片
    在这里插入图片描述

  • 动态库(.so):程序在运行的时候才去链接动态库的代码,多个程序共享使用库的代码。

  • 一个与动态库链接的可执行文件仅仅包含它用到的函数入口地址的一个表,而不是外部函数所在目标文件的整个机器码
    【Linux从0到1】第八篇:基础IO_第85张图片

  • 动态库和静态库本质上都是文件。库文件的名字:lib.xxx.so或则lib.yyy.a-…库的真是名称去掉lib前缀,去掉.a- .so剩下的就是库的名称。

  • 在可执行文件开始运行以前,外部函数的机器码由操作系统从磁盘上的该动态库中复制到内存中,这个过程称为动态链接(dynamic linking)
    在这里插入图片描述

  • 动态库可以在多个程序间共享,所以动态链接使得可执行文件更小,节省了磁盘空间。操作系统采用虚拟内存机制允许物理内存中的一份动态库被要用到该库的所有进程共用,节省了内存和磁盘空间

7.2 制作和使用静态库

在这里插入图片描述
【Linux从0到1】第八篇:基础IO_第86张图片
【Linux从0到1】第八篇:基础IO_第87张图片
这样我们的源文件也会被其他人看见,所以我们可以生成静态库
【Linux从0到1】第八篇:基础IO_第88张图片
【Linux从0到1】第八篇:基础IO_第89张图片
【Linux从0到1】第八篇:基础IO_第90张图片-I:指明头文件搜素路径
-L:指明库文件搜素路径
-l:指明要链接哪一个库

【Linux从0到1】第八篇:基础IO_第91张图片
那么我们用的系统的库,为什么不用带这些选项呢?之前的库,在系统的默认路径下(/usr/bin,、lib64, /usr/include)编译器是能够识别这些路径的
如果我们也想不用带选项,也可以将对应的库和头文件拷贝到默认路径下,但是严重不推荐
别人也可以使用Makefile编译
【Linux从0到1】第八篇:基础IO_第92张图片
【Linux从0到1】第八篇:基础IO_第93张图片

7.3 制作和使用动态库

【Linux从0到1】第八篇:基础IO_第94张图片
就制作好了动态库
【Linux从0到1】第八篇:基础IO_第95张图片
别人怎么用呢?
在这里插入图片描述
【Linux从0到1】第八篇:基础IO_第96张图片
解决方法;

  • 1、拷贝.so文件到系统共享库路径下, 一般指/usr/lib(不建议)

  • 2、更改 LD_LIBRARY_PATH
    【Linux从0到1】第八篇:基础IO_第97张图片

  • 3、ldconfig 配置/etc/ld.so.conf.d/,ldconfig更新
    在这里插入图片描述
    【Linux从0到1】第八篇:基础IO_第98张图片

如果只提供静态库,我们只能将我们的库,静态链接到我们的程序中
如果只提供动态库,我们只能将我们的库,动态链接到我们的程序中
如果既然需要动态链接又需要静态链接,就提供两种版本的库。(gcc和g++优先链接动态库)

你可能感兴趣的:(Linux,linux)