操作系统之I/O

请问C语言在调用打开文件的方法时,操作系统都做了那些事情?

这是我在面试某大厂安卓应用开发岗位的时候被问到的问题,当时我一脸的萌币(✪ω✪),我心想我也不是谦虚啊,我一个写了大半年的业务的只懂得无脑调用API的码农,怎么突然走错片场参加了Framework层的面试呢?最后当然是回答的不好了。面试回来后查阅了一下C语言的打开文件相关方法,主要有两个,如下所示:

//方法一  Unix系统级I/O方法
#include 
int open(char* filename,int flags,mode_t mode)//若成功,则返回文件描述符,若出错则返回-1

//方法二  ANSI C标准I/O库 打开文件方法。
#include 
FILE *fopen( const char * filename, const char * mode );

第一个方法时Unix系统提供的较为底层的方法,其中第二个方法时ANSI C的标准I/O库,为程序员提供了Unix I/O的较高级别的用于I/O操作的替代。在解释这两个方法之前还是需要了解一下操作系统I/O的相关概念。

什么是I/O

I/O是输入(Input)/输出(Output)单词的的所写,它表示主存和和外部设备(如磁盘驱动器、终端、网络)之间拷贝数据的过程。输入操作是I/O设备拷贝数据带主存,而输出操作是从主存拷贝数据到I/O设备。
所有语言的运行系统都提供了执行I/O的较高级别的工具。诸如ANSI C的标准I/O库中的printfscanf带有缓冲区的I/O方法。C++中的重载操作符<<(输入)和>>(输出)。

Unix I/O

Unix给出的文件的定义是一个具有m个字节的序列:
B0,B1,...,Bk,...,Bm-1
Unix把所有的I/O设备,如网络操作,磁盘、终端都模型化为文件,二所有的输入和输出都被当做对应的文件的读和写来完成,这种将设备映射为文件的方式能够允许Unix内核引出一个简单、低级别的应用接口,成为Unix I/O,这是的所有的输入和输出能够以一种统一且一致的方式执行:

  • 打开文件
    一个应用程序通过要求内核打开相应的文件,来宣告它想要访问一个I/O设备。内核返回一个小的非负整数,叫做描述符,后续的该文件的所有操作都需要用到这个描述符,内核记录了有关这个打开文件的所有信息。应用程序只需要记住这个描述符(这就算是粗略地回答了开篇面试官的问题)。
    一个Unix 外壳(shell)创建的每一个进程开始都有三个打开的文件:标准输入(描述符为0)、标准输出(描述符为1)和标准错误(描述符为2)。头文件中定义了常量STDIN_FILENOSTDOUT_FILENOSTDERR_FILENO来代替。
  • 改变当前文件位置
    对于每一个打开的文件,内核上保持这个文件位置k,初始位置为0.这个文件位置是从文件开头起始字节偏移量。应用程序能够通过seek操作显示地设置文件当前位置k
  • 读写文件
    一个读操作就是从文件拷贝n>0个字节到存储器,从当前文件位置k开始,然后将k增加到k + n.如果文件的大小文m个字节,那么当k≥m时执行读操作会触发一个称谓end-of-file(EOF)的条件。应用程序能够检测到这个条件。在文件结尾处并没有明确的“EOF”符号。
    类似地,写操作就是从存储器拷贝n>0个字节到文件。从当前位置开k始,然后更新k
  • 关闭文件
    当应用完成了对文件的访问之后,它就通过内核关闭这个文件,作为响应,内核释放文件打开时的数据结构,并将这个描述符回复到可用的描述池中,无论一个进程因为何种原因终止时,内核都会关闭所有打开的文件并释放他们存储器资源。

在介绍了Unix有关文件的定义之后,我们接着之前所提到的C语言里面所提供的打开文件的两个方法。

Unix系统级打开文件方法

#include 
int open(char* filename,int flags,mode_t mode)

open函数将filename转换成文件描述符,并将描述符转换成数字。返回的描述符总是在进程中当前没有打开的最小描述符。flags参数指明乐进程打算如何访问这种文件,下面是flags所有可能的取值及其说明:

取值 含义
O_RDONLY 只读
O_WRONLY 只写
O_RDWR 可读可写

例如用只读的方式打开一个文件的用法如下:

int fd=open("foo.txt",O_RDONLY,0);

初除此之外,flags参数还可以或上一个或者多个掩码,为写操作提供一些额外的信息。

掩码取值 含义
O_CREATE 如果文件不存在,就创建一个截断的(truncated)(空)文件
O_TRUNC 如果文件存在,就截断它。
O_APPEND 在每次写操作之前,设置文件位置到文件结尾处。

下面的代码表示打开一个文件,并在后面添加一些数据。

int fd=open("foo.txt",O_WRONLY|O_APPEND,0);

mode参数指定了新文件的访问权限位。下面是访问权限位的说明,在sys/stat.h中定义。

掩码取值 含义
S_IRUSR
S_IWUSR
S_IXUSR
使用者(拥有者)能够读这个文件
使用者(拥有者)能够写这个文件
使用者(拥有者)能够执行这个文件
S_IRGRP
S_IWGRP
S_IXGRP
拥有者所在组的成员能够读这个文件
拥有者所在组的成员能够写这个文件
拥有者所在组的成员能够执行这个文件
S_IROTH
S_IWOTH
S_IXOTH
其他人(任何人)能够读这个文件
其他人(任何人)能够写这个文件
其他人(任何人)能够执行这个文件。

作为上下文的一部分,每一个进程都有一个umask(掩码),它是通过调用umask函数设置,当进程通过带有某个mode参数的open函数调用来创建一个新文件,文件的访问位置被设置为mode & ~umask。加入给定默认的mode和umask值。

#define DEF_MODE S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH 
#define DEF_UMASK  S_IWGRP|S_IWOTH

接下来,下面的代码片创建一个新文件,文件的拥有者有读写权限,而所有其他用户都有的权限。

umask(DEF_UMASK);
fd=open("foo.txt",O_CREATE|O_TRUNC|O_APPEND,DEF_MODE);

标准库打开文件方法

#include 
FILE *fopen( const char * filename, const char * mode );

标准库的fopen方法返回一个文件指针,它指向一个包含文件结构的信息,这些信息包括:缓冲区的位置,缓冲区中当前字符的位置、文件的读或写状态、是否出错或是否达到文件结尾等。第一个参数是字符串,包含文件名。第二个参数是访问模式,也是一个字符串,用于指定文件的使用方式。允许的模式包括读("r"),写("w"),追加("a")。其中某些系统还区分文本文件和二进制文件,对后者的访问需要在模式字符串中增加字符"b".

  • 如果打开一个不存在的文件或者追加,该文件将会被创建(如果可能的话)。
  • 如果一写方式打开一个已存在的文件,该文件原来的内容将会被覆盖。
  • 如果以追加的方式打开一个文件,该文件之前原来的内容会保留
  • 读一个不存在的文件会导致错误,其他一些操作也会导致错误,比如试图打开一个没有读取权限的文件。如果发生错误,fopen将会返回NULL

读取文件元数据

Unix系统I/O库提供了可以通过调用statfstat来检索到关于文件的信息的方法,也被称之为文件的元数据(metadata)。其中stat是以文件名作为输入,而fstat是以文件描述符作为输入,将获取到的文件信息存放到数据结构为stat的中

#include
#include
int stat(const char *path, struct stat *buf); 
int fstat(int filedes, struct stat *buf); 

stat数据结构

struct stat {
    dev_t          st_dev; //device 文件的设备编号
    ino_t          st_ino; //inode 文件的i-node
    mode_t         st_mode; //protection 文件的类型和存取的权限
    nlink_t        st_nlink; //number of hard links 连到该文件的硬连接数目, 刚建立的文件值为1.
    uid_t          st_uid; //user ID of owner 文件所有者的用户识别码 
    gid_t          st_gid; //group ID of owner 文件所有者的组识别码 
    dev_t          st_rdev; //device type 若此文件为装置设备文件, 则为其设备编号 
    off_t          st_size; //total size, in bytes 文件大小, 以字节计算 
    unsigned long  st_blksize; //blocksize for filesystem I/O 文件系统的I/O 缓冲区大小. 
    unsigned long  st_blocks; //number of blocks allocated 占用文件区块的个数, 每一区块大小为512 个字节. 
    time_t         st_atime; //time of lastaccess 文件最近一次被存取或被执行的时间, 一般只有在用mknod、 utime、read、write 与tructate 时改变.
    time_t         st_mtime; //time of last modification 文件最后一次被修改的时间, 一般只有在用mknod、 utime 和write 时才会改变
    time_t         st_ctime; //time of last change i-node 最近一次被更改的时间, 此参数会在文件所有者、组、 权限被更改时更新 
};

在某些重要的情况下,使用标准库的I/O函数不打可能或者不大合适。例如标准库没有提供读取文件元数据的方式,例如文件大小或者文件的创建时间。在网络编程中使用标准库I/O非常危险,Unix提供了RIO(Robust I/O,健壮的I/O)

参考文件

  • 深入理解计算机系统
  • C程序设计语言

你可能感兴趣的:(操作系统之I/O)