操作系统之I/O

请问C语言在调用打开文件的方法时，操作系统都做了那些事情？

这是我在面试某大厂安卓应用开发岗位的时候被问到的问题，当时我一脸的萌币(✪ω✪)，我心想我也不是谦虚啊，我一个写了大半年的业务的只懂得无脑调用API的码农，怎么突然走错片场参加了Framework层的面试呢？最后当然是回答的不好了。面试回来后查阅了一下C语言的打开文件相关方法，主要有两个，如下所示：

//方法一  Unix系统级I/O方法
#include 
int open(char* filename,int flags,mode_t mode)//若成功，则返回文件描述符，若出错则返回-1

//方法二  ANSI C标准I/O库 打开文件方法。
#include 
FILE *fopen( const char * filename, const char * mode );

第一个方法时Unix系统提供的较为底层的方法，其中第二个方法时ANSI C的标准I/O库，为程序员提供了Unix I/O的较高级别的用于I/O操作的替代。在解释这两个方法之前还是需要了解一下操作系统I/O的相关概念。

什么是I/O

I/O是输入（Input）/输出（Output）单词的的所写，它表示主存和和外部设备（如磁盘驱动器、终端、网络）之间拷贝数据的过程。输入操作是I/O设备拷贝数据带主存，而输出操作是从主存拷贝数据到I/O设备。
所有语言的运行系统都提供了执行I/O的较高级别的工具。诸如ANSI C的标准I/O库中的printf和scanf带有缓冲区的I/O方法。C++中的重载操作符<<(输入)和>>(输出)。

Unix I/O

Unix给出的文件的定义是一个具有m个字节的序列:
B₀，B₁，...，B_k，...，B_m-1
Unix把所有的I/O设备，如网络操作，磁盘、终端都模型化为文件，二所有的输入和输出都被当做对应的文件的读和写来完成，这种将设备映射为文件的方式能够允许Unix内核引出一个简单、低级别的应用接口，成为Unix I/O，这是的所有的输入和输出能够以一种统一且一致的方式执行：

打开文件
一个应用程序通过要求内核打开相应的文件，来宣告它想要访问一个I/O设备。内核返回一个小的非负整数，叫做描述符，后续的该文件的所有操作都需要用到这个描述符，内核记录了有关这个打开文件的所有信息。应用程序只需要记住这个描述符（这就算是粗略地回答了开篇面试官的问题）。
一个Unix 外壳（shell）创建的每一个进程开始都有三个打开的文件：标准输入（描述符为0）、标准输出（描述符为1）和标准错误（描述符为2）。头文件中定义了常量STDIN_FILENO、STDOUT_FILENO、STDERR_FILENO来代替。
改变当前文件位置
对于每一个打开的文件，内核上保持这个文件位置k，初始位置为0.这个文件位置是从文件开头起始字节偏移量。应用程序能够通过seek操作显示地设置文件当前位置k。
读写文件
一个读操作就是从文件拷贝n>0个字节到存储器，从当前文件位置k开始，然后将k增加到k + n.如果文件的大小文m个字节，那么当k≥m时执行读操作会触发一个称谓end-of-file(EOF)的条件。应用程序能够检测到这个条件。在文件结尾处并没有明确的“EOF”符号。
类似地，写操作就是从存储器拷贝n>0个字节到文件。从当前位置开k始，然后更新k
关闭文件
当应用完成了对文件的访问之后，它就通过内核关闭这个文件，作为响应，内核释放文件打开时的数据结构，并将这个描述符回复到可用的描述池中，无论一个进程因为何种原因终止时，内核都会关闭所有打开的文件并释放他们存储器资源。

在介绍了Unix有关文件的定义之后，我们接着之前所提到的C语言里面所提供的打开文件的两个方法。

Unix系统级打开文件方法

#include 
int open(char* filename,int flags,mode_t mode)

open函数将filename转换成文件描述符，并将描述符转换成数字。返回的描述符总是在进程中当前没有打开的最小描述符。flags参数指明乐进程打算如何访问这种文件，下面是flags所有可能的取值及其说明：

取值	含义
O_RDONLY	只读
O_WRONLY	只写
O_RDWR	可读可写

例如用只读的方式打开一个文件的用法如下:

int fd=open("foo.txt",O_RDONLY,0);

初除此之外，flags参数还可以或上一个或者多个掩码，为写操作提供一些额外的信息。

掩码取值	含义
O_CREATE	如果文件不存在，就创建一个截断的（truncated）(空)文件
O_TRUNC	如果文件存在，就截断它。
O_APPEND	在每次写操作之前，设置文件位置到文件结尾处。

下面的代码表示打开一个文件，并在后面添加一些数据。

int fd=open("foo.txt",O_WRONLY|O_APPEND,0);

mode参数指定了新文件的访问权限位。下面是访问权限位的说明，在sys/stat.h中定义。

掩码取值	含义
S_IRUSR S_IWUSR S_IXUSR	使用者（拥有者）能够读这个文件使用者（拥有者）能够写这个文件使用者（拥有者）能够执行这个文件
S_IRGRP S_IWGRP S_IXGRP	拥有者所在组的成员能够读这个文件拥有者所在组的成员能够写这个文件拥有者所在组的成员能够执行这个文件
S_IROTH S_IWOTH S_IXOTH	其他人（任何人）能够读这个文件其他人（任何人）能够写这个文件其他人（任何人）能够执行这个文件。

作为上下文的一部分，每一个进程都有一个umask（掩码），它是通过调用umask函数设置，当进程通过带有某个mode参数的open函数调用来创建一个新文件，文件的访问位置被设置为mode & ~umask。加入给定默认的mode和umask值。

#define DEF_MODE S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH 
#define DEF_UMASK  S_IWGRP|S_IWOTH

接下来，下面的代码片创建一个新文件，文件的拥有者有读写权限，而所有其他用户都有的权限。

umask(DEF_UMASK);
fd=open("foo.txt",O_CREATE|O_TRUNC|O_APPEND，DEF_MODE);

标准库打开文件方法

#include 
FILE *fopen( const char * filename, const char * mode );

标准库的fopen方法返回一个文件指针，它指向一个包含文件结构的信息，这些信息包括：缓冲区的位置，缓冲区中当前字符的位置、文件的读或写状态、是否出错或是否达到文件结尾等。第一个参数是字符串，包含文件名。第二个参数是访问模式，也是一个字符串，用于指定文件的使用方式。允许的模式包括读("r")，写("w")，追加("a")。其中某些系统还区分文本文件和二进制文件，对后者的访问需要在模式字符串中增加字符"b".

如果打开一个不存在的文件或者追加，该文件将会被创建（如果可能的话）。
如果一写方式打开一个已存在的文件，该文件原来的内容将会被覆盖。
如果以追加的方式打开一个文件，该文件之前原来的内容会保留
读一个不存在的文件会导致错误，其他一些操作也会导致错误，比如试图打开一个没有读取权限的文件。如果发生错误，fopen将会返回NULL。

读取文件元数据

Unix系统I/O库提供了可以通过调用stat和fstat来检索到关于文件的信息的方法，也被称之为文件的元数据(metadata)。其中stat是以文件名作为输入，而fstat是以文件描述符作为输入，将获取到的文件信息存放到数据结构为stat的中

#include
#include
int stat(const char *path, struct stat *buf); 
int fstat(int filedes, struct stat *buf);

stat数据结构

struct stat {
    dev_t          st_dev; //device 文件的设备编号
    ino_t          st_ino; //inode 文件的i-node
    mode_t         st_mode; //protection 文件的类型和存取的权限
    nlink_t        st_nlink; //number of hard links 连到该文件的硬连接数目, 刚建立的文件值为1.
    uid_t          st_uid; //user ID of owner 文件所有者的用户识别码 
    gid_t          st_gid; //group ID of owner 文件所有者的组识别码 
    dev_t          st_rdev; //device type 若此文件为装置设备文件, 则为其设备编号 
    off_t          st_size; //total size, in bytes 文件大小, 以字节计算 
    unsigned long  st_blksize; //blocksize for filesystem I/O 文件系统的I/O 缓冲区大小. 
    unsigned long  st_blocks; //number of blocks allocated 占用文件区块的个数, 每一区块大小为512 个字节. 
    time_t         st_atime; //time of lastaccess 文件最近一次被存取或被执行的时间, 一般只有在用mknod、 utime、read、write 与tructate 时改变.
    time_t         st_mtime; //time of last modification 文件最后一次被修改的时间, 一般只有在用mknod、 utime 和write 时才会改变
    time_t         st_ctime; //time of last change i-node 最近一次被更改的时间, 此参数会在文件所有者、组、 权限被更改时更新 
};

在某些重要的情况下，使用标准库的I/O函数不打可能或者不大合适。例如标准库没有提供读取文件元数据的方式，例如文件大小或者文件的创建时间。在网络编程中使用标准库I/O非常危险，Unix提供了RIO（Robust I/O，健壮的I/O）

参考文件

深入理解计算机系统
C程序设计语言