请问C语言在调用打开文件的方法时,操作系统都做了那些事情?
这是我在面试某大厂安卓应用开发岗位的时候被问到的问题,当时我一脸的萌币(✪ω✪),我心想我也不是谦虚啊,我一个写了大半年的业务的只懂得无脑调用API的码农,怎么突然走错片场参加了Framework层的面试呢?最后当然是回答的不好了。面试回来后查阅了一下C语言的打开文件相关方法,主要有两个,如下所示:
//方法一 Unix系统级I/O方法
#include
int open(char* filename,int flags,mode_t mode)//若成功,则返回文件描述符,若出错则返回-1
//方法二 ANSI C标准I/O库 打开文件方法。
#include
FILE *fopen( const char * filename, const char * mode );
第一个方法时Unix系统提供的较为底层的方法,其中第二个方法时ANSI C的标准I/O库,为程序员提供了Unix I/O的较高级别的用于I/O操作的替代。在解释这两个方法之前还是需要了解一下操作系统I/O的相关概念。
什么是I/O
I/O是输入(Input)/输出(Output)单词的的所写,它表示主存和和外部设备(如磁盘驱动器、终端、网络)之间拷贝数据的过程。输入操作是I/O设备拷贝数据带主存,而输出操作是从主存拷贝数据到I/O设备。
所有语言的运行系统都提供了执行I/O的较高级别的工具。诸如ANSI C的标准I/O库中的printf
和scanf
带有缓冲区的I/O方法。C++中的重载操作符<<
(输入)和>>
(输出)。
Unix I/O
Unix给出的文件的定义是一个具有m个字节的序列:
B0,B1,...,Bk,...,Bm-1
Unix把所有的I/O设备,如网络操作,磁盘、终端都模型化为文件,二所有的输入和输出都被当做对应的文件的读和写来完成,这种将设备映射为文件的方式能够允许Unix内核引出一个简单、低级别的应用接口,成为Unix I/O,这是的所有的输入和输出能够以一种统一且一致的方式执行:
- 打开文件
一个应用程序通过要求内核打开相应的文件,来宣告它想要访问一个I/O设备。内核返回一个小的非负整数,叫做描述符,后续的该文件的所有操作都需要用到这个描述符,内核记录了有关这个打开文件的所有信息。应用程序只需要记住这个描述符(这就算是粗略地回答了开篇面试官的问题)。
一个Unix 外壳(shell)创建的每一个进程开始都有三个打开的文件:标准输入(描述符为0)、标准输出(描述符为1)和标准错误(描述符为2)。头文件
中定义了常量STDIN_FILENO
、STDOUT_FILENO
、STDERR_FILENO
来代替。 - 改变当前文件位置
对于每一个打开的文件,内核上保持这个文件位置k,初始位置为0.这个文件位置是从文件开头起始字节偏移量。应用程序能够通过seek操作显示地设置文件当前位置k。 - 读写文件
一个读操作就是从文件拷贝n>0个字节到存储器,从当前文件位置k开始,然后将k增加到k + n.如果文件的大小文m个字节,那么当k≥m时执行读操作会触发一个称谓end-of-file(EOF)的条件。应用程序能够检测到这个条件。在文件结尾处并没有明确的“EOF”符号。
类似地,写操作就是从存储器拷贝n>0个字节到文件。从当前位置开k始,然后更新k - 关闭文件
当应用完成了对文件的访问之后,它就通过内核关闭这个文件,作为响应,内核释放文件打开时的数据结构,并将这个描述符回复到可用的描述池中,无论一个进程因为何种原因终止时,内核都会关闭所有打开的文件并释放他们存储器资源。
在介绍了Unix有关文件的定义之后,我们接着之前所提到的C语言里面所提供的打开文件的两个方法。
Unix系统级打开文件方法
#include
int open(char* filename,int flags,mode_t mode)
open
函数将filename转换成文件描述符,并将描述符转换成数字。返回的描述符总是在进程中当前没有打开的最小描述符。flags
参数指明乐进程打算如何访问这种文件,下面是flags
所有可能的取值及其说明:
取值 | 含义 |
---|---|
O_RDONLY | 只读 |
O_WRONLY | 只写 |
O_RDWR | 可读可写 |
例如用只读的方式打开一个文件的用法如下:
int fd=open("foo.txt",O_RDONLY,0);
初除此之外,flags
参数还可以或上一个或者多个掩码,为写操作提供一些额外的信息。
掩码取值 | 含义 |
---|---|
O_CREATE | 如果文件不存在,就创建一个截断的(truncated)(空)文件 |
O_TRUNC | 如果文件存在,就截断它。 |
O_APPEND | 在每次写操作之前,设置文件位置到文件结尾处。 |
下面的代码表示打开一个文件,并在后面添加一些数据。
int fd=open("foo.txt",O_WRONLY|O_APPEND,0);
mode
参数指定了新文件的访问权限位。下面是访问权限位的说明,在sys/stat.h
中定义。
掩码取值 | 含义 |
---|---|
S_IRUSR S_IWUSR S_IXUSR |
使用者(拥有者)能够读这个文件 使用者(拥有者)能够写这个文件 使用者(拥有者)能够执行这个文件 |
S_IRGRP S_IWGRP S_IXGRP |
拥有者所在组的成员能够读这个文件 拥有者所在组的成员能够写这个文件 拥有者所在组的成员能够执行这个文件 |
S_IROTH S_IWOTH S_IXOTH |
其他人(任何人)能够读这个文件 其他人(任何人)能够写这个文件 其他人(任何人)能够执行这个文件。 |
作为上下文的一部分,每一个进程都有一个umask(掩码),它是通过调用umask函数设置,当进程通过带有某个mode参数的open函数调用来创建一个新文件,文件的访问位置被设置为mode & ~umask
。加入给定默认的mode和umask值。
#define DEF_MODE S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH
#define DEF_UMASK S_IWGRP|S_IWOTH
接下来,下面的代码片创建一个新文件,文件的拥有者有读写权限,而所有其他用户都有的权限。
umask(DEF_UMASK);
fd=open("foo.txt",O_CREATE|O_TRUNC|O_APPEND,DEF_MODE);
标准库打开文件方法
#include
FILE *fopen( const char * filename, const char * mode );
标准库的fopen
方法返回一个文件指针,它指向一个包含文件结构的信息,这些信息包括:缓冲区的位置,缓冲区中当前字符的位置、文件的读或写状态、是否出错或是否达到文件结尾等。第一个参数是字符串,包含文件名。第二个参数是访问模式,也是一个字符串,用于指定文件的使用方式。允许的模式包括读("r"),写("w"),追加("a")。其中某些系统还区分文本文件和二进制文件,对后者的访问需要在模式字符串中增加字符"b".
- 如果打开一个不存在的文件或者追加,该文件将会被创建(如果可能的话)。
- 如果一写方式打开一个已存在的文件,该文件原来的内容将会被覆盖。
- 如果以追加的方式打开一个文件,该文件之前原来的内容会保留
- 读一个不存在的文件会导致错误,其他一些操作也会导致错误,比如试图打开一个没有读取权限的文件。如果发生错误,
fopen
将会返回NULL
。
读取文件元数据
Unix系统I/O库提供了可以通过调用stat
和fstat
来检索到关于文件的信息的方法,也被称之为文件的元数据(metadata)。其中stat
是以文件名作为输入,而fstat
是以文件描述符作为输入,将获取到的文件信息存放到数据结构为stat的中
#include
#include
int stat(const char *path, struct stat *buf);
int fstat(int filedes, struct stat *buf);
stat数据结构
struct stat {
dev_t st_dev; //device 文件的设备编号
ino_t st_ino; //inode 文件的i-node
mode_t st_mode; //protection 文件的类型和存取的权限
nlink_t st_nlink; //number of hard links 连到该文件的硬连接数目, 刚建立的文件值为1.
uid_t st_uid; //user ID of owner 文件所有者的用户识别码
gid_t st_gid; //group ID of owner 文件所有者的组识别码
dev_t st_rdev; //device type 若此文件为装置设备文件, 则为其设备编号
off_t st_size; //total size, in bytes 文件大小, 以字节计算
unsigned long st_blksize; //blocksize for filesystem I/O 文件系统的I/O 缓冲区大小.
unsigned long st_blocks; //number of blocks allocated 占用文件区块的个数, 每一区块大小为512 个字节.
time_t st_atime; //time of lastaccess 文件最近一次被存取或被执行的时间, 一般只有在用mknod、 utime、read、write 与tructate 时改变.
time_t st_mtime; //time of last modification 文件最后一次被修改的时间, 一般只有在用mknod、 utime 和write 时才会改变
time_t st_ctime; //time of last change i-node 最近一次被更改的时间, 此参数会在文件所有者、组、 权限被更改时更新
};
在某些重要的情况下,使用标准库的I/O函数不打可能或者不大合适。例如标准库没有提供读取文件元数据的方式,例如文件大小或者文件的创建时间。在网络编程中使用标准库I/O非常危险,Unix提供了RIO(Robust I/O,健壮的I/O)
参考文件
- 深入理解计算机系统
- C程序设计语言