狭义理解:
- 文件在磁盘里
- 磁盘是永久性存储介质,因此文件在磁盘上的存储是永久性的
- 磁盘是外设(即是输出设备也是输入设备)
- 磁盘上的文件 本质是对文件的所有操作,都是对外设的输入和输出 简称IO
广义理解:
- Linux下一切皆文件(键盘、显示器、网卡、磁盘……这些都是抽象化的过程)
文件操作的归类认知:
- 对于0KB的空文件是占用磁盘空间的
- 文件是文件属性(元数据)和文件内容的集合(文件=属性(元数据)+内容)
- 所有的文件操作本质是文件内容操作和文件属性操作
系统角度:
- 对文件的操作本质是进程对文件的操作
- 磁盘的管理者是操作系统
- 文件的读写本质不是通过C语言/C++的库函数来操作的(这些库函数只是为用户提供方便),而是通过文件相关的系统调用接口来实现的
int fputs(const char *s, FILE *stream);
fputs函数是将s所指向的数据往stream中所指向的文件中写
char * fgets ( char * str, int num, FILE * stream )
注:
从流中读取字符并将它们作为 C 字符串存储到 str 中,直到读取 (num-1) 个字符或到达换行符或文件结尾,以先发生者为准。
换行符使 fgets 停止读取,但它被函数视为有效字符并包含在复制到 str 的字符串中。
在复制到 str 的字符之后会自动附加一个终止空字符。
fgets 与 get 完全不同:fgets 不仅接受流参数,还允许指定 str 的最大大小并在字符串中包含任何结束的换行符。
#include
#include
#include
int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);
pathname: 要打开或创建的目标文件
flags: 打开文件时,可以传入多个参数选项,用下面的一个或者多个常量进行“或”运算,构成flags。
参数:
O_RDONLY: 只读打开
O_WRONLY: 只写打开
O_RDWR : 读,写打开
这三个常量,必须指定一个且只能指定一个
O_CREAT : 若文件不存在,则创建它。需要使用mode选项,来指明新文件的访问权限
O_APPEND: 追加写
返回值:
成功:新打开的文件描述符
失败:-1
注:
注:write read close lseek…… 与C语言文件相关接口用法类似
文件描述符就是从0开始的小整数。当打开文件时,操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用,所以必须让进程和文件关联起来。每个进程都有一个指针files_struct*, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数组,每个元素都是一个指向打开文件的指针!所以,本质上,文件描述符就是该数组的下标。只要拿着文件描述符,就可以找到对应的文件
补充:
总结:
补充:程序替换的时候不会影响重定向对应的数据结构的数据(程序替换影响的是进程虚拟地址空间部分,而重定向影响的是files_struct部分)
#include
int dup2(int oldfd, int newfd);
注:
因为IO相关函数与系统调用接口对应,并且库函数封装系统调用,所以本质上,访问文件都是通过fd访问的。因此C库当中的FILE结构体内部,必定封装了fd
typedef struct _IO_FILE FILE; 在/usr/include/stdio.h
在/usr/include/libio.h
struct _IO_FILE {
int _flags; /* High-order word is _IO_MAGIC; rest is flags. */
#define _IO_file_flags _flags
//缓冲区相关
/* The following pointers correspond to the C++ streambuf protocol. */
/* Note: Tk uses the _IO_read_ptr and _IO_read_end fields directly. */
char* _IO_read_ptr; /* Current read pointer */
char* _IO_read_end; /* End of get area. */
char* _IO_read_base; /* Start of putback+get area. */
char* _IO_write_base; /* Start of put area. */
char* _IO_write_ptr; /* Current put pointer. */
char* _IO_write_end; /* End of put area. */
char* _IO_buf_base; /* Start of reserve area. */
char* _IO_buf_end; /* End of reserve area. */
/* The following fields are used to support backing up and undo. */
char *_IO_save_base; /* Pointer to start of non-current get area. */
char *_IO_backup_base; /* Pointer to first valid character of backup area */
char *_IO_save_end; /* Pointer to end of non-current get area. */
struct _IO_marker *_markers;
struct _IO_FILE *_chain;
int _fileno; //封装的文件描述符
#if 0
int _blksize;
#else
int _flags2;
#endif
_IO_off_t _old_offset; /* This used to be _offset but it's too small. */
#define __HAVE_COLUMN /* temporary */
/* 1+column number of pbase(); 0 is unknown. */
unsigned short _cur_column;
signed char _vtable_offset;
char _shortbuf[1];
/* char* _save_gptr; char* _save_egptr; */
_IO_lock_t *_lock;
#ifdef _IO_USE_OLD_IO_FILE
};
总结:
一般C库函数写入文件时是全缓冲的,而写入显示器是行缓冲。printf fprintf等库函数会自带缓冲区,当发生重定向到普通文件时,数据的缓冲方式由行缓冲变成了全缓冲。而我们放在缓冲区中的数据,就不会被立即刷新,甚至fork之后但是进程退出之后,会统一刷新,写入文件当中。但是fork的时候,父子数据会发生写时拷贝,所以当你父进程准备刷新的时候,子进程也就有了同样的一份数据,随即产生两份数据。write 没有变化,说明没有所谓的缓冲
printf fputs等 库函数会自带缓冲区,而 write 系统调用没有带缓冲区。另外,我们这里所说的缓冲区,都是用户级缓冲区。其实为了提升整机性能,OS也会提供相关内核级缓冲区。 printf fprintf 是库函数, write 是系统调用,库函数在系统调用的“上层”, 是对系统调用的“封装”,但是 write 有内核级缓冲区,而 printf fwrite fputs等缓冲区是用户级缓冲区,由C标准库提供
注:系统调用函数与库函数尽量不要混在一起使用,可能会与统一使用的函数的运行结果有所差异
文件:打开的文件、普通未打开的文件
打开的文件:属性与操作方法的表现就是struct file{} 属于内存级文件
普通未打开的文件:磁盘上面未被加载到内存的
文件系统功能:将上述的这些文件管理起来
磁盘是计算机主要的存储介质,可以存储大量的二进制数据,并且断电后也能保持数据不丢失。早期计算机使用的磁盘是软磁盘(Floppy Disk,简称软盘),如今常用的磁盘是硬磁盘(Hard disk,简称硬盘)。
我们可以将磁盘想象成磁带(线性结构),将磁盘看成一个线性空间(数组),类型为扇区的数组、数组个数为10亿多
这样划分就不用让OS读取数据时在哪个盘面、哪个磁道、哪个扇区找了,OS与磁盘映射关系可以通过磁盘驱动来完成,这样也就做到强解耦性。无论换机械硬盘还是固态硬盘,OS都不用改变读取磁盘数据的数据结构,只需改变磁盘的驱动程序即可
注:操作系统读取磁盘数据时的下标——LBA
Linux ext2文件系统,上图为磁盘文件系统图(内核内存映像肯定有所不同),磁盘是典型的块设备,硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的,并且不可以更改。例如mke2fs的-b选项可以设 定block大小为1024、2048或4096字节。而启动块(Boot Block)的大小是确定的,
注:
总结:
补充:
因此,可以看出.、…的底层实现是通过硬链接的方式来实现的
注:
软链接:
注:硬链接是通过inode引用另外一个文件,软链接是通过名字引用另外一个文件
总结:软硬链接的区别:本质是是否是独立文件,有无独立inode;用途:软链接可以指向特定的文件方便进行快速索引,硬链接是能进行相对路径设置
补充:
软链接文件是一个独立的文件有自己的inode节点,通过数据中保存的源文件路径访问源文件
硬链接是文件的一个目录项,与源文件共用同一个inode节点,直接通过自己的inode节点访问源文件
不同分区有可能有不同文件系统,因此硬链接不能跨分区建立;软连接可以跨文件系统进行连接,硬链接不可以
当删除源文件时,软链接文件失效
ln生成符号链接文件指的是 ln -s 生成软链接文件
总结:
- 使用顶尖的工程师写的代码是为了开发效率和鲁棒性(健壮性)
- 使用顶尖的工程师写的功能一般通过库、开源代码、基本的网络功能调用(各种网络接口、语音识别)
- 库分为动态库和静态库
- 库的命名:取消前缀lib,去掉.之后的内容,剩下的就是库的名字
- 生成可执行程序的方式有两种:动态链接、静态链接
总结:
- 静态库(.a):程序在编译链接的时候把库的代码链接到可执行文件中。程序运行的时候将不再需要静态库
- 动态库(.so):程序在运行的时候才去链接动态库的代码,多个程序共享使用库的代码。
- 一个与动态库链接的可执行文件仅仅包含它用到的函数入口地址的一个表,而不是外部函数所在目标文件的整个机器码
- 在可执行文件开始运行以前,外部函数的机器码由操作系统从磁盘上的该动态库中复制到内存中,这个过程称为动态链接(dynamic linking)
- 动态库可以在多个程序间共享,所以动态链接使得可执行文件更小,节省了磁盘空间。操作系统采用虚拟内存机制允许物理内存中的一份动态库被要用到该库的所有进程共用,节省了内存和磁盘空间
[root@localhost linux]# ls
add.c add.h main.c sub.c sub.h
[root@localhost linux]# gcc -c add.c -o add.o
[root@localhost linux]# gcc -c sub.c -o sub.o
生成静态库
[root@localhost linux]# ar -rc libmymath.a add.o sub.o
ar是gnu归档工具,rc表示(replace and create)
查看静态库中的目录列表
[root@localhost linux]# ar -tv libmymath.a
rw-r--r-- 0/0 1240 Sep 15 16:53 2017 add.o
rw-r--r-- 0/0 1240 Sep 15 16:53 2017 sub.o
t:列出静态库中的文件
v:verbose 详细信息
[root@localhost linux]# gcc main.c -I -L. -lmymath
-L 指定库路径
-I 指定头文件路径
-l 指定库名
测试目标文件生成后,静态库删掉,程序照样可以运行
注:
补充:
补充:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:路径