缓存与IO(很经典)

系统调用,英文名system call,每个操作系统都在内核里有一些内建的函数库,这些函数可以用来完成一些系统调用把应用程序的请求传给内核,调用相应的的内核函数完成所需的处理,将处理结果返回给应用程序,如果没有系统调用和内核函数,用户将不能编写大型应用程序,及别的功能,这些函数集合起来就叫做程序接口或应用编程接口(Application Programming InterfaceAPI),我们要在这个系统上编写各种应用程序,就是通过这个API接口来调用系统内核里面的函数。如果没有系统调用,那么应用程序就失去内核的支持。
linixIO文件的操作分为不带缓存的IO操作和标准IO操作(即带缓存),刚开始,要明确以下几点:
     1
:不带缓存,不是直接对磁盘文件进行读取操作,read()write()函数,它们都属于系统调用,只不过在用户层没有缓存,所以叫做无缓存IO,但对于内核来说,还是进行了缓存,只是用户层看不到罢了。如果这一点看不懂,请看第二点;
    2
:带不带缓存是相对来说的,如果你要写入数据到文件上时(就是写入磁盘上),内核先将数据写入到内核中所设的缓冲储存器,假如这个缓冲储存器的长度是100个字节,你调用系统函:

ssize_t write (int fd,const void * buf,size_t count);

写操作时,设每次写入长度count=10个字节,那么你几要调用10次这个函数才能把这个缓冲区写满,此时数据还是在缓冲区,并没有写入到磁盘,缓冲区满时才进行实际上的IO操作,把数据写入到磁盘上,所以上面说的不带缓存不是就没有缓存直写进磁盘就是这个意思。

     那么,既然不带缓存的操作实际在内核是有缓存器的,那带缓存的IO操作又是怎么回事呢?

带缓存IO也叫标准IO,符合ANSI C 的标准IO处理,不依赖系统内核,所以移植性强,我们使用标准IO操作很多时候是为了减少对read()write()的系统调用次数,带缓存IO其实就是在用户层再建立一个缓存区,这个缓存区的分配和优化长度等细节都是标准IO库代你处理好了,不用去操心,还是用上面那个例子说明这个操作过程:

     上面说要写数据到文件上,内核缓存(注意这个不是用户层缓存区)区长度是100字节,我们调用不带缓存的IO函数write()就要调用10次,这样系统效率低,现在我们在用户层建立另一个缓存区(用户层缓存区或者叫流缓存),假设流缓存的长度是50字节,我们用标准C库函数的fwrite()将数据写入到这个流缓存区里面,流缓存区满50字节后在进入内核缓存区,此时再调用系统函数write()将数据写入到文件(实质是磁盘)上,看到这里,你用该明白一点,标准IO操作fwrite()最后还是要掉用无缓存IO操作write,这里进行了两次调用fwrite()100字节也就是进行两次系统调用write()

    如果看到这里还没有一点眉目的话,那就比较麻烦了,希望下面两条总结能够帮上忙:

    无缓存IO操作数据流向路径:数据——内核缓存区——磁盘

标准IO操作数据流向路径:数据——流缓存区——内核缓存区——磁盘

1. buffered I/O, 即标准I/O

首先,要明确,unbuffered I/O只是相对于buffered I/O,即标准I/O来说的.
而不是说unbuffered I/O读写磁盘时不用缓冲.实际上,内核是存在高速缓冲区来进行
真正的磁盘读写的,不过这里要讨论的buffer跟内核中的缓冲区无关.

buffered I/O
的目的是什么呢?
很简单,buffered I/O的目的就是为了提高效率.
请明确一个关系,那就是,
                  
buffered I/O
库函数(fread, fwrite,用户空间) <----call--->  unbuffered I/O系统调用(read,write,内核空间)<-------> 读写磁盘

buffered I/O
库函数都是调用相关的unbuffered I/O系统调用来实现的,他们并不直接读写磁盘.
那么,效率的提高从何而来呢?
注意到,buffered I/O中都是库函数,unbuffered I/O中为系统调用,使用库函数的效率是高于使用系统调用的.
buffered I/O就是通过尽可能的少使用系统调用来提高效率的.
它的基本方法是,在用户进程空间维护一块缓冲区,第一次读(库函数)的时候用read(系统调用)多从内核读出一些数据,
下次在要读(库函数)数据的时候,先从该缓冲区读,而不用进行再次read(系统调用).
同样,写的时候,先将数据写入(库函数)一个缓冲区,多次以后,在集中进行一次write(系统调用),写入内核空间.

buffered I/O
中的fgets, puts, fread, fwrite等和unbufferedI/O中的read,write等就是调用和被调用的关系
在标准I/O库中也有引入缓存管理而带来的缺点--效率问题。例如当使用每次一行函数fgetsfputs时,通常需要复制两次数据:一次是在内核和标准I/O缓存之间(当调用readwrite时),第二次是在标准I/O缓存(通常系统分配和管理)和用户程序中的行缓存(fgets的参数就需要一个用户行缓存指针)之间。

不管上面讲的到底懂没懂,记住一点:

    使用标准I / O例程的一个优点是无需考虑缓存及最佳I / O长度的选择,并且它并不比直接调用readwrite慢多少。

带缓存的文件操作是标准C 库的实现,第一次调用带缓存的文件操作函数时标准库会自动分配内存并且读出一段固定大小的内容存储在缓存中。所以以后每次的读写操作并不是针对硬盘上的文件直接进行的,而是针对内存中的缓存的。何时从硬盘中读取文件或者向硬盘中写入文件有标准库的机制控制。不带缓存的文件操作通常都是系统提供的系统调用,更加低级,直接从硬盘中读取和写入文件,由于 IO瓶颈的原因,速度并不如意,而且原子操作需要程序员自己保证,但使用得当的话效率并不差。另外标准库中的带缓存文件IO 是调用系统提供的不带缓存IO实现的。

术语不带缓冲指的是每个readwrite都调用嗯内核中的一个系统调用。所有的磁盘I/O都要经过内核的块缓冲(也称内核的缓冲区高速缓存),唯一例外的是对原始磁盘设备的I/O。既然readwrite的数据都要被内核缓冲,那么术语不带缓冲的I/O“指的是在用户的进程中对这两个函数不会自动缓冲,每次readwrite就要进行一次系统调用。“--------摘自<unix环境编程>

-----------------------------------------------------------------------------------------

Linux标准IO库缓存策略介绍

标准IO库操作是围绕着流来进行的,当我们通过fopen标准IO库函数打开一个文件,我们就使一个文件和一个IO流相关联。在这里我们把IO流和文件指针FILE*等同起来,因为所有针对IO流的操作都是通过FILE*指针来实现的。

    我们知道引入标准IO库的目的是为了提高IO的效率,避免频繁的进行read/write系统调用,而系统调用会消耗较多的资源。因此标准IO库引入了 IO缓存,通过累积一定量的IO数据后,然后集中写入到实际的文件中来减少系统调用,从而提高IO效率。标准IO库会自动管理内部的缓存,不需要程序员介入。然而,也正是因为我们看不到标准IO库的缓存,有时候会给我们带来一定的迷惑性。这里介绍下标准IO库的缓存策略。

    一。标准I/O的缓存--标准输出为例:(这里都是指缺省情况下)

    1)当STDOUT连接到终端设备时,那么它就是行缓存的,也就是标准IO库每看到一个新行符 /n时就刷新一次缓存(即执行一次实际的输出操作)。这一特性可以通过如下测试代码来验证

   int main()
  {
      printf("This Line Should be Cached...");
      sleep(3);    //
这时候在终端上是看不到任何输出
      printf("/nThis Line Should be Cached Again");  //
这时候可以看到第一个printf的输出,因为被换行符刷新了
      sleep(3);  //
这时候也只能看到一行输出,而看不到第二个printf输出的
      printf("This Line Should Not be Cached Again/n"); //
这时候可以看到第二个和第三个printf的输出,因为被结尾的/n刷新
      sleep(3);
      getchar();
  }

  2)当STDOUT被重定向到一个具体文件时,那么标准输出是全缓存的,也就是说只有当输出缓存被塞满或者调用fflushfclose时才会执行实际的写入操作,这里就不给出具体例子,可以通过freopenSTDOUT重定向到一个具体文件来进行测试。

   二。标准出错STDERR:为了尽快的看到出错信息,标准出错是不带任何缓存的

学习过编程的朋友都知道ANSI C里定义的标准I/O是一种带缓冲的高级磁盘I/O,目的是尽可能减少使用readwrite系统调用的次数,从而提高I/O效率。标准I/O提供了3种类型的缓冲类型。

全缓冲。在这种情况下,当填满标准I/O缓存后才进行实际I/O操作。对驻留在磁盘上的文件的访问通常是由标准I/O库实施全缓冲的。

行缓冲。在这种情况下,当在输入和输出中遇到新行符时,标准I/O库执行I/O操作,这允许我们一次输出一个字符(如fputc函数),但只有写了一行之后才进行实际I/O操作。当流涉及一个终端时(例如标准输入和标准输出),典型地使用行缓冲。

不带缓冲。标准I/O库不对字符进行缓冲。如果用标准I/O函数写若干字符到不带缓冲的流中,则相当于用write系统调用将这些字符写到打开的文件上。标准出错况stderr通常是不带缓存的,这就使得出错信息可以尽快显示出来。

这里强调一下,所谓的带不带缓冲指的是不同的流而不是函数。比如驻留在磁盘上的文件流是全缓冲的方式,标准输入/输出流缺省是行缓冲而标准错误不带缓冲。

行缓冲是指当遇到换行符’/n’或一行满时,才真正的进行I/O操作。Linux缺省情况下一行最多容纳1024个字符,当超出这个范围时,即使没有遇到换行符,也引起实际的I/O操作。

对于全缓冲来说,读写操作是按照缺省的缓冲区大小(4K)进行的。具体说就是从流读取内容时每次读取4K大小的内容到缓冲区,而程序是从缓冲区里读取数据的。当缓冲区里的数据处理完后再从流里读取4K的内容到缓冲区。分析下面的例子:

FILE *fp;

char buf[8192] = {0}; // 缓冲区初始化为0

char ch;

if ( (fp=fopen (“data.txt”, “r+”)) == NULL )

{

printf(“Fail to open file/n”);

exit(-1);

}

setvbuf(fp, buf, _IOFBF, 4096); // 设置流fp为全缓冲,缓冲区指向buf,大小为4096

fread(&ch, 1, 1, fp); // 从流中读取一个字节的内容存放到变量ch

printf(“%d %d %d/n”, buf[0], buf[1], buf[4095]);

虽然程序中只读取了1个字节,但实际上读取了4K的内容存放到buf中。

写文件的情况类似,当缓冲区写满内容时才会引起实际的I/O操作,文件被更新。

又读又写的情况比较特殊。因为读写缓冲区只有一个,所以在读取内容到缓冲区之前会先把缓冲区里要更新的内容(如果有的话)写到文件。还有一种情况也会引起实际写操作,那就是fseek函数的调用。

你可能感兴趣的:(C++)