【转】一个问题引发的"血案" 之 文件的读写原理(fread, fwrite, fflush)

代码很简单:
以rb+形式打开一个已存在的文件(文件内容是abcdefghijklmnopqrstuvwxyz
),然后随便读几个字节,然后直接调fwrite,返回值是正确的,但是fclose后,双击打开文件,文件内容没变。

反之,以rb+形式打开一个已存在的文件(文件内容也是abcdefghijklmnopqrstuvwxyz
),随便写几个字节(写了hello world),然后直接调fread,只读出了ヘヘヘヘヘヘヘヘヘヘ,而且fclose后,双击打开文件,文件内容变成hello worldヘヘヘヘヘヘヘヘヘヘvwxyz

但是在fread和fwrite之间调一下fseek,读写内容就都对了,请问高手,这为什么呢?
fread和fwrite为什么不能连续调用?

具体代码如下:


            
            
            
            
  1. #include
  2. int main()
  3. {
  4.     FILE *testFile = NULL;
  5.     int ret = 0;
  6.     char string[200] = {'\0'};
  7.     testFile=fopen("test1.txt", "rb+"); //test1.txt的内容是abcdefghijklmnopqrstuvwxyz
  8.     if(testFile == NULL)
  9.     {
  10.         return 0;
  11.     }
  12.     ret = fread(string, 1, 10, testFile);
  13.     //ret = fseek(testFile, 0, SEEK_CUR);
  14.     ret = fwrite("hello world", 1, 11, testFile);
  15.     fclose(testFile); //test1.txt的内容还是abcdefghijklmnopqrstuvwxyz
  16.     //如果fread和fwrite之间调用了fseek,文件内容变成abcdefghijhello worldvwxyz
  17.     testFile=fopen("test2.txt", "rb+"); //test2.txt的内容也是abcdefghijklmnopqrstuvwxyz
  18.     if(testFile == NULL)
  19.     {
  20.         return 0;
  21.     }
  22.     ret = fwrite("hello world", 1, 11, testFile);
  23.     //ret = fseek(testFile, 0, SEEK_CUR);
  24.     ret = fread(string, 1, 10, testFile);
  25.     fclose(testFile); //test2.txt的内容变成hello worldヘヘヘヘヘヘヘヘヘヘvwxyz
  26.     //如果fread和fwrite之间调用了fseek,文件内容变成hello worldlmnopqrstuvwxyz
  27.     return 0;
  28. }

问题原帖在这里,感觉原帖下面的答案讲的不是很详细和准确,求大神解答!

评论 ( 0) •  分享 •  链接 •  2012-12-08 
9个答案
票 数 
  • kenvi 50

    6 票

  • 2058
  • 最佳答案

这个问题非常好,我仔细看了一下flush.c,fwrite.c和fread.c找到了原因。

首先,我们得了解应用程序和文件直接数据的交互是通过缓存来实现的,fread和fwrite操作的数据都是缓存(如果设置了缓存的话)里的数据。那么数据交互的模型如下所示:

然后,我们再看看fread,fwrite,fflush是如何来实现这个交互的过程呢。这三者对文件的操作都是通过FILE结构来进行的,我们先看看FILE的结构:

         
         
         
         
  1. struct _iobuf {
  2.         char *_ptr;//文件缓存的当前位置
  3.         int   _cnt;//缓存里可以读取的字节数
  4.         char *_base;//文件缓存的起始位置
  5.         int   _flag;
  6.         int   _file;
  7.         int   _charbuf;
  8.         int   _bufsiz;//缓存大小
  9.         char *_tmpfname;
  10.         };
  11. typedef struct _iobuf FILE;

以上代码来自http://www.codeforge.com/read/90183/STDIO.H__html
这里是VC里的实现,不同的实现可能会有所差别,但是因为是标准IO,基本上是大同小异。

上面只是简单标注了几个重要的变量的意义。下面我来解释一下这几个变量:

  • FILE:这个结构其实包含的是文件信息(_flag,_file_,_tmpfname)和缓存信息(_ptr,_cnt,_base,_charbuf,_bufsiz)。
  • _ptr:它指的是当前操作的位置
  • _base:文件缓存的起始位置
  • bufsiz:缓存的大小

下面用图表示一下这几个变量:
当打开一个文件,并进行读取时,会先从磁盘读取一部分数据到缓存里,这时候_base指向缓存的起始地址,_ptr会根据读取的数量进行移动,_cnt则根据读取的数量进行减少。

这里只是一个简化的流程,具体参考fread.c代码http://www.codeforge.com/read/90183/FREAD.C__html

当打开一个文件,并进行写操作时,会先分配一块缓存,这时候_base指向缓存的起始地址,_ptr会根据写入缓存的数量进行移动。

这里只是一个简化的流程,具体参考fwrite.c代码http://www.codeforge.com/read/90183/FWRITE.C__html

我们再看看fflush的操作

         
         
         
         
  1.  if ((stream->_flag & (_IOREAD | _IOWRT)) == _IOWRT && bigbuf(stream)
  2.                 && (nchar = stream->_ptr - stream->_base) > 0)
  3.         {
  4.                 if ( _write(_fileno(stream), stream->_base, nchar) == nchar ) {
  5.                         /* if this is a read/write file, clear _IOWRT so that
  6.                          * next operation can be a read
  7.                          */
  8.                         if ( _IORW & stream->_flag )
  9.                                 stream->_flag &= ~_IOWRT;
  10.                 }
  11.                 else {
  12.                         stream->_flag |= _IOERR;
  13.                         rc = EOF;
  14.                 }
  15.         }
  16.         stream->_ptr = stream->_base;
  17.         stream->_cnt = 0;

代码参考http://www.codeforge.com/read/90183/FFLUSH.C__html
这里做了两件事:

  • 把缓存里的输入写入文件,_write系统调用,写入的数据为缓存里[_base,_ptr]之间的数据
  • 设置_ptr和_cnt:stream->_ptr = stream->_base;stream->_cnt = 0;

也就是说,flush除了写入文件外,它还把_ptr的位置重新设置到缓存的开始处了
也就是说,上面程序的问题在于_ptr的值,这里可以简单验证一下,把ret = fseek(testFile,0, SEEK_CUR);替换成stream->_ptr = stream->_base也可以得到正确的结果。

那么,为什么问题是出现在_ptr上呢?下面来怎对上面的代码进行分析:
我给你上面的代码画了一个图,和上面两幅图略有不同


可以看到,在调用一次fwrite和一次fread后,_ptr指针的位置距离_base为21(11+10)。那么,最后的close在flush的时候会把[_base,_ptr]之间的内容输入到文件中对应的位置。也就是说fwrite写入的hello world和fread调用导致_ptr移动的部分数据也被写入到文件了,这样就导致覆盖了文件里的部分数据。

那么还有一个问题,覆盖的数据是什么呢?
数据是随机的。因为整个过程是这样的:

  1. 打开文件
  2. 建立缓存,这个缓存里的数据是未初始化的4096字节,
  3. fwrite写入hello world在0-10字节里
  4. fread使得_ptr跳过11-20字节
  5. flush使得0-20字节写入文件,其中0-10是hello world,11-20未初始化

再看看读文件的过程

  1. 打开文件
  2. 建立缓存,并且读取部分文件内容到缓存里
  3. 读取文件

上面两个过程中的第2个过程是要调用fseek或者flush的关键所在,因为读写用的是同一块缓存,所以读之后再写要重置缓存,写之后再读也要重置缓存。否则两种操作会导致缓存里的数据错乱。因此,严格来说,我前面的用testFile->_ptr=testFile->_base替代的方式也是有问题的。

=====================结束===============================
虽然花了不少时间,但是把这个问题弄明白了,自己也想通了另外一个问题,就是java的NIO里的ByteBuffer在读写之前分别要调用flip和clear,原因也是因为读写用的是同一块缓存。
如果有什么不清除的地方,请回复。我尽量解答

=======================补充内容=========================
可以通过下面的代码来看看FILE结构里的_ptr,_base,_cnt几个字段的变动

         
         
         
         
  1. void dumpFile(FILE* file){
  2.     printf("====dump file struct=====\n");
  3.     printf("ptr:%x\n",file->_ptr);
  4.     printf("cnt:%d\n",file->_cnt);
  5.     printf("base:%x\n",file->_base);
  6.     printf("flag:%d\n",file->_flag);
  7.     printf("file:%d\n",file->_file);
  8.     printf("charbuf:%d\n",file->_charbuf);
  9.     printf("bufsize:%d\n",file->_bufsiz);
  10.     printf("tmpfname:%s\n",file->_tmpfname);
  11.     printf("====dump file struct=====\n");
  12. }

=====================补充解释一下前一部分的数据为什么没有写入==============
看看flush的代码,在写入数据的时候,会做如下判断:

         
         
         
         
  1.  if ((stream->_flag & (_IOREAD | _IOWRT)) == _IOWRT && bigbuf(stream)
  2.                 && (nchar = stream->_ptr - stream->_base) > 0)
  3.         {
  4.                 if ( _write(_fileno(stream), stream->_base, nchar) == nchar ) {
  5.                         /* if this is a read/write file, clear _IOWRT so that
  6.                          * next operation can be a read
  7.                          */
  8.                         if ( _IORW & stream->_flag )
  9.                                 stream->_flag &= ~_IOWRT;
  10.                 }
  11.                 else {
  12.                         stream->_flag |= _IOERR;
  13.        

这段代码做了如下三个判断:

  • stream->_flag & (_IOREAD | _IOWRT)) == _IOWRT:判断flush之前的操作只有写操作
  • bigbuf(stream) 这个貌似是判断缓存的大小
  • nchar = stream->_ptr - stream->_base) > 0 判断[_base,_ptr]之间是否有数据没有写入

按照前面讲解的过程,可知[_base,_ptr]之间肯定是有数据的,至于bigbuf(stream)这个不知道是判断什么的,暂且假设它是true。再看看第一个判断,我们的代码是先读后写,不满足这个条件,因此,flush不会把数据写入到磁盘。这就是为什么数据没有写入的原因了。

下面来证实一下:

         
         
         
         
  1.     ret = fread(string, 1, 10, testFile);
  2.     ret = fwrite("hello world", 1, 11, testFile);
  3.     //加上写动作,去掉读动作
  4.     testFile->_flag |= _IOWRT;
  5.     testFile->_flag &= ~_IOREAD;
  6.     fclose(testFile);

上面的代码把flag的读标志去掉,并且加上写标志位,运行一下,这次数据写入了。结果如下:

abcdefghijklmnopqrstuvwxyzabcdefghijhello world

数据是写入了,但是结果貌似不对。。这个问题就留给大家去思考了。

kenvi
编辑于  2012-12-18
评论 ( 3) •  链接 • 2012-12-18
  • 0
    回答的非常详细,谢谢,对已代码的前一部分:
    ret = fread(string, 1, 10, testFile);
    ret = fwrite("hello world", 1, 11, testFile);
    fclose(testFile); //test1.txt的内容还是abcdefghijklmnopqrstuvwxyz
    为什么test1.txt的内容还是abcdefghijklmnopqrstuvwxyz呢?
     –  freeboy1015  2012-12-18
  • 0
    @freeboy1015 答案我更新了。 –  kenvi  2012-12-18
  • 0
    不得不赞一个,非常的好。 –  _无双  2012-12-20
  • ajaxhe

    3 票

  • 2886

可以看看fseek的源码,VS下的C运行库的fseek会会调用_flush(stream);
如下:

         
         
         
         
  1. int __cdecl _fseek_nolock (FILE *str, long offset, int whence)
  2. {
  3.         REG1 FILE *stream;
  4.         /* Init stream pointer */
  5.         stream = str;
  6.         /* Flush buffer as necessary */
  7.         _flush(stream);
  8. ...
  9.         /* Seek to the desired locale and return. */
  10.         return(_lseek(_fileno(stream), offset, whence) == -1L ? -1 : 0);
  11. }

补充:
@kenvi已经解释得很清楚了,这里对他后面遗留的问题进行下补充:

         
         
         
         
  1.     ret = fread(string, 1, 10, testFile);
  2.     ret = fwrite("hello world", 1, 11, testFile);
  3.     //加上写动作,去掉读动作
  4.     testFile->_flag |= _IOWRT;
  5.     testFile->_flag &= ~_IOREAD;
  6.     fclose(testFile);

这里强制修改_flag的值会得到意外的结果,原因如下:
在fclose中会调用fflush函数,而fflush函数又会根据条件再次调用系统调用_write函数,进行文件的写操作。

         
         
         
         
  1. int __cdecl _flush (
  2.         FILE *str
  3.         )
  4. {
  5.         /* Init pointer to stream */
  6.         stream = str;
  7.         if ((stream->_flag & (_IOREAD | _IOWRT)) == _IOWRT && bigbuf(stream)
  8.                 && (nchar = (int)(stream->_ptr - stream->_base)) > 0)
  9.         {
  10.                 if ( _write(_fileno(stream), stream->_base, nchar) == nchar ) {
  11.                         /* if this is a read/write file, clear _IOWRT so that
  12.                          * next operation can be a read
  13.                          */
  14.                         if ( _IORW & stream->_flag )
  15.                                 stream->_flag &= ~_IOWRT;
  16.                 }
  17.                 else {
  18.                         stream->_flag |= _IOERR;
  19.                         rc = EOF;
  20.                 }
  21.         }
  22. }

留意这样一行语句:
(nchar = (int)(stream->_ptr - stream->_base))
因为此时
(stream->_flag & (_IOREAD | _IOWRT)) == _IOWRT

bigbuf(stream)
都已经成立,这里会计算nchar的值。
看看此时缓冲区的情况:

这里nchar=21,后面调用:
_write(_fileno(stream), stream->_base, nchar)
就会将字符串
abcdefghijhello world
写入到test1.txt中。


问题讨论到这里,似乎还有一个重要的问题没有解释:
为什么“abcdefghijhello world”是在文件结尾处写,而不是紧接着文件第11处偏移开始写?是谁在修改文件的实际偏移?

ajaxhe
编辑于  2012-12-19
评论 ( 1) •  链接 • 2012-12-09
  • 0
    正解.... –  Bechengxvyuan  2012-12-19
  • zhujinliang

    1 票

  • 1190

那个帖子说的挺明白了,写出后,或关闭文件前,应调用fflush,将缓存更新到文件中。
打开文件后,会在内存中产生一部分文件的缓存,通过fwrite等写出,是先写入缓存,待缓存不够用了、或者用户调用fflush时,系统才将缓存中的数据同步到文件中。

评论 ( 2) •  链接 • 2012-12-08
  • 0
    代码中用的是fseek,没有用fflush啊 –  freeboy1015  2012-12-08
  • 0
    对于test2.txt的内容变成hello worldヘヘヘヘヘヘヘヘヘヘvwxyz还是不太理解?请详细解释一下,谢谢! –  freeboy1015  2012-12-10
  • __mt

    0 票

  • 3279

@zhujinliang同学说的比较对,应该先调用fflush。如果不是这种情况的话,可能是对数据流的某一个操作失败了。导致数据流的设置了failbit。所以导致读写失效。觉得就这两种可能吧

评论 ( 3) •  链接 • 2012-12-08
  • 0
    代码中用的是fseek,没有用fflush啊 –  freeboy1015  2012-12-09
  • 0
    @freeboy1015 就是说你读完之后要flush一下啊,你查下flush的意思就知道了。。 –  __mt  2012-12-09
  • 0
    对于test2.txt的内容变成hello worldヘヘヘヘヘヘヘヘヘヘvwxyz还是不太理解?请详细解释一下,谢谢! –  freeboy1015  2012-12-10
  • cyrussu

    0 票

  • 1

在你read test2的写入流的时候
缓冲区没有关闭
所以写入流接上了读取流
把后面10个字符给覆盖了
所以你用fread之前也要fflush

评论 ( 0) •  链接 • 2012-12-17
  • lixunhuan

    0 票

  • 56

我只能表示VC太弱了,标准IO库的实现还是这么老土,在gcc下没调用fseek结果是完全正确的
调用程序后test1.txt是abcdefghijhello worldvwxyz。
test2.txt是hello worldlmnopqrstuvwxyz
平台
gcc 4.7.2 + ubuntu 12.10(64bit)
可怜了大家,都去看标准IO库的实现源代码了~~~

lixunhuan
编辑于  2012-12-18
评论 ( 0) •  链接 • 2012-12-18
  • cugxxs

    0 票

  • 1

没有区别啊,我把代码运行了一下,对于前一部分的代码,不管加不加fseek函数,最后test1.txt的内容都变成abcdefghijhello worldvwxyz。对于后一部分代码,不过加不加fseek函数,test2.txt的内容都变成hello worldlmnopqrstuvwxyz。

评论 ( 0) •  链接 • 2012-12-18
  • 黄滨

    0 票

  • 1

运行了一下楼主的代码,只是在fread后打印string 结果如下(linux下gcc编译gcc 版本 4.1.1 20070105 (Red Hat 4.1.1-52) ):
[huangbin@localhost shujia]$ ./a.out
string= abcdefghij
[huangbin@localhost shujia]$ cat test1.txt 
abcdefghijhello worldvwxyz
能写入的。 
但是在VC下确实和楼主说的一样。按理说应该是fread后不用再去定位文件流位置的,直接就能在文件流读取的位置处写入内容。可能是标准IO库版本比较老,需要再定位文件流位置才能写入。
有兴趣可以看看相应的IO库源码。

评论 ( 0) •  链接 • 2012-12-18
  • 百度

    0 票

  • 1

gcc 版本 4.7.2 (Ubuntu/Linaro 4.7.2-2ubuntu1)
cat test1.txt
abcdefghijhello worldvwxyz
cat test2.txt
hello worldlmnopqrstuvwxyz

你可能感兴趣的:(C++)