关于BinaryReader读取数据:在构造函数中指定编码格式

问题描述:使用BinaryReader从文件中读取数据,开始在创建BinaryReader实例的时候,未指定编码格式,结果能通过编译,但是能在执行过程中会报错如下:“未处理的异常:  System.ArgumentException: 输出字符缓冲区太小,无法包含解码后的字符,编码“Unicode (UTF-8)”的操作回退“System.Text.DecoderReplacementFallback”。”

 

解决过程:

  首先附上创建文件的代码:

BinaryWriter
 1  using  System;
 2  using  System.IO;
 3 
 4  class  binaryReader
 5  {
 6       static   void  Main ()
 7      {
 8          FileInfo f  =   new  FileInfo( " BinFile2.dat " );
 9          BinaryWriter bw  =   new  BinaryWriter(f.OpenWrite());
10 
11          Console.WriteLine( " Base Stream is : {0} " ,bw.BaseStream);
12          
13           double  aDouble  =   1234.67 ;
14           int  anInt  =   32141 ;
15           char [] aCharArray  =  { ' A ' , ' B ' , ' C ' };
16           string  aString  =   @" teststring " ;
17 
18          bw.Write(aDouble);
19          bw.Write(anInt);
20          bw.Write(aCharArray);
21          bw.Write(aString);
22          bw.Close();
23 
24      }
25  }

  然后附上BinaryReader测试代码:

BinaryReader
 1  using  System;
 2  using  System.IO;
 3  using  System.Text;
 4 
 5  class  binaryReader
 6  {
 7       static   void  Main()
 8      {                
 9          FileInfo f2  =   new  FileInfo( " BinFile2.dat " );
10 
11                  BinaryReader br  =   new  BinaryReader(f2.OpenRead());
12           // BinaryReader br = new BinaryReader(f2.OpenRead(),Encoding.Default);
13 
14           int  temp  =   0 ;
15          
16           while  (br.PeekChar()  !=   - 1 )
17          
18          {
19              Console.Write( " {0,7:x} " ,br.ReadByte());
20 
21               if  ( ++ temp  ==   4 )
22              {
23                  Console.WriteLine();
24                  temp  =   0 ;
25              }
26              
27          }
28          Console.WriteLine();
29      }
30  }

  还有错误提示:

关于BinaryReader读取数据:在构造函数中指定编码格式_第1张图片   由上,之输出第一字符的16进制编码,剩下的就开始报错。但是觉得“字符缓冲区太小”是个很诡异的错误,然后就在网上搜了下,看看别人是怎么做的。

  第一次,在CSDN上看见有人给出了解决的方案,如题目所言,在创建BinaryReader实例的时候,指定其编码方式,就像上面代码中注释掉的那一行那样,就能够解决问题,将所有字符的16进制编码正常输出。

  这样,问题首先集中到编码上。默认的编码方式有问题,必须指定,才能避免错误。那什么样的编码是可行的,什么样的编码有问题?在Encoding里面,枚举了六种编码方式:UTF7、UTF8、Unicode、BigEndianUnicode、UTF32和Default。要说的是这里的Default是指:System.Text.DBCSCodePageEncoding。接下来,我做了一个测试,枚举每一种编码方式,在上面的代码中挨个试一遍。结果发现,在我写的那个BinFile2.dat测试文件上,除了UTF-8运行失败外,其他的每种方式都是成功的(此处截图省略)。那么,就可以推断,不带编码指定的BinaryReader的构造函数默认使用的是UTF-8的编码,而这样在读取过程中试有问题的。

  现在,至少知道用该用那种编码了。

  问题再进一步,在函数块内部,在读取文件的过程中,是哪个函数调用对编码有“苛刻”的要求?在上面的函数块中,只包含两个方法的调用,一个是while语句中的PeekChar(),一个是Console.WriteLine()。我觉得后者的可能性不大,于是做了如下的测试:

BinaryReader2
 1  using  System;
 2  using  System.IO;
 3  using  System.Text;
 4 
 5  class  binaryReader
 6  {
 7       static   void  Main()
 8      {                
 9          FileInfo f2  =   new  FileInfo( " BinFile2.dat " );
10 
11          BinaryReader br  =   new  BinaryReader(f2.OpenRead(),Encoding.Default);
12           int  temp  =   0 ;
13           int  count = 20;
14           while  (count > 0 )
15          {
16              Console.Write( " {0,7:x} " ,br.ReadByte());
17 
18               if  ( ++ temp  ==   4 )
19              {
20                  Console.WriteLine();
21                  temp  =   0 ;
22              }
23              
24                          count -- ;
25          }
26          Console.WriteLine();
27      }
28  }

  结果,除了没能完全输出字符之外,运行正常,于是,问题集中在了PeekChar()上面。上面用它来判断文件的边界,MSDN中描述“下一个可用的字符,或者,如果没有可用字符或者流不支持查找时为 -1。”也就是说,PeekChar()在判断是否到边界的过程中,有一个预读的过程,结合上面的编码的问题,可以猜测,在它预读的时候由于编码的不合适,导致在该方法内部的缓冲区的溢出。

  又在网上找到一文《不要使用PeekChar()判断EOF》,文中只是说不要用PeekChar来判断EOF,而是使用判断条件 ( br.BaseStream.Position < br.BaseStream.Length),但是并没有给出详细的理由。

 

   而后,又发现了老外也在讨论这个问题:http://bytes.com/topic/visual-basic-net/answers/349779-binaryreader-peekchar-argumentexception-conversion-buffer-overflow

  ……

  继续深入下去,有两个点要解决:1、UTF-8编码的问题;2、PeekChar的工作详细细节。

总结:通过以上的一系列做法,对BinaryReader的使用有了一些粗浅的了解,在使用过程中,能够合理利用,避开容易出错的地方,但是,根本的问题还未能真正解决。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

      更深入的明日再续。

 

你可能感兴趣的:(reader)