通过Adodb.Stream,可以很方便的读写二进制及及文本流,可读写文件,并可指定文本流的字符集编码。
可是Adodb.Stream输出UTF-8编码的文本流时,会在流的最前端加上BOM。
BOM是什么:Byte Order Mark, UTF-8编码特有的标记,在文件流的开始中占用3个字节“EF BB BF”。
BOM有什么用处:这里不做讨论,这里要讨论的是如何在Adodb.Stream(以下简化为stream或“流”)中去掉这3个字节的BOM,因为很多时候我们都不希望输出的文件开头包含这3个字节。
最直接简单的做法可以这样:
我们已经知道BOM占用3个字节,那么我们可以在stream中写入UTF-8字符串之后,将stream转换为二进制类型,然后跳过头3个字节,并将剩下的字节用CopyTo()方法拷贝到一个新的stream中去。
不过这样好像有潜在的很严重的性能问题,如果这个文本流比较大,会不会因为处理这个流而耗费双倍的资源?
那我们将上面的方案优化一下。
经过测试发现,stream在“UTF-8”编码的Text方式下首次调用WriteText()方法时,会自动在stream的最开始加入3个字节。
更严格的说,在以下状态下(JS code):
stream.Position = 0; // 流的位置在最开始时
stream.Type = 2; // adTypeText
stream.Charset = 'UTF-8';
调用stream.WriteText()方法时,stream会自动先在流的最开始插入3个字节的BOM。
而stream.Position在任何非0值的情况下,调用WriteText()方法都不会再插入BOM了,可以利用这一点来避免自动插入BOM。
假如我们需要朝stream中写入10个UTF-8字符,我们先按照通常方式在一个刚创建的stream中只写入第一个UTF-8字符。
之后将stream转换为二进制类型(adTypeBinary),跳过stream开始的3个BOM字节,并读出剩余的字节(这些字节应该只包含刚刚一个字符的数据,不含其它杂质)。
再回到流的开始,将刚刚读出的字节重新写入流,写完后立即调用SetEOS()方法将当前位置设为流末尾。
然后将stream重新转换回文本类型(adTypeText),并将流当前位置移到流末尾。
此时继续写入剩余的9个UTF-8字符,stream会将其编码后的字节数据直接添加到尾部,而不会再插入BOM了。
此后若需要继续往stream中写入文本,直接调用WriteText()方法即可。
通过测试可以发现,如上方式写入的UTF-8字符串通过ReadText()方法也能正常读出,但是stream.Size却比传统方式直接写入UTF-8的stream小3,很明显就是少了那3个“多余”的BOM字节。
问题到此还未结束。
此时你可能想直接调用stream.SaveToFile()方法保存到文件,你可能会发现,有时保存的文件中还是带有BOM,上述方法无效?
出现这种情况,是因为你漏掉了关键的一步:在调用SaveToFile()方法之前,需要将流转换为二进制类型。
原来还是Adodb.Stream在自作聪明,输出的时候发现UTF-8文本流的开头缺少BOM,又会再次将其加上。
但是若将流类型改为二进制,输出时就可以绕过Adodb.Stream的BOM监测了。
测试代码:(请保存为*.hta文件进行测试)
Test Adodb.Stream No BOM.hta
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title></title> <meta name="author" content="caikanxp" /> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <script type="text/javascript"><!-- function getStreamWithBOM(str, another) { var stream = new ActiveXObject('Adodb.Stream'); stream.Mode = 3; stream.Open(); stream.Type = 2; stream.Charset = 'UTF-8'; stream.WriteText(str); another && stream.WriteText(another); return stream; } function getStreamWithoutBOM(str, another) { var stream = new ActiveXObject('Adodb.Stream'); stream.Mode = 3; stream.Open(); writeUTF8WithoutBOM(stream, str); another && stream.WriteText(another); return stream; } function writeUTF8WithoutBOM(stream, text) { stream.Position = 0; // reset stream position before changing type stream.Type = 2; // adTypeText stream.Charset = 'UTF-8'; // there is a BOM(3 bytes) will be automatically appended to the beginning of stream stream.WriteText(text.substr(0, 1)); // write only the first char stream.SetEOS(); stream.Position = 0; stream.Type = 1; // adTypeBinary stream.Position = 3; // skip BOM bytes var bs = stream.Read(); // read the byte array of chars stream.Position = 0; stream.Write(bs); // overwrite the BOM with the byte array of first char stream.SetEOS(); stream.Position = 0; stream.Type = 2; // adTypeText stream.Position = stream.Size; // the remain text will be appended to end of stream stream.WriteText(text.substr(1)); // no BOM will be appended to the beginning of stream now } function output(stream, title) { var filename, message; stream.Position = 0; filename = 'C://'+title+'(Text Type Saved).txt'; message = ['text content:', stream.ReadText(),, 'stream size:', stream.Size,, 'Save to file?', filename]; confirm(message.join('/n'), filename) && stream.SaveToFile(filename, 2); stream.Position = 0; filename = 'C://'+title+'(Binary Type Saved).txt'; message = ['text content:', stream.ReadText(),, 'stream size:', stream.Size,, 'Save to file?', filename]; stream.Position = 0; stream.Type = 1; // change type to binary before saving confirm(message.join('/n'), filename) && stream.SaveToFile(filename, 2); } function test() { var text = '多字节字符串'; text = prompt('input some text:', text) || text; var another = prompt('input another text:', 'some text additional...'); var stream1 = getStreamWithBOM(text, another); var stream2 = getStreamWithoutBOM(text, another); output(stream1, 'UTF-8 with BOM'); output(stream2, 'UTF-8 without BOM'); } test(); // --></script> </head> <body onload="window.close()"> </body> </html>
一个简单的封装类(JS版):
UTF8NoBOMStream.hta
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title></title> <meta name="author" content="caikanxp" /> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <script type="text/javascript"><!-- /** * 输出不带BOM的UTF-8的专用包装类 */ function UTF8NoBOMStream() { var stream = new ActiveXObject('Adodb.Stream'); stream.Mode = 3; stream.Open(); stream.Charset = 'UTF-8'; this.stream = stream; } /** * 代理Adodb.Stream的WriteText()方法。首次调用时会自动去掉BOM */ UTF8NoBOMStream.prototype.WriteText = function(text, option) { option = option || 0; var stream = this.stream; // 流位置不在最开始(已有数据),直接写入 if (stream.Position != 0) { stream.WriteText(text, option); return; } // 流位置在最开始,写入文本后需要去掉BOM // 写入首字符 stream.WriteText(text.charAt(0)); stream.SetEOS(); // 二进制模式读出首字符的字节数据 stream.Position = 0; stream.Type = 1; stream.Position = 3; var bs = stream.Read(); // 移动首字符的字节数据至流开始位置,覆盖BOM stream.Position = 0; stream.Write(bs); stream.SetEOS(); // 将流改回文本模式,写入余下的字符 stream.Position = 0; stream.Type = 2; stream.Position = stream.Size; stream.WriteText(text.substr(1), option); }; /** * 代理Adodb.Stream的SaveToFile()方法,输出前将流类型修改为二进制,避免再次输出BOM */ UTF8NoBOMStream.prototype.SaveToFile = function(filename, option) { option = option || 1; var stream = this.stream; stream.Position = 0; stream.Type = 1; stream.SaveToFile(filename, option); stream.Type = 2; }; function test() { var text = '多字节字符串'; text = prompt('input some text:', text) || text; var another = prompt('input another text:', 'some text additional...'); var stream = new UTF8NoBOMStream(); stream.WriteText(text); another && stream.WriteText(another); var filename = 'C://UTF8NoBOMStream.txt'; filename = prompt('警告:点击确定将写入文件!/n文件名:', filename) filename && stream.SaveToFile(filename, 2); } test(); // --></script> </head> <body onload="window.close()"> </body> </html>