node之Buffer的使用

一 Buffer概念

JavaScript在前端中处理字符串相关的API非常强大，好用，但是Node还需要额外处理网络、文件中的一些二进制数据，ECMAScript标准中没有提供这样的API。

Buffer是Node提供的一个全新对象，非常类似JS中的Array，但是主要用来操作字节。Buffer在Node中由两部分源码实现：

Buffer/SlowBuffer：js核心模块，主要用于实现Buffer在业务上的一些API
node_buffer：C++内建模块，主要用于实现字节处理的性能相关部分

注意：Buffer由于在Node中使用场景非常广泛，所以在Node进程启动时就已经加载，位于全局对象global中。

二 Buffer的基本使用

可以将Buffer理解为Node扩充的数据类型，其作用类似Array，用于操作二进制数据。

Buffer的创建：

// new Buffer() 的方式由于安全原因已经过期，Node8之后推荐使用以下方式创建
let buf = Buffer.from('test','utf-8');                    
console.log(bf);                                    // 输出 

for(let i = 0; i < bf.length; i++){                 //此length长度和字符串的长度有区别，指buffer的bytes大小
    console.log(bf[i].toString(16));                // buffer[index]:获取或设置在指定index索引未知的8位字节内容
    console.log(String.fromCharCode(bf[i]));        //依次输出 t e s t
    console.log(bf.toString());                     //输出 test  ，可选参数是 [encoding, start, end]，默认使用UTF-8
}

Node在文件、网络操作中，如果没有显示声明编码格式，默认返回的数据类型都是Buffer，比如readFile回调中的data。

注意：在ES6中增加了ArrayBuffer类型，Node中可以直接使用

Buffer的实例方法：

buf.write(string,[offset],[length],[encoding]):根据参数offset，将参数string数据写入buffer
buf.toString([encoding],[length]):返回一个解码的string类型
buf.toJSON():返回一个JSON表示的Buffer实例，JSON.stringify将会默认调用来字符串序列化这个Buffer实例
buf.slice([start],[end]):返回一个新的buffer，这个buffer和老的buffer引用相同的内存地址
buf.copy(targetBuffer,[targetStart],[sourceStart],[sourceEnd])：进行buffer的拷贝，拷贝不会影响老的buffer。

Buffer的静态方法：

Buffer.isBuffer(buf);                   // 判断是不是Buffer
Buffer.byteLength(str);                 // 获取字节长度，第二个参数为字符集，默认utf8
Buffer.concat(list[, totalLength])      // Buffer的拼接

三 Buffer的转换

2.1 字符串转Buffer

Buffer对象可以与字符串之间相互转换，如下所示：

new Buffer(str, [encoding]);            // 可选参数编码格式若不传入，则默认按照UTF-8编码进行转码和存储

一个Buffer对象可以存储不同编码类型的字符串转码的值，调用write()方法可以实现该目标，代码如下：

buf.write(string, [offset], [length], [encoding]);

由于可以不断写入内容到Buffer对象中，并且每次写入可以指定编码，所以Buffer对象中可以存在多种编码转换后的内容，需要小心的是，每种编码所用的字节长度不同，将buffer反转回字符串时需要谨慎处理。

2.2 Buffer转字符串

buf.toString([encoding], [start], [end]);

2.3 Buffer不支持的编码类型

Node的Buffer不支持中国的GBK，GB2312，BUG-5等编码格式。判断Buffer是否支持该编码格式：

Buffer.isEncoding(encodibg);        // 返回 true、false

对于不支持的编码格式，Node有第三方模块如 iconv 和 iconv-liten。

三 Buffer乱码

3.1 乱码的产生

在Buffer使用场景中，通常是以一段一段的方式传输，常见从输入流中读取内容的示例如下：

var fs = require('fs');

var rs = fs.createReadStream('./demo.md');
var data = '';

rs.on("data", function(chunk) {
    data += chunk;
});

rs.end("end", function(){
    console.log(data);
});

上述代码在读取全英文格式内容时，不会有任何问题，但是一旦输入流中存在宽字节编码，就会产生乱码问题。问题来自于data += chunk，该句隐藏了 toString()操作，其内部等价于：

data = data.toString() + chunk.toString();

下面模拟宽字节文字读取场景：

var fs = require('fs');

var buf = Buffer.from("白银之手骑士团");

// 
console.log("buf:", buf);
console.log("buf.length: ", buf.length);                        // 21
console.log("start: ", buf.toString("UTF-8", 0, 3));             // 白  e7 99 bd     
console.log("start: ", buf.toString("UTF-8", 3, 6));             // 银  e9 93 b6
console.log("start: ", buf.toString("UTF-8", 6, 9));             // 之  e4 b9 8b，e6 89 8b，e9 aa 91，e5 a3 ab，e5 9b a2，ef bc 81

var data = "";
var rs = fs.createReadStream("./demo.txt", {highWaterMark: 4});
rs.on("data", function(chunk) {
    data += chunk;
});
rs.on("end", function(){
    console.log("流式读取：", data);                        // 白�����手骑�����
});

在上述案例中，每3个长度能够读取到一个汉字，但是在使用流式读取时，每4个长度读取一次，在第一读取时，就会读取到多余的数据了，也即输出了 白�，在第4次读取时，正好又读取了原始数据的存储要求，输出了�手，依次类推。

3.2 乱码解决

流式读取可以设置编码：

var rs = fs.createReadStream("./demo.txt", {highWaterMark: 4});
rs.setEncoding('utf8');

此时程序就能正常输出数据！但是这并不是直接说明了输出没有收到Buffer大小的影响。在实际运行过程中，无论如何设置编码，触发的data事件次数都仍然是相同的。但是在每次data事件都会额外通过一个decoder对象对Buffer进行转换到字符串的解码，然后传递给调用者。而这个decoder对象正是 setEncoding()方法时在可读流对象内部设置的。此时data收到的不再是原始的Buffer对象。decoder对象会被未转码的部分保留在StringDecode实例内部，再下一次write的时候，会将上次的剩余字节和后续的新读入的字节进行组合！

setEncding只能解决UTF-8，Base64等带来的编码问题，没有从根本上解决问题。正确的Buffer拼接方式应该是用一个数组来存储接收到的所有Buffer片段并记录下所有的片段总长度，然后调用Buffer.concat()方法生成一个合并的Buffer对象。

fs.createReadStream("./test.txt",{highWaterMark: 10});

var dataArr = [];

rs.on("data", function(chunk){
    dataArr.push(chunk);
});

rs.on("end", function(){
    var buf = Buffer.concat(dataArr);
    console.log(buf.toString());
});

Buffer.concat()方法封装了从小Buffer对象向大Buffer对象复制过程：

Buffer.concat = function(list, length) {

    if (!Array.isArray(list)) {
        throw new Error('Usage: Buffer.concat(list, [length])');
    }
    if (list.length === 0) {
        return new Buffer(0);
    } else if (list.length === 1) {
        return list[0];
    }

    if (typeof length !== 'number') {
        length = 0;
        for (var i = 0; i < list.length; i++) {
            var buf = list[i];
            length += buf.length;
        }
    }

    var buffer = new Buffer(length);
    var pos = 0;
    for (var i = 0; i < list.length; i++) {
        var buf = list[i];
        buf.copy(buffer, pos);
        pos += buf.length;
    }
    return buffer;
};