JavaScript里面的二进制

基础知识点

ECMAScript中的进制

ES中进制规范基于C语言，随着发展然后进行了改进。下面列举JavaScript不同进制写法：

// 二进制 Binary system
// 以0b或0B开头
var FLT_SIGNBIT  = 0b10000000000000000000000000000000; // 2147483648
var FLT_EXPONENT = 0b01111111100000000000000000000000; // 2139095040
var FLT_MANTISSA = 0B00000000011111111111111111111111; // 8388607

// 二进制展示（方便展示，理解上却更难了）
// 正数：就是正数的原码
// 负数：负号+正数的原码
// 不是数值的二进制补码
parseInt(-10).toString(2) // -1010

// 八进制 Octal number system
// 以0开头，ECMAScript 6支持0o
var n = 0755; // 493
var m = 0644; // 420
var e = 0o755; // 493 ECMAScript 6规范

// 十进制 Decimal system
// 以0开头，但是后面跟8以下会当作八进制处理
var d = 1234567890;
var l = 0888; // 888 十进制
var 0 = 0777; // 511 八进制

// 十六进制 Hexadecimal
// 以0x或0X开头
0xFFFFFFFFFFFFFFFFF // 295147905179352830000
0x123456789ABCDEF   // 81985529216486900
0XA                 // 10

原码、反码、补码

先让我们看下 1 和 -1 原码、反码、补码，然后我们通过这个2个数字来解释原码、反码、补码。

JavaScript 负数显示是负号+原码（理论上方便查看），比如 parseInt(-10).toString(2) 二进制展示输出是 -1010

直接原码进行 有符号 的加计算 ，结果十进制是 -2 ，这个结果明显是错误的。符号直接参与运算有问题。

原码：
- 数字的二进制表示，有符号数，最高位作为符号位， 0 表示 + ， 1 表示 - ，无符号数即无符号位
反码：
- 正数和 +0 其原码本身就是反码
- 负数和 -0 符号位与原码中一样，保持不变，其余位数逐位取反， 1 换成 0 ， 0 换成 1
补码：
- 正数和 +0 其原码本身就是补码
- 负数和 -0 先计算其反码，然后反码加上 1 （例如8位的加 0000 0001 ），得到补码

数据在内存中是以补码形式存储（方便换算），原码和补码是在运行过程进行转换的。 通过补码计算得到补码，然后转成反码，再转成原码（这里不是减 1 还是加 1 ）。

字节序

什么是字节？

大部分系统8个二进制位（Bit）构成一个字节（Byte）单元，一个字节可以存储一个英文字母或半个汉字。

经常听说汉字需要占2个字节（Byte）？

现在基本使用统一的字符集 Unicode ，规定的是字符的十六进制，基本常用字符的在Plane 0（0000–FFFF）里面，如英文 A 字母 U+0041 ，汉字范围是 U+4E00 ~ U+9FA5 ，是 4个十六进制数即可表示一个字符 。

1 byte = 8 bit
那 8 bit 可以存储的数值范围：

无符号数值范围 0～255
有符号数值范围（符号占1位，1表示负数，0表示正数） -128～127

十六进制转二进制，1位十六进制对应4 bit二进制，1个 Unicode 字符由4位十六进制组成。所以 Unicode 都需要 2个字节（Byte）。

这怎么英文也要2个字节了？

我们先看下十六进制转二进制，十六进制数与二进制有一一对照表，这里不展开。

中文 U+4E07 汉字 万 ，看下图例子：

上图 UTF-8 编码方式：数字、英文是1个字节，汉字是3个字节。
而 GBK 编码方式：数字、英文是1个字节，汉字是2个字节，1个字节范围 00–7F 。

扩展知识：在数据库 MySQL 4.0 以下 varchar(20) 是指20个字节，可以存储数字英文20个，utf-8汉字6个，在 MySQL 5.0 及以上 varchar(20) 是指20个字符，可以存储数字英文汉字都是20个。

// Unicode 转换 // charCodeAt、fromCharCode 默认十进制 // 通过 toString 转成十六进制 console.log('a'.charCodeAt(0).toString(16)) // 61 console.log(String.fromCharCode(0x61)) // a

什么是字节序？

举个例子：十六进制 0x12345678 存储，内存最小的单位一个字节，一个字节8位，将其转成二进制 0001 0010 0011 0100 0101 0110 0111 1000 就是32位，就是4个字节，所以分为 0x12 、 0x34 、 0x56 、 0x78 （只是为了表示是十六进制所以写成 0x12 ，实际是 12 存储是8 bits）4个字节存储。但是存储网络传输时是先从 0x12 开始传，还是 0x78 开始传？所以多字节出现才有字节序。

// 十六进制 0x12345678 // 十进制 305419896 // 二进制 0b00010010001101000101011001111000 // 0001 0010 0011 0100 0101 0110 0111 1000 console.log(0b0001, 0b0010) // 1 2

根据字节存储的顺序，分为：

Big endian（大端）：将最高有效字节存储在内存低位

Little endian（小端）：将最低有效字节存储在内存低位

注意区分最高有效字节（高位字节）和最高有效位（高位），大端小端是指最高有效位的顺序不一样

文件可以通过文件头的 字节顺序标记（BOM）识别哪种字节顺序。

位运算

位运算操作数都当做 32 bits 进行操作。提示：下面案例中二进制都是 原码 。

JavaScript 负数输出展示是负号+原码（理论上方便查看），比如 parseInt(-10).toString(2) 二进制展示输出是 -1010

&（按位与）

两个运算比较的 bit 位都是 1 时，这个 bit 位才是 1 。

const a = 5; // 00000000000000000000000000000101 const b = 3; // 00000000000000000000000000000011 console.log(a & b); // 00000000000000000000000000000001 // 1 // 是否2的n次幂 // (x & x - 1) === 0 console.log((2 & 2 - 1) === 0) // true // 奇偶 // x & 1 === 0 偶数 // x & 1 === 1 奇数 console.log(2 & 1 === 0) // 0 // 求平均值，防溢出 function avg(x, y){ return (x & y) + ((x ^ y) >> 1); } // 取模 // i % 4 === i & (4 - 1) console.log(1%4 , 1&3) // 1 1 // 转换 // 0xffffffff 11111111111111111111111111111111 -10 & 0xffffffff // 0xff 11111111

|（按位或）

两个运算比较的 bit 位只要一个是 1 时，这个 bit 位就是 1 。将任一数值 x 与 0 进行按位或操作，其结果都是 x。将任一数值 x 与 -1 进行按位或操作，其结果都为 -1。

const a = 5; // 00000000000000000000000000000101 const b = 3; // 00000000000000000000000000000011 console.log(a | b); // 00000000000000000000000000000111 // 7

～（按位非）

对运算值的每一个 bit 位取反（即反码）。

const a = 5; // 00000000000000000000000000000101 const b = -3; // 0000000000000000000000000000011 // 补码计算，转原码展示 // 补 1111 1111 1111 1111 1111 1111 1111 1010 // 反 1000 0000 0000 0000 0000 0000 0000 0101 // 原 1000 0000 0000 0000 0000 0000 0000 0110 console.log(~a); // 10000000000000000000000000000110 // -6 console.log(~b); // 00000000000000000000000000000010 // 2 // 取负数 console.log(~4 + 1) // -4 // 舍弃小数 console.log(~~1.5) // 1

^（按位异或）

两个运算比较的 bit 位不相同，这个 bit 位才是 1 。

const a = 5; // 00000000000000000000000000000101 const b = 3; // 00000000000000000000000000000011 console.log(a ^ b); // 00000000000000000000000000000110 // 6 // 交换变量值 let a = 1; let b = 2; a = a^b; b = a^b; a = a^b; console.log(a, b) // 2 1 // 判断赋值 if(x === a){ x = b }else{ x =a } // 等价于下面 x = a ^ b ^ x

<<（左移）

9 << 2 数字9转换成32位二进制，然后向左移动2位，左边移出的丢弃，右边用0补位，返回值的十进制计算公式 X * 2 ** Y ，舍弃小数取整。

// x * 2 ** y 舍弃小数位，向整数位进1 // 9 * (2 ** 2) = 9 * (4) = 36 console.log(9 << 2) // 36 // 9 * (2 ** 3) = 9 * (8) = 72 console.log(9 << 3) // 72

>>（右移）

左移的反向操作，即向右移位，但是左侧补位的不是直接补0，而是复制最左侧位来填充。

// x / 2 ** y 舍弃小数位，向整数位进1 // -9 / (2 ** 2) = 9 / (4) = -2.25 console.log(-9 >> 2) // -3 // -9 / (2 ** 3) = 9 * (8) = -1.125 console.log(-9 >> 3) // -2 // 小数伪代码 (2.25).toString(2) // "10.01" // 0010 // 0001 // = 0011 console.log(0b10 + 0b01) // 3 (3.25).toString(2) // "11.01" // 0011 // 0001 // = 0100 console.log(0b11 + 0b01) // 4

>>>（无符号右移）

操作数向右位移，右位移出的数丢弃，左侧用 0 填充，因为用 0 填充，所以总是非，负数将变成正数。

const a = 5; // 00000000000000000000000000000101 const b = 2; // 00000000000000000000000000000010 const c = -5; // -00000000000000000000000000000101 // -5 补码 10000000000000000000000000000101 console.log(a >>> b); // 00000000000000000000000000000001 // expected output: 1 console.log(c >>> b); // 00111111111111111111111111111110 // expected output: 1073741822

二进制

转二进制

js里面怎么转二进制？
字符通过 charCodeAt 转成 Unicode 码十进制，然后通过 Number 对象 toString 方法转成不同进制。

/** * 计算字符串所占的内存字节数，默认使用UTF-8的编码方式计算，也可制定为UTF-16 * UTF-8 是一种可变长度的 Unicode 编码格式，使用一至四个字节为每个字符编码 * * 000000 - 00007F(128个代码) 0zzzzzzz(00-7F) 一个字节 * 000080 - 0007FF(1920个代码) 110yyyyy(C0-DF) 10zzzzzz(80-BF) 两个字节 * 000800 - 00D7FF 预留三个字节 * 00E000 - 00FFFF(61440个代码) 1110xxxx(E0-EF) 10yyyyyy 10zzzzzz 三个字节 * 010000 - 10FFFF(1048576个代码) 11110www(F0-F7) 10xxxxxx 10yyyyyy 10zzzzzz 四个字节 * * 注: Unicode在范围 D800-DFFF 中不存在任何字符 * @see http://zh.wikipedia.org/wiki/UTF-8 * * UTF-16 大部分使用两个字节编码，编码超出 65535 的使用四个字节 * 000000 - 00FFFF 两个字节 * 010000 - 10FFFF 四个字节 * @see http://zh.wikipedia.org/wiki/UTF-16 */ console.log('0'.charCodeAt()) // "48" 十进制 console.log('0'.charCodeAt().toString(16)) // "30" 十六进制 console.log(0x0030.toString(10)) // "48" 十进制 console.log(String.fromCharCode(48)) // "0" console.log('万'.charCodeAt().toString(16)) // "4e07" 十六进制 console.log(String.fromCharCode(0x4e07)) // "万" console.log('万'.charCodeAt().toString(2)) // "100111000000111" 二进制 console.log(String.fromCharCode(0b100111000000111)) // "万"

JavaScript里面 Number 类型是存储为双精度64位浮点数 , 但是运算转成32位。

关于浮点陷阱问题请看 JavaScript 浮点数陷阱及解法，这里不展开。

// 数字 9 的二进制 let binaryStr = parseInt(9, 10).toString(2) console.log(binaryStr) // 1001 // 上面只返回了4位，4位可以表示0-15的值，超过16位数增加 console.log(parseInt(16, 10).toString(2)) // 10000 // 补位到8位 while(binaryStr.length < 8){ binaryStr = '0' + binaryStr } console.log(Number('0b' + binaryStr)) // 9

但是上面只是单纯的进制转换，不能真正的控制二进制，如何操作二进制？那么就是下面要讲到的 ArrayBuffer 对象、 TypedArray 视图、 DataView 视图。

Note：ES6 规范新增 ArrayBuffer 对象、 TypedArray 视图、 DataView 视图，这三者是操作二进制的接口。最开始设计是为了 WebGL 通信，提升性能。

ArrayBuffer

ArrayBuffer 对象用来表示通用的、固定长度的原始二进制数据缓冲区。它是一个字节数组集合，通常在其他语言中称为“byte array”。ArrayBuffer 和 Array 不是同一个概念。所以 ArrayBuffer 只是一个指名长度，并默认填充 0 的二进制数据缓存区。

// 声明一个长度为8的字节数组(8个字节的内存缓存区)，并默认用0填充 const buffer = new ArrayBuffer(8); console.log(buffer.byteLength); // 8

无法直接操作 ArrayBuffer ，可以通过 TypedArray 和 DataView 对象来操作。

// 声明一个长度为8的字节数组， const buffer = new ArrayBuffer(8); // new TypedArray(buffer [, byteOffset [, length]]); const x = new Int8Array(buffer); // 暴露全部字节 console.log(x) // Int8Array [0, 0, 0, 0, 0, 0, 0, 0] const y = new Int8Array(buffer, 1); // 偏移1位字节 console.log(y) // Int8Array [0, 0, 0, 0, 0, 0, 0] const z = new Int8Array(buffer, 1, 4); // 偏移1位字节，暴露长度为4 console.log(z) // Int8Array [0, 0, 0, 0]

TypedArray

TypedArray 是不同类型化数组构造函数的原型( [[Prototype]] )，指定字节位读取的视图，下面列表展示不同类型化数组的数值范围、字节等。 TypedArray 默认使用系统端字节序，一般系统是小端字节序，如果想控制字节序顺序使用 DataView ，所以主要处理本地数据。

可以直接 new 一个 TypedArray 对象，该对象缓存大小是传入的 length参数 * 数组中每个元素的字节数，字节数参考上面 TypedArray 列表。

// 类型化数组长度 8 const int8 = new Int8Array(8); int8[0] = 42; console.log(int8); // Int8Array [42, 0, 0, 0, 0, 0, 0, 0] console.log(int8[0]); // 42 console.log(int8.length); // 8 console.log(int8.BYTES_PER_ELEMENT); // 1 console.log(int8.byteLength); // 8 字节长度 8 * 1

或者通过 ArrayBuffer 生成固定大小缓存区，如果传入的是 ArrayBuffer 那么不会创建新的缓冲区，而是使用传入的 ArrayBuffer 代替。

// 字节长度 8 const buffer = new ArrayBuffer(8); // 类型化数组长度 4，每个元素占2个字节 8/2 const int16 = new Int16Array(buffer); console.log(int16); // Int16Array [0, 0, 0, 0] console.log(int16.length); // 4 console.log(int16.BYTES_PER_ELEMENT); // 2 console.log(int16.byteLength); // 8

DataView

DataView 视图是可以从 ArrayBuffer 读写多种数值类型的底层接口，还可以控制整数与浮点转化、字节顺序等。所以在数据传输中更加可控、灵活，比如系统字节序不一样。

Note：setInt8、setUint8 单字节是无法控制大小端的

// 判断系统是否小端 var littleEndian = (function() { var buffer = new ArrayBuffer(2); new DataView(buffer).setInt16(0, 256, true /* 设置值时，使用小端字节序 */); // Int16Array 使用系统字节序（由此可以判断系统字节序是否为小端字节序） return new Int16Array(buffer)[0] === 256; })(); console.log(littleEndian); // 返回 true 或 false

直接通过API读取设置，相比 TypedArray 更加灵活、简单，也可创建 复合视图 （将不同类型视图组合）。

// 16个字节的缓冲区 const buffer = new ArrayBuffer(16); // 复合视图 const view = new DataView(buffer); // 32位，4个字节 view.setInt32(1, 2147483647); // (max signed 32-bit integer) // 8位，1个字节 view.setInt8(5, 34); console.log(view.getInt32(1)); // 2147483647 console.log(view.getInt8(5)); // 34

NodeJS Buffer

Nodejs 里面的 Buffer 实例也是 JavaScript 的 Uint8Array 和 TypedArray 实例。全部 TypedArray 方法在 buffer 上都是支持的。但是 Buffer API 和 TypedArray API 有细微的不兼容。具体查看 Buffers and TypedArrays。

实际使用

写了这么多，那到底实际中哪些场景可以使用？

WebGL 游戏数据处理

WebSockets、AJAX、Fetch、WebRTC 服务通信

WebUSB、WebAudio 硬件通信

Crypto 加密算法

后面会写一个游戏的运用场景，敬请期待。

中文转字节

// 字符串转utf8 unicode编码 function stringToByte(str) { const bytes = new Array(); let c; let len = str.length; for (var i = 0; i < len; i++) { c = str.charCodeAt(i); if (c >= 0x010000 && c <= 0x10FFFF) { // 4个字节范围 bytes.push(((c >> 18) & 0x07) | 0xF0); bytes.push(((c >> 12) & 0x3F) | 0x80); bytes.push(((c >> 6) & 0x3F) | 0x80); bytes.push((c & 0x3F) | 0x80); } else if (c >= 0x000800 && c <= 0x00FFFF) { // 3个字节范围 bytes.push(((c >> 12) & 0x0F) | 0xE0); bytes.push(((c >> 6) & 0x3F) | 0x80); bytes.push((c & 0x3F) | 0x80); } else if (c >= 0x000080 && c <= 0x0007FF) { // 2个字节范围 bytes.push(((c >> 6) & 0x1F) | 0xC0); bytes.push((c & 0x3F) | 0x80); } else { // 1个字节范围 bytes.push(c & 0xFF); } } return bytes; }

charCodeAt 获取到值的范围 0～65536 ，按8 bits切成4个字节。

字节转整数

4个字节数，每个 byte 即 8 bits （可能是通过汉字的值的每个 8 bits 转过来的），所以可以表示的数值范围是 0~255 ，每个值的二进制8位。
& 0xFF 将最高有效8位之外置 0
<< 取是截取对应的位数
| 将后面1个字节位合并（即数值相加）

// 转成有符号整数 0xFFFFFFFF // 无符号 4294967295 有符号 -1 (0xFFFFFFFF).toString(2) // 11111111111111111111111111111111 // 通过 & 变成32位整数（有符号），并确保不会超过js整数的有效范围 n & 0xffffffff

// convert 4 bytes to unsigned integer // 如果已经转成8位字节（0～255），可不用& 0xff function byteToInt(bytes, off) { off = off ? off : 0; const b = ((bytes[off + 3] & 0xFF) << 24) | ((bytes[off + 2] & 0xFF) << 16) | ((bytes[off + 1] & 0xFF) << 8) | (bytes[off] & 0xFF); return b; }

也可以使用 ArrayBuffer、DataView 来实现

// 初始化视图 0偏移大端 function getView(bytes){ var view = new DataView(new ArrayBuffer(bytes.length)); for (var i = 0; i < bytes.length; i++) { view.setUint8(i, bytes[i]); } return view; } // 读取32位有符号整数 function toInt32(bytes){ return getView(bytes).getInt32(); }

JavaScript里面的二进制

基础知识点

ECMAScript中的进制

原码、反码、补码

字节序

什么是字节？

什么是字节序？

位运算

&（按位与）

|（按位或）

～（按位非）

^（按位异或）

<<（左移）

>>（右移）

>>>（无符号右移）

二进制

转二进制

ArrayBuffer

TypedArray

DataView

NodeJS Buffer

实际使用

中文转字节

字节转整数

你可能感兴趣的:(前端,javascript,二进制,位运算,字节序)