pack/unpack函数与二进制

背景

我们都知道在计算机内部数据都是二进制存储。但写PHP的同学平时接触二进制是少之又少,原因有二:

  1. 脚本语言的弱变量类型,就算不了解变量存储也能写CRUD 。
  2. 基本不接触网络通信编程,用得最多的还是文本类协议。

但二进制作为计算机基础知识,我们还是需要掌握的。

从一道题目说起

这是我在别处看到的一道题目,具体是这样的:把数据1000(一千)存入文本,要求占用尽量少的空间。
题目很明确,先看第一句,“把1000存入文本”,我们马上可以写出这样的代码:

打开data.txt文件,里面存了一个“1000”。用ls命令可以看到占了4 bytes:

ll data.txt
-rw-r--r--  1 www  www     4B  3  6 10:16 data.txt

为什么是4 bytes?因为把1000按字符串存,一共4个字符,刚好4 bytes。
但是,题目的第二个要求是“占用尽量少的空间”。一个"1000"用了4 bytes,显然是不符合要求的。

我们换个思路:
1000转为二进制是00000011 11101000,一共才16 bits,理论上可以用2 bytes存储。所以解决方案出来了,我们需要把1000转为二进制。这时候就要用到PHP的pack函数。代码如下:

再打开data.txt文件,我们看到的是一个“乱码”:



ls看文件大小:

ll data.txt
-rw-r--r--  1 www  www     2B  3  6 10:16 data.txt

符合预期,只用了2 bytes就把1000存进去了。千万别小看从4 bytes到2 bytes,它节省的是50%空间。
那么如何把这个“乱码”还原成1000?使用unpack函数即可,如下:

关于pack/unpack函数

这两个函数有一堆的格式选项,而且示例相对较少:



不用慌,其实一共就分为两类:

  1. 字符处理(a/A、h/H、Z ...)
  2. 数值处理(c/C、s/S、n/N ...)

了解字节序(大小端)有符号无符号,基本可以把这些格式掌握。

网上也有些资料可参考:
http://www.perlmonks.org/?node_id=224666(pack/unpack是perl移植过来的,可以直接看perl文档)
https://segmentfault.com/a/1190000008305573(国人写博客,比较详细)

你可能感兴趣的:(pack/unpack函数与二进制)