GZIP_MAGIC字段

曾遇到过一个特殊的文件,格式未知,就特地搜索了一下文件前面的两个字节,是0x8B1F(就是通常所说的magic number了),猜测极有可能是GZip了,不过解压的时候CRC校验失败了。

GZip常用于服务器像浏览器传送数据时进行数据压缩处理,类似的技术还有Defalte,小站就采用了这样的技术,加快页面的响应请求。在发送GET请求时,如果指明支持GZip或Deflate,如“Accept-Encoding:gzip, deflate”,那么实际传送过来的数据就是经过了压缩处理的,如果是浏览器,一般会自己解压缩;如果是写程序的话就需要自己解压缩了,否则就是一堆乱码了。

简单python脚本解压缩GZip数据:

#!/usr/bin/python# -*- coding:utf-8 -*- 

import sys

import gzipfrom StringIO 

import StringIO 

if __name__ == "__main__":  

if len(sys.argv) != 3:  

print "Command line parameters error."  

print "Usage: UnGzip.py GzipFilePath ResFilePath"  

sys.exit(1)   

try:  

srcfile = open(sys.argv[1], "rb")  

srcdata = srcfile.read()  

buf = StringIO(srcdata) 

f = gzip.GzipFile(fileobj = buf)  

resdata = f.read()   

resfile = open(sys.argv[2], "wb")  

resfile.write(resdata)   

srcfile.close()  

resfile.close()  

except:  

import traceback  

import sys  

import StringIO  

f = StringIO.StringIO()  

traceback.print_exc(file=f)  

print f.getvalue()  

sys.exit(1)

关于GZip格式的RFC文档:http://www.ietf.org/rfc/rfc1952.txt

转自:程序人生 >> GZip magic标志0x8B1F 

小结:java解压Gzip数据方法:

protected static byte[] unPack(byte[] b) {
if (b == null || b.length == 0) {
return null;
}
ByteArrayOutputStream out = new ByteArrayOutputStream();
ByteArrayInputStream in = new ByteArrayInputStream(b);
try {
GZIPInputStream gunzip = new GZIPInputStream(in);
byte[] buffer = new byte[256];
int n;
while ((n = gunzip.read(buffer)) >= 0) {
out.write(buffer, 0, n);
}
return out.toByteArray();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}

你可能感兴趣的:(浏览器,python,null,buffer,Parameters,byte)