文本文件和二进制文件的判别

作为程序员,从第一次接触编程开始,就知道了文件的两大类别:文本文件和二进制文件。但是,如何定义和判别这两类文件,在我的知识体系里,却一直是模糊的。直觉上,用文本方式读写的文件一定是文本文件,用二进制方式读写的文件一定是二进制文件,然而,用 notepad++ 照样可以打开甚至编辑一个 .jpg 文件或者一个 .xls 文件。

事实上,不管是文本文件还是二进制文件,在物理存储上都是二进制的。二者之间的区别不是物理层面的,而是逻辑层面的。文本文件是基于字符编码的文件,常见的编码有 ASCII 编码,UTF 编码等等。二进制文件是基于值编码的文件,你可以根据具体应用,指定某个值是什么意思(可以看作是自定义编码)。

在很多文档处理的应用中,我们需要判别某个文件是文本文件还是二进制文件。如果单从文件的扩展名来判别,自然是最简单的,但结果未必是正确的。我们重点讨论通过文件内容来判别。

适用于 py2 的方法:

import string

def isText(content):
	"""判断文件是文本还是二进制"""
	
	if "\0" in content:
	    return False
	
	text_characters = ''.join(map(chr, range(32, 127)) + list("\n\r\t\b"))
	_null_trans = string.maketrans("", "")
	
	t = content.translate(_null_trans, text_characters)
	if float(len(t))/float(len(content)) > 0.30:
	    return False
	else:
	    return True

适用于 py3 的方法:

def isText(content):
    """判断文件是文本还是二进制"""
    
    if b'\0' in content:
        return False
    
    text_characters = ''.join(list(map(chr, range(32, 127))) + list('\n\r\t\b'))
    _null_trans = b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff'
    
    t = content.translate(_null_trans, text_characters.encode())
    if float(len(t))/float(len(content)) > 0.30:
        return False
    else:
        return True

你可能感兴趣的:(python论道)