Python在处理字符串问题,常常会遇到字符串编码的问题。chardet是一个非常优秀的编码识别模块。
能够识别的格式有:
TIS-620 (Thai)
chardet 是python的第三方库,需要下载和安装。
官网下载地址:https://pypi.python.org/pypi/chardet
Mac 下Python已经集成在系统中,OS X Yosemite 10.10 版本的系统Python的版本为Python2.7 。 Python的安装目录在/usr/bin/python
, 库目录在/Library/Python/2.7/site-packages/
中。
将下载的chardet-2.3.0.tar.gz解压,然后复制到Python的库目录中。
# sudo cp -rf chardet /Library/Python/2.7/site-packages/
mac下需要使用sudo加权限。
import chardet
import urllib
#可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
结果表示有99%的概率认为这段代码是utf-8编码方式。