python3.6中GB2312格式XML文件读取

我的目的是使用xml.dom.minidom中的parse方法直接读入xml文件

但是我的数据集里除了utf-8格式还有gb2312格式,parse方法并不支持gb2312格式,所以在网上找了很多方法将utf-8格式xml转成gb2312格式xml,经过我的整合和测试,将我的的方法分享一下。

tips:

1.直接修改XML的encoding头部是错误的。

2.直接按二进制方式读取然后使用utf-8方式encode也不行

3.需要结合上面两个步骤,先修改encoding头,再encode

4.python3.6中不能使用 str.decode("gb2312").encode("utf-8")方式,会出现attribute错误,py3中字符串没有decode属性

def replaceXmlEncoding(filepath):
    try:
        f = open(filepath, mode='r')
        content = f.read()#文本方式读入
        content = re.sub("GB2312", "UTF-8", content)#替换encoding头
        f.close()
        f = open(filepath, 'w')#写入
        f.write(content)
        f.close()
        f = codecs.open(filepath, 'rb', 'mbcs')#二进制方式读入
        text = f.read().encode("utf-8")#使用utf-8方式编码
        f.close
        f = open(filepath, 'wb')#二进制方式写入
        f.write(text)
        f.close()
    except:
        return

你可能感兴趣的:(python学习)