解决使用dom4j生成xml会出现中文乱码的问题

在使用dom4j生成xml文件时,如果设置编码为gbk,如下面的代码,则不会出现中文乱码

OutputFormat format = OutputFormat.createPrettyPrint();  
            format.setEncoding("gb2312");
XMLWriter output = new XMLWriter(new FileWriter("event.xml"), format);
output.write(document);  
output.close();

这时,生成的xml头文件为 “<?xml version="1.0" encoding="gb2312"?>”

但要将format编码设置为utf-8时,则会出现问题,即用文本文档打开生成xml,中文不会出现问题,但用高级记事本编辑器,如editplus和eclipse打开时,都会出现中文乱码,此时xml的头文件为

<?xml version="1.0" encoding="UTF-8"?>

XML文件头部的encoding="utf-8"是告诉编辑器以什么编码方式解析文件内容,但改成utf-8出现乱码是因为:由于FileWriter默认的输出编码是ANSI编码,而Dom4j中的wirte方法提供的内容实际是以UTF-8保存的,因此造成了包括中文字符的XML文件无法正常阅读

所以可以修改为:

OutputFormat format = OutputFormat.createPrettyPrint();  
java.io.OutputStream out = new java.io.FileOutputStream("event.xml");
java.io.Writer wr = new java.io.OutputStreamWriter(out, "UTF-8");
XMLWriter output = new XMLWriter(wr,format); 
 output.write(document);  
 wr.close();
 out.close();            
 output.close();  

 其实就是用可改变编码的OutputStreamWriter代替了普通的FileWriter,就是这么简单。

你可能感兴趣的:(dom4j,java io)