DOM4J的特殊字符转义方法

 

[java]  view plain copy
  1. Dom4j格式化转义字符问题  
  2.    
  3. 1、不得不说的XML CDATA部件  
  4.    
  5. 在XML文档中的所有文本都会被解析器解析。  
  6.    
  7. 只有在CDATA部件之内的文本会被解析器忽略。  
  8.    
  9. 不合法的XML字符必须被替换为相应的实体。  
  10.    
  11. 如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。  
  12.    
  13. < < 小于号   
  14. > > 大于号   
  15. & & 和   
  16. ' ' 单引号   
  17. " " 双引号   
  18.   
  19.   
  20. 实体必须以符号"&"开头,以符号";"结尾。   
  21. 注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。  
  22.   
  23. CDATA部件  
  24. 在CDATA内部的所有内容都会被解析器忽略。  
  25. 如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。  
  26. 一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束:  
  27.   
  28. CDATA注意事项:  
  29. CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,将很有可能出错哦。  
  30. 同样要注意在字符串"]]>"之间没有空格或者换行符。  
  31.    
  32. 2、Dom4j格式化转义字符问题  
  33.    
  34. person.xml  
  35. <?xml version="1.0" encoding="UTF-8"?>   
  36. <person>   
  37.         <name>张三</name>   
  38.         <addr><![CDATA[经三路<鑫苑>19F]]></addr>   
  39. </person>   
  40. 上面的XML在被Dom4j格式化的时候,自动会被转义,转义后的内容如下:  
  41. <?xml version="1.0" encoding="GBK"?>  
  42. <person>  
  43.   <toname><![CDATA[经三路<鑫苑>19F]]></toname>  
  44. </person>  
  45.   
  46.    
  47. 这样,显然不是想要的结果,因为CDATA不需要再转义了。如何处理该问题,看下面的程序的处理:  
  48. import org.dom4j.Document;   
  49. import org.dom4j.DocumentHelper;   
  50. import org.dom4j.Element;   
  51. import org.dom4j.io.OutputFormat;   
  52. import org.dom4j.io.XMLWriter;   
  53.   
  54. import java.io.IOException;   
  55. import java.io.StringWriter;   
  56. import java.util.Date;   
  57.   
  58. /**  
  59. * Created by IntelliJ IDEA.  
  60.  
  61. * @author leizhimin 2010-7-10 16:03:39  
  62. */   
  63. public class Person {   
  64.         private String name;   
  65.         private String addr;   
  66.   
  67.         public Person(String name, String addr) {   
  68.                 this.name = name;   
  69.                 this.addr = addr;   
  70.         }   
  71.   
  72.         public static void main(String[] args) {   
  73.                 Person p = new Person("张三""经三路<鑫苑>19F");   
  74.                 p.showXml();   
  75.         }   
  76.   
  77.         public void showXml() {   
  78.                 String xml1, xml2, xml3;   
  79.                 Document doc = DocumentHelper.createDocument();   
  80.                 doc.setXMLEncoding("GBK");   
  81.                 Element root = doc.addElement("person");   
  82.                 if (addr != null)   
  83.                         addElement(root, "toname""<![CDATA[" + this.addr + "]]>");   
  84.                 else   
  85.                         addElement(root, "toname"this.addr);   
  86.   
  87.                 xml1 = doc.asXML();                                        //默认转义   
  88.                 xml2 = formatXml(doc, "GBK"true);        //转义   
  89.                 xml3 = formatXml(doc, "GBK"false);     //不转义   
  90.                 System.out.println(xml1);   
  91.                 System.out.println("-------------------------");   
  92.                 System.out.println(xml2);   
  93.                 System.out.println("-------------------------");   
  94.                 System.out.println(xml3);   
  95.         }   
  96.   
  97.         /**  
  98.          * 在指定的元素下添加一个新的子元素  
  99.          *  
  100.          * @param e         父元素  
  101.          * @param name    子元素名  
  102.          * @param value 子元素值  
  103.          * @return 新加子元素  
  104.          */   
  105.         public static Element addElement(Element e, String name, Object value) {   
  106.                 Element x = e.addElement(name);   
  107.                 if (value == null || "".equals(value.toString().trim())) {   
  108.                         x.setText("");   
  109.                 } else if (value instanceof Date) {   
  110.                         x.setText(DateToolkit.toISOFormat((Date) value));   
  111.                 } else {   
  112.                         x.setText(value.toString());   
  113.                 }   
  114.                 return x;   
  115.         }   
  116.   
  117.         /**  
  118.          * 格式化XML文档  
  119.          *  
  120.          * @param document xml文档  
  121.          * @param charset    字符串的编码  
  122.          * @param istrans    是否对属性和元素值进行转移  
  123.          * @return 格式化后XML字符串  
  124.          */   
  125.         public static String formatXml(Document document, String charset, boolean istrans) {   
  126.                 OutputFormat format = OutputFormat.createPrettyPrint();   
  127.                 format.setEncoding(charset);   
  128.         format.setIndentSize(2);    
  129.         format.setNewlines(true);   
  130.         format.setTrimText(false);   
  131.         format.setPadText(true);    
  132. //以上4行用于处理base64图片编码以后放入xml时的回车变空格问题      
  133.                   StringWriter sw = new StringWriter();   
  134.                 XMLWriter xw = new XMLWriter(sw, format);   
  135.                 xw.setEscapeText(istrans);   
  136.                 try {   
  137.                         xw.write(document);   
  138.                         xw.flush();   
  139.                         xw.close();   
  140.                 } catch (IOException e) {   
  141.                         System.out.println("格式化XML文档发生异常,请检查!");   
  142.                         e.printStackTrace();   
  143.                 }   
  144.                 return sw.toString();   
  145.         }   
  146. }   
  147. 输出结果:  
  148. <?xml version="1.0" encoding="GBK"?>  
  149. <person><toname><![CDATA[经三路<鑫苑>19F]]></toname></person>  
  150. -------------------------  
  151. <?xml version="1.0" encoding="GBK"?>  
  152. <person>  
  153.   <toname><![CDATA[经三路<鑫苑>19F]]></toname>  
  154. </person>  
  155. -------------------------  
  156. <?xml version="1.0" encoding="GBK"?>  
  157. <person>  
  158.   <toname><![CDATA[经三路<鑫苑>19F]]></toname>  
  159. </person>  
  160.   
  161. Process finished with exit code 0  
  162.    
  163. 可以看出,最后一种输出是真正想要的结果。  
  164.    
  165. 因此,要控制转义的问题,必须对XML重新格式化,格式化的时候,需要设置:  
  166.         xw.setEscapeText(false);  
  167.   
  168. 本文出自 “熔 岩” 博客,请务必保留此出处http://lavasoft.blog.51cto.com/62575/347348  

你可能感兴趣的:(DOM4J的特殊字符转义方法)