dom4j解析xml文档时的字符引用(数字实体)问题及初步分析。

xml中的字符引用 也叫作字符 实体编号实体 ,例如我们可以

 
& //显示一个and符号——&   

也可以 

&# 38 //也是显示一个and符号——&   

第二种方式就叫做编号实体 ,在xml规范中定义了5个实体: 

>    >    >    >    >   

我们可以通过名称quot、amp……来引用,也可以通过数字34、38……来引用。平时常用的(定义在HTML中的)实体还有: 

>       >     

我的问题是,在dom4j 使用SAXReader解析xml文档时,其中的字符实体 、©都会变成问号——?,理论上来说 这里的数字(160、169)是字符在编码表中的(十进制)编码值,我给SAXReader设置的encoding是utf-8,难道unicode中没有160、169这两个值?

不知道大家是否有遇到这样的问题,有没有什么解决方法或思路?

你可能感兴趣的:(Java学习,XML,HTML)