Java实例:SAX characters方法读取内容不完整

SAX characters(char ch[],int start,int length) 并不一定就能完整的表示 元素的值. 如果xml文档交长, 有可能一个元素的值会被分两次读入,所以如果只适用上面的方法去获得元素的值,很可能得到的不完整的数据.

SAX可能容易忽略characters这个回调方法的一点细节,characters会在startElement和endElement之间调用多次,不能保证一次会返回整个文本块,所以必须等待endElement的时候才可以认为这个文本结点结束。

1.案例:

i love   you, why i have no girlfriend

在用SAX处理的过程中,DefaultHandler中的处理结果可能是这样的:

startElement : line

characters: i love you,why 

characters:i have no girlfriend

endElement:line

 

2.原因:

SAX parser 分块读取流, 默认为一次读取2K字节. (ch 里面不仅包含元素的值信息,其实它是整个xml文档的一个部分,也就是说,分析器每次从文档中读取2K字节,放到这个数组中,然后通过start和length来划分出属于value的部分.这样的话,不能保证最后一个元素的值是完全被包含在这个ch中的).所以我们还是要进行一些额外的操作才能通过 characters(char ch[],int start,int length)获得完整的element value.       Parser每次读取2K字节去填充ch. 填充顺序是从开头到结尾来覆盖原有的值, 所以在最后一次读取文档的时候,可能剩余部分不足2K,所以就会出现ch 中,前半部分是 文档的末尾部分, 而ch后半部分还有多余的信息,这个是倒数第二个ch中未被覆盖掉的部分。

3.解决办法方法:

所以你应该使用StringBuilder缓存,

在startElement的时候调用sb.setLength(0);

每次characters时调用sb.append(ch, start, length);

在endElement的时候才调用String str = sb.toString()

转载:http://blog.sina.com.cn/s/blog_b66c26ad0102woqi.html

 

你可能感兴趣的:(Java)