jsoup 获取文档不全的解决方法

jsoup是个好东东,有了它,再也不用从底层开始解析html文档了,而且如果文档是xml或者json的,利用它做转换也是极好极方便的,而且如果你访问的url存在302跳转,他回直接解析跳转后的内容,太强大了,不过在解析html的时候我发现了一个问题,代码如下



Document doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true)..get();

JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());


我发现返回的数据总是不全,大概是1024*1024的长度,我在浏览器直接调用此接口返回的文档是完整的,但是用jsoup确实半截文档,我怀疑jsoup的内部的问题,或来我调试追踪代码,追踪到如下文档,在HttpConnection中

dataStream = conn.getErrorStream() != null ? conn.getErrorStream() : conn.getInputStream();
bodyStream = res.hasHeaderWithValue(CONTENT_ENCODING, "gzip") ?
new BufferedInputStream(new GZIPInputStream(dataStream)) :
new BufferedInputStream(dataStream);

res.byteData = DataUtil.readToByteBuffer(bodyStream, req.maxBodySize());

玄机就在req.maxBodySize();中,我看了一下maxBodySize初始化的代码,原来默认的是1024*1024,so ga,终于找到问题原因了,直接把代码改成如下代码



Document doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true).maxBodySize(Integer.MAX_VALUE).get();

JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());


运行ok,搞定

你可能感兴趣的:(jsoup)