亲测各种java的html解析器 目标:解析成Document并且能使用XPathAPI, Cobra胜出

正在做一个网站分析工具,需要一个html解析器,目标是解析html文档到org.w3c.dom.Document,并且要能使用XPathAPI 进行节点查找。

今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。

列一下今天侧过的开源库:
Cobra 很不错,能完成任务
HTML Parser 不能解析成Document
Java HTML Parser 不太记得了,不过也不好用
Java Mozilla Html Parser 使用了本地库,但是居然解析出来的Document不能用XPathAPI查找
NekoHTML 这个是HTMLUnit在用的库,可以解析出Document,但是一部分网页不能用XPath查找
Jericho HTML Parser 可以解析出Document,但是一部分网页不能用XPath查找
JTidy 不能解析出Document
VietSpider HTMLParser 不太记得了,不过也不好用

你可能感兴趣的:(java,html)