HTMLParser Java HTML 解析框架

最近要做一个Java整站保存程序,在网上找了很多都不理想,只想自己做一个。本人对于正则表达相当弱,只能要网上找框架,所以找到HTMLParser,试用了一下,感觉还不错。

 

这里HTMLParser在SourceForge上的下载地址:

 

http://sourceforge.net/projects/htmlparser/files/

 

String htmlcode = sb.toString();
NodeFilter filter = new NodeClassFilter(LinkTag.class);
Parser parser = new Parser();
parser.setInputHTML(htmlcode);
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {
	LinkTag node = (LinkTag) list.elementAt(i);
	System.out.println(node.getLink());
}

 

这是我想做的整站保存程序的一段代码,获取我得到的HTML代码的所有链接,这样我可以沿着这个链接爬下去。

你可能感兴趣的:(java,html,框架,.net)