HtmlParser的简单应用

1.HtmlParser获得页面所有链接的两种形式

public static void main(String[] args) {
		Parser parser = new Parser();
		try {
			parser.setURL("http://www.baidu.com");
			parser.setEncoding(parser.getEncoding());
			NodeVisitor visitor = new NodeVisitor(){
				public void visitTag(Tag tag){
					if(tag instanceof LinkTag){
						System.out.println(((LinkTag) tag).extractLink());
					}
				}
			};
			parser.visitAllNodesWith(visitor);
		} catch (ParserException e) {
			e.printStackTrace();
		}
	}

public static void main(String[] args) {
		NodeFilter filter = new NodeClassFilter(LinkTag.class);
		Parser parser = new Parser();
		try {
			parser.setURL("http://www.taobao.com");
			parser.setEncoding(parser.getEncoding());
			NodeList list = parser.extractAllNodesThatMatch(filter);
			for(int i=0;i<list.size();i++){
				LinkTag node = (LinkTag) list.elementAt(i);
				System.out.println(node.extractLink());
			}
		} catch (ParserException e) {
			e.printStackTrace();
		}
		
	}

你可能感兴趣的:(爬虫,HtmlParser,获得页面链接,页面链接)