HtmlCleaner

HtmlCleaner

 

 

       HtmlCleaner 是一个开源的Java 语言的Html 文档解析器。HtmlCleaner 能够重新整理HTML 文档的每个元素并生成结构良好(Well -Formed )的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner 也可用在Java代码中,当命令行工具或Ant任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM 或者JDom 标准文档,或者通过各种方式(压缩,打印)连续输出XML

 

 

项目位置 :http://htmlcleaner.sourceforge.net/

 

类API http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/HtmlCleaner.html

 

 

 

 


HtmlCleaner_第1张图片

 


HtmlCleaner_第2张图片

 

 

HtmlCleaner htmlcleaner = new HtmlCleaner();
	TagNode root = htmlcleaner.clean(file);
	Object[] objs = root.evaluateXPath("//div[@class=\"lockup small detailed option application\"]");
	int weight=200;
	for (int j = 0; j < objs.length; j++) {
		TagNode tn = (TagNode) objs[j];
		TagNode a = (TagNode) (tn
				.evaluateXPath("//a[@class=\"artwork-link\"]")[0]);
		String href = a.getAttributeByName("href");
		href = href.substring(href.lastIndexOf("/") + 3,
				href.lastIndexOf("?"));

		String id = href;
		String name = ((TagNode) (tn.evaluateXPath("//li[@class=\"name\"]")[0])).getText().toString();
		System.out.println("id=" + id + ",name=" + name+",weight="+(weight-j));
	}
 

 

跟据规则去各种找、速度很快

 

 

下载jar地址 :http://htmlcleaner.sourceforge.net/download.php

你可能感兴趣的:(html)