用httpclient-4.0-alpha2 打造基于http协议的网站分析器

  该项目目的是给需要用java技术分析网站元素信息并可执行JS脚本的一个开发型的轻量级JAVA浏览器。为什么叫浏览器,是因为这个项目的最终目的是要向IE等浏览器看齐,当然这个任务是很复杂的。
  首先你得先了解几个JAVA包的功能和特性。
  HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient,然后根据作者实际工作经验给出了一些常见问题的解决方法。
  1.HttpClient简介:
  HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient,更多使用 HttpClient 的应用可以参见http://wiki.apache.org/jakarta-httpclient/HttpClientPowered。HttpClient 项目非常活跃,使用的人还是非常多的。目前 HttpClient 版本是httpclient-4.0-alpha2。
  HttpClient 功能介绍
  以下列出的是 HttpClient 提供的主要的功能,要知道更多详细的功能可以参见 HttpClient 的主页。

  实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等)
  支持自动转向
  支持 HTTPS 协议
  支持代理服务器等

  HttpClient 可以在http://jakarta.apache.org/commons/httpclient/downloads.html下载

  2.NekoHTML
  J. Andrew Clark用Java写了一系列的工具(Java APIs),NekoHTML是其中之一。
  NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。
   使用NekoHTML:

   a.透明地创建HTML解析器
  利用Xerces2.0为基础,应用程序通过JAXP实例化解析器对象时,可以透明地创建HTML解析器,此时只需要将NekoHTML的jar文件,在CLASSPATH中放在Xerces的jar文件之前即可。nekohtmlXni.jar中的META-INF/services/org.apache.xerces.xni.parser.XMLParserConfiguration文件会被Xerces的读取并取代标准的设置文件,此处org.apache.xerces.xni.parser.XMLParserConfiguration文件的内容就是一个字符串“org.cyberneko.html.HTMLConfiguration”。这种方法的好处是简单透明,缺点是影响了Xerces在其它情况下的使用。

    b.便利的HTML解析器类
  要想避免上述的问题,可以使用org.cyberneko.html.parsers包的DOM和SAX解析器类来创建解析器,这两个类都使用了HTMLConfiguration类。解析器一旦创建之后,就可以解析HTML文件,并用标准的XML接口来访问文件中的信息,就象面对的是一个XML文件一样。

  3.由mozilla提供的脚本运行器
   在java下也有不少脚本引擎,像什么什么的——都没记住,不过最后还是选择了执行javascript脚本的引擎rhino,原因很简单,javascript脚本我会用,且据说rhino执行效率还行。rhino的下载地址:http://www.mozilla.org/rhino/download.html。
  大家可以参考:http://www.mozilla.org/rhino/
  我已经将已经开发的项目代码发布出来了,有兴趣的可以一起参与讨论!

 

你可能感兴趣的:(apache,应用服务器,浏览器,网络协议,脚本)