WebHarvest(1)

最近准备写个爬虫程序,今天看了下,貌似有个WebHarvest是开源的,下载了看看,稍微看了下他的代码,感觉他对配置文件的处理挺好的。
在正常情况下,处理配置文件,我们可以用dom4j或者jdom啥的来解决,但是因为WebHarvest中的配置文件会有N种不同的类型,如果按照以前的那种解析方式,就会产生N多的判断条件。
在WebHarvest中,他通过jdk自带的javax.xml.parsers.SAXParser来解析,
  SAXParser parser = parserFactory.newSAXParser();
  parser.parse(in, handler);
这里的handler就是实现了org.xml.sax.helpers.DefaultHandler,这样将所有的element的信息放入到XMLNode中,再根据这些元素的name来产生他们的definition,当需要处理每个element的时候,process根据definition来产生.
其实这种框架的搭建方式在socket的处理上会经常用到,比如我们以前公司的短信平台,运营商发过来个消息,将消息进行封装,再根据消息的commandID,来产生这个消息definition,最后根据这个definition来决定丢给谁去处理。
  明天有时间的话,再看看他对XQuery和每个process是如何处理的。最近太无聊了~~~~~~~~~~~~~~~~~~~~~~~~~~

你可能感兴趣的:(jdk,xml,框架,socket)