一、背景
 
在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。那么如何采集有用的信息呢?现在有RSS、博客等服务,但是并不能完全满足我们的需求,因为很多信息并不是以格式化的数据形式提供出来,于是聪明的工程师想出了精确搜索的方法,从而出现大量的垂直搜索网站(比如酷讯),确实火了一把。当然我们无法得知他们是怎么实现的,但是我们也可以实现这种精确采集,开源的Web-Harvest就是类似的技术,之前曾经接触过,故写出来分享给大家。
 
二、WebHarvest简介
 
Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面,它也能通过写自己的Java 方法来轻易扩展其提取能力。
Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程,每一个处理器被看作是一个函数,它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执行,此外为了更易于数据操作和重用, Web-Harvest 还提供了变量上下方用于存储已经声明的变量。以下的图表就描述了这种管道式处理器的执行情况 :
基于Web-Harvest精确采集互联网的数据_第1张图片上述流程的执行结果可以存储在执行中创建的文件中或者是编程时的上下文环境中使用。
 
一、 配置语言
 
每个提取过程都被定义在了一个或多个基于 XML 的配置文件中,而且被描述为特定的或是结构化的 XML 元素中。为了更好地说明,下面列举了一个配置文件来进行说明:
 
 
         页面爬取开始 , 按照关键词:“玩具”来搜索 –>
        
                 
                            玩具 “/>
                 
        
 
         获取竞价排名的企业网站列表 –>
        
                 
                           
                 
        
 
         循环 urlList ,并把结果写入到 XML 文件中 –>
   
        ]]>
       
           
           
               
                   
                   
                            declare variable $item as node() external;
 
                            let $name := data($item//span/font[1]/text()[1])
                            let $url := data($item//span/font[2]/text())
                                return
                                   
                                        {normalize-space($name)}
                                        {normalize-space($url)}
                                   
                    ]]>
               
           
       
        ]]>
   
 
 
上述的配置文件包含了三段。
 
第一段的执行步骤:
1. 下载 http://www.baidu.com/s?wd=玩具 里面的内容;
2. 清除下载内容里面的 HTML 以产生 XHTML;
3.
 
第二段的执行步骤:
1. XPath 表达式从所给的 URL 里面提取搜索结果;
2. 用一个新的变量“ urlList ”来保存上面的搜索结果;
 
第三段是利用上一段的搜索结果来提取相应的信息:
1. 循环里面迭代每一个 item
2. 获取每个 item name url
3. 将其保存在文件系统里;
 
 
有了配置文件(把该配置文件保存为 :baidu.xml ),我们再往前一步,写几行代码:
 
import java.io.IOException;
import org.webharvest.definition.ScraperConfiguration;
import org.webharvest.runtime.Scraper;
public class Test {
    public static void main(String[] args) throws IOException {
        ScraperConfiguration config = new ScraperConfiguration(”c:/baidu.xml”);
        Scraper scraper = new Scraper(config, “c:/tmp/”);
        scraper.setDebug(true);
       
        long startTime = System.currentTimeMillis();
        scraper.execute();
        System.out.println(”time elapsed: ” + (System.currentTimeMillis() - startTime));
       
    }
}
让我们执行一下,看看结果:
        
                   上海
                   www.liqiang-toy.com
        
        
                   多样型
                   www.yonglangplay.com
        
        
                   卡通
                   www.tbs88.com
        
        
                   芝麻
                   c49.txooo.js.cn
        
        
                   童博士
                   www.cfsj8.cn
        
        
                   充气
                   www.xmcaili.com
        
        
                   木制
                   www.tengyuetoys.com
        
        
                   米多迪
                   b146.txooo.com
        
 
是不是很酷。爬虫就这么简单。
 
二、 深入考虑
 
不知道大家看到上面的配置、代码和结果是否感觉很熟悉。是否和 Java 通过 Ibatis 读取数据库数据的方式类似。
那我们是否可以实现这样的机制呢,把整个互联网作为我们的庞大的数据库,我们随意的读取。
        
Web-Harvest 提供了一个 ScraperContext , 可以在该上下文中设置 Java 对象,可以通过 Java 对象收集相应的结果数据,(比如:设置 Map, 可以通过 Map 收集数据)
 
Scraper 提供了这样的方法:
    scraper.getContext().put(“resDataSet”new ResultDataSet());  
ResultDataSet 是收集数据的 Java 对象。
那么我们就可以这么做:
a)   首先设置要访问的网页的路径
scraper.getContext().put(“startPageHref”, “http://www.baidu.com/s?cl=3&wd= 儿童玩具 “);  
b)   第二步,设置要收集返回数据的容器
scraper.getContext().put(“resDataSet”new ResultDataSet());  
c)   在配置文件中就可以这样设置数据
${resDataSet.addRecord(“searchResult”,“totalSearchResult”,totalSearchResult)}; 
d)   爬取操作执行完毕后,即可返回数据:
ResultDataSet resultDataSet = (ResultDataSet)scraper.getContext().get(“resDataSet”);  
Ok ,我们就可以随心所欲的使用这些数据,详细请看附件。
 
三、 分页机制处理
a)         来由介绍
现在的信息量很大,在展示的时候都是通过分页处理的。比如:
基于Web-Harvest精确采集互联网的数据_第2张图片a)         实现机制
那我们怎么处理呢?分页提取数据我们得明确几件事情
1.         分页器的处理,比如:页码、页大小、记录数或页数。
2.         “下一页”的地址的构造
3.         每页数据的爬取
 
不同的网站的分页机制都不一样,我们如何处理呢?当然我们不能通过硬编码的方式来处理,我们就通过Web-Harvest的配置文件来实现。
        
 
         Web-Harvest 本身的配置文件结构为:
                  
                            配置信息
                  
        
         对这个结构进行扩展:
        
  生成分页器配置 –>
 
          配置信息
 
  组装下一页地址 –>
 
          配置信息
 
  抓取列表数据 –>  
 
          配置信息
 
        
         我们就可以通过三个config项来处理
l  第一步,通过 id=”pagination” 配置生成分页器
l  第二步,通过已经生成的分页器加上 id=”urlnav” 配置构造下一页的URL
l  第三步,通过 id=”listData” 配置提取需要的数据
一、Web-Harvest的优缺点
优点:
l  Web-Harvest是一个使用比较方便的抓取信息的API库,目前是1.0版本
l  扩展性好,只要修改配置文件即可
l  上手较快,使用方便。
l   
 
缺点:
l  处理过程比较多,对应的速度较慢
 
二、其他使用过或者正在尝试的精确抓取数据的方式
a)         使用HTMLParser
HTMLParser可以分析HTML 源码中的TAG(比如TableDIV等),还可以自己定义TAG(比如:ENET),通过查找特定的Tag,提取相应的数据。由于没有很多的中间处理过程,速度较快,缺点是有很多的硬编码,难以扩展。或许能找出一个特定的表达式可以快速的提取数据。
b)         使用HTMLClean
该方式还是走HTML->XML的路线,首先通过HtmlClean把抓取的网页内容转化为XML格式数据,然后通过XPATHXSL等方式对XML数据进行转化,达到收集数据的目的。Web-Harvest是类似的方式,但是我们可以精简化,提高抓取的效率。
 
三、使用爬虫碰到的问题
a)         网站对频繁抓取数据的爬虫进行IP限制问题
考虑使用IP代理,但是速度难以忍受,故现在在考虑分布式的抓取数据的方式
 
 
四、相关参考
        http://web-harvest.sourceforge.net