DataScraper产品介绍

DataScraper是Web页面信息提取(网页抓取/抽取)工具,利用MetaStudio生成的信息提取指令文件,对属于相同语义类别的页面信息进行连续提取,生成XML格式的信息提取结果文件,并将信息提取结果文件存储在DataStore服务器中。DataScraper提供基于图形界面(GUI)的结果文件管理工具和Lucene v2.3.2索引库管理工具。

DataScraper是信息提取(网页抓取/抽取)工具包MetaSeeker的四个工具软件其中一个。


DataScraper是一个通用的屏幕抓取/数据抽取/网页抓取/信息提取工具

屏幕抓取器,即Screen Scraper,有时也叫网页抓取、数据抽取、网络信息提取器,从展现在浏览器上的Web页面内容中提取需要的信息,在万维网领域,为了从各种信息源汇聚信息,成千上万的技术人员开发出基于各种技术的屏幕抓取器,这些抓取器往往是为特定目的针对特定页面的,所以,数量众多,开发成果可继承性很小,研发费用很大,而且需要持续投入。

研制DataScraper及其MetaSeeker工具包的初衷就是帮助用户节省大量的屏幕抓取器的开发投入,使用户专注于业务的设计和网站的经营。为了实现这个目标,作者运用多种先进技术,科学地设计系统架构,将屏幕抓取功能分解成信息结构定义和工作流驱动的Web页面信息提取(网页抓取/抽取)两个子系统,前者集中在MetaStudio产品中实现,而后者集中在本文介绍的DataScraper产品中实现。借助于XML技术和Mozilla应用开发平台,DataScraper以及MetaSeeker表现了强大的屏幕抓取功能。全面的产品特点介绍参见MetaSeeker产品介绍。


DataScraper产品介绍_第1张图片

资源

  1. 如果您想获得安装指导,请参阅MetaSeeker安装手册;
  2. 如果您想了解产品的基本操作方法,请参阅DataScraper用户手册;
  3. 如果您想体验提取产品列表或者黄页信息的过程,请跟随MetaSeeker使用实例1和使用实例2的步骤;
  4. 如果您想深入了解产品技术,请参阅MetaSeeker技术手册。

你可能感兴趣的:(DataScraper产品介绍)