MetaStudio产品介绍

MetaStudio是描述Web页面信息结构的工具,协助用户对目标网页的信息结构进行建模,为用户验证信息结构(模型)的正确性,并为建立正确的信息模型自动计算信息提取(网页抓取/抽取)规则,产生各种信息提取指令文件,供信息提取引擎DataScraper使用。

MetaStudio产品在MetaCamp服务器配合下才能发挥出最大的效能,虽然MetaStudio可以独立运行,但是将失去在线管理信息结构的功能。组网方法请参照 MetaSeeker的典型组网。

MetaStudio是信息提取(网页抓取/抽取)工具包MetaSeeker的四个工具软件其中一个。

MetaStudio产品介绍_第1张图片

特点

  • 对Web技术是透明的,无论目标网站是用什么技术建立的,如html, php, jsp, asp, aspx, xhtml等等,MetaSeeker都一视同仁。
  • 适应性强,能够提取各种论坛、博客、黄页和商业名录信息,免除用户为每一个网站甚至每一个频道定制信息提取软件。
  • 免编程定义信息提取(网页抓取/抽取)规则,用户只需操作GUI界面,由系统自动生成各种信息提取规则和指令文件。
  • 使用方便,操作直观,不包括用户理解目标页面语义结构花费的时间,用户定义信息提取(网页抓取/抽取)规则花费的时间是分钟级的。
  • 验证手段完善,可以即时发现当前定义的信息结构有什么不足、信息提取规则是否准确等,定义过程和验证过程可以穿插进行,很快地定义出准确的信息结构。
  • 管理工具功能强大,用户可以直观地跟踪信息结构定义的状态、进度和结果。

资源

  1. 如果您想获得安装指导,请参阅MetaSeeker安装手册;
  2. 如果您想了解产品的基本操作方法,请参阅MetaStudio用户手册;
  3. 如果您想体验提取产品列表或者黄页信息的过程,请跟随MetaSeeker使用实例1和使用实例2的步骤;
  4. 如果您想深入了解产品技术,请参阅MetaSeeker技术手册。

Comments

xpath的节点筛选

好像xpath只能选择整个节点,而不能只选择一个节点下面的一部分子节点,例如有一个table,"\td[position()<3]"这样的语句只能返回第一个td节点而不是前两个节点,为什么?

你可能感兴趣的:(MetaStudio产品介绍)