网页抓取/数据抽取/信息提取软件工具包MetaSeeker

MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信息是给人阅读的,对于机器来说,是无结构的,MetaSeeker解决了一个关键问题:将无结构的Web页面信息转换成有结构的适于机器处理的信息。可以应用于专业搜索、Mashup和Web数据挖掘领域。


MetaSeeker工具包的目标用户

MetaSeeker工具包的目标用户是提供以下服务和系统的企业和个人:

  1. 垂直搜索(或称为专业搜索)服务
  2. 信息汇聚和门户服务
  3. Mashup服务
  4. 企业网信息汇聚
  5. 商业情报采集
  6. 论坛或博客迁移
  7. 智能信息代理
  8. 个人信息检索
  9. 信息挖掘

MetaSeeker工具包对Web页面的语义结构进行描述,输出适合计算机自动处理的描述文件和指令文件,并且能够持续地、大批量地提取Web信息,输出带有语义结构元数据的信息提取结果文件,可以高效地为信息服务系统补充内容。


MetaSeeker工具包的组成

  • MetaStudio:是Web页面信息结构描述工具,提供GUI界面,作为Firefox扩展(Firefox extension)发行,推荐与MetaCamp和DataStore配套使用,这样信息结构描述文件和各种信息提取指令文件就可以上载到MetaCamp和DataStore服务器,以拥有协同描述页面信息结构和分享信息提取成果的能力。
  • DataScraper:是Web页面信息提取(网页抓取/抽取)工具,利用MetaStudio生成的各种信息提取指令文件,对特定页面的信息进行连续提取,并将信息存储在DataStore服务器中。提供GUI界面,作为Firefox扩展发行,技术核心是一个自研的工作流引擎,由信息提取工作流指令文件驱动。
  • MetaCamp:是存储和管理信息结构描述文件的服务器。作为一个应用(application)部署在Tomcat等Servlet容器中。
  • DataStore:是存储和管理信息提取线索、各种信息提取指令文件和信息提取结果文件的服务器,集成Lucene v2.3.2技术,能够为结果文件建立索引。作为一个应用(application)部署在Tomcat等Servlet容器中。

专业信息提取和Web业务集成服务

Web信息提取(网页抓取/抽取)

  • Web信息提取服务
  • Web业务集成服务

Comments

评论信息提取不完整

刚开始使用metaseeker,在大众点评网上提取饭馆评论时,发现有些评论提取不完整,只提取出一段评论中的第一句话。在DOM结构中发现这些评论的内容对应多个#text,所以一篇评论被分成了几个部分。请问如何提取完整的一篇评论?
我的信息结构为醉苗乡,谢谢!

印象中这个好像要使

印象中这个好像要使用到block属性来抓,还要建立线索啥的,教程里面还是有交代的

与商业情报挖掘系统集成

也许这是近期重大的目标

精确搜索

我希望尽快看到网页的优化及更强大的功能出现。网站的架构上能增加产品体验就更好了。

MetaSeeker企业版已经在售

MetaSeeker不是自由软件,可以进入购物车页面进行购买。付款时需要提供一个有效的email地址,付款确认后,我们将向该地址发送软件下载帐号和口令以及下载地址。

当前的支付工具是PayPal,只能使用美元支付。如果有任何疑问,可以联系我们。

补充一点

关于术语的使用上,尽量和业内先行者相同或者相似。毕竟先入为主,也让用户更容易接受。

通用术语尽量和业界保持一致

但是,您仍然会接触到一些MetaSeeker专用的术语,这些术语体现了MetaSeeker的特色,是其它产品所不具有的,绝大多数跟操作MetaSeeker有关,这些术语在术语解释中尽可能给予解释,如果您仍然感觉到需要补充,可以在术语解释的相应词条后面写明您的需求(通过点击Add new comment联接)。我们将尽快进行补充。

看到同类软件有所谓

看到同类软件有所谓网络舆论监测能力,同时自动完成相同信息排除,对于有些特殊用户可能有用处,比如数据调查中心等

准备做一个集成解决方案

还没有深入研究,我觉得要实现舆论检测能力,可能需要集成一个meme tracker,当前还没有决定是否要做这个方向,因为当前还在想另外一个方向:手机推荐引擎。

这两个方向都很有吸引力,都需要强大的信息提取能力,MetaSeeker工具像左膀右臂中的左臂。

说明文档太费解

老实说,我觉得说明文档是比较多,但感觉逻辑性不好!

我自己之前做过一小段时间的内容抽取. 也涉及到标题/正文/发表时间/来源等抽取.

所以想看看你的产品效果如何.

从一个做过类似工作的人来说,读你的帮助文档都不那么轻松. 所以觉得既然想推广,这样的文档有待改进.(太多产品本身的术语)

按照你给的几个实例,想测试一下,都没有成功! 汗!

能否做个视频演示你成功完成一个示例的全部过程? (产品使用过程有很多设置,而你的文档本身写得就不够清楚,很多步骤没写得简单易懂,我是自己试了好几次才设置成功的,但运行没成功,没看到结果!)

所有文档资料正在重写

所有的文档资料正在重写,当前完成了V4版本的两个手册:MetaSeeker安装手册和MetaStudio用户手册。DataScraper用户手册即将完成,然后还要将所有的其他资料都进行升级。制作视频演示是个很好的建议。

如果使用MetaSeeker过程中遇到问题,可以联系我们,通过邮件进行一对一的技术支持。

你可能感兴趣的:(网页抓取/数据抽取/信息提取软件工具包MetaSeeker)