基于模式发现的信息抽取(1)

IEPAD:基于模式发现的信息抽取

IEPAD: Information Extraction Based on Pattern Discovery

Chia-Hui Chang                          Shao-Chen Lui

摘要

信息抽取技术的通常是研究通过生成Wrapper从半结构化的Web文档中提取一定的信息。类似于编译器的生成,抽取器是一个驱动程序,伴随这个它有一些抽取规则。以前的这个领域的工作目标是通过人工训练的样例来学习抽取规则。这篇论文中我们的IEPAD系统通过重复pattern的挖掘和多序列对齐技术可以自动的识别记录的边界。重复pattern的识别是通过PAT树这种数据结构来实现的。此外,通过pattern对齐所有的记录实例来进一步扩展重复patterns。这种方法无需人工参,无启发式的内容依赖性。实验结果表明构建的抽取规则可以从14个流行的搜索引擎中完成97%的抽取。

关键字

 信息抽取,抽取规则,PAT树,多字符串对齐

引言

当前的Web站点以不同的主题不同的格式来呈现信息。需要用户花费很大的力气从Web页面中去定位和抽取有用的数据。因此,从多个数据源中集成信息来构建增值的服务是很有必要的。例如,定制从robots/crawlers搜集的web信息,比价商品代理,元搜索引擎,newsbots等。为了方便开发信息集成系统,我们需要很好的工具去搜集和提取信息。假如网页已经从不同的Web站点中收集起来,传统的方法基于对网页格式的了解来写一些程序,也就是”Wrappers”或者”Extractors”去抽取网页的数据,换一句话说,就是需要我们人工去观察抽取规则,然后再对每一个Web站点写程序。然而,编写wrapper需要人工的编码和额外的调试,是一个体力活,并且Web页面是经常变化的,维护wrapper是成本非常高并且不切实际。幸运的是很多研究者已经构建出了可以自动生成Wrapper的工具,例如,WEIN[11],Softmealy[7],Stalker[13]是比较有名的3个工具。和编译器的Scanner/ Parser生成器类似,用户给出语法规则,得到状态转换表(状态机)提供给Scanner/Parser驱动程序,Wrapper构建系统是Wrapper的设计者从训练的样例中提取抽取规则。这几个系统共同的思想是使用机器学习技术来总结抽取规则,不同的是抽取架构的不同。例如,WIEN的一次pass的的LR结构,Stalker的多次pass的层次结构,尽管如此,设计者开始需要手工去标注,然后利用这些训练样例来生成规则。手工的标注一般来说是耗时和低效的。

 

 

最近,一些研究者正在发明一些新的方法来自动构建Wrapper,这是一种不需要人工标注训练样例的方式。例如,Embley et al.描述了一种启发式的方式从web页面中发现记录边界的方发,他使用了5条独立启发式和基于启发式的组合选取的一致的分割的tag。然而,一个严重的问题是,如果这个tag在记录中出现而不是作为分割,那么one-tag分割的方式就会有问题。

 

另一方面,我们想通过pattern的挖掘来消除人工的干预。我们通过观察Web页面的一些有用的信息通常是放在一个结构中,这个结构是对齐和有序的。特别是搜索引擎的搜索结果页面是规则和重复结构的。挖掘重复结构,可以挖掘出Wrapper中的抽取规则。

 

本文将要介绍IEPAD,一个应用模式发现技术的信息抽取系统,在第2部分,我们将要描述系统的一个总体设计,包括pattern视图,规则生成和抽取模块。

3部分,我们描述了规则生成的细节,紧接着是第4部分的抽取器。最后我们在第5部分展示实验结果,第6部门作出结论。

你可能感兴趣的:(设计模式,数据结构,Web,数据挖掘,搜索引擎)