论文:一种全自动生成网页信息抽取Wrapper的方法

梅雪,程学旗,郭岩,张刚,丁国栋. 一种全自动生成网页信息抽取Wrapper的方法. 中文信息学报, 2008年22卷1期.(第三届全国信息检索与内容安全学术会议(NCIRCS2007),苏州)

摘  要:
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。

你可能感兴趣的:(信息抽取)