网页正文抽取技术模块和模型介绍

同一个网站发布的网页往往是模板没有变化,变化的都是网页的主体内容,也就是正文。这是因为现在绝大多数的网站基于网页生成模板去产生网页,网页中的数据一般直接通过查询从数据库中调出,然后将查询结果放到网页的特定位置。


     网页抽取一般常用的算法DTE算法正是基于这样一个事实:同一个站点的不同页面通常是由同一个或一组HTML模板生成,它们的结构相同或者很相似,仅仅主体信息部分的内容不同。而这也是动态网页快速发展带来的结果,即便是网站出于性能考虑将页面生成为静态网页,也绝大多数基于模板。

网页正文抽取技术模块和模型介绍


       正文抽取算法主要有两个步骤:第一步是利用相似嘲页归纳模板;第二步是通过模板匹配抽取网页正文。

网页正文抽取技术模块和模型介绍

      上面两张图是网页正文抽取原型系统的主要功能模块和模型。


      网页正文抽取技术对于信息交换共享、搜索引擎自动摘要生成、网页文档分类以及PDA设备信息展示、帮助阅读有障碍的人群等诸多领域的应用是一个很重要的前提工作。文章仅介绍了两个功能模块和抽取模型,但是对于网页正文抽取的精确率还有很多工作要做。


你可能感兴趣的:(网页正文抽取技术模块和模型介绍)