如何对网页内容进行合理的分块分析

 

>> 问题摘要

网页是一个层次结构。网页由不同的分块组合而成,一个大块可以由更小的一个或几个小块组成。对网页进行分析需要合理确定网页的分块粒度,即确认哪些dom 树组成一个块?哪些地方应该分块?应该分几层?网页分块重要性计算的主要工作就是确认每一个块的重要程度。如:边框没有正文重要,正文中间部分的文字比下面的评论重要,比中间的广告要重要等。分块重要性计算就是要对每一个块有一个打分,用来表示其的重要性。

 

>> 问题背景

1. 粒度控制:目标是满足目前的应用,且提供的粒度足够少,可以减少多应用的选择成本。因为层次越多,就变相地增加了各使用方的选择成本。

2. 块重要性:用户的查询词命中不同的块,意义和价值是不一样的。如果命中边框,一般这样的页面不适合排在前面展现,命中中间内容,更能满足用户的需求。

 

>> 当前的研究和技术现状

当前对网页进行分块的主要用途是:重当前对网页进行分块的主要用途是:重复控制、钓鱼网站识别、内容赋权、特定信息提取、网页分类、聚类、语义分析。用到的特征主要是视觉及文本分析上面的特征。

 

有基于单页面来做分块的,也有基于多页面来做分块的。单页面分块有维护关键词列表的方式,也有区分上下左右块的方式。多页面分块,主要是分析和挖掘dom 树上面的共现现象来进行分块及重要性分析的。

 

>> 技术关键点

控制分块层次方面:如何让其符合人的感知,层次既不要分得太多太细,又不能不少太粗。

重要性主要有两点:

1. 如何定义重要性,是要分档,还是打分。

2. 如何计算重要性。链接发现方面:在同等的压力控制下,对于重要区域产生的链接,可以优先抓取。可以按重要性不同,对核心正文进行区别。不同的应用方可以根据自己的要求,选择合适的核心正文。

 

>> 实现后的价值

1. 粒度控制:提供更合理的粒度,更符合人的感知,减少应用的选择成本,从而达到提高块标注时的准确率和召回率。

2. 块重要性:提高用户查询结果的相关性。

你可能感兴趣的:(如何对网页内容进行合理的分块分析)