网页内容选取方法

本文引用一篇论文:http://sewm.pku.edu.cn/TianwangLiterature/Report/NCIS_TR_2007012.pdf

      一种基于 LCS 的相似网页检测算法

   前提:1. 网页中的噪音信息例如广告、版权信息等通常都出现在网页正文内容的头尾两端。我们需要获取中间文本等有用内容。

               2.  计算 LCS并提取出的它的可信部分(TLCS,即 trustable LCS)用于计算 文档相似度

            3. 定义 TLCS 为 LCS 在原始网页文档中央的连续内容部分,可以用三个属性来表述:

                        1)连续性:这部分内容在原始文档中是较为连续的,

                        2)中央性:它属于网页文档的中央部分

                       3)扩展性:在满足前两个特征的前提下应当包含尽可能长的文字内容。

          图 3 描述了一个文档的最短编辑脚本(SES)曲线图。图中 d 轴表示 SES 的编辑次数,也即文档与 LCS 的差异长度,x 轴表示文档的位置。一个区域(region)的斜率定义为连接区域两端点的线段的斜率,它反映了这个区域 LCS 部分的连续程度。本文使用一个参数斜率阈值θ来求解TLCS,即 TLCS为位于图中中央部分斜率恰好小于θ的最大区域文字内容所对应的 LCS部分。图中斜率阈值设定为 0.2,TLCS为可信区域(trustable region)对应的 LCS部分。

           图 4 描述了TLCS的提取算法,它实际计算得到的是图 3 的扩展区域(extented region),可以看作是 TLCS的近似。通过将文档分割为 k 个块得到 (k2+k)/2 个可能的基础区域,因此计算基础区域的时间复杂度为 O(k2),在最后的 RB中最多可能得到两个权值最大而覆盖块数最小的基础区域。扩展区域的左右端点各需要最多 s-1 次计算,但实际上我们不需要在所有的 s-1 位置进行计算而只需要在发生了编辑操作的位置(即 d 发生了改变)进行计算,最坏情况下是 D(SES 的长度),平均值是 D/k。因此整个过程在最坏情况下的计算复杂度是 O(k^2+D)。

           该算法其它的设计考虑还包括:1)对于具有相同权值的区域,我们选择覆盖了较少的块数的区域,这意味着它们更加靠近中央;2)我们计算出来的实际上不是严格的 TLCS 部分,而是一个近似,严格计算需要更复杂的计算方法,但并没有很大的意义。

         有的时候,一个文档内部部分段落的位置发生改变后,仍然被认为是相似的。有一些特定的应用会有这样的需求。这个问题可以通过一个迭代的策略来解决:在从文档 A 中提取出可信区域后将它从文档 A 中删除,并将 TLCS从文档 B 中删除。然后使用剩下的部分来计算第二个可信区域,如此迭代进行。对于两个包含了 n 个段落的文档来说,最坏的情况是文档 A 的段落顺序恰好是文档B 的反序,这就需要有 n次的迭代。考虑到 n 通常是很小的,整个计算的复杂度仍然是 O(ND)。而且,每次迭代所得到的 LCS 是单调递减的,这就可以设定一个阈值来控制迭代的深度。


网页内容选取方法_第1张图片

网页内容选取方法_第2张图片



你可能感兴趣的:(网页有用内容选取)