网页分析/挖掘中常用数据结构和算法

网页在render的时候都生成DOM树的,所以树形的数据结构用的会比较多,常见的结构:
Trie,
Patricia tree/Radix tree一种trie的压缩形式,它把只有一个孩子的结点与他的孩子合并,这样边上
就会有多个Character
suffix tree
这几个结构对发现网页中的Repeat pattern以及结点相似度提供了一个线性的算法。
常用的算法有:String Edit Distance以及Tree Edit distance来比较结点子树的相似度,这种算法常常在raw DOM tree上进行的,这两个算法都是用了动态规划算法,复杂度都在n的平方级别。
已经有大量的论文基于这些结构和算法来实现网页block分析和结构化数据的挖掘。

你可能感兴趣的:(数据结构,算法,数据挖掘)