搜索引擎早期重要论文推荐系列【3】In-memory URL Compression

《 In-memory URL Compression》作者Kasom Koht-arsa,Surasak Sanguanpong

这是一篇典型的学术论文,论文的角度旨在在爬虫的URL库中使用压缩的方式。

其实搜索引擎的爬虫使用压缩的URL库意义不大,因为每个爬虫的抓取负荷很小,

磁盘读取和写入的量也没有那么大。每个URL携带的数据也很有限,因此不压缩

反而更好。

本文的价值我认为反而是一些诸如日志挖掘,点击分析的时候可能会用到类似的压缩。例如

做一个关键词<->URL的双向查询的库,且包含时间维度,则进行URL的压缩就很有必要了。

例如给定一个关键词,要知道在一定时间范围内,给那些URL带了量,带量的比例等等。

给定一个URL,要知道在一段时间内,那些关键词带了量,带量的比例等等。

本文给出的结果是压缩了50%的URL库,且由于是用AVL的结构大大提高了检索查询的速度。

另外,本文行文流畅,实验做得也比较精彩,堪称论文典范。

推荐下载:http://anres.cpe.ku.ac.th/pub/url-compression-ncsec.pdf

推荐理由:

工程价值 2星

学术价值 4星

可读性 5星

你可能感兴趣的:(数据结构,搜索引擎,数据挖掘)