搜索引擎早期重要论文推荐系列【3】In-memory URL Compression

《 In-memory URL Compression》作者Kasom Koht-arsa,Surasak Sanguanpong

 

这是一篇典型的学术论文,论文的角度旨在在爬虫的URL库中使用压缩的方式。

其实搜索引擎的爬虫使用压缩的URL库意义不大,因为每个爬虫的抓取负荷很小,

磁盘读取和写入的量也没有那么大。每个URL携带的数据也很有限,因此不压缩

反而更好。

 

本文的价值我认为反而是一些诸如日志挖掘,点击分析的时候可能会用到类似的压缩。例如

做一个关键词<->URL的双向查询的库,且包含时间维度,则进行URL的压缩就很有必要了。

例如给定一个关键词,要知道在一定时间范围内,给那些URL带了量,带量的比例等等。

给定一个URL,要知道在一段时间内,那些关键词带了量,带量的比例等等。

 

本文给出的结果是压缩了50%的URL库,且由于是用AVL的结构大大提高了检索查询的速度。

 

另外,本文行文流畅,实验做得也比较精彩,堪称论文典范。

 

 

推荐下载:http://anres.cpe.ku.ac.th/pub/url-compression-ncsec.pdf

推荐理由:

       工程价值  2星  

       学术价值  4星   

       可读性     5星

你可能感兴趣的:(搜索引擎早期重要论文推荐系列【3】In-memory URL Compression)