《自己动手写网络爬虫》第三篇笔记

第三篇:自己动手挖掘Web数据

存储链接之间的关系,小型的可以放在内存中,大的在内存数据库中建立链接关系。

Web图包含出度和入度信息,可以根据这个对链接进行排序。

PageRank算法,一个网页重要程度依赖于它的入链,高等级的文件链接到网页,则此网页的等级也高。

HITS算法,网页赋两个值hub和authority ... ...

去掉重复的文档:a> 可以比较checksum值判断完全相同的文档。可以用MD5算法计算checksum值。 b> 文档结构化再生成语义指纹,

分类与聚类:机器学习。

你可能感兴趣的:(《自己动手写网络爬虫》第三篇笔记)