Focused crawling: a new approach to topic specific web resource discovery
论文地址:https://courses.cs.washington.edu/courses/cse454/05sp/papers/chakrabarti99focused.pdf这是一篇非常详细的论文,成于1999年,关于主题爬虫引用数最高(高达2294次)的论文.其具体做法是:对种子url进行分类,其分类体系是树状的,并确保所有种子url都被分在叶子类目上,并训练出分类模型(论文中详细解释为什