网络蜘蛛Spider 工作原理

   网络蜘蛛 Web spider (或称 Crawler)是一种能够跟踪网络上超链接结构,并不断进行网络资源发现与采集的程序。作为搜索引擎的资源采集部分,Web  Spider的性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。网络蜘蛛Web Spider,以何种方式、何种策略访问因特网是搜索引擎研究的主要问题之一。网络蜘蛛 Web  spider 的研究离不开对网络蜘蛛搜索对象的分析。因特网信息资源作为 Web Spider 的采集目标具有以下的特点:  

(1)  大规模:根据中国网统计(2004.7),因特网上现有 亿多中文网页。总数据量约 6TB,这还仅仅是文本资源,未包含图片,音频视频等多媒体资源。 

(2)  分布性:上述海量信息散布于大约 50 万站上,这些网站同时又分布在不同地域,不同网络管理类型的网络上。 

(3)  动态性:因特网上的信息时刻处于变化之中,旧的页面不断被更新(包括内容改变、位置移动等)、删除、新的页面不断出现。 

(4)  多领域:因特网信息资源的内容丰富,覆盖了科研、商业、政府等几乎所有领域,包含新闻、报告、论文等多种类型。 

(5)  半结构化或无结构化:Web 页面通常仅有有限的结构,或者根本就没有结构,即使具有一些结构,也是着重于格式,而非内容。此外,页面的内容是人类所使用的自然语言,计算机很难处理其语义。这些都是网络蜘蛛 Web  Spider 在进行网络资源采集时需要面对的问题,也是在 Web  Spider 设计时需要解决的问题。对于专业搜索引擎,其 Web  Spider 面临的不仅仅是将这些资源采集回来的问题,更主要的是能够对具有上述特点资源进行分析,用有限的采集规模获得尽可能多的专业相关的网络资源,甚至还要能够深度挖掘出通用搜索引擎找不到的资源。<本文整理自:http://www.lunwenroom.com/jisuanjilei/237_3.html 想要了解更多的朋友,可以参考下>

 

你可能感兴趣的:(搜索引擎,工作原理,多媒体,网络管理,中文网页)