编辑本段介绍
概述
网络
蜘蛛
即Web Spider,是一个很形象的名字。把
互联网
比喻成一个蜘蛛网,那么
Spider
就是在网上爬来爬去的蜘蛛。
这个条目所描述的内容英文名叫做Web Crawler,这是有正规定义的,参见维基百科。业界内也很少叫蜘蛛的,一般都叫做
网络爬虫
,Spider只是个别爬虫的名称。建议将词条名称改为网络爬虫。
作用
网络蜘蛛是通过
网页
的链接地址来寻找网页
,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
编辑本段起源
概述
----要说网络蜘蛛的起源,我们还得从
搜索引擎
说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。
----搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给
用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,
网页
链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。
----搜索引擎从1990年原型初显,如今成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
----1994年的1月份,第一个既可搜索又可浏览的
分类目录
EINetGalaxy上线了。在它之后才出现了雅虎,直至我们现 在熟知的
Google
、百度。但是他们都不是第一个吃
搜索引擎
这个螃蟹的人。从搜索
FTP
上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用
蜘蛛程序
搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。
搜索引擎原型
----如果要追溯的话,搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大
麦吉尔大学
(McGillUniversity)的几个大学生开发了一个软件
Archie
。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的
数据库
,再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。
----当万维网(WorldWideWeb)出现后,人们可以通过
html
传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。还在Stanford大学读书的美籍华人
杨致远
和他的同学迷上了互联网。他们将互联网上有趣的
网页
搜集过来,与同学一起分享。后来,1994年4月,他们俩共同办了雅虎。随着
访问量
和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
----当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“
机器人
”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
----这种程序实际是利用html文档之间的链接关系,在
Web
上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的
服务器
数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对
蜘蛛程序
进行了改进。
----1994年7月20日发布的Lycos网站第一个将 “蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和
Lycos
的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。 1995年12月15日,Alta Vista正式上线。它是第一个支持
高级搜索
语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、
关键词
检索、
布尔逻辑
,以及通过向量空间模型的查询排名等关键问题。正式公开之前,Alta Vista就已经拥有20万访问用户,在短短三个星期之内,到访人数由每天30万次增加到200万次。它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta Vista小组从一开始就采用了一种
模块设计
技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中,Alta Vista脱颖而出,成为网络搜索的代名词。Google就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索” 改变了人们上网方式的,就是现在鼎鼎大名的Google。Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。
----1998年9月,在
佩奇
和
布林
创建Google之时,业界对互联网搜索功能的理解是:某个
关键词
在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。佩奇和
布林
发明了“网页级别”(
PageRank
)技术,来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。当从网页A链接到网页B时,Google 就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。 Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,
动态摘要
、
网页快照
、多文档格式支持、地图股票词典寻人等
集成搜索
也都深得网民的喜爱。其他众多
搜索引擎
也都紧跟Google,推出这些服务。Fast(Alltheweb)公司发布的搜索引擎
AllTheWeb
,总部位于挪威,其在海外的风头直逼Google。Alltheweb的
网页
搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、
图像搜索
、视频、MP3、和FTP搜索,拥有极其强大的
高级搜索
功能。而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。
----
搜索引擎
越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。
搜索引擎的原理
----1.利用蜘蛛系统程序,自动访问
互联网
,并沿着任何网页中的所有
URL
爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
----2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及
超链
中每一个
关键词
的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
----3.当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
----说到这里,你可能对搜索引擎和网络蜘蛛有了一个初步的了解了吧!
编辑本段工作原理
概述
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页 面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的
链接深度
。
抓取策略
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。
----广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛
并行处理
,提高其抓取速度。深度优先是指网络蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
----由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D属于第1 层,E、F、G属于第2层,H属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页H是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于
网站设计
者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网页权限
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的
所有者
可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行
网页抓取
,从而提供搜索。而当搜索者点击查看该
网页
的时候,同样需要搜索者提供相应的权限验证。
蜘蛛名字
每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为
GoogleBot
,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,
网站管理员
就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果
网站管理员
发现某个蜘蛛有问题,就通过其标识来和其
所有者
联系。
限制蜘蛛抓取
网络蜘蛛进入一个网站,一般会访问一个特殊的
文本文件
Robots.txt
,这个文件一般放在网站
服务器
的根目录下,
网站管理员
可以通过
robots.txt
来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的
可执行文件
目录和
临时文件
目录不希望被
搜索引擎
搜索到,那么
网站管理员
就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述: User-agent: *
Disallow:
----当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些
网页
的抓取。
---- 网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有
META
标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
抓取内容
搜索引擎
建立
网页
索引,处理的对象是
文本文件
。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括
html
、图片、
doc
、pdf、
多媒体
、动态网页及其 它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对
搜索引擎
的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。对于
doc
、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些
插件
的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。但HTML等文档不一样,HTML有一套自己的语法,通过不同的命令
标识符
来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤
标识符
并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是
加粗
显示、是否是页面的
关键词
等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为
导航条
在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些
无效链接
需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
---- 对于
多媒体
、图片等文件,一般是通过链接的
锚文本
(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“
张曼玉
的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另 外,许多
多媒体文件
中有
文件属性
,考虑这些属性也可以更好的了解文件的内容。
----
动态网页
一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占
服务器
的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:
asp
、
jsp
、php等。这些类型 的
网页
对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些
脚本语言
(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本
解释程序
。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果
网站设计
者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
----对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用
插件
的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个
插件
补充到插件管理服务程序之中。
---- 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取
网页
的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的
死链接
。
----
搜索引擎
的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的
网页
搜索不到;周期过短,技术实现会有一定难度,而且会 对
带宽
、
服务器
的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻 网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
更新周期
一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
---- 现 在大家对网络蜘蛛的工作原理有了初步的了解了吧,了解后就要在以后的网站制作中考虑蜘蛛的爬行规律,
比如
制作
网站地图
就很重要,好了,如果你有更好的见解,请到这里发表,火鸟非常愿意与你交流,共同研究网站制作技巧,尽量将自己的网站制作的符合标准,符合用户的习惯!
PR值计算方法
现代
搜索引擎
对
网页
的重要性一般用
PR值
来量化。
一般说来,PR值越高,反映在在搜索结果中的排名越靠前(重要性越高),当前有很多人通过很多方式来提高自己网站的PR值,除网站内部的优化外,大多数人采用的是外部链接。
如下:
PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn))
其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank系统给你的网站所增加的PR分值;PR(t1)表示该外部链接网站本身的PR分值;C(t1)则表示该外部链接站点所拥有的外部链接数量。大家要谨记:一个网站的投票权值只有该网站PR分值的0.85,而且这个0.85的权值平均分配给其链接的每个外部网站。
设想一个名为akamarketing .com的网站,被链接至PR值为4,外部链接数为10的网站XYZ .COM,则计算公式如下:
PR(AKA) = (1-0.85) + 0.85*(4/10)
PR(AKA) = 0.15 + 0.85*(0.4)
PR(AKA) = 0.15 + 0.34
PR(AKA) = 0.49
也就是说,如果我的网站获得一个
PR
值为4,外部链接数为10的网站的链接,最后我的网站将获得0.49的PR分值。
再让我们看看如果我的网站获得的是一个PR分值为8,外部链接数为16的网站的链接,那么我将获得的PR分值将是:
PR(AKA) = (1-0.85) + 0.85*(8/16)
PR(AKA) = 0.15 + 0.85(0.5)
PR(AKA) = 0.15 + 0.425
PR(AKA) = 0.575
上述两个例子表明,
外部链接
站点的PR值固然重要,该站点的外部链接数也是一个需要考虑的重要因素。
编辑本段陷阱类型
1、登陆要求。有些企业站和个人站的设置一定要注册登陆后才能看到相关的文章内容,这种对蜘蛛不是很友好,蜘蛛不会注册、也不会登陆。
2、动态URL。什么叫动态URL、什么叫静态URL,简单的说就是带有问号、等号及参数的网址就是动态URL,动态URL不利于
搜索引擎蜘蛛
的爬行和抓取。
3、强制用Cookies。部分站长为了让用户记住登陆信息,强迫用户使用Cookies。如果未开启,则无法进行访问,访问页面显示的也不会正常,这种方式会让蜘蛛无法进行访问。
4、框架结构。首先各位站长你知道什么叫框架结构的世界吗?如果你不知道,恭喜你!这个蜘蛛陷阱你已经躲避了,也不要去了解,所有有关框架结构的设计不给予做任何的介绍。
5、各种跳转。对搜索引擎来说只对
301跳转
相对来说比较友好,对其他形式的跳转都是比较敏感,例如:JavaScript跳转、MetaRefresh跳转、Flash跳转、302跳转。有些网站的做法很让人无奈,当你打开网页后会自动转向其他页面,如果打开的页面和你要找的页面主体相关也算过得去,但是很大部分让你无任何理由和目的的网站的这种转向不推荐大家使用,如果你非要做转向,只推荐用301永久跳转,可以将权重进行传递,除了此转向其他都不推荐,因为很多的占用其他转向欺骗用户和搜索引擎,也是
黑帽SEO
的一种手段,所以建议大家不要使用,以免网站被K。
6、Flash。有的网站页面使用
Flash
视觉效果是很正常的,比如用Flash做的Logo、广告、图表等,这些对搜索引擎抓取和收录是没有问题的,很多网站的首页是一个大的Flash文件,这种就叫蜘蛛陷阱,在蜘蛛抓取时HTML代码中只是一个链接,并没有文字。虽然大的Flash效果看上去很好,外观看着也很漂亮,但可惜搜索引擎看不到,无法读取任何内容。所以为了能体现网站优化的最好效果,不提倡这种Flash做首页图片。
编辑本段评价指标
覆盖率
网络蜘蛛的首要目标是抓取互联网上所需的信息。因此,有价值的信息是否都收录,收录的比例(即
覆盖率
)是网络蜘蛛的基本评价指标。
时效性
用户对
搜索引擎
的查询要求越来越高,其中重要的一点就是查询时效性,即事件发生并在互联网上传播后(以新闻、
论坛
、博客等各种形式),用户需要通过搜索引擎尽快能检索到相应内容。而索引的前提是收录,因此需要网络蜘蛛尽快的抓取互联网上最新出现的资源。
重复率
互联网
上重复的内容很多,如何尽早的发现页面重复并消除之,是网络蜘蛛需要解决的问题。 除转载导致的重复外,重复总能体现为各种不同的模式,站点级重复,目录级重复,
CGI
级重复,参数级重复等等。及早发现这些模式并进行处理,能节省系统的存储、抓取、建库和展现资源。