百度蜘蛛爬行检测代码解释大全
作为一名合格的站长,要有长期查看自己IIS日志的习惯,研究百度蜘蛛爬行规律对于网站抓取意义重大,尤其特别是对Baiduspider的研究。本篇为大家解释一下百度蜘蛛爬行后返回代码,也算是天津百度服务中心对爬行代码的一次笔记.
百度蜘蛛爬行代码代表的具体含义:
2xx 表示成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。 304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
根据查看IIS日志,得到百度蜘蛛反馈的情况来找回自己网站存在的问题,并加以改正,这样蜘蛛才会恋上你的温床的.
举例:正文:iis默认的日志文件在C:/WINDOWS/system32/LogFiles中,下面是百度天津博客的服务器日志,通过查看,就可以了解搜索引擎蜘蛛爬行经过,如:
2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64
1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,
2、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39 3、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页
4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间
5、W3SVC962713505代表网站日志所在的文件夹
6、http://www.baidu.com/search/spider.htm baiduspider常见问题解答网页 7、代码中的200就代表搜索引擎蜘蛛爬行后返回HTTP状态代码,代码中可以了解蜘蛛爬行后的反映,
IIS日志百度蜘蛛注释200 0 64到底是啥?
很多做网站优化的朋友都会说是,进入审核.或者百度沙盒或者百度即将被K的预兆,当然.天津百度博客也是这么认为的.今天在一个群里.和朋友探讨到这个问题. 很多朋友和做SEO的都是向我这么认为的.另外互联网也有其他的一些关于200 0 64 注释的看法如下
打开一个IIS的日志,我们在最上边大约第三行能够看到一个表头,像这样:
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
这是日志每行中每个字段的名称,我们看到的"200 0 64"是最后3个,那就是sc-status sc-substatus sc-win32-status 这三个了,来看看这三个是什么东西:
sc-status: HTTP协议的状态.HTTP协议的状态代码为200,这个可能大家不熟悉,但是,HTTP404找不到文件,HTTP500内部服务器错误,这两个状态代码大家应该很熟悉了吧? 不错,这个200,其实就是这个的一种,HTTP200就是文件被正常的访问了,只有这个数字是200以外的数字,才说明访问出现了错误(比如上面说的404文件找不到等).
sc-substatus: HTTP子协议的状态.一般来说网站都是不使用子协议的,所以这个代码为0就是很正常的,我们完全可以不用管它.
sc-win32-status: Win32状态.这个就是被很多人解释成说是是否被百度正常抓取的代码.除了这个解释之外,这个代码还有N多种解释,有的说是"不可用,打不开",有的说是"客户端传送到服务端的字节大小",真可谓天花乱坠.其实我们稍微懂点脑子,从字面意思就能够看懂.这只是表示客户端是否为32位系统的代码.如果被32位的系统访问,那么这里记录的就是0,如果被64位系统访问,那么这里记录的就是64……
总结上面的,再综合解释一下"200 0 64"和"200 0 0":
200 0 64: 文件被64位系统的访客或者蜘蛛正常访问或抓取.
200 0 0: 文件被32位系统的访客或者蜘蛛正常访问或抓取.