让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站

2005-01-17在我的网站上做了一个试验:在部分动态网页中嵌入了以下PHP代码:
echo date("Y-m-d H:i") . " Crawled by " . $_SERVER["HTTP_USER_AGENT"] . " @". $_SERVER["REMOTE_ADDR"
];

这样,抓取网页的Spider Agent信息和来源地址信息就做为网页内容被搜索引擎索引了。通过搜索结果可以告诉我Spider什么时候,从哪里(IP地址),用什么抓取访问了我的网站。

然后再通过站内搜索命令: site:chedong.com +特征词 就能直接定位到这个spider信息段落,在我的网页上是crawled。今天早上我在Google上查: site:chedong.com crawled 已经能看到效果:
车东 Che, Dong
... Alexa流量统计: Hosted by Powweb.com 2005-01-15 22:00 Crawled by
Googlebot/2.1 (+http://www.google.com/bot.html) @66.249.71.47.
chedong.com/

说明: Googlebot/2.1于2005-01-15 22:00从66.249.71.47这台服务器进行了抓取。

2005-01-20 YST结果出现
MIME::Base64 - phpMan [英译汉]
MIME::Base64 - phpMan Command: man perldoc info search(apropos) ... 2005-01-17 23:02 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com ...
www.chedong.com/phpMan.php/man/MIME::Base64 - 2k - 2005年1月18日

2005-01-20 百度结果出现
车东 Che, Dong
...的某些条款可以放弃 [联系方式|Contact] Yahoo! Messenger: [My Bloginality
is INTJ] Alexa流量统计: 2005-01-18 23:01 Crawled by Baiduspider+(+
http://www.baidu.com/search/spider.htm) @202.108...

2005-01-31 MSN Search发布
SSL_CTX_flush_sessions(3) - phpMan
... 2635 mod_ssl/2.8.22 OpenSSL/0.9.7d PowWeb/1.1 Under GNU General Public License 2005-01-17 19:27 Crawled by msnbot/0.3 (+http://search.msn.com/msnbot.htm) @207.46.98.34

根据我的网站的AWStats统计:非浏览器流量几乎和用户浏览流量一样多。
浏览器流量 * 44317 3.70 G字节
非浏览器流量 *42467 5.62 G字节
我看了一下:除了MP3播放器和RSS聚合器外,很大一部分是搜索引擎的Spider。

通过这个方法也可以看到自己网站在不同搜索引擎中的更新频度。一直都怀疑很多搜索引擎都没有遵守robots.txt抓取协议,模拟自己是客户端IE浏览器,这是非常不道德的行为。

搜索:site:chedong.com "crawled" 让我们看看那些搜索引擎没有遵守这个规则。 ;-) 在中国搜索上查 _SERVER["HTTP_USER_AGENT"] phpinfo 得到的结果是:
phpinfo()
OnOn ignore_user_ID"] s3jNMX8AAAEAABseI-gAAAAB _SERVER["HTTP] no-cache _SERVER["HTTP_USER_AGENT"]User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) _SERVER["HTTP...

说明中搜使用的SPIDER:是将自己身份设置为Windows 2000的IE 5.5版本浏览器?

2005-01-18
15日有一段时间是将这些标记放到phpMan.php标题里的:从中我们可以看到Googlebot的IP分布:和控制的较好的抓取频度。

Google的抓取分布的很均匀。

作者: 车东 发表于:2005-01-17 11:01 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站 的原始出处和作者信息及 本版权声明。
http://www.chedong.com/blog/archives/000655.html

你可能感兴趣的:(让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站)