robots.txt分析

淘宝  

 https://www.taobao.com/robots.txt

 举例 对百度蜘蛛

User-agent:  Baiduspider

Allow:  /article

Allow:  /oshtml

Allow:  /wenzhang

Disallow:  /product/

Disallow:  /

/article目录与商品相关,/oshtml目录与淘宝的全球购市场有关,/wenzhang目录大致是页面的文字内容。禁止访问product目录的一切有关内容,防止抓取商品自身。

淘宝在几年前曾宣布完全禁止百度的抓取,一方面是担心百度抓取其数据用于自身购物平台,另一方面是想通过屏蔽百度搜索强行改变用户行为的举动。不过目前淘宝的影响力、知名度在业界都居于首位。淘宝逐渐对百度蜘蛛的开放,也是因为其对淘宝越来越有利,淘宝用到了百度的流量,获取网名更多的关注度。

预计以后淘宝会对搜索引擎的抓取开放更多。

百度

https://www.baidu.com/robots.txt

例 对谷歌蜘蛛

User-agent: Googlebot

Disallow: /baidu

Disallow: /s?

Disallow: /shifen/

Disallow: /homepage/

Disallow: /cpro

Disallow: /ulink?

Disallow: /link?

从百度的robot.txt文件中可以看出。

百度表明了对 Baiduspider(百度自己的蜘蛛,防止自己的抓取以防止出现死循环),Googlebot(谷歌的蜘蛛),MSNBot(MSD的蜘蛛),Baiduspider-image(百度图片的蜘蛛),YoudaoBot(有道的蜘蛛),Sogou(搜狗的蜘蛛,很多种), ChinasoSpider(中搜的蜘蛛),Sosospider(搜搜的蜘蛛), yisouspider(一搜的蜘蛛),EasouSpider(宜搜的蜘蛛)的权限,以上网站不能抓取baidu网站下的baidu,cpro文件夹,不能检索所有含“s?”的链接,不能检索含有shifen,homepage这些目录的一切有关内容,不能检索ulink?和link?链接带出的内容。

而其它的搜索引擎蜘蛛,则一律禁止访问任何百度给出的信息。

你可能感兴趣的:(robots.txt分析)