robots.txt的解读

标签(空格分隔): robots


花瓣网:

robots For huaban.com

User-agent: * Disallow: /oauth/ Disallow: /*?md= Disallow: /gift/goods/*& Disallow: /pins/*/zoom/ Disallow: /pins/*/js-share/ Disallow: /?* Disallow: /js/ Disallow: /css/ Disallow: /img/ Disallow: /404/ Disallow: /admin/ Disallow: /bookmarklet/* Disallow: /cn/* Disallow: /fm/* Disallow: /jiaodiantu/* Disallow: /sfile* Disallow: /tag/* Disallow: /UploaImage/* Disallow: /zt/* Disallow: /share_analytics.html* Disallow: /go/ Disallow: /boards/*/js-share/ Disallow: /*/following/boards/ Disallow: /*/following/explores/ Disallow: /search/* Disallow: /sso/* Disallow: /login/ Disallow: /cc/* Disallow: /*/followers/*

对于所有爬虫:
帐号登录跳转链接,robots中Disallow: /oauth/,不允许抓取
禁止抓取img格式的图片:Disallow: /img/
禁止蜘蛛访问css、admin、images,js,go等目录被索引:
Disallow:/css/
Disallow:/admin/
Disallow:/images/
Disallow:/tag/
Disallow:/go/
Disallow: /404/
Disallow: /js/
禁止文件夹下目录被访问:
Disallow: /bookmarklet/*
Disallow: /cn/*
Disallow: /fm/*
Disallow: /jiaodiantu/*
Disallow: /sfile*
Disallow: /tag/*
Disallow: /UploaImage/*
Disallow: /zt/*
Disallow: /cc/*
Disallow: /search/*
。。。

User-agent: YandexBot Disallow: /

YandexBot是指俄罗斯搜索引擎yandex,这是指拒绝YandexBot爬行所有页面

Sitemap: http://huaban.com/sitemap/board-sitemap-index-0.xml Sitemap: http://huaban.com/sitemap/user-sitemap-index-0.xml Sitemap: http://huaban.com/sitemap/slug-sitemap-index-0.xml Sitemap: http://huaban.com/sitemap/explore-sitemap-index-0.xml Sitemap: http://huaban.com/sitemap/pin-sitemap-index-0.xml

后缀为.xml的标记语言文件,这种文件时供搜索引擎爬虫快速访问网站结构和文件,提高抓取效率的专业文件。
Sitemap:http://www.***
是把网站地图文件存放路径告诉搜索引擎

robots For http://map.baidu.com/

User-agent: Baiduspider Allow: / User-agent: Baiduspider-image Allow: / User-agent: Baiduspider-news Allow: / User-agent: Baiduspider-video Allow: / User-agent: ChinasoSpider Allow: / User-agent: EasouSpider Allow: / User-agent: Googlebot Allow: / User-agent: Googlebot-Mobile Allow: / User-agent: JikeSpider Allow: / User-agent: MSNBot Allow: / User-agent: PangusoSpider Allow: / User-agent: Sogou News Spider Allow: / User-agent: Sogou Orion spider Allow: / User-agent: Sogou blog Allow: / User-agent: Sogou inst spider Allow: / User-agent: Sogou spider2 Allow: / User-agent: Sogou web spider Allow: / User-agent: Sosospider Allow: / User-agent: YYspider Allow: / User-agent: YoudaoBot Allow: / User-agent: yisouspider Allow: /

User-agent: * Disallow: /

允许Baiduspider、yisouspider、YoudaoBot、YYspider、Sosospider、Sogou web spider、Sogou spider2、Sogou inst spider、Sogou blog、Sogou Orion spider、 Baiduspider-image、 Baiduspider-news、 Baiduspider-video
ChinasoSpider、 EasouSpider、Googlebot、Googlebot-Mobile
JikeSpider、MSNBot、PangusoSpider、Sogou News Spider这些爬虫爬所有数据,其他爬虫都不允许。
这些基本上都是搜索引擎的爬虫,但是据说好像可以用官方的API,先获取经纬度,再反过来获取经纬度的各自信息。

你可能感兴趣的:(robots.txt的解读)