网站根目录 robots.txt 文件写法

Robots 协议(也称为爬虫协议、机器人协议等)的全称是 " 网络爬虫排除标准 "(Robots Exclusion Protocol),网站通过Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt 声明网站中哪些目录不让搜索引擎收录。
robots.txt 写法。添加 sitemap 链接。
搜索引擎会优先读取 sitemap.xml 文件,如果没有就逐个抓取 URL。

注意:robots.txt 不是一种规范,是约定俗成的,主流的搜索引擎都是遵循 robots.txt 的规则来索引页面,但是一些网络爬虫不会遵循,所以说 robots.txt 只能防君子,不能防小人,如果目录下有隐私的文件夹,建议设置密码或者登陆用户才能访问。


基本语法

User-agent:定义禁止搜索引擎名字。百度 ( Baiduspide )、谷歌 ( Googlebot )、360 ( 360Spider )等。* 号代表全部搜索引擎
Disallow:不允许收录
Allow:允许收录


全站屏蔽所有蜘蛛:

网站改版之前,为了避免蜘蛛抓取错误或临时的链接,可以采用全站屏蔽蜘蛛的操作,在根目录建立 robots.txt,添加如下内容:

User-agent:*
Disallow:/

屏蔽某个目录、文件:

案例:屏蔽所有蜘蛛抓取根目录下的 inc 文件夹及里面的所有内容,根目录下的 wap 目录下的 index.html 文件。robots.txt 文件添加如下内容:

User-agent:*
Disallow:/inc/
Disallow:/wap/index.html

屏蔽某个目录,但抓取目录下的文件或文件夹
①案例:屏蔽所有蜘蛛抓取根目录下的 wap 文件夹,但抓取里面后缀名为 html 的文件

User-agent:*
Disallow:/wap/
Allow:/wap/*.html

注意:上面的写法,wap 带 "/" 代表根目录下的 wap 目录下的内容。并不会禁止比如根目录下 waptest 的文件夹及文件夹所有内容。

②案例:禁止抓取根目录下所有前面带 "wap" 字符的文件夹及文件

User-agent:*
Disallow:/wap
禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。

③案例:保护隐私文件夹或文件
在《别让网站的 robots 成为最大的安全漏洞》一文说到,禁止搜索引擎抓取某些私密文件夹的同时,也暴露了网站的目录结构,猜出网站后台管理系统、后台等。
比如:禁止抓取 /include,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。

User-agent:*
Disallow:/inc

屏蔽动态 URL
网站有些动态页面可能会和静态页面相同,造成重复收录。
①案例:用 robots 屏蔽动态 URL

User-agent:*
Disallow:/*?*

②案例:仅允许访问 ".html" 为后缀的 URL

User-agent:*
Allow:.html$
Disallow:/

屏蔽死链接
网站改版、删除文章后,原来的 URL 如果已经被搜索引擎索引,出现404错误。一般的做法如下:
①查看网站日志,找出这些死链,用百度提交死链工具提交,慢慢的会删除这些死链;
②如果这个链接已经更换,也可以用301跳转到新的链接,301跳转后原页面和新页面处理办法;
③robots 禁止蜘蛛抓取死链,写法同上,最好带完整路径

User-agent:*
Disallow:http://www.buymashop.com/sitemap.html

屏蔽不参与排名的页面链接
比如会员中心、登陆界面、联系我们等。这些虽然有实际用途,蜘蛛一样会爬取这些页面链接,这些页面也会分权,因此为了集中权重,一些完全不参与排名的页面应该用 robots 屏蔽。也可以在该页面的之前添加声明,指向该页面的链接加上 nofollow 标签。

登陆

sitemap 索引在 robots.txt 的位置
sitamap 索引的位置最好放在 robots.txt 的最下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。

Sitemap: http://www.buymashop.com/sitemap.xml
Sitemap: http://www.buymashop.com/sitemap.html

你可能感兴趣的:(Python)