robots.txt

Rails 中的 robots.txt

# See http://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
# User-agent: *
# Disallow: /
User-agent:* ”表示本节适用于所有机器人。“ Disallow:/ ”告诉机器人它不应该访问网站上的任何页面。

使用/robots.txt时有两个重要的注意事项:

机器人可以忽略您的/robots.txt。特别是扫描Web的恶意软件机器人的安全漏洞,以及垃圾邮件发送者使用的电子邮件地址收集器将不会引起注意。
/robots.txt文件是公开可用的文件。任何人都可以看到您的服务器的哪些部分不希望机器人使用。
# https://www.taobao.com/robots.txt 页面

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /wenzhang
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /wenzhang
Allow:  /oversea
Allow:  /list
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /wenzhang
Allow:  /oversea
Allow:  /list
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /wenzhang
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /wenzhang
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /wenzhang
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /wenzhang
Allow:  /oversea
Allow:  /list
Disallow:  /

User-Agent:  *
Disallow:  /

你可能感兴趣的:(ruby,on,rails)