robots 协议介绍

robots.txt怎么写
  1、允许所有搜索引擎访问
  User-agent: *
  Disallow:
  或者
  User-agent: *
  Allow: /
  在这里大家要注意下,可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
  2、禁止所有搜索引擎访问
  User-agent: *
  Disallow: /
  或者
  User-agent: *
  allow:
  3、禁止所有搜索引擎访问网站中的几个部分,在这里我用a、b、c目录来代替
  User-agent: *
  Disallow: /a/
  Disallow: /b/
  Disallow: /c/
  如果是允许,则是
  Allow: /a/
  Allow: /b/
  Allow: /c/
  4、禁止某个搜索引擎的访问,我用w来代替
  User-agent: w
  Disallow: /
  或
  User-agent: w
  Disallow: /d/*.htm
  在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
  5、只允许某个搜索引擎的访问,我用e来代替
  User-agent: e
  Disallow:
  在Disallow:后面不加任何东西,意思是仅允许e访问该网站。
  6、使用”$”限制访问url
  User-agent: *
  Allow: .htm$
  Disallow: /
  意思是仅允许访问以”.htm”为后缀的URL
  7、禁止访问网站中所有的动态页面
  User-agent: *
  Disallow: /*?*
  8、禁止搜索引擎F抓取网站上所有图片
  User-agent: F
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .gif$
  Disallow: .png$
  Disallow: .bmp$
  意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)
  9、只允许搜索引擎E抓取网页和.gif格式图片
  User-agent: E
  Allow: .gif$
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .png$
  Disallow: .bmp$
  意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片

你可能感兴趣的:(爬虫,基础知识)