设置禁止或允许爬虫访问

方法一:在标签内加nofollow禁止爬虫

//声明在head标签里

方法二:声明robots.txt文件禁止或允许爬虫

1,robots.txt文件要放到哪里?

必须要放到域名的根目录下

2,允许所有爬虫访问

User-agent: * 

3,禁止访问所有路由

User-agent: * 
Disallow: /

4,设置禁止访问某些路由

User-agent: * 
Disallow: /admin/

//此处禁止了所有机器人访问/admin/目录

你可能感兴趣的:(爬虫大数据)