python爬虫-网站是如何防止爬虫的

第一种方法:通过检测请求头的user-agent字段来检测你是一个爬虫还是一个浏览器(人类),这时如果想让爬虫正常访问该网站,可以把自己的请求头user-agent字段修改为浏览器的(通过抓包可以获取)。

第二张方法:在根目录下放置Robots.txt文件,告知爬虫自觉遵守。
例如CSDN的Robot.txt文件内容如下(访问www.csdn.com/robots.txt获取)
这个文件写明了在根目录下的scripts,public,css,images,content,ui,js,scripts等文件目录爬虫不能访问
User-agent: *
Disallow: /scripts
Disallow: /public
Disallow: /css/
Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/
Disallow: /scripts/
Disallow: /article_preview.html*

Sitemap: http://www.csdn.net/article/sitemap.txt

你可能感兴趣的:(python)