为什么爬虫要设置headers

以nginx服务器软件为例:
nginx由多个模块组成,这些模块由配置文件中特定的指令控制,也就是说nginx的配置文件决定了nginx及其模块的工作方式。

其中,ngx_http_rewrite_moudle模块的主要作用是重定向,它通过正则表达式或判断语句来更改请求的URL。
例:

# 当请求头中User-Agent 头域的值包含MSIE字符串,则重定向到指定URL
if($http_user_agent ~ MSIE){
	rewrite ^(.*)$ /mise/$1 break;
}
# 当请求头中Cookie头域的值满足条件,则设定$id变量值为正则部分
if($http_cookie ~* “id=([^;]+)(?:;|$)”){
	set $id $1;
}
# 如果请求头是post, 则返回405
if($request_method = POST){
	return 405;
}
# 限制下载速度为10k,$slow可以通过set指令设置
if($slow){
	limit_rate 10k;
}
# 当请求头中Referer头域的值为空或是www.example.com时。允许访问,否则返回403
valid_referers none www.example.com;
if($invalid_referer){
	return 403;
}

你可能感兴趣的:(爬虫,nginx,python)