Rewrite简介
# Rewrite对应URL Rewrite,即URL重写,就是把传入web的请求重定向到其他URL的过程.
# 当运维遇到要重写情况时,往往是要程序员把重写规则写好后,发给你,你再到生产环境下配置。对于重写规则
# 说到底就是正则匹配,做运维的岂能对正则表达式不了解的?最起码最基本的正则表达式会写。套用一句阿里的话(某网友说是阿里说的,不清楚到底是不是出自阿里)“不懂程序的运维,不是好运维;不懂运维的开发,不是好开发。”
# Nginx的重写模块rewrite是一个简单的正则表达式匹配与一个虚拟堆叠机结合,依赖于pcre库这也为我们之前安装的时候为什么需要安装pcre和pcre-devel软件的原因,rewrite会根据相关变量重定向和选择不同的配置,从一个 location跳转到另一个 location,不过这样的循环最多可以执行10次,超过后 nginx将返回500错误。同时,重写模块包含 set 指令,来创建新的变量并设其值,这在有些情景下非常有用的,如记录条件标识、传递参数到其他location、记录做了什么等等。
功能及范围
# 功能:实现URL的重写,通过Rewrite规则,可以实现规范的URL,根据变量来做URL转向及选择配置。
# 作用范围:server{},location{},if{}
# 优先级:执行server块的rewrite指令 > 执行location匹配 >执行选定的location中的rewrite指令。
应用场景
# nginx的rewrite功能在企业中应用非常广泛:
# 1. 可以调整用户用户浏览的URL,看起来更加规范,合乎开发以及产品人员的需求。
# 2. 为了让搜索引擎收录网站内容及用户体验更好,企业将动态URL地址伪装成静态地址提供服务
# 3. 网站换新域名后,让旧的域名的访问跳转到信息的域名上
# 4. 根据特殊变量、目录、客户端的信息进行URL跳转等。
URL Rewrite最常见的应用是URL伪静态化,是将动态页面显示为静态页面的一种技术.
比如http://www.123.com/news/index.php?id=123 使用URLRewrite 转换后可以显示为 http://www.123.com/news/123.html对于追求完美主义的网站设计师,就算是网页的地址也希望看起来尽量简洁明快。理论上,搜索引擎更喜欢静态页面形式的网页,搜索引擎对静态页面的评分一般要高于动态页面。所以,UrlRewrite可以让我们网站的网页更容易被搜索引擎所收录。
从安全角度上讲,如果URL中暴露太多的参数,无疑会造成一定量的信息泄露,可能会被一些黑客利用,对你的系统造成一定的损坏,所以静态化的URL地址可以给我们带来更高的安全性.
实现网站地址跳转,例如用户访问360buy.com,将其跳转到jd.com,例如当用户访问flying.cn的80端口时,将其跳转到443端口.
Rewrite相关指令
Nginx Rewrite相关指令有重定向rewrite,if 语句,条件判断,全局变量,set,return
# if语句的应用环境和语法:
# 应用环境: server,location
if (condition) {
# 代表条件为真时的nginx操作,可以是反向代理,也可以是URL重写
}
if 可以支持如下条件判断匹配符号
~ # 正则匹配(区分大小写)
~* # 正则匹配(不区分大小写)
!~ # 正则不匹配(区分大小写)
!~* # 正则不匹配(不区分大小写)
-f和!-f # 用来判断是否存在文件
-d和!-d # 用来判断是否存在目录
-e和!-e # 用来判断是否存在文件或目录
-x和!-x # 用来判断文件是否可执行
# 文件及目录匹配,其中:
# -f和!-f用来判断是否存在文件
# -d和!-d用来判断是否存在目录
# -e和!-e用来判断是否存在文件或目录
# -x和!-x用来判断文件是否可执行
Rewrite flag
rewrite: 指令根据表达式来重定向URI,或者修改字符串,可以应用于server,location,if环境下,每行rewrite指令最后跟一个跟一个flag标记,支持的flag标记有:
-
last: 相当于Apache里的[L]标记,表示终止继续在本location快中处理接收到的URI,并将此处重写的URI作为一个新的URI,使用下一个location块进行处理,处理完成再从第一个location开始,循环五次报500错误.
-
break: 将此处重写的URI作为一个新的URI,在本块中继续进行处理,该标识将重写后的地址在当前location块中执行,不会将新的URI转向到其他location块.
-
redirect: 返回302临时重定向,浏览器地址会显示跳转后的URL地址.
-
permanent: 返回301永久重定向,浏览器地址会显示跳转后URL地址.
location / {
root /usr/share/nginx/html;
index index.html index.htm;
rewrite ^/.* http://www.taobao.com;
}
Rewrite匹配参考示例
Example1
# 有意思的域名跳转,39.108.140.0无论访问什么,最终都给跳转到www.taobao.com上**
vim /etc/nginx/conf.d/default.conf
location location / {
root /usr/share/nginx/html;
index index.html index.htm;
rewrite ^/.* http://www.taobao.com;
}
elinks --dump 39.108.140.0
*?[14]亲,请登录
*?? 消息 ?
*?[15]手机逛淘宝
Example2
# 访问http://39.108.140.0/abc/a/1.html ==> http://39.108.140.0/ccc/bbb/b.html
# 1./abc/a/1.html页面是否存在不重要
# 2./ccc/bbb/b.html页面必须存在
vim /etc/nginx/conf.d/default.conf
location /abc {
rewrite .* /ccc/bbb/b.html permanent;
}
nginx -s reload
elinks --dump 39.108.140.0/abc/a/1.html
b.html
# 这个abc目录是没有的,但是只要符合匹配条件就会跳转走
tail -2 /var/log/nginx/access.log
49.233.69.195[04/Nov/2019:12:22:19]"GET /abc/a/1.html HTTP/1.1" 301 169 "-"
49.233.69.195[04/Nov/2019:12:22:19]"GET /ccc/bbb/b.htmlHTTP/1.1" 200"http://39.108.140.0/abc/a/1.html"
# 无permanent,简单的rewrite请求一次
49.233.69.195 - - [04/Nov/2019:12:27:09 +0800] "GET /abc/a/1.html HTTP/1.1" 200 7 "-"
#有permanent,永久重定向301请求两次(成本高,容易看懂日志意思,友好)
Example3
# 访问http://39.108.140.0/2015/ccc/bbb/b.html ==> http://39.108.140.0/2014/ccc/bbb/b.html
mkdir /usr/share/nginx/html/2015/ccc/bbb/ -p
mkdir /usr/share/nginx/html/2014/ccc/bbb/ -p
echo 2014 > 2014/ccc/bbb/b.html
echo 2015 > 2015/ccc/bbb/b.html
vim /etc/nginx/conf.d/default.conf
location /2015 {
rewrite ^/2015/(.*)$ /2014/$1 permanent;
}
nginx -s reload
Example4
# 访问http://www.flying.com ==> http://cloud.com
# 因为是测试环境,注意客户端解析
mkdir /cloud
echo cloud > /cloud/index.html
vim /etc/nginx/conf.d/default.conf
location / {
root /cloud;
index index.html;
}
nginx -s reload
tail -2 /etc/hosts
39.108.140.0 cloud.com
39.108.140.0 flying.com
elinks --dump cloud.com
cloud
vim /etc/nginx/conf.d/default.conf
if ($host ~* flying.com){
rewrite .* http://cloud.com permanent;
}
elinks --dump flying.com
cloud
Example5
# 如果访问的.sh结尾的文件则返回403操作拒绝错误
return 指令用于返回状态码给客户端,应用于server,location,if环境
touch /usr/share/nginx/html/1.sh
vim /etc/nginx/conf.d/default.conf
location ~* \.sh$ {
return 403;
#return 301 http://www.baidu.com;
}
nginx -s reload
elinks --dump 39.108.140.0/index.html
123
elinks --dump 39.108.140.0/index.sh
403 Forbidden
Example6
域名跳转www
# 主机记录就是域名前缀,常见用法有:
# www:解析后的域名为www.aliyun.com。
# @:直接解析主域名 aliyun.com。
# *:泛解析,匹配其他所有域名 *.aliyun.com。
# mail:将域名解析为mail.aliyun.com,通常用于解析邮箱服务器。
# 二级域名:如:abc.aliyun.com,填写abc。
# 手机网站:如:m.aliyun.com,填写m。
# 显性URL:不支持泛解析(泛解析:将所有子域名解析到同一地址)
# 方法1
server {
listen 80;
server_name zcj.net.cn;
rewrite ^(.*) $scheme://www.$server_name$1 permanent;
}
# 方法2
server {
listen *:80;
listen [::]:80;
server_name zcj.net.cn;
#告诉浏览器有效期内只准用 https 访问
add_header Strict-Transport-Security max-age=15768000;
# 永久重定向到https站点
return 301 http://www.example.com$request_uri;
}
Example7
# 不同浏览器访问不同结果(实现不同客户端(PC,安卓,IOS))访问不同的后端实例
if ($http_user_agent ~ Firefox) {
rewrite ^(.*)$ /firefox/$1 break;
}
if ($http_user_agent ~ MSIE) {
rewrite ^(.*)$ /msie/$1 break;
}
if ($http_user_agent ~ Chrome) {
rewrite ^(.*)$ /chrome/$1 break;
}
# 防止盗链
location ~*\.(gif|jpg|png|swf|flv)${
valid_referers none blocked www.cheng.com *.test.com;
if ($invalid_referer) {
rewrite ^/(.*) http://www.lianggzone.com/error.html
}
}
# 禁止访问以/data开头文件
location ~ ^/data {
deny all;
}
# 设置某些类型文件的浏览器缓存时间
location ~ .*.(gif|jpg|jpeg|png|bmp)$ {
expires 30d;
}
location ~ .*.(js|css)$ {
expires 1h;
}
# 设置过期时间不记录日志
location ~(favicon.ico) {
log_not_found off;
expires 99d;
break;
}
location ~(robots.txt) {
log_not_found off;
expires 7d;
break;
}
rewrite和return
rewrite .* http://www.baidu.com permanent;
return 301 http://ww.baidu.com
#如果你只是想要返回一定的状态码,建议用return
#如果你想要进行地址重写,建议直接用rewrite
Rewrite的四个参数
--ngx_http_rewrite_module # rewrite重写模块
1> last: # 匹配到规则重新向server发送请求,不会显示跳转之后的URL;
2> break: # 匹配到这个规则终止匹配,不再匹配后面规则;
3> redirect: # 返回302临时重定向,浏览器地址显示跳转之后URL:
# redirect一般只需要临时跳转,这些跳转需要一定时间缓冲,如果跳转过长,可能被百度判断为作弊,会被k站;
4> permanent:返回301永久重定向,浏览器地址显示跳转后URL地址;
last,break详解
mkdir test
echo break > test/break.html
echo last > test/last.html
echo test > test/test.html
vim /etc/nginx/conf.d/default.conf
location /break {
root /usr/share/nginx/html;
rewrite .* /test/break.html break;
}
location /last {
#root /usr/share/nginx/html;
rewrite .* /test/last.html last;
}
location /test {
root /usr/share/nginx/html;
rewrite .* /test/test.html break;
}
nginx -s reload
elinks --dump 49.233.69.195/last
test
elinks --dump 49.233.69.195/break
break
elinks --dump 49.233.69.195/test
test
- 如果rewrite在匹配过程中,匹配结束了就必须声明root目录的位置,并显示root位置的url,如果没有匹配完成就不需要root目录
- last标记在本条rewrite规则执行完后,会对其所在的server {...}标签重新发起请求.
- break标记则在本次规则匹配完成后,停止匹配,不再做后续的匹配.
- 有些时候必须使用last,比如使用alias指令时,而使用proxy_paas指令时必须使用break.
Nginx location优先级
= 表示精确匹配,优先级也是最高的
^~ 表示uri以某个常规字符串开头,理解为匹配url路径即可(少用)
~ 表示区分大小写的正则匹配
~* 表示不区分大小写的正则匹配
!~ 表示区分大小写不匹配的正则
!~* 表示不区分大小写不匹配的正则
/ 通用匹配,任何请求都会匹配到
= 大于 ^~ 大于 ~ ~* !~ !~* 大于 /
Nginx全局变量
nginx里面的变量和shell里面的不相同,nginx里面的所有变量在定义时需要使用$变量名定义,直接写变量名表示引用变量.
1> $args # 请求中的参数,这个变量存放的是URL中的请求指令:
# 请求指令: 网址中?后面的一串字符,就是我们给网页传递过去的参数
2> $content_length # 请求长度: 存放请求报文中content_length字段内容,代表报文有点多少字节
3> $content_type # 请求类型: 存放请求报文中content_type字段内容
4> $document_root # 网页目录: 存放当前请求的根路径,对于apache来首就是/var/www/html
5> $document_uri # 存放请求报文中的当前URI,并且不包括请求指令
6> $host # 主机: 代表URI地址中的主机部分,如果请求中没有host行,则等于设置的服务器名:
7> $http_user_agent # 存放客户端代理信息(即客户端的浏览器类型)
8> $http_cookie # 开发使用,表示client和server之间的会话信息,server返回的验证身份信息的一段字符串.
# 浏览器的缓存其中一个就是cookie,这个cookie就是访问某一台web服务器,网站服务器为了验证身份生成的一段字符串.
9> $limit_rate # 用不到,nginx服务器对网络连接速率做限制的.
10> $remote_addr # 存放客户端ip地址
11> $remote_port # 存放客户端端口,即源端口: 客户端访问时,服务器收到的数据的源端口号是多少.
12> $remote_user # 远程用户: 存放客户端的用户名,基于用于密码验证的用户名.
13> $request_body_file # 表示nginx做反向代理时,nginx转给后端服务器的文件名称
14> $request_method # 存放客户端请求资源的方法,就是GET,POST,PUT,DELETE,HEAD
15> $request_filename # 存放当前请求的文件路径名(带网站的主目录/usr/local/nginx/html/images/a.jpg)
16> $request_uri # 存放当前请求的URI地址,并且带有请求指令(不带网站的主目录/images/a.jpg)
17> $query_string # 查询的字符串: 与变量$args含义相同,表示?后面一串
18> $scheme # 存放客户端请求使用的协议,如http,https
19> $server_protocol # 存放客户端请求协议的版本, http/1.0 http/1.1
20> $server_addr # 存放服务器ip地址,如果没有用listen指明服务器地址,使用这个变量将发起一次系统调用以取得地址(造成资源浪费)
21> $server_name # 存放了客户端请求到达的服务器的名称,配置虚拟主机时的虚拟主机名
22> $server_port # 存放了客户端请求到达的服务器的端口号
23> $uri # 与变量$document_uri含义相同,代表URI地址,不包括请求指令,问好后面的不包含
Example:
if ( -f $request_filename) {.....} 如果客户端请求的文件名存在,就做什么动作
if ($request_method = POST) {.....} 如果客户端请求方法是POST上传,做什么动作
if ($http_user_agent ~ MSIE) {.....} 如果客户端的浏览器名称里面带有MSIE字符就做什么操作