什么是URL Rewrite?URL Rewrite有什么用?

URL Rewrite的概念

URL Rewrite即URL重写,就是把传入Web的请求重定向到其他URL的过程。URL Rewrite最常见的应用是URL伪静态化,是将动态页面显示为静态页面方式的一种技术。比如http://www.123.com/news/index.asp?id=123 使用UrlRewrite转换后可以显示为http://www.123.com/news/123.html。

 

URL Rewrite有什么用?

1,首先是满足观感的要求。
对于追求完美主义的网站设计师,就算是网页的地址也希望看起来尽量简洁明快。形如http://www.123.com/news/index.asp?id=123的网页地址,自然是毫无美感可言,而用UrlRewrite技术,你可以轻松把它显示为 http://www.123.com/news/123.html。

2,其次可以隐藏网站所用的编程语言,还可以提高网站的可移植性。 
当网站每个页面都挂着鲜明的.asp/.aspx/.php这种开发语言的标记,别人一眼即可看出你的网站是用什么语言做的。而且在改变网站的语言的时候,你需要改动大量的链接。而且,当一个页面修改了扩展名,它的pagerank也会随之消失,从头开始。我们可以用UrlRewrite技术隐藏我们的实现细节,这样修改移植都很方便,而且完全不损失pagerank。提高安全性,可以有效的避免一些参数名、ID等完全暴露在用户面前,如果用户随便乱输的话,不符合规则的话直接会返回个404或错误页面,这比直接返回500或一大堆服务器错误信息要好的多

3,最后也是最重要的作用,是有利于搜索引擎更好地抓取你网站的内容。
理论上,搜索引擎更喜欢静态页面形式的网页,搜索引擎对静态页面的评分一般要高于动态页面。所以,UrlRewrite可以让我们网站的网页更容易被搜索引擎所收录。

 

使用urlrewrite的步骤如下:

首页,访问其官网:http://tuckey.org/urlrewrite/,我下载的是最新的目前还处于Beta版的urlrewritefilter-3.2.0,下载后将其中的urlrewrite-3.2.0.jar扔到需使用此功能项目的lib目录中去
其次,在web.xml中加入如下配置:

UrlRewriteFilter org.tuckey.web.filters.urlrewrite.UrlRewriteFilter (这个可以不写,是配置UrlRewriter日志的配置,级别定成WARN) logLevel WARN UrlRewriteFilter /* REQUEST FORWARD

过滤器的参数

1. confReloadCheckInterval: 配置文件重加载间隔. 0表示随时加载, -1表示不重加载, 默认-1

2. confPath: 配置文件路径. 是相对context的路径, 默认/WEB-INF/urlrewrite.xml

3. logLevel: 设置日志级别, 可以是: TRACE, DEBUG, INFO(默认), WARN, ERROR, FATAL, log4j, commons, slf4j, sysout:{level}(比如 sysout:DEBUG), 如果你使用普通的日志级别有一定困难, 可以调为: sysout:DEBUG(表明是使用控制台输出的调试级别)

4. statusPath: 设置改变状态路径, 不能和已经安装的应用冲突(注意, 默认是/rewrite-status), 注意, 必须以/开始

5. statusEnabled: 设置status是否开启, 期望得到的值是true, false, 默认true

6. statusEnabledOnHosts: 设置允许status的主机, *可以被用作通配符, 默认是”localhost, local, 127.0.0.1”

7. modRewriteConf: 设置rewrite模式, 默认是false, 使用mod-rewrite(可以参照apache服务器的mod_rewrite相关资料)方式的配置文件, 如果设置为true并且confPath没有设置则配置文件路径将会被默认为/WEB-INF/.htaccess

8. modRewriteConfText: 从这些参数的值加从载mod_rewrite样式的配置, 设置这些参数则其他所有的参数都会被忽略. 比如:

modRewriteConfText

RewriteRule ^/~([^/]+)/?(.*) /u/$1/$2 [R]

RewriteRule ^/([uge])/([^/]+)$ /$1/$2/ [R]

9. allowConfSwapViaHttp: 设置是否允许通过HTTP方式交互设置参数, 比如, 通过调用/rewrite-status/?conf=WEB-INF/urlrewrite2.xml

其实,urlrewrite其实就是个过虑器,它将会过虑用户的所有请求,符合规则的便对其进行重定向,具体的配置参数的使用方法见官方文档:http://urlrewritefilter.googlecode.com/svn/trunk/src/doc/manual/3.2/index.html
配置好web.xml后将下载的urlrewritefilter-3.2.0中的urlrewrite.xml配置文件放在WEB-INF目录下,这样在使用urlrewritefilter时它便自动到该目录下读取相关的配置了,我配置了个简单的,代码如下:

/zh_CN/NewsInfo/NEWS_([0-9]+) /zh_CN/NewsInfo/view.do?method=view&id=$1 /zh_CN/NewsInfo.do/?method=view&id=([0-9]+)$ /zh_CN/NewsInfo/NEWS_$1

rule结点中form的规则默认使用的是正则表达式来匹配的,当用户访问服务器时的URL会与该配置相比较,如果符合规则就会按照下面to结点中的配置对其进行跳转,其默认是forward跳转,具体配置可见官网文档。
outbound-rule结点是服务器解析后的页面URL对外表现的形式,配置与上面的大体相同,如我一新闻链接代码在JSP中书写的形式如下:

  • · ${cur.title}
  • 经服务器解析后,最终显示在页面中的将变成:

  • · 新闻标题
  • 当用户点击此链接后urlrewrite便用通过rule的配置重跳转到真正的访问地址,这样便很好的隐藏了真实地址
    这其中有点是需要注意的,引用官网中的一段话:
    Using the example above JSP's with the code
    ">nyc
    will output
    nyc

    Or JSTL
    ">nyc
    will output
    nyc

    Note, If you are using JSTL (ie, 意思就是说需要转化的链接不能直接写在a标签中,需要写在c:url或其他服务器需要解析的变量中,这样才能对其重新显示

     

     urlrewrite.xml的配置和使用

    DTD约束

            PUBLIC "-//tuckey.org//DTD UrlRewrite 3.0//EN"

            "http://tuckey.org/res/dtds/urlrewrite3.0.dtd">

    2. 

    2.1. default-match-type(可选): 

    2.1.1. regex, 默认. 所有未指定match-type属性的rule都使用java正则表达式进行匹配

    2.1.2. wildcard: 所有未指定match-type属性的rule都使用通配符匹配引擎匹配

    2.2. decode-using(可选):

    2.2.1. header, utf8: 默认. 使用request.getCharacterEncoding()得到的编码对URL解码, 如果是空, 使用utf8.

    2.2.2. null: 不进行解码. 设置为: decode-using=”null”

    2.2.3. header: 仅仅使用request.getCharacterEncoding()解码

    2.2.4. [encoding]: 仅仅使用一个指定的字符编码比如ISO-8859-1.

    2.2.5. header, [encoding]: 对一个URL解码时使用request.getCharacterEncoding(), 如果得到的值为空, 则使用encoding指定的编码.

    2.3. use-query-string(可选):

    2.3.1. false: 默认. 在from进行匹配的时候, 查询字符串不会参加

    2.3.2. true: 查询字符串参与from的匹配

    2.4. use-context(可选):

    2.4.1. false: 默认. from元素匹配时, application的contex路径将不会增加到url中

    2.4.2. true: application的contex路径参与from元素的匹配

    3. : 0个或多个

    3.1. enabled(可选):

    3.1.1. true: 默认.允许这个规则

    3.1.2. false: 废弃这个规则

    3.2. match-type(可选):

    3.2.1. regex: 默认. 使用java正则匹配

    3.2.2. wildcard: 使用通配符表达式引擎

    4. : 0个或多个. 和普通的rule非常相似, 但是这里是在response.encodeURL()方法调用时进行重写的.

    4.1. enabled(可选):

    4.1.1. true: 默认. 允许规则

    4.1.2. false: 废弃规则

    4.2. encodefirst(可选):

    4.2.1. fasle: 默认, 在运行了encodeURL()方法之后运用这个重写规则

    4.2.2. true: 在encodeURL()之前运用这个重写规则

    5. : 一个用于记录规则名称的可选元素, 可以在上使用

    6. : 用于记录规则描述的一个简单可选元素, 可以用在上.

    7. : 针对规则的选择条件. 注意, 在规则运用的时候必须满足所有的条件.

    7.1. type(可选): 

    7.1.1. header: 默认. 如果设置, 头名称必须通过的name属性指定

    7.1.2. method: 请求方法. GET, POST, HEAD等

    7.1.3. port: application运行的端口

    7.1.4. time: 服务器当前时间(使用Unix时间戳), 这个通常被用于确保内容仅在设置的时间存活

    7.1.5. year: 服务器的当前年

    7.1.6. month: 服务器的当前月份

    7.1.7. dayofmonth: 当天是一月的第几天, 每月第一天是1

    7.1.8. dayofweek: 当天是一周的第几天, 星期天是7

    7.1.9. ampm: 上午或下午

    7.1.10. hourofday: 一天的第多少小时(24小时制)

    7.1.11. minute: 当前服务器时间的分

    7.1.12. second: 当前服务器时间的秒

    7.1.13. millisecond: 当前服务器时间的毫秒

    7.1.14. attribute: 检查request的属性(getAttribute)值, 要检查的属性名称通过的name指定

    7.1.15. auth-type: 检查request属性的值.   request.getAuthType

    7.1.16. character-encoding: 接收到请求的编码

    7.1.17. content-length: 请求的长度(对于拒绝响应大请求很有用)

    7.1.18. content-type: 请求类型

    7.1.19. context-path: 请求的contex路径

    7.1.20. cookie: 检查cookie值, cookie的名称通过的name属性指定

    7.1.21. parameter: 检查请求参数, 参数名称通过的name属性指定

    7.1.22. path-info: 相当于request.getPathInfo()

    7.1.23. path-translated: 相当于request.getTranslated()

    7.1.24. protocol: 用于过滤协议

    7.1.25. query-string: 得到url后面的参数字符串

    7.1.26. remote-addr: IP地址过滤

    7.1.27. remote-host: 远程主机过滤(注意, 仅仅在应用服务器配置了查看(远程)主机名时才可用)

    7.1.28. remote-user: 当前登录用户, 如果用户被授权可用

    7.1.29. requested-session-id: 当前session的id

    7.1.30. request-uri: 请求URL的从协议名到查询字符串部分

    7.1.31. request-url: 重构后的URL, 返回的URL包含协议, 服务器名称, 端口, 路径, 但不包含查询字符串

    7.1.32. session-attribute: 检查session中的属性(getAttribute), 属性名称通过的name属性设置.

    7.1.33. session-isnew: 检查session是不是新的

    7.1.34. server-name: 请求发送到的服务器的主机名(从host这个头中得到的不是机器名)

    7.1.35. scheme: 请求的scheme

    7.1.36. user-in-role: 注意, 这里的值不能是正则表达式

    7.2. name: 配合一些特殊type使用的, 可以是任何值

    7.3. next: 

    7.3.1. and: 默认. 下一个和这一个条件都必须匹配

    7.3.2. or: 下一个或这一个条件匹配

    7.4. operator: 

    7.4.1. equal: 默认. 指定正则和真实值匹配

    7.4.2. notequal: 真实值和正则不匹配

    7.4.3. greater: 大于, 仅用于数值

    7.4.4. less: 小于

    7.4.5. greaterorequal: 大于等于

    7.4.6. lessorequal: 小于等于

    8. : 通常在中都必须指定一个, 值可以是正则表达式(Perl5方式的正则), 注意: from指定的url是和contex相关的

    8.1. casesensitive: 

    8.1.1. false: 默认. 大小写不敏感

    8.1.2. true: 大小写敏感

    9. : 可以是一个perl5样式的正则替换表达式

    9.1. type:

    9.1.1. forward: 默认. 请求匹配这个的所有, 并且URL使用内部跳转到”to”指定的地址(注意, 这里forward到的URL必须和UrlRewriteFilter位于同一个容器中)

    9.1.2. passthrough: 和forward相同

    9.1.3. redirect: 请求匹配所有和这个, 通知客户端跳转到指定地址

    9.1.4. permanent-redirect: 相当于做了以下事情

    response.setStatus(

    HttpServletResponse.SC_MOVED_PERMANENTLY

    );

    response.setHeader(“Location”, [指定的值]);

    9.1.5. temporary-redirect: 相当于做了以下事情

    response.setStatus(

    HttpServletResponse. SC_MOVED_TEMPORARILY

    );

    response.setHeader(“Location”, [指定的值]);

    9.1.6. pre-include

    9.1.7. post-include

    9.1.8. proxy: 请求URL将会以全路径被代理, 使用此特性需要引入commons-http和commons-codec包

    9.2. last: 

    9.2.1. false: 默认. 其余将会处理如果这个匹配

    9.2.2. true: 如果匹配这个规则将不会处理

    9.3. encode:

    9.3.1. false: 下是默认值. 在rewrite之前, 用response.encodeURL([to的值])编码URL

    9.3.2. true: 下默认值. 不会编码URL

    9.4. context: 

    如果应用服务器配置了允许”穿透context”通信, 那么这个属性可以被用于forward(并且仅仅能用于forward)请求到另外一个serlvet context…..也就是跨应用forward

    在Tomcat上, server.xml或context.xml中配置crossContext=”true”, 例如: 允许两个应用”app”和”forum”之间通信, 那么可以如下配置:

    10. 的其他方面

    10.1. 可以是null, 意义为: 如果匹配请求不再继续, 相当于没有调用chain.doFilter

    10.2. 使用$N获取中配置的子组, N必须是1至10之间的数

    10.3. 任何中可以使用的type中的值都可以在中使用, 比如/%{parameter:page}

    10.4. 函数调用: ${函数名: 参数1:参数2}  可以在中使用

    name

    example

    example returns

    replace

    ${replace:my cat is a blue cat:cat:dog}

    my dog is a blue dog

    replaceFirst

    ${replace:my cat is a blue cat:cat:dog}

    my cat is a blue dog

    escape

    ${escape:a b c}

    a+b+c

    unescape

    ${unescape:a+b+c}

    a b c

    lower

    ${lower:Hello World}

    hello world

    upper

    ${upper:hello}

    HELLO

    trim

    ${trim: abc def }

    abc def

    11. : 在匹配规则的时候, 允许设置一些值.

    11.1. type:

    11.1.1. request: 默认. 类似于request.setAttribute

    11.1.2. session: session.setAttribute

    11.1.3. response-header: response.setHeader

    11.1.4. cookie: 值以”[value][:domain[:lifetime[:path]]]”的格式设置.  是指给客户端浏览器设置cookie, cookie名称由的name属性指定

    11.1.4.1. value: cookie的值

    11.1.4.2. domain: 服务器

    11.1.4.3. lifetime: 存货时间

    11.1.4.4. path: cookie的path

    11.1.5. status: response.setStatus

    11.1.6. content-type: response.setContentType

    11.1.7. charset: response.setCharacterEncoding

    11.1.8. expires: 设置HTTP头中的过期时间, 设置的格式为{数值 类型}, 比如: “1 day 2 seconds”

    11.1.9. locale: response.setLocale

    11.1.10. parameter: 允许将request.getParameter得到的某个参数的值在这里进行重新处理

    11.1.11. method: 允许将request.getMethod()得到的值进行重新处理

    11.2. name: type是request, session, response-header, cookie的时候, 必须设置name

    11.3. 举例:

    Mozilla/3\.0 (compatible; AvantGo .*)

    .*

    AvantGo

    UP\.Browser/3.*SC03 .*

    .*

    Samsung SCH-6100

    12. : 允许在都匹配的时候, 执行一个对象方法

    12.1. class: 全限定名的类名, 期望调用方法的类名.

    12.2. method(可选): 默认值为run.  期望调用的方法名. 该方法必须有两个参数(HttpServletRequest request, HttpServletResponse response).  注意, 如果该对象有init(ServletConfig)或destroy()方法, 在创建和销毁对象的时候会自动调用, ServletConfig中可以得到初始化参数, 参数通过的方式传递:

    id

    1

    12.3. neweachtime: 默认false. 表明是否每次请求都创建一个对象实例.

    13. Tip

    13.1. 在配置中如果要使用”&”, 用&

    13.2. 简单起见, 给的配置前面和后面分别加上^, $, 这两个是正则表达式中的强制开始和结尾标志

    13.3. 如果使用要记得代码中的url都是编码过的

    13.4. 正则表达式非常复杂灵活, 请阅读java.util.regex.Pattern中的java正则介绍

    13.5. 如果觉得正则难以理解, 可以使用通配符方式

    13.6. contex是非常重要的, 如果有一个应用的context是”/myapp”, 并且你的请求是”/myapp/somefolder/somepage.jsp”, 容器交给UrlRewriteFilter的url会是”/somefolder/somepage.jsp”, 这可能难以理解, 但是在你的中不要包含context path, 它是容器负责处理的.

    14. 通配符: 

    通配符匹配引擎可以替代正则表达式, 在中设置match-type是wildcard用以开启支持通配符.(或者设置default-match-type)

    例如:

    /big/url/*匹配/big/url/abc.html但是不匹配/big/url/abc/dir/或/big/url/abc/

    /big/url/**匹配/big/url/abc.html, /big/url/abc/dir/和/big/url/abc/

    也可以和正则的替换一样, 每个*代表一个参数, 在中用$N的方式使用

     

    经验分享:

    在Java web服务器内使用url rewrite 

    每个网页或请求都是一个url地址,一般,这个地址可能是.do,.page,.action之类的并加上'?'号、'&'号查询串等构成的一个长长的的url。很urgly。 
    一般的url----------------------------------------------------------较好的url 
    http://www.xxx.net/user/profile.do?id=20001   ====> http://www.xxx.net/user/20001 
    http://www.xxx.net/forum/board.do?name=java   ====> http://www.xxx.net/forum/java 
    http://www.xxx.net/forum/thread.do?id=29923   ====> http://www.xxx.net/thread/29923 
    后者明显较为直观和漂亮。 
    使用url rewrite可以很好的改善这个状况。网站url rewrite应用是非常广泛的,良好的url设计给用户带来的非常好的体验,同时也能吸引搜索引擎的注意。 
    一种rewrite称为一个规则,上面的例子就是3个规则。rewrite技术可以在代理服务器实现,或者可以在tomcat之类的java web服务器实现。 Apache HTTP Server 2.x 和 mod_proxy提供了不错的Rewrite处理方法。so如果使用apache,则直接在apache中配置Rewrite即可。但是对于没有使用代 理,或者不完全要在代理服务器配置Rewrite的web应用,通过第三方Jar包也是可以实现很perfect的rewrite技术的。这是本帖的着重 点。 
    这个第三方包的地址是:http://tuckey.org/urlrewrite/ (待会再去这个网站,现在先别去) 
    这个包使用正则表达式仿照了apache rewrite的做法。而实现原理也是很明晰的:filter,forward,redirect机制组合: 
    在web.xml配置一个UrlRewriteFilter,拦截所有进来的请求,对服务要求的请求进行rewrite。比如,对 http://www.xxx.net/user/([0-9]+)请求,forward到/profile.do?id=$1。这就是一条规则。在这个 第三方包中的规则文件urlrewrite.xml中可以这样定义:
    Java代码 
       
         ^/user/([0-9]+)/?$   
         /profile.do?id=$1   
      

    ^/user/([0-9]+)/?$
    /profile.do?id=$1

    对我来说,一般我会配置一个通用的rule,使所有没有包含"."的url forward到.do的action上来(本人使用strut做系统较多) 
    Java代码 
       
            
             - 这是一个通用请求url rewrite   
             - 将请求forword url加上“.do”的处理器上。   
             - 例:   
             -    请求 http://{domain}/user/login     将被forward到 http://{domain}/user/login.do   
             -    请求 http://{domain}/user/login/    将被forward到 http://{domain}/user/login.do   
             -    请求 http://{domain}/user/logout/   将被forward到 http://{domain}/user/logout.do   
            
         ^/([_a-zA-Z]+[_0-9a-zA-Z-/]*[_0-9a-zA-Z]+)/?$   
         /$1.do   
      


    - 这是一个通用请求url rewrite
    - 将请求forword url加上“.do”的处理器上。
    - 例:
    - 请求 http://{domain}/user/login 将被forward到 http://{domain}/user/login.do
    - 请求 http://{domain}/user/login/ 将被forward到 http://{domain}/user/login.do
    - 请求 http://{domain}/user/logout/ 将被forward到 http://{domain}/user/logout.do

    ^/([_a-zA-Z]+[_0-9a-zA-Z-/]*[_0-9a-zA-Z]+)/?$
    /$1.do

    上面只是介绍个大概,并不是urlrewriter这个jar包的使用指南。如果你觉得这种rewrite做法不错的话,不如直接访问这个网站吧 [url]http://tuckey.org/urlrewrite/ [/url] 
    或者继续下面的getting start 
    getting start: 
    第一步:从http://tuckey.org/urlrewrite/ 上下载urlrewrite-3.0.3.jar包,放到webapp classpath下 
    第二步:在web.xml配置UrlRewriteFilter: 
    Java代码 
       
         UrlRewriteFilter   
            
             org.tuckey.web.filters.urlrewrite.UrlRewriteFilter   
            
            
             logLevel   
             WARN   
            
       
       
         UrlRewriteFilter   
         /*   
      

    UrlRewriteFilter

    org.tuckey.web.filters.urlrewrite.UrlRewriteFilter


    logLevel
    WARN



    UrlRewriteFilter
    /*

    第三步:在web-inf下新建urlrewrite.xml文件,简单填入以下内容: 
    Java代码 
       

         "http://tuckey.org/res/dtds/urlrewrite3.0.dtd">   
      
       
            
                
                 - 这是一个通用请求url rewrite   
                 - 将请求forword url加上“.do”的处理器上。   
                 - 例:   
                 -    请求 http://{domain}/user/login     将被forward到 http://{domain}/user/login.do   
                 -    请求 http://{domain}/user/login/    将被forward到 http://{domain}/user/login.do   
                 -    请求 http://{domain}/user/logout/   将被forward到 http://{domain}/user/logout.do   
                
             ^/([_a-zA-Z]+[_0-9a-zA-Z-/]*[_0-9a-zA-Z]+)/?$   
             /$1.do   
            
      
      


    "http://tuckey.org/res/dtds/urlrewrite3.0.dtd">



    - 这是一个通用请求url rewrite
    - 将请求forword url加上“.do”的处理器上。
    - 例:
    - 请求 http://{domain}/user/login 将被forward到 http://{domain}/user/login.do
    - 请求 http://{domain}/user/login/ 将被forward到 http://{domain}/user/login.do
    - 请求 http://{domain}/user/logout/ 将被forward到 http://{domain}/user/logout.do

    ^/([_a-zA-Z]+[_0-9a-zA-Z-/]*[_0-9a-zA-Z]+)/?$
    /$1.do


    第四步:启动web应用,将原来需要.do的请求改为去掉.do后请求,看看结果。 
    第五步:更详细的规则定义,请看http://tuckey.org/urlrewrite/manual/3.0/ 
    另外,tomcat自 5.0.15 后,提供了一个类似rewrite做法(for simple balance): 
    filter + 自带或定制的rule规则实现 + redirect重定向(没有forward,故url将被改为被重定向后的地址)。 
    在rewrite处理上,tomcat提供的功能是比较一般的,不及上面介绍的jar包。 
    但是tomcat的做法是根据具体的HttpServletRequest来做判断的,不仅仅是进来的请求的url,所以,各有千秋。 
    参考资料: 
    http://tomcat.apache.org/tomcat-5.5-doc/balancer-howto.html 
    http://src.opensolaris.org/source/xref/sfw/usr/src/cmd/tomcat/apache-tomcat-5.5.17-src/container/webapps/balancer/WEB-INF/classes/org/apache/webapp/balancer/Rule.java 

     

     

     

    转载请标明出处 http://blog.csdn.net/shimiso 欢迎有识之士加入我们的技术交流群:361579846

    你可能感兴趣的:(j2ee相关)