Django 中接收 URL 中的中文参数

转自:http://blog.csdn.net/kowity/article/details/2845720

前几天改造我那个电子课程表时,有个 URL 传递的参数我直接用了中文,像这样:/tt/getxml/?term=2008春。在 IE 中使用很正常,在 Django 里面接收之后用 request.GET.get('term') 直接就可以得到“2008春”。但是后来我用 FF 和 Safari 测试的时候就不行了。研究了一下发现还是得编码成 UTF-8 的形式传递才行。

  在客户端用 Javascript 生成 URL 时,用 encodeURI('2008春') 编码一下形成:/tt/getxml/?term=%E6%98%A5。然后再在 Django 那端用 urllib.unquote(request.GET.get('term')).decode('utf8') 接收就正常了。

  另外,用 Django 的 ORM 读取数据库,并且与 Python 自带的 xml.dom 一起来生成 XML 数据时,有中文的时候就不正常。主要还是编码问题。比如 term.name 是中文的,那么就要用 str(term.name).decode('utf-8') 来写入 xml.dom 生成的结点中,最后用 obj.toxml('utf-8') 来输出 XML 的内容。这样得出的 XML 是 UTF-8 编码的,并且在头那里会有一个 encoding="utf-8" 的属性,这个 XML 才能正确被其它地方解析。



中文URL:这个其实是很常识的东西,但是之前做web一直没注意过,在使用HttpResponseRedirect的时候,如果Redirect的URL中带中文的话,会报UnicodeEncodeError错误。解决的办法是使用urlquote对URL进行编码

from  django.utils.http  import  urlquote

# return的时候在URL前加上urlquote
return  HttpResponseRedirect(urlquote( " /wiki/%s "   %  page.pagename)) 

这个URL在ie的地址栏看到的就是一堆%的东西,Firefox等好像看到的是中文



今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是'%E4%B8%BD%E6%B1%9F',因此需 要做一个转换。这里我们就用到了模块urllib。
>>> import urllib
>>> data = '丽江'
>>> print data
丽江
>>> data
'\xe4\xb8\xbd\xe6\xb1\x9f'
>>> urllib.quote(data)
'%E4%B8%BD%E6%B1%9F'
那我们想转回去呢?
>>> urllib.unquote('%E4%B8%BD%E6%B1%9F')
'\xe4\xb8\xbd\xe6\xb1\x9f'
>>> print urllib.unquote('%E4%B8%BD%E6%B1%9F')
丽江
细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非'%E4%B8%BD%E6%B1%9F',其实是编码问题。百度的是gbk,其他的一般网站比如google就是utf8的。所以可以用下列语句实现。
>>> import sys,urllib 
>>> s = '丽江'
>>> urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
'%C0%F6%BD%AD'
>>> urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))
'%E4%B8%BD%E6%B1%9F'
>>>




你可能感兴趣的:(Django,字符编码)