大道曙光

用Python实现URL Encoding和Decoding

前些日子在一个论坛上看到网友拿03版《天龙八部》和13版《天龙八部》作对比。在比较两个版本的片尾曲的时候，提到了03版的片尾曲《宽恕》。帖子中提到，这首歌由王菲演唱、林夕作词、赵季平（电视剧《关西无极刀》片头曲的作者）作曲。

记得高中时看《天龙》的时候就挺喜欢这首歌的，于是就用火狐浏览器下载了这首歌。但是下载得到的文件名是：%E5%AE%BD%E6%81%95.mp3。用浏览器在网上下载包含汉字的文件时经常会遇到这种情况，于是我就想写个小程序一劳永逸解决这个问题——把这种“奇怪”的文件名还原回它本来的“面目”。

印象中，在CSDN论坛上看到有人讨论过这个问题，好像说这其实是中文文件名经过UTF-8编码产生的。在Python中处理字符编码解码问题很简单，所以我打算写个Python脚本解决这个问题。

在Python 3.x中，一个str对象可以通过调用encode方法来编码得到一个bytes类型的字节序列。而bytes对象则有一个decode方法来实现字节序列的解码操作。看一个例子：

>>> song = '海阔天空'
>>> song_bytes = song.encode('utf-8') # 以UTF-8编码song这个字符串
>>> song_bytes
b'\xe6\xb5\xb7\xe9\x98\x94\xe5\xa4\xa9\xe7\xa9\xba'
>>> song_bytes.decode('utf-8')
'海阔天空'

这个例子中，把“海阔天空”以utf-8形式编码，得到\xe6\xb5\xb7\xe9\x98\x94\xe5\xa4\xa9\xe7\xa9\xba这样一个字节序列。那么，如果创建一个文本文件“song.txt”，在其中敲入“海阔天空”并按UTF-8编码保存，然后用任意一个具有二进制数据编辑/显示功能的编辑器以二进制形式打开，我们将看到这样的字节序列：E6B5B7E99894E5A4A9E7A9BA。

同样：

>>> song = '宽恕'
>>> song_bytes = song.encode('utf-8')
>>> song_bytes
b'\xe5\xae\xbd\xe6\x81\x95'

即，把歌曲名“宽恕”按UTF-8编码将得到字节序列：

E5AEBDE68195
和上面我用浏览器下载得到的文件名：
%E5%AE%BD%E6%81%95
对比一下，我们会发现其中对应关系。

于是我有了这样的思路：
1. 从str类型的字符串： "%E5%AE%BD%E6%81%95"得到一个bytes类型的字节序列：b'\xe5\xae\xbd\xe6\x81\x95'；
2. 对第1步中得到的字节序列进行解码，得到一个str类型的“正常”文件名。

第2步很简单。第1步，我们可以通过bytes类的fromhex方法来完成。

bytes.fromhex会把传入的字符串形式的十六进制数字（如：'E5 AE BD E6 81 95'）转换成相应的bytes类型字节序列（如：b'\xe5\xae\xbd\xe6\x81'）——前者两个十六进制数字对应后者一个字节，并忽略所有空白。具体代码如下：

>>> strange_file_name = "%E5%AE%BD%E6%81%95"
>>> strange_file_name = strange_file_name.replace('%', '')
>>> strange_file_name
'E5AEBDE68195'
>>> strange_file_name_bytes = bytes.fromhex(_)
>>> strange_file_name_bytes
b'\xe5\xae\xbd\xe6\x81\x95'
>>> _.decode('utf-8')
'宽恕'

效果不错！我忍不住要赞美生活了。但是，要一劳永逸，我还需要把它封装成一个小函数：

from re import compile as re_compile

_percent_pat = re_compile(r'(?:%[A-Fa-f0-9]{2})+')

def percent_decode(string):
    for substr in _percent_pat.findall(string):
        substr_dec = bytes.fromhex(
            substr.replace('%', '')).decode('utf-8')
        string = string.replace(substr, substr_dec)
    return string

前面，下载得到的歌曲名为：“%E5%AE%BD%E6%81%95.mp3”。其中的歌曲名称部分需要解码处理，而后缀".mp3"原封不动就行了。这也是上面percent_decode函数中使用循环的原因：使用正则表达式找到所有的经过UTF-8编码的序列，并解码。

本文到此，应该结束了。不过，幸好自己多想了一点：既然有解码，那么也应该有一个编码函数，这样才完整。但是，bytes并没有提供一个fromhex对应的“反操作”（Python中，float类型提供了fromhex，同时又提供了相应的hex。但需要提一点的是float.fromhex和bytes.fromhex的功能并不一样）。而我又想以一种看起来比较优美的方式来实现这个编码函数。于是，谷歌之。

搜索之后发现，生成包含百分号的文件名其实就是所谓的“URL Encoding”或“Percent Encoding（百分号编码）”（我还找到了一个提供在线URL Encoding/Decoding的网站。）。而且Python标准库中已经提供相关模块来实现上面的“编码”与“解码”（示例代码）。（其实，我是在了解了这些之后才把上面我实现的解码函数命名为percent_decode的。）

在Python 3.x中，urllib.parse模块提供了如下几个函数：
urllib.parse.quote(string, safe='/', encoding=None, errors=None)
该函数实现百分号编码操作；

urllib.parse.quote_plus(string, safe='', encoding=None, errors=None)
同上，不过使用字符'+'替换掉string中的空格字符' '；

urllib.parse.quote_from_bytes(bytes, safe='/')
该函数把形如b'\xe5\xae\xbd\xe6\x81\x95'的字节序列编码成形如%E5%AE%BD%E6%81%95的字符序列；

下面这三个函数分别是上面这三个函数的“反操作”：
urllib.parse.unquote(string, encoding='utf-8', errors='replace')
urllib.parse.unquote_plus(string, encoding='utf-8', errors='replace')
urllib.parse.unquote_to_bytes(string)

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

该函数能根据query中的数据，通过调用quote_plus生成URL query string。比如，我们在使用用户名、密码登陆某个论坛的时候，或者在某个网站上搜索关键词的时候，urlencode能帮助我们得到最终的查询链接：

>>> from urllib.parse import urlencode
>>> query_filter = {'song': '宽恕', 'artist': '王菲'}
>>> query_parms = urlencode(query_filter)
>>> query_parms
'artist=%E7%8E%8B%E8%8F%B2&song=%E5%AE%BD%E6%81%95'
>>> query_url = 'http://www.example.com/query?{}'.format(query_parms)
>>> query_url
'http://www.example.com/query?artist=%E7%8E%8B%E8%8F%B2&song=%E5%AE%BD%E6%81%95'

上面提到的这几个函数完全可以满足我的需求。而且，通过写percent_decode我也大致明白了百分号编码的解码过程，那么，顺道学一下百分号编码的编码过程吧。即，学习urllib.parse模块的quote、quote_plus是怎么实现的。

首先，我说一下我的猜测：

从上面实现的percent_decode可以看出，由于str和bytes已经把字符串的编码和解码工作封装好了（str提供了encode接口，bytes提供了decode接口），所以在percent_decode实现解码的过程中，我只是把str形式的包含百分号的字符串转换成了相应的bytes形式的字节序列，然后把转换的结果丢给bytes的decode方法来得到最终的结果。那么，也可以猜测到，编码的过程则是：先使用str的encode方法得到一个bytes类型的字节序列，然后再转换成包含百分号的字符串形式。我不知道怎么去“优雅”地实现这个过程（我认为的优雅就是：代码尽量简洁、紧凑、尽量使用现有函数——比如前面的fromhex），那么就看Python是怎么实现的吧。

以下代码代码摘取自Python 3.3.3的urllib.parse模块（其中，以"##"开头的中文注释是我对这部分代码的理解）：

## “百分号编码”中，如下ASCII字符在编码过程中保持原样。
## 这些字符也是所谓的“未保留字符”（Unreserved Characters）。
## 通过quote、quote_plus函数的safe参数，我们可以指定额外的未保留字符。
 _ALWAYS_SAFE = frozenset(b'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
                         b'abcdefghijklmnopqrstuvwxyz'
                         b'0123456789'
                         b'_.-')
_ALWAYS_SAFE_BYTES = bytes(_ALWAYS_SAFE)
_safe_quoters = {}

## 百分号编码的编码操作就是把bytes形式的字节序列转换成相应的包含百分号的字符串。
## 例如： b'\xe5\xae\xbd\xe6\x81\x95' -> %E5%AE%BD%E6%81%95
## 该类实际上封装了上述这一功能。具体做法就是以一种类似于字典（不过这里不是使用中括号）的工作方式来提供
## 查询操作。如：
## quoter = Quoter();
## 那么调用quoter(b'\xe5')将得到'%E5'。对“未保留字符”，quoter将返回其字符形式，即：quoter(b'a')将得到字符'a'。
class Quoter(collections.defaultdict):
    """A mapping from bytes (in range(0,256)) to strings.

    String values are percent-encoded byte values, unless the key < 128, and
    in the "safe" set (either the specified safe set, or default set).
    """
    # Keeps a cache internally, using defaultdict, for efficiency (lookups
    # of cached keys don't call Python code at all).
    def __init__(self, safe):
        """safe: bytes object."""
        self.safe = _ALWAYS_SAFE.union(safe)

    def __repr__(self):
        # Without this, will just display as a defaultdict
        return "" % dict(self)

    def __missing__(self, b):
        # Handle a cache miss. Store quoted string in cache and return.
        ## self.safe是_ALWAYS_SAFE（由“未保留字符”构成的集合）和
        ## 在调用quote、quote_plus时通过参数safe额外指定的字符集的并集。
        ## 对于存在于self.safe中的字节，返回其字符形式。否则，返回
        ## 形如%XX的字符序列（这里的'XX'是该字节的十六进制形式）。
        res = chr(b) if b in self.safe else '%{:02X}'.format(b)
        self[b] = res
        return res

def quote(string, safe='/', encoding=None, errors=None):
    """quote('abc def') -> 'abc%20def'

    Each part of a URL, e.g. the path info, the query, etc., has a
    different set of reserved characters that must be quoted.

    RFC 2396 Uniform Resource Identifiers (URI): Generic Syntax lists
    the following reserved characters.

    reserved    = ";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" |
                  "$" | ","

    Each of these characters is reserved in some component of a URL,
    but not necessarily in all of them.

    By default, the quote function is intended for quoting the path
    section of a URL.  Thus, it will not encode '/'.  This character
    is reserved, but in typical usage the quote function is being
    called on a path where the existing slash characters are used as
    reserved characters.

    string and safe may be either str or bytes objects. encoding must
    not be specified if string is a str.

    The optional encoding and errors parameters specify how to deal with
    non-ASCII characters, as accepted by the str.encode method.
    By default, encoding='utf-8' (characters are encoded with UTF-8), and
    errors='strict' (unsupported characters raise a UnicodeEncodeError).
    """
    if isinstance(string, str):
        if not string:
            return string
        if encoding is None:
            encoding = 'utf-8'
        if errors is None:
            errors = 'strict'
        ## 如果是字符串，先编码成字节序列
        string = string.encode(encoding, errors)
    else:
        if encoding is not None:
            raise TypeError("quote() doesn't support 'encoding' for bytes")
        if errors is not None:
            raise TypeError("quote() doesn't support 'errors' for bytes")
    ## 调用quote_from_bytes函数，把字符串编码后生成的字节序列转换成
    ## 相应的百分号编码字符串。即：
    ## b'\xe5\xae\xbd\xe6\x81\x95' -> %E5%AE%BD%E6%81%95
    return quote_from_bytes(string, safe)

## 该函数会先保留字符串中的空格字符（通过把空格字符附加到safe集合中，这样
## 空格字符就不会被变成%20），然后调用quote函数进行百分号编码操作。
## 最后，再把字符串中的空格替换成加号。
def quote_plus(string, safe='', encoding=None, errors=None):
    """Like quote(), but also replace ' ' with '+', as required for quoting
    HTML form values. Plus signs in the original string are escaped unless
    they are included in safe. It also does not have safe default to '/'.
    """
    # Check if ' ' in string, where string may either be a str or bytes.  If
    # there are no spaces, the regular quote will produce the right answer.
    if ((isinstance(string, str) and ' ' not in string) or
        (isinstance(string, bytes) and b' ' not in string)):
        return quote(string, safe, encoding, errors)
    if isinstance(safe, str):
        space = ' '
    else:
        space = b' '
    string = quote(string, safe + space, encoding, errors)
    return string.replace(' ', '+')

## 通过Quoter类提供的服务，实现实际的转换操作：
## 即：b'\xe5\xae\xbd\xe6\x81\x95' -> %E5%AE%BD%E6%81%95
def quote_from_bytes(bs, safe='/'):
    """Like quote(), but accepts a bytes object rather than a str, and does
    not perform string-to-bytes encoding.  It always returns an ASCII string.
    quote_from_bytes(b'abc def\x3f') -> 'abc%20def%3f'
    """
    if not isinstance(bs, (bytes, bytearray)):
        raise TypeError("quote_from_bytes() expected bytes")
    if not bs:
        return ''
    if isinstance(safe, str):
        # Normalize 'safe' by converting to bytes and removing non-ASCII chars
        safe = safe.encode('ascii', 'ignore')
    else:
        safe = bytes([c for c in safe if c < 128])
    ## 如果bs中包含的字节都是要保留的，那么rstrip后将得到一个空的bytes类型序列。
    ## 这表明bs中的所有字节都需要保持原样。那么，只需调用decode方法转换一下类型
    ## 就可以了。例如，如果bs是b'Beyond'，只需返回b'Beyond'.decode，即字符串：'Beyond'。
    if not bs.rstrip(_ALWAYS_SAFE_BYTES + safe):
        return bs.decode()
        
    ## 构建一个Quoter类型的对象，用以提供类似如下的查询服务：
    ## quoter(b'\xe4') 得到：'%E4'
    ## quoter(b'A') 得到： 'A'
    try:
        quoter = _safe_quoters[safe]
    except KeyError:
        _safe_quoters[safe] = quoter = Quoter(safe).__getitem__
    ## 通过列表解析，处理bs每个字节，并连接成字符串返回。
    return ''.join([quoter(char) for char in bs])

明白了urllib.parse中quote、quote_plus之后，我自己也尝试写了一遍，不妨叫做percent_encode：

_unreserved_chars = frozenset(b'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
                              b'abcdefghijklmnopqrstuvwxyz'
                              b'0123456789'
                              b'_.-')

# A simple implement of "urllib.parse.quote"
def percent_encode(string, safe = '/', encoding = 'utf-8', errors = 'strict'):
    if not string:
        return string
    string = string.encode(encoding, errors)
    bytes_unchanged = _unreserved_chars.union(
        safe.encode('ascii', 'ignore'))
    ## 这里，我使用一个lambda函数来实现类似于上面的Quoter类提供的功能。
    process_byte = lambda byte: chr(byte) if byte in bytes_unchanged \
                   else '%{:02X}'.format(byte)
    return ''.join((process_byte(b) for b in string))

# A simple implement of "urllib.parse.quote_plus"
def percent_encode_plus(string, safe = '', encoding = 'utf-8',
                        errors = 'strict'):
    safe += ' '
    string = percent_encode(string, safe, encoding, errors)
    return string.replace(' ', '+')

其实，无论是从上面给出的在线URL编码解码网站还是urllib.parse模块中的几个相关函数，我们都可以看到它们都支持除'UTF-8'编码之外的编码类型（urllib.parse中的几个相关函数通过encoding参数来指定编码选项）。而我写的percent_decode则没有这个参数。现在，让我给它加上这个参数：

def percent_decode(string, encoding = 'utf-8'):
    for substr in _percent_pat.findall(string):
        substr_dec = bytes.fromhex(
            substr.replace('%', '')).decode(encoding)
        string = string.replace(substr, substr_dec)
    return string

看起来简单极了！而且我自认为这段代码比Python中的unquote的实现还要简洁。于是，我便自信满满地去测试了：

>>> from re import compile as re_compile
>>> _percent_pat = re_compile(r'(?:%[A-Fa-f0-9]{2})+')
>>> def percent_decode(string, encoding = 'utf-8'):
    for substr in _percent_pat.findall(string):
        substr_dec = bytes.fromhex(
            substr.replace('%', '')).decode(encoding)
        string = string.replace(substr, substr_dec)
    return string

>>> song = 'Beyond-海阔天空'
>>> from urllib.parse import quote, unquote
>>> song_pct_enc = quote(song, encoding = 'utf-8')
>>> song_pct_enc
'Beyond-%E6%B5%B7%E9%98%94%E5%A4%A9%E7%A9%BA'
>>> percent_decode(_, 'utf-8')
'Beyond-海阔天空'
>>> unquote(song_pct_enc)
'Beyond-海阔天空'
>>> song_pct_enc_utf16 = quote(song, encoding = 'utf-16')
>>> song_pct_enc_utf16
'%FF%FEB%00e%00y%00o%00n%00d%00-%00wm%14%96%29Yzz'
>>> percent_decode(_, 'utf-16')
Traceback (most recent call last):
  File "", line 1, in 
    percent_decode(_, 'utf-16')
  File "", line 4, in percent_decode
    substr.replace('%', '')).decode(encoding)
UnicodeDecodeError: 'utf16' codec can't decode byte 0x00 in position 0: truncated data
>>> unquote(song_pct_enc_utf16, 'utf-16')
'Beyond-海阔天空'

有麻烦了！我的percent_decode在处理UTF-16的时候出错了。仔细一看，我们会发现，song的UTF-16编码中出现了%00，而：

b'\x00'.decode('utf-16')

是会出现UnicodeDecodeError异常的。(b'\x00\x00'.decode('utf-16') 是可以的。)

那么，这里的%00是怎么产生的呢？

>>> 'B'.encode('utf-16')
b'\xff\xfeB\x00' # 小尾（端），包含BOM：FF FE
>>> 'B'.encode('utf-16-le')
b'B\x00' # 小尾
>>> 'B'.encode('utf-16-be')
b'\x00B' # 大尾（端）

看了这段示例之后，错误很明显了。就拿小尾序不含BOM情况下字符'B'的UTF-16编码b'B\x00'来说，b'B'和b'\x00'两个在一起才是完整的，才能解码得到字符'B'：

>>> b'B\x00'.decode('utf-16-le')
'B'

而单独拿两者任意一个去解码：

>>> b'B'.decode('utf-16-le')
Traceback (most recent call last):
  File "", line 1, in 
    b'B'.decode('utf-16-le')
  File "D:\Program Files\Python33\lib\encodings\utf_16_le.py", line 16, in decode
    return codecs.utf_16_le_decode(input, errors, True)
UnicodeDecodeError: 'utf16' codec can't decode byte 0x42 in position 0: truncated data
>>> b'\x00'.decode('utf-16-le')
Traceback (most recent call last):
  File "", line 1, in 
    b'\x00'.decode('utf-16-le')
  File "D:\Program Files\Python33\lib\encodings\utf_16_le.py", line 16, in decode
    return codecs.utf_16_le_decode(input, errors, True)
UnicodeDecodeError: 'utf16' codec can't decode byte 0x00 in position 0: truncated data

前者会得到truncated data的错误提示，即要解码的序列被截断了，无法解码。而后者就更不行了。事实上，b'\x00'和UTF-16中任意一个字符都不对应。即使是ASCII值为0的'\0'字符：

>>> '\0'.encode('utf-16-le')
b'\x00\x00'

因此，上面percent_decode那种见到形如%XX%XX就去解码然后连接到结果字符串中的做法是错误的。另一种做法，就是把解码操作推迟到最后阶段：

>>> quote('B', encoding = 'utf-16-le')
'B%00'

当我们想要去解码'B%00'这样一个字符串时，应该先想办法把它转换成形如：b'B\x00'这样的字节序列，然后在整个序列上调用bytes的decode方法，这样就不会出现如上错误了。事实上，这正是Python 3.3.3中unquote函数的做法：

import re

_asciire = re.compile('([\x00-\x7f]+)')
_hexdig = '0123456789ABCDEFabcdef'
## 建立如下的对应关系：
## b'00': '00'
## b'01': '01'
## ...
## b'FF': 'FF'
## 即从单字节到该字节的二位十六进制表现形式。可以看做是
## bytes.fromhex的逆操作。
_hextobyte = {(a + b).encode(): bytes([int(a + b, 16)])
              for a in _hexdig for b in _hexdig}

##               
def unquote_to_bytes(string):
    """unquote_to_bytes('abc%20def') -> b'abc def'."""
    # Note: strings are encoded as UTF-8. This is only an issue if it contains
    # unescaped non-ASCII characters, which URIs should not.
    if not string:
        # Is it a string-like object?
        ## 下面这句代码好像没用。我感觉放在这里只是起测试作用，即只有string包含
        ## split属性的时候，才会return一个空字节序列。
        string.split
        return b''
        
    ## 如果string是字符串，则转换成字节序列
    ## 我认为这里即使使用'ascii'作为encoding类型也可以——
    ## 毕竟，一个正常的经过百分号编码算法编码的字符串中
    ## 不可能包含除ASCII字符以外的字符。
    ## 但Python文档中有这样一句话：
    ## The source character set is defined by the encoding declaration; it is UTF-8 if ## no encoding declaration is given in the source file
    ## 也就是说，在不包含编码声明的Python脚本中，Python 3.x会
    ## 认为其中的字符串字面量是UTF-8编码的。所以，这里使用UTF-8也合理。
    if isinstance(string, str):
        string = string.encode('utf-8')
        
    ## 以字节b'%'作为分隔符，得到一个由bytes类型对象构成的列表。
    bits = string.split(b'%')
    if len(bits) == 1:
        return string

    res = [bits[0]]
    append = res.append
    for item in bits[1:]:
        try:
            ## 这里实际上是res.append(_hextobyte[item[:2]])
            ## 还拿字符'B'的UTF-16-LE形式的百分号编码'B%00'来说：
            ## string是'B%00'
            ## bits是[b'B%00']
            ## 这里，通过查字典_hextobyte，把b'%00'变成b'\x00'
            ## 这样我们得到的res就是：
            ## [b'B\x00']
            append(_hextobyte[item[:2]])
            ## 其它部分，不予处理。
            ## 比如，字符'B'的UTF-16-BE的百分号编码为：'%00B'
            ## 上面的操作只是把b'%00'变成了b'\x00'，而剩余的b'B'
            ## 只需要添加到列表res中就行了。
            append(item[2:])
        except KeyError:
            append(b'%')
            append(item)
    ## 经过b'%XX' -> b'\xXX'这样的映射操作后，连接起来重新得到完整的字符串。
    return b''.join(res)

def unquote(string, encoding='utf-8', errors='replace'):
    """Replace %xx escapes by their single-character equivalent. The optional
    encoding and errors parameters specify how to decode percent-encoded
    sequences into Unicode characters, as accepted by the bytes.decode()
    method.
    By default, percent-encoded sequences are decoded with UTF-8, and invalid
    sequences are replaced by a placeholder character.

    unquote('abc%20def') -> 'abc def'.
    """
    if '%' not in string:
        string.split
        return string
    if encoding is None:
        encoding = 'utf-8'
    if errors is None:
        errors = 'replace'
    ## 我认为这句代码的作用也不大。
    bits = _asciire.split(string)
    res = [bits[0]]
    append = res.append

    for i in range(1, len(bits), 2):
        ## 对unquote_to_bytes返回的字节序列进行解码操作。
        append(unquote_to_bytes(bits[i]).decode(encoding, errors))
        append(bits[i + 1])
    return ''.join(res)

上面就是Python 3.3.3中的unquote函数的实现思路。

后来，我在自己安装了Python 3.3.2的Debian 7.3上写代码时，吃惊地发现，Python 3.3.2到Python 3.3.3，urllib.parse中的unquote函数的实现方式完全不同。事实上，Python3.3.2中的unquote函数有问题，即当我拿一个中文字符串以某种encoding type（比如：UTF-16）编码（quote）再解码（unquote）后，得到的字符串和原来的不一样了。我用TortoiseSVN提供的diff工具对比了一下从Debian 7上得到的Python 3.3.2中的urllib.parse模块相应的parse.py和Win7下Python 3.3.3中urllib.parse相应的parse.py，发现两者最大的不同之处也就是unqoute、unquote_to_bytes这两个函数实现方式的改变。

以下代码摘自Python 3.3.2中的urllib.parse模块：

def unquote_to_bytes(string):
    """unquote_to_bytes('abc%20def') -> b'abc def'."""
    # Note: strings are encoded as UTF-8. This is only an issue if it contains
    # unescaped non-ASCII characters, which URIs should not.
    if not string:
        # Is it a string-like object?
        string.split
        return b''
    if isinstance(string, str):
        string = string.encode('utf-8')
    res = string.split(b'%')
    if len(res) == 1:
        return string
    string = res[0]
    for item in res[1:]:
        try:
            string += bytes([int(item[:2], 16)]) + item[2:]
        except ValueError:
            string += b'%' + item
    return string

def unquote(string, encoding='utf-8', errors='replace'):
    """Replace %xx escapes by their single-character equivalent. The optional
    encoding and errors parameters specify how to decode percent-encoded
    sequences into Unicode characters, as accepted by the bytes.decode()
    method.
    By default, percent-encoded sequences are decoded with UTF-8, and invalid
    sequences are replaced by a placeholder character.

    unquote('abc%20def') -> 'abc def'.
    """
    if string == '':
        return string
    res = string.split('%')
    if len(res) == 1:
        return string
    if encoding is None:
        encoding = 'utf-8'
    if errors is None:
        errors = 'replace'
    # pct_sequence: contiguous sequence of percent-encoded bytes, decoded
    pct_sequence = b''
    string = res[0]
    for item in res[1:]:
        try:
            if not item:
                raise ValueError
            pct_sequence += bytes.fromhex(item[:2])
            rest = item[2:]
            if not rest:
                # This segment was just a single percent-encoded character.
                # May be part of a sequence of code units, so delay decoding.
                # (Stored in pct_sequence).
                continue
        except ValueError:
            rest = '%' + item
        # Encountered non-percent-encoded characters. Flush the current
        # pct_sequence.
        string += pct_sequence.decode(encoding, errors) + rest
        pct_sequence = b''
    if pct_sequence:
        # Flush the final pct_sequence
        string += pct_sequence.decode(encoding, errors)
    return string

这里的unquote并没有调用unquote_to_bytes！这个版本的unquote和我之前写的percent_decode有点类似，即看到一个百分号就“迫不及待”地去尝试性的解码（不过这个unquote还是考虑到了非UTF-8的情况下，一个解码单元可能是一个sequence——pct_sequence就是为这种情况设计的）。后来，这个函数我也没再细看了。

理解了这些函数工作原理之后，我把自己仿写的几个函数放到一个名为uriparse.py的脚本里，如下：

#! /usr/bin/env python3
# -*- coding: utf-8 -*-
# By mayadong7349 2014-01-19 19:39

from re import compile as re_compile

_percent_pat = re_compile(b'((?:%[A-Fa-f0-9]{2})+)')
_unreserved_chars = frozenset(b'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
                              b'abcdefghijklmnopqrstuvwxyz'
                              b'0123456789'
                              b'_.-')

# A simple implement of  "urllib.parse.unquote"
def percent_decode(string, encoding = 'utf-8', errors = 'replace'):
    str_bytes = string.encode('utf-8')
    hex_to_byte = lambda match_ret: \
                  bytes.fromhex(
                      match_ret.group(0).replace(b'%', b'').decode('utf-8'))
    str_bytes = _percent_pat.sub(hex_to_byte, str_bytes)
    string = str_bytes.decode(encoding, errors)
    return string

# A simple implement of "urllib.parse.unquote_plus"
def percent_decode_plus(string, encoding = 'utf-8', errors = 'replace'):
    return percent_decode(string.replace('+', '%20'), encoding, errors)

# A simple implement of "urllib.parse.quote"
def percent_encode(string, safe = '/', encoding = 'utf-8', errors = 'strict'):
    if not string:
        return string
    string = string.encode(encoding, errors)
    bytes_unchanged = _unreserved_chars.union(
        safe.encode('ascii', 'ignore'))
    process_byte = lambda byte: chr(byte) if byte in bytes_unchanged \
                   else '%{:02X}'.format(byte)
    return ''.join((process_byte(b) for b in string))

# A simple implement of "urllib.parse.quote_plus"
def percent_encode_plus(string, safe = '', encoding = 'utf-8',
                        errors = 'strict'):
    safe += ' '
    string = percent_encode(string, safe, encoding, errors)
    return string.replace(' ', '+')

if __name__ == '__main__':
    import unittest
    import urllib.parse

    class TestURIParse(unittest.TestCase):
        def setUp(self):
            pass
        def tearDown(self):
            pass
        def doTest(self, str_, str_with_space, encoding_list):
            for en in encoding_list:
                # print('Test encoding:', en)

                str_enc = percent_encode(str_, encoding = en)
                self.assertEqual(
                    str_enc, urllib.parse.quote(str_, encoding = en))

                str_with_space_enc = percent_encode_plus(
                    str_with_space, encoding = en)
                self.assertEqual(
                    str_with_space_enc,
                    urllib.parse.quote_plus(str_with_space, encoding = en))

                # print('Test decoding:', en)
                self.assertEqual(percent_decode(str_enc, encoding = en),
                                 urllib.parse.unquote(str_enc, encoding = en))
                self.assertEqual(
                    percent_decode(str_with_space_enc, encoding = en),
                    urllib.parse.unquote(str_with_space_enc, encoding = en))
                self.assertEqual(
                    percent_decode_plus(str_with_space_enc, encoding = en),
                    urllib.parse.unquote_plus(
                        str_with_space_enc, encoding = en))
        def testChinese(self):
            fn = 'Beyond-海阔天空'
            fn_with_space = 'Beyond 海 阔 天 空'
            encoding_list = ('utf-8', 'gb2312', 'gbk', 'utf-16', 'utf-16-le',
                             'utf-16-be', 'utf-32', 'utf-32-le', 'utf-32-be',
                             'gb18030')
            self.doTest(fn, fn_with_space, encoding_list)
        def testReservedChars(self):
            reserved_chars = "!*'();:@&=+$,/?#[]"
            encoding_list = ('utf-8', 'gb2312', 'gbk', 'utf-16', 'utf-16-le',
                             'utf-16-be', 'utf-32', 'utf-32-le', 'utf-32-be',
                             'gb18030')
            self.doTest(reserved_chars, reserved_chars, encoding_list)
        def testEmptyString(self):
            self.doTest('', '', ('utf-8', 'utf-16-be', 'utf-32-le'))
        def testURL(self):
            url = 'http://www.baidu.com/'
            url_with_space = 'http://www.baidu.com/黑 客 帝 国.rmvb'
            encoding_list = ('utf-8', 'gb2312', 'gbk', 'utf-16', 'utf-16-le',
                             'utf-32', 'utf-32-le', 'gb18030')
            self.doTest(url, url_with_space, encoding_list)
        def testRealURL(self):
            wiki_page = 'http://zh.wikipedia.org/wiki/%E7%99%BE%E5%88%86%E5%8F%B7%E7%BC%96%E7%A0%81'
            self.assertEqual(percent_decode(wiki_page),
                             urllib.parse.unquote(wiki_page))
                
    unittest.main()

这些代码很简单。正如上面提到的，在实现percent_encode和percent_decode的时候，我没有做任何有关编码、解码的具体工作（这些工作分别交给str.encode和bytes.decode了），所以没什么技术含量。而且，percent_encode的string参数也只接受str类型对象（quote也可以处理bytes类型的对象）。

此外，我实现的这个版本并不是为了替换urllib.parse中的相应函数。只是因为实现它们并不难。而且，我的实现中没有包含错误处理。我也可能不会再更新uriparse.py。所以，如果有类似需求，请使用urllib.parse，毕竟有专业程序员维护它们。

本文并未包含诸如UTF-8、UTF-16等相关编码知识，那是因为我对它们理解的也不好。所以，请查阅维基百科来了解它们（包括那些和URL Encoding相关的RFC文档，也请自行搜索）。

最后总结一下：
1. unquote、unquote_plus的第二个参数是encoding，而quote、quote_plus的第三个参数才是encoding。使用的时候注意一下；
2. quote、quote_from_bytes第二个参数safe默认值为'/'，而quote_plus第二个参数safe默认为空''，我还不知道这种不一致性的原因，使用的使用也注意一下；
3.
(1)
Python 3.3官方文档的The Python Standard Library/4. Built-in Types/4.8. Binary Sequence Types — bytes, bytearray, memoryview/4.8.1. Bytes中有这样一段话：
Only ASCII characters are permitted in bytes literals (regardless of the declared source code encoding). Any binary values over 127 must be entered into bytes literals using the appropriate escape sequence.
(2)
维基百科上介绍UTF-8的词条有这样一段话：
1992年7月，X/Open委员会XoJIG开始寻求一个较佳的编码系统。Unix系统实验室（USL）的Dave Prosser为此提出了一个编码系统的建议。它具备可更快速实现的特性，并引入一项新的改进。其中，7比特的ASCII符号只代表原来的意思，所有多字节串行则会包含第8比特的符号，也就是所谓的最高有效比特。

Unicode字符的比特被分区为数个部分，并分配到UTF-8的字节串中较低的比特的位置。在U+0080的以下字符都使用内含其字符的单字节编码。这些编码正好对应7比特的ASCII字符。在其他情况，有可能需要多达4个字符组来表示一个字符。这些多字节的最高有效比特会设置成1，以防止与7比特的ASCII字符混淆，并保持标准的字节主导字符串运作顺利。
(3)
结合(1)和(2)，可以得出这样一个结论：
Python 3.x中一个str对象进行utf-8编码后，得到一个bytes类型的字节序列。在这个过程中str中的ASCII字符保持原样，而超出ASCII范围的Unicode字符则被表示成多字节的转义序列（而且序列中每个字节最高bit位必定为1，即这些字节都不会被误判为一个ASCII字符）。因此，最初版本的percent_decode去解码一个以UTF-8进行URL Encoding得到的URL时是可行的。

而对于UTF-16：

>>> '海阔天空'.encode('utf-16-le')
b'wm\x14\x96)Yzz'
>>> quote('海阔天空', encoding = 'utf-16-le')
'wm%14%96%29Yzz'
>>> for ch in '海阔天空':
...     print(repr(quote(ch, encoding = 'utf-16-le')))
...     
'wm'
'%14%96'
'%29Y'
'zz'

我们可以看到经过UTF-16编码得到的多字节字符序列中不排除某些字节落在了0-127范围内，这样bytes会误认为它是一个ASCII字符，并以ASCII字符形式显示出来。这样，最初版本的percent_decode在看到'wm%14%96%29Yzz'仅仅提取%14%96%29并试图解码就会出错。

扩展阅读一：
UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节（2字节）存储，但UTF-16却无法兼容于ASCII编码。
扩展阅读二：
C++ GUI Programming with Qt 4
Another encoding that supports the whole of Unicode is UTF-8. Its main advantage over UTF-16 is that it is
a superset of ASCII. Any character in the range 0x00to 0x7Fis represented as a single byte. Other
characters, including Latin-1 characters above 0x7F, are represented by multi-byte sequences. For text
that is mostly ASCII, UTF-8 takes up about half the space consumed by UTF-16.

扩展阅读三：

字符集和字符编码（Charset & Encoding）

字符编码笔记：ASCII，Unicode和UTF-8
python 中文乱码问题深入分析

你可能感兴趣的:(Python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round