python的str,unicode对象的encode和decode方法, Python中字符编码的总结和对比bytes和str...

  

python_2.x_unicode_to_str.py

= u"中文字符";
a.encode("GBK"); #打印: '\xd6\xd0\xce\xc4\xd7\xd6\xb7\xfb'
print( a.encode( "GBK" )); 打印: �����ַ�

a.encode("utf-8")   打印: '\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6'  每三个byte组成一个汉字

print(a.encode("GBK")); 打印: 1.此处是中文字符

 

python_2.x_str_to_unicode.py

= "中文字符";
print(
b.decode("UTF-8")) #打印: 中文字符

b.decode( "UTF-8" )#打印: u'\u4e2d\u6587\u5b57\u7b26'  每两个byte组成一个汉字
 

python_3.x_str_to_bytes.py     

= "中文字符";
c.encode("gbk")   #打印: b'\xd6\xd0\xce\xc4\xd7\xd6\xb7\xfb'
print(c.encode("GBK"))  #打印: b'\xd6\xd0\xce\xc4\xd7\xd6\xb7\xfb'

c.encode("utf-8")  #打印: b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6'

print(c.encode("utf-8") )  #打印: b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6'

python_3.x_bytes_to_str.py 

= b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6';
d.decode("utf-8")  #打印: '中文字符'
print(d.decode("UTF-8"))   #打印: 中文字符
 
d=b'\xd6\xd0\xce\xc4\xd7\xd6\xb7\xfb';
d.decode("gbk")  #打印: '中文字符'
print(d.decode("gbk"))   #打印: 中文字符
 
python3在encode出来的都是byte类型

此文之前

在读此文之前,你需要了解一些基本的前提知识:

1. Python的两种版本,Python 2.x和Python 3.x,的划分,不了解的去参考:

【整理】总结Python2(Python 2.x版本)和Python3(Python 3.x版本)之间的区别

2.对于各种字符编码要有个基本的了解

比如:

通用的Unicode

Unicode的最常见的一种实现方式,UTF-8

Windows中的默认编码GBK

等等,有个基本的概念。

如果不了解,可以参考相关内容:

字符编码详解

Windows Cmd中:设置字符编码:简体中文GBK/英文

3.关于Python文件中,声明当前文件所使用何种编码,要清楚其含义

不了解的,去看:

【整理】关于Python脚本开头两行的:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 – 指定文件编码类型

 

 

Python中,不论是Python 2.x还是Python 3.x中,总体上说,字符都只有2大类:

一类是通用的Unicode字符;

另一类是,(unicode被编码后的),某种编码类型的字符,比如UTF-8,GBK等等类型的字符;

 

但是呢:

Python 2.x,字符编码方面,设计的不好,导致经常,非常容易,出现一些字符编码解码方面的错误。

具体常见错误及解决办法,可参考:

【总结】Python中常见字符编码和解码方面的错误及其解决办法

 

Python 2.x的str和unicode和Python 3.x的bytes和str的详细对比

下面来简单介绍一下,Python 2.x和Python 3.x在字符编码方面的知识:

 

关键字

含义

具体的写法

两者之间如何互换

Python 2.x str 某种编码(UTF-8,GBK等)类型的字符串 "python 2.x中,普通的,用引号括起来的字符,就是str;此时字符串的编码类型,对应着你的Python文件本身保存为何种编码有关,最常见的Windows平台中,默认用的是GBK" str->unicode
【核心代码逻辑】 
1.确保自己知道对应字符串,是什么编码的 
2.然后使用yourStr.decode("yourKnownEncoding") 
去解码为对应的unicode字符串 
注: 
yourKnownEncoding为你自己所已知的,该字符串的编码类型 
3.然后继续你想要的各种处理

 

【完整代码】 
参见下面的:python_2.x_str_to_unicode.py 

  unicode Unicode类型的字符串

有两种写法:

  • 前缀加u
    • u"Python 2.x中,在普通字符串,加上前缀u后,就表示字符串是Unicode类型了"
  • 用unicode()强制转换:
    • unicode("Python 2.x中,在普通字符串,加上前缀u后,就表示字符串是Unicode类型了")
      • 此种写法的前提是,python文件中指定了对应的编码类型;
      • 并且对应的python文件的确是以该编码方式保存的
unicode->str:

 

【核心代码逻辑】 
1.先声明,或已获得了对应的,Unicode字符 
2.然后用 
unicodeVariable.decode("encodingType") 
去编码为对应的encodingType类型的字符串。 
其中encodingType常见的有UTF-8,GBK等等;

注: 
将Unicode转换为什么编码,因实际情况而异; 
即具体编码为什么类型,和你的实际使用的需求和目的有关;

3.然后再去做后续的,你自己想要的,任何的处理 
包括将其保存到对应的文件,传递给后面的代码处理等。

注: 
虽然上述说如果转换为GBK,用于在Windows的cmd中输出,只是为了演示的目的; 
实际上输出,尤其是打印Unicode类型的字符的时候,Python系统会自动将Unicode编码为,与当前输出终端,相同的编码,然后再显示的;此处此即自动把Unicode编码为cmd的GBK然后再显示。

【完整代码】 
参见下面的:python_2.x_unicode_to_str.py

         
Python 3.x bytes 某种编码(UTF-8,GBK等)类型的字节序列

普通字符串加上字母b作为前缀,就是表示bytes字符串了。

需要注意的是:

  • bytes,都是某种特定的编码的字符串
  • bytes,如果写上对应的值的话,那么只能直接写ASCII字符串,即只能写英文单词这种
  • 而如果想要写中文汉字这种,需要写\xYY这种16进制的值的形式才可以
    • 其中\xYY的值到底是多少,是你自己去通过相应的办法,将其编码为特定类型的字符所获得的
    • 其中如何把字符串,转换为某种编码的bytes的值,可以参考下面的"str->bytes"中的代码
    • 一般来说,我们在实际编程中,所遇到的是,你自己需要知道当前获得的字符串变量,是bytes,并且知道其是什么编码,基本上就可以了,然后就可以用后面介绍的bytesVariable.decode("specificEncoding")去解码为你需要的Unicode的str字符串了
bytes->str
【核心代码逻辑】 
1.如果你要写对应的bytes变量,那么需要加上前缀字母b;

 

注意: 
不过要注意的是,只能写英文单词,而不能直接写中文等非ASCII的字符。 
如果非要写非ASCII字符,那么只能自己想办法先将其转化为对应某种编码的byte,内部存储的内容,是对应的各个字节,打印出来的效果就是\xYY这种十六进制的值。

其中: 
如果把对应的中文转换对特定编码的bytes的16进制值,可以参考下面的"str->bytes"的代码。 
2.然后用 
bytesVariable.decode("specificEncoding") 
去解码为对应的str(即Unicode字符串) 
其中:specificEncoding是该bytes的编码。

3.然后你就可以拿着Unicode的str,去做你想要的事情了 
比如常见的打印出来看看。

【完整代码】 
参见下面的:python_3.x_bytes_to_str.py

  str Unicode类型的字符串

Python 3.x中,直接输出的字符串(被单引号或双引号括起来的),就已经是Unicode类型的str了。

当然,有一些前提:

  • Python文件开始已经声明对应的编码
  • Python文件本身的确是使用该编码保存的
  • 两者的编码类型要一样(比如都是UTF-8或者都是GBK等)

这样Python解析器,才能正确的把你所输出字符串,解析为对应的unicode的str

str->bytes
【核心代码逻辑】 
1.默认写出的字符串,已经就是str,即Unicode,的类型了。 
或者你之前已经获得了对应的unicode的str了。

 

注:当然,如果在Python文件中,需要满足下列条件: 
A。Python文件开始已经声明对应的编码 
B。Python文件本身的确是使用该编码保存的 
C。两者的编码类型要一样(比如都是UTF-8或者都是GBK等)

2.然后调用 
unicodeStr.encode("encodingType") 
去编码为对应的字节序列bytes, 
3.然后后续再进行相应的你所需要的处理

【完整代码】 
参见下面的:python_3.x_str_to_bytes.py

 

Python中的 UnicodeEncodeError

【已解决】Python字符串处理出现错误:UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe6 in position 0: ordinal not in range(128)

【整理】关于Python中自动识别字符串编码,并正确在cmd中输出的各种情况的测试

 

 

 

 

 

 

 

 

python的str,unicode对象的encode和decode方法
python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]。
而python中的unicode对象应该才是等同于java中的String对象,或本质上是java的char[]。
对于

  1. s="你好"    
  2. u=u"你好"   
s="你好" 
u=u"你好" 


1. s.decode方法和u.encode方法是最常用的,
简单说来就是,python内部表示字符串用unicode(其实python内部的表示和真实的unicode是有点差别的,对我们几乎透明,可不考虑),和人交互的时候用str对象。
s.decode -------->将s解码成unicode,参数指定的是s本来的编码方式。这个和unicode(s,encodename)是一样的。
u.encode -------->将unicode编码成str对象,参数指定使用的编码方式。
助记:decode to unicode from parameter
encode to parameter from unicode
只有decode方法和unicode构造函数可以得到unicode对象。
上述最常见的用途是比如这样的场景,我们在python源文件中指定使用编码cp936,
# coding=cp936或#-*- coding:cp936 -*-或#coding:cp936的方式(不写默认是ascii编码)
这样在源文件中的str对象就是cp936编码的,我们要把这个字符串传给一个需要保存成其他编码的地方(比如xml的utf-8,excel需要的utf-16)
通常这么写:
strobj.decode("cp936").encode("utf-16")

You typically encode a unicode string whenever you need to use it for IO, for instance transfer it over the network, or save it to a disk file.
To convert a string of bytes to a unicode string is known as decoding. Use unicode('...', encoding) or '...'.decode(encoding).
You typically decode a string of bytes whenever you receive string data from the network or from a disk file.
2.
第一条已经写了不少,因为是最常用到的,基本不用怎么解释。我重点想说的是这第二条。
似乎有了unicode对象的encode方法和str的decode方法就足够了。奇怪的是,unicode也有decode,而str也有
encode,到底这两个是干什么的。
用处1
str本身已经是编码过的了,如果再encode很难想到有什么用(通常会出错的)
先解释下这个
str.encode(e) is the same as unicode(str).encode(e).
This is useful since code that expects Unicode strings should also work when it is passed
ASCII-encoded 8-bit strings(from Guido van Rossum)
python之父的这段话大概意思是说encode方法本来是被unicode调的,但如果不小心被作为str对象的方法调,并且这个str对象正好
是ascii编码的(ascii这一段和unicode是一样的),也应该让他成功。这就是str.encode方法的一个用处(我觉得这个基本等于没用)
类似地,把光用ascii组成的unicode再decode一回是一样的道理,因为好像几乎任何编码里ascii都原样没变。因此这样的操作等于没做。
u"abc".decode("gb2312")和u"abc"是相等的。

用处2
非字符的编码集non-character-encoding-codecs,这些只在python中定义,离开python就没意义(这个来自python的官方文档)
并且也不是人类用的语言,呵呵。
比如

  1. '\n'.encode('hex')=='0a'    
  2. u'\n'.encode('hex')=='0a'  
  3. '0a'.decode('hex')=='\n'  
  4. u'0a'.decode('hex')=='\n'  
'\n'.encode('hex')=='0a' 
u'\n'.encode('hex')=='0a'
'0a'.decode('hex')=='\n'
u'0a'.decode('hex')=='\n'


可见名为hex的编码可以讲字符表示(当然了,必须是ascii内的)和十六进制表示之间转换
另外还有很多好玩的,比如:base64通俗的讲是号称防君子不防小人的给邮件的编码,gzip大概是指压缩吧(这是我猜的),rot13回转13等,不知者google之
关于这些,官方有个详细的表格,在http://docs.python.org/library/codecs.html中的Standard Encodings一节中,前一个表格是基于字符的编码,第二个表格
就是这里的非字符的编码。关于这些特殊编码,官方一句说明:
For the codecs listed below, the result in the “encoding” direction is always a byte string.
The result of the “decoding” direction is listed as operand type in the table.
encode的结果一定是一个byte的str,而decode的结果在表中operand一列。


参考
Converting Between Unicode and Plain Strings 在Unicode和普通字符串之间转换
http://wiki.woodpecker.org.cn/moin/PyCkBk-3-18
what’s the difference between encode/decode? (python 2.x)
http://stackoverflow.com/questions/447107/whats-the-difference-between-encode-decode-python-2-x
http://docs.python.org/library/codecs.html


编码声明的作用
请参考http://www.python.org/dev/peps/pep-0263/
声明源文件中将出现非ascii编码;
在高级的IDE中,IDE会将你的文件格式保存成你指定编码格式。
决定源码中类似于u'哈'这类声明的将'哈'解码成unicode所用的编码格式,也是一个比较容易让人迷惑的地方。
(java不需要声明的原因在于:java中默认是本地编码而py中默认是ascii,搞得python更易出错,
并且,java编译的时候还有个指定编码的参数encoding)

文件的编码格式决定了在该源文件中声明的字符串的编码格式,例如:

  1. str = '哈哈'    
  2. print repr(str)   
str = '哈哈' 
print repr(str) 


a.如果文件格式为utf-8,则str的值为:'\xe5\x93\x88\xe5\x93\x88'(哈哈的utf-8编码)
b.如果文件格式为gbk,则str的值为:'\xb9\xfe\xb9\xfe'(哈哈的gbk编码)

我的理解:文件编码格式保存后没有地方指明,只有靠聪明或笨的编辑器,编译器去猜。而声名就更精确一些。
让两者一致了总不会错。

其实好多其他语言或应用中也是类似的decode和encode概念,比如在java中String的涉及的编码转换及jdk中的工具native2ascii,
好像javascript也有这个,记不清楚了。

你可能感兴趣的:(java,python,javascript)