python查看字符编码值_Python 字符编码

字符串也是一种数据类型,但比较特殊的是字符串存在一个编码问题,也就是我们怎么用计算机来表示相应的字符并存储。在编程语言中,我们经常会处理文本编码之间的转化问题,因为文本可能存在不同的编码,比如 ASCII、GBK、UTF-8 等等。

如果希望正确的处理文本,就必须了解字符的抽象概念。我们可以认为字符表示的是文本中的单个符号。更重要的是,一个字符不是一个字节。比如,"中"在文本中是一个字符,但它存储在计算机中时却不是一个字节。一个字符有许多表示方法,不同的表示方法会使用不同的字节数,这就是所谓的编码。字符就是文本中最小的单元。

由于计算机是美国人发明的,因此,最早只有 127 个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为 ASCII 编码。但是计算机被广泛应用之后,ASCII 编码已经不足以表示世界上的各种语言,于是后来便出现了 Unicode 编码。

Unicode 是一种编码规范, 用来统一表示世界上的各种语言。Unicode 只是规定如何编码,并没有规定如何传输和保存等等,因此 Unicode 编码有不同的实现方式,比如:UTF-8、UTF-16 。UTF-8 编码把一个 Unicode 字符根据不同的数字大小编码成 1-6 个字节,常用的英文字母被编码成 1 个字节,汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4-6 个字节。Unicode 以大家都认可的方式定义了一系列的字符,可以将其理解成一个字符数据库,每个字符都与唯一的数字关联,称为 code point。这样,英文大写字母 A 的 codepoint 是 U+0041,而欧元符号的 codepoint

你可能感兴趣的:(python查看字符编码值)