一个字符等于几个字节 什么是utf8?

不同的字符所占的字节是不同的。

ASCII码:

一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。如一个ASCII码就是一个字节。

UTF-8编码:

一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。

Unicode编码:

一个英文等于两个字节,一个中文(含繁体)等于两个字节。

一个字符等于几个字节 什么是utf8?_第1张图片

 

那么什么是编码?什么是UTF-8?

由于计算机使用0和1来存储文本。比如字符“C”被存成“01000011”,那么计算机在显示这个字符时需要经过两个步骤:

  1. 计算机读取“01000011”,得到数字67,因为67被编码成“01000011”。
  2. 计算机在Unicode字符集中查找67,找到了“C”。

同样的:

  1. 我的电脑将“C”映射成Unicode字符集中的67。
  2. 我的电脑将67编码成“01000011”,并发送给Web服务器。

几乎所有的网络应用都使用了Unicode字符集,因为没有理由使用其他字符集。

Unicode字符集包含了上百万个字符。最简单的编码是UTF-32,每个字符使用32位。这样做最简单,因为一直以来,计算机将32位视为数字,而计算机最在行的就是处理数字。但问题是,这样太浪费空间了。

UTF-8可以节省空间,在UTF-8中,字符“C”只需要8位,一些不常用的字符,比如“”需要32位。其他的字符可能使用16位或24位。一篇类似本文这样的文章,如果使用UTF-8编码,占用的空间只有UTF-32的四分之一左右。

你可能感兴趣的:(java基础(初级))