编码,解码

一.标准ASCll字符集

标准ASCll 字符集使用一个字节存储一个字符,首尾是0

二.GBK字符集

GBK中一个中文字符编码成两个字节的形式存储,一个英文字母编码成一个字节的形式存储

对于 汉字中夹英文的,GBK规定:汉字的第一个字节的第一位必须是1

三.Unicode字符集

UTF-32 :4个字节表示一个字符,有点奢侈

UTF-8:采取可变长编码方案,共分为四个长度区,1个字节,2个字节,3个字节,4个字节

        英文字符,数字等只占1个字节,汉字字符占3个字节

编码,解码_第1张图片

编码,解码_第2张图片 

汉字在UTF-8编码中占3个字节,第一个字节必须以1110开头,第二,第三个字节必须以10开头

这样就可以区分哪个是汉字了。 

编码,解码_第3张图片

UTF-8编码相对于GBK编码的优势主要包括以下几点:

  1. 全球通用:UTF-8是一种可变长度的编码方式,可以用来表示世界上几乎所有的书写语言。这使得UTF-8成为了一种通用的编码标准,无论在哪个地区或国家使用,都可以保证正确的字符编码。相比之下,GBK编码主要用于简体中文的编码,其适用范围相对较小。
  2. 兼容性好:UTF-8编码兼容ASCII编码,即所有ASCII编码的字符在UTF-8编码中与原样保持一致。这使得在处理英文和已经使用UTF-8编码的文本时,不需要进行额外的编码转换。而GBK编码则不具备这样的兼容性。
  3. 易于维护:UTF-8编码的字符在文本编辑器中可以正常显示,无需进行额外的转码操作。这使得在处理多语言文本时,UTF-8编码更加易于维护和编辑。而GBK编码则需要经常进行编码转换,增加了维护的难度。
  4. 支持多语言:UTF-8编码可以表示多种语言字符,包括中文、英文、日文、韩文等等。这使得UTF-8成为了一种广泛使用的国际编码标准。而GBK编码主要用于简体中文的编码,对于其他语言的支持则较为有限。

总之,UTF-8编码相对于GBK编码具有更好的全球通用性、兼容性、易维护性和对多语言字符的支持能力,因此在大多数情况下,推荐使用UTF-8编码来处理文本数据。

字符编码时使用的字符集,和解码时使用的字符集必须一致,否则会出现乱码 

四.编码,解码

package org.example;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class day04 {
    public static void main(String[] args) throws UnsupportedEncodingException {
        //编码
        String s = "wm在一起";
        final byte[] bytes = s.getBytes(); //默认按照平台字符集(UTF-8)编码
        System.out.println(Arrays.toString(bytes));
        //按照指定字符集编码
        final byte[] bytes1 = s.getBytes("GBK");
        System.out.println(Arrays.toString(bytes1));
        //解码
        final String s1 = new String(bytes);//默认按照平台字符集(UTF-8)解码
        System.out.println(s1);
        final String s2 = new String(bytes1,"GBK");
        System.out.println(s2);


    }
}

编码,解码_第4张图片

第一行中使用UTF-8编码,所以汉字占3个字节并且每个字节以1开头,所以是负数

第二行中使用GBK编码,汉字占2个字节并且每个字节以1开头,所以是负数

你可能感兴趣的:(字符集,GBK,UTF-8,编码,解码)