【JavaSE】Java文字的编码与解码

Unicode码表:

unicode (又称统一码、万国码、单一码)是计算机科学领域里的一项业界字符编码标准。
容纳世界上大多数国家的所有常见文字和符号。
由于Unicode会先通过UTF-8,UTF-16,以及UTF-32的编码成二进制后再存储到计算机,其中最为常见的就是UTF-8。

注意:

Unicode是万国码,以UTF-8编码后一个中文一般以三个字节的形式存储。
UTF-8也要兼容ASCII编码表。
技术人员都应该使用UTF-8的字符集编码。
编码前和编码后的字符集需要一致,否则会出现中文乱码。

 

编码和解码

package d3_charset;

import java.io.UnsupportedEncodingException;
import java.nio.charset.StandardCharsets;
import java.util.Arrays;

public class Test {
    public static void main(String[] args) throws Exception {
        //1.编码:把文字转换成字节(指定的编码)
        String name = "hhh,好厉害哟!";

        byte[] bytes1 = name.getBytes(StandardCharsets.UTF_8);//以当前代码默认字符集进行编码(UTF-8)
        System.out.println(bytes1.length);
        System.out.println(Arrays.toString(bytes1));

        byte[] bytes2 = name.getBytes("GBK");//指定编码
        System.out.println(bytes2.length);
        System.out.println(Arrays.toString(bytes2));

        //2.解码:把字节转换成对应的中文形式(编码前和编码后的字符集必须一致,否则乱码)
        String rs1 = new String(bytes1);//默认的UTF-8
        System.out.println(rs1);

        String rs2 = new String(bytes2,"GBK");//指定GBK解码
        System.out.println(rs2);
    }
}

你可能感兴趣的:(JavaSE,java)