char 类型学习

定义

甲骨文官方对于原始数据类型 char 定义:

char: The char data type is a single 16-bit Unicode character. It has a minimum value of '\u0000' (or 0) and a maximum value of '\uffff' (or 65,535 inclusive).

可以知道主要以下三点:

  1. char 类型是原始类型
  2. Unicode 字符 (额外补充, 采用 UTF-16 的编码形式)
  3. 16 bit 即 2 个字节表示一个字符

初始化

因为 char 是16位2字节的, 采取的 Unicode UTF-16 的编码方式, 所以 char 就有以下的初始化方式:

// 直接字符或汉字
char c = '帅'; 

// 可以用整数赋值
char c = 十进制数,八进制数,十六进制数等等;

// 使用字符的编码值来初始化
char c = '\u数字';

// 特殊默认值, 参考后续笔记
char c;

注意, 必须用单引号, 且只能放单个字符.

特殊默认值

官方默认值表格:

Data Type Default Value
byte 0
short 0
int 0
long 0L
float 0.0f
double 0.0d
char '\u0000'
String (or any object) null
boolean false

我们可以看到 char 的默认值为 \u0000, 4位16进制. 根据 UTF-16 的编码格式, 我们可以将其转换成 unicode 0000 0000, 代表空字符 NUL.

但这里的空字符 NUL 和实际代码中的 null 是不一样的. 实际上不是一个可打印字符. 仅代表Unicode编码中的空字符. 也不是空格, 因为真正的空格的编码是 '\u0020'.

参考示例代码 (例子来自于你所不知道的Java之char默认值):

public class PrimitiveType {

    char c; // 使用默认值

    @Test
    public void testChar() {
        PrimitiveType t = new PrimitiveType();
        char c1 = '\u0000'; // 指定默认值
        char c2 = '\0';
        char c3 = '\u2400'; // 对应字符 NUL
        char c4 = '\u0020'; // 对应字符 空格
        System.out.println("c1: " + c1);
        System.out.println("c2: " + c2);
        System.out.println("c3: " + c3);
        System.out.println("c4: " + c4);
        System.out.println("c: " + c);
        System.out.println("c1==c: " + (c1 == t.c));
        System.out.println("c1==c2: " + (c1 == c2));
        System.out.println("c1==c3: " + (c1 == c3));
        System.out.println("c1==c4: " + (c1 == c4));
    }
}

输出:

c1:
c2:
c3: NUL
c4:
c:
c1==c: true
c1==c2: true
c1==c3: false
c1==c4: false

运算

char 类型是可以运算的, 因为字符在编码表中有对应的数值. (数字取值范围是0~65535)

char m = 'a';       // 输出 a

char m = 'a' + 'b'; // char 类型相加, 提升为 int 类型相加 97 + 98, 相加后为 195, 然后输出对应的字符.
int m = 'a' + 'b'; // 输出 195.

char m = 'a' + b;   // 报错, 因为b是一个赋值的变量

char m = 195;     // 输出字符编码表中对应的字符
char m = '195';   // 报错, 因为有单引号, 表示字符, 只允许放单个字符

char m = 'a' + 1;  // 输出 b, 提升为 int 类型相加, 计算结果 98 对应的字符是b

char m ='中'+'国'+'国'+'国'; // 报错. 计算结果 86820 超出范围 65535
int m ='中'+'国'+'国'+'国'; // 输出 86820

System.out.println('中'+"国"); // 输出中国. String与任何字符用 + 相连, 转换为String
char m ='中'+"国"; // 报错. String 无法转换为 char.

总结, char + char 与 char + int 类型均提升为 int, 附值char变量后, 输出字符编码表中对应的字符.

问题收集

题目收集整理自Java char 与 byte

java char 能否存储一个汉字?

java char 类型采用 Unicode 字符集, UTF-16 的编码方式. 当然可以储存一个汉字. 在 Unicode 中一个中文汉字占用两个字节.

若是只想表示一个字节的字符可以使用 byte 类型.

程序A的输出

String str = "我";
byte[] c1 = str.getBytes();
System.out.println(c1.length);

可能是 2、3、4 之一. 因为 getBytes() 方法会根据当前默认的字符编码格式获取字节数组, gbk/gb2312 占 2 位, utf-8 占 3 位, utf-16 占 4 位, unicode 占 4 位. 所以写代码时最好指定编码,可以通过 str.getBytes("GBK")str.getBytes("UTF-8") 来指定编码方式.

可以通过在线转换去快速查询 - 网址

程序B的输出

char n = 'b';
System.out.println(++n);
System.out.println(n+1);

输出 c 和 100. 第二个输出多了类型转换.

字符 b 在 unicode 中十进制对应 98, 而 System.out.println(++n) 语句会先执行 ++n,所以为 99,然后输出对应的字符, 即 c.

对于第二个输出来说, Java 中存在向上兼容的特点(不同类型数据参与运算数据类型会强制转换,转换的方向是 char -> short -> int -> long -> float -> double), 所以在 System.out.println(n+1) 语句中,n 是 char 类型,1 是 int 类型,所以会先把 n 强转成 int,然后运算 99 + 1,所以输出也是 int 类型的 100.

char 和 string 的区别

  • char 表示的是字符, 定义的时候用单引号, 只能存储一个字符.
  • String 表示的是字符串, 定义的时候用双引号, 可以存储一个或者多个字符.
  • char 是基本数据类型, 而 String 是一个类, 属于引用数据类型. String 类可以调用方法, 具有面向对象的特征.

参考

  • The Java™ Tutorials - Primitive Data Types
  • The Java™ Tutorials - Characters
  • Java char 与 byte
  • 你所不知道的Java之char默认值
  • JAVA中的char类型(八大基本数据类型之一)

你可能感兴趣的:(char 类型学习)