定义
甲骨文官方对于原始数据类型 char
定义:
char: The char data type is a single 16-bit Unicode character. It has a minimum value of '\u0000' (or 0) and a maximum value of '\uffff' (or 65,535 inclusive).
可以知道主要以下三点:
- char 类型是原始类型
- Unicode 字符 (额外补充, 采用 UTF-16 的编码形式)
- 16 bit 即 2 个字节表示一个字符
初始化
因为 char 是16位2字节的, 采取的 Unicode UTF-16 的编码方式, 所以 char 就有以下的初始化方式:
// 直接字符或汉字
char c = '帅';
// 可以用整数赋值
char c = 十进制数,八进制数,十六进制数等等;
// 使用字符的编码值来初始化
char c = '\u数字';
// 特殊默认值, 参考后续笔记
char c;
注意, 必须用单引号, 且只能放单个字符.
特殊默认值
官方默认值表格:
Data Type | Default Value |
---|---|
byte | 0 |
short | 0 |
int | 0 |
long | 0L |
float | 0.0f |
double | 0.0d |
char | '\u0000' |
String (or any object) | null |
boolean | false |
我们可以看到 char 的默认值为 \u0000
, 4位16进制. 根据 UTF-16 的编码格式, 我们可以将其转换成 unicode 0000 0000
, 代表空字符 NUL.
但这里的空字符 NUL 和实际代码中的 null
是不一样的. 实际上不是一个可打印字符. 仅代表Unicode编码中的空字符. 也不是空格, 因为真正的空格的编码是 '\u0020'.
参考示例代码 (例子来自于你所不知道的Java之char默认值):
public class PrimitiveType {
char c; // 使用默认值
@Test
public void testChar() {
PrimitiveType t = new PrimitiveType();
char c1 = '\u0000'; // 指定默认值
char c2 = '\0';
char c3 = '\u2400'; // 对应字符 NUL
char c4 = '\u0020'; // 对应字符 空格
System.out.println("c1: " + c1);
System.out.println("c2: " + c2);
System.out.println("c3: " + c3);
System.out.println("c4: " + c4);
System.out.println("c: " + c);
System.out.println("c1==c: " + (c1 == t.c));
System.out.println("c1==c2: " + (c1 == c2));
System.out.println("c1==c3: " + (c1 == c3));
System.out.println("c1==c4: " + (c1 == c4));
}
}
输出:
c1:
c2:
c3: NUL
c4:
c:
c1==c: true
c1==c2: true
c1==c3: false
c1==c4: false
运算
char 类型是可以运算的, 因为字符在编码表中有对应的数值. (数字取值范围是0~65535)
char m = 'a'; // 输出 a
char m = 'a' + 'b'; // char 类型相加, 提升为 int 类型相加 97 + 98, 相加后为 195, 然后输出对应的字符.
int m = 'a' + 'b'; // 输出 195.
char m = 'a' + b; // 报错, 因为b是一个赋值的变量
char m = 195; // 输出字符编码表中对应的字符
char m = '195'; // 报错, 因为有单引号, 表示字符, 只允许放单个字符
char m = 'a' + 1; // 输出 b, 提升为 int 类型相加, 计算结果 98 对应的字符是b
char m ='中'+'国'+'国'+'国'; // 报错. 计算结果 86820 超出范围 65535
int m ='中'+'国'+'国'+'国'; // 输出 86820
System.out.println('中'+"国"); // 输出中国. String与任何字符用 + 相连, 转换为String
char m ='中'+"国"; // 报错. String 无法转换为 char.
总结, char + char 与 char + int 类型均提升为 int, 附值char变量后, 输出字符编码表中对应的字符.
问题收集
题目收集整理自Java char 与 byte
java char 能否存储一个汉字?
java char 类型采用 Unicode 字符集, UTF-16 的编码方式. 当然可以储存一个汉字. 在 Unicode 中一个中文汉字占用两个字节.
若是只想表示一个字节的字符可以使用 byte
类型.
程序A的输出
String str = "我";
byte[] c1 = str.getBytes();
System.out.println(c1.length);
可能是 2、3、4 之一. 因为 getBytes()
方法会根据当前默认的字符编码格式获取字节数组, gbk/gb2312 占 2 位, utf-8 占 3 位, utf-16 占 4 位, unicode 占 4 位. 所以写代码时最好指定编码,可以通过 str.getBytes("GBK")
或 str.getBytes("UTF-8")
来指定编码方式.
可以通过在线转换去快速查询 - 网址
程序B的输出
char n = 'b';
System.out.println(++n);
System.out.println(n+1);
输出 c 和 100. 第二个输出多了类型转换.
字符 b 在 unicode 中十进制对应 98, 而 System.out.println(++n) 语句会先执行 ++n,所以为 99,然后输出对应的字符, 即 c.
对于第二个输出来说, Java 中存在向上兼容的特点(不同类型数据参与运算数据类型会强制转换,转换的方向是 char -> short -> int -> long -> float -> double), 所以在 System.out.println(n+1) 语句中,n 是 char 类型,1 是 int 类型,所以会先把 n 强转成 int,然后运算 99 + 1,所以输出也是 int 类型的 100.
char 和 string 的区别
- char 表示的是字符, 定义的时候用单引号, 只能存储一个字符.
- String 表示的是字符串, 定义的时候用双引号, 可以存储一个或者多个字符.
- char 是基本数据类型, 而 String 是一个类, 属于引用数据类型. String 类可以调用方法, 具有面向对象的特征.
参考
- The Java™ Tutorials - Primitive Data Types
- The Java™ Tutorials - Characters
- Java char 与 byte
- 你所不知道的Java之char默认值
- JAVA中的char类型(八大基本数据类型之一)