Java采用的字符集编码——Unicode(标准码)

Ⅰ 什么是字符集?

字符:字符(Char)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

字符集:字符集(Charset)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。

Ⅱ 有哪些常用的字符集?

1. ASCII

7位(bits)表示一个字符,共128字符,字符值从0到127。
在Java中,char类型可以直接运算,char在ASCII等字符编码表中有对应的数值对char类型字符运算时,直接当做ASCII表对应的整数来对待。

2. GB2312

GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布.

3 BIG5

Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。

4.GB18030

GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。

5.Unicode

Unicode字符集编码(Universal Multiple-Octet Coded Character Set,通用多八位编码字符集),是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2012年1月31日的Unicode 6.1。

Java 的字符类型采用的是Unicode 编码方案,每个Unicode 码为两个字节,占用16个比特位,这是较老的版本。

现在unicode编码占几位,取决于实现unicode的用的什么编码,utf-8、utf-16、utf-32规定了用多少位表示。

UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的意思。UTF-8 便于不同的计算机之间使用网络传输不同语言和编码的文字。 UTF-8 是目前互联网上使用最广泛的一种 Unicode 编码方式,它的最大特点就是可变长它可以使用 1 - 4 个字节表示一个字符。

你可能感兴趣的:(Java,java)