常用字符集及编码方式(Charset & Encoding)

文章摘要:

  1. 字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
  2. 字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。
  3. 字符编码:给每个字符编号的一定规则。
  4. ANSI的ASCII编码(单字节127个字符)是鼻祖。
  5. 中国大陆常用GB2312(双字节字符集,对ASCII的127号之后字符进行了扩展),后增加了少数民族文字为GB18030(最新国标),台湾用BIG5。
  6. ISO后来了个大一统,制定了Unicode(也是双字节字符集),收录了世界上几乎所有语言的常用字符。标准的Unicode称为UTF-16。为了网络传输,Unicode用一些基本的保留字符制定了三套编码方式,分别是UTF-8、UTF-16和UTF-32(即按8、16、个位传输数据)。UTF-8使用最广。
  7. Windows操作系统默认使用Unicode,不支持Unicode的程序按指定的语言字符集。
  8. GBK、GB2312与UTF8之间都必须通过Unicode编码才能相互转换。

常见问题:
  1. 如何判断某乱码文件使用的什么字符集?一般文件头部前几个字节有标示,称为Byte Order Mask(BOM)方法。详见:http://blog.csdn.net/zhoubl668/article/details/6914183
  2. 怎样判断汉字的是什么编码?涉及GB2312、GBK、Big5汉字,详见:http://blog.csdn.net/zhoubl668/article/details/6912161
  3. 有什么字符转换工具?记事本的另存为窗口,可选择(ANSI、Unicode、Unicode big endian、UTF-8)。Notepad++的格式,可选择(ANSI、Unicode、Unicode big /little endian、UTF-8)
 
相关文章:
  1. 全面讲解字符集和字符编码(Charset & Encoding):http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html
  2. 常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode:http://blog.csdn.net/zhoubl668/article/details/6914018

你可能感兴趣的:(编码,乱码,文档,汉字,字符集)