Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
释义
Unicode,一种计算机字符编码,也称统一码、万国码。
作用
能够使计算机实现跨语言、跨平台的文本转换及处理。
Unicode编码系统可分为编码方式和实现方式两个层次
编码方式
统一码的编码方式与ISO 10646的通用字符集概念相对应。目前实际应用的统一码版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用个字节。这样理论上一共最多可以表示2^16(即65536)个字符。基本满足各种语言的使用。实际上前版本的统一码并未完全使用这16位编码,而是保留了大量空间以作为特殊使用或将来扩展。
实现方式
Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际的传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)
例如,如果一个仅包含基本7位ASCII字符的Unicode文件,如果每个字符都使用2字节的原Unicode编码传输,其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况,可以使用UTF-8编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一字字节(首位补0)。而遇到与其他Unicode字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大大节省了编码长度。
中文输入法
微软拼音在输入法启动状态下,单击语言栏上的“功能菜单“按钮,指向”辅助输入法“即可发现”Unicode码输入方式“,利用它可以直接输入Unicode相应十六进制值的方式输入相应文字。
其他
除了输入法外,操作系统也会提供另外几种方法输入Unicode。在Microsoft Word下,按下Alt键不放,输入0和某个字符的Unicode编码(十进制),再松开Alt键即可得到该字符,如Alt+033865会得到Unicode字符 叶 。另外按Alt+X组合键,MS Word也会将光标前面的字符同其十六进制的四位Unicode编码进行互相转换。
常用网址
http://tool.chinaz.com/Tools/Unicode.aspx