Unicode

Unicode

Unicode中文名为统一码或者国际通用码,为文字系统编码之业界标准,由Unicode Consortium(统一码/国际通用码联盟)制定,是一个负责创建数字字符和数字通用标准的非营利组织,Unicode是万维网网页标准的基础,其好处是对于每一个字元提供了一个跨平台、语言与程式的统一数码,使用户遇到乱码的问题得到基本解决。

字符集

历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟。前者开发的 ISO/IEC 10646 项目,后者开发的统一码项目。因此最初制定了不同的标准.由于各种字符集的标准不一,不同的语言文字符号不能在同一文件中出现,需要做额外转换。因此Unicode联盟制定了Unicode编码标准,为所有文本提供可用编码。


字符集.jpg

Unihan

Unicode的早期发展涉及中日韩三种语言所用的汉字,又称CJK,后期有越南用的汉字加入,称为CJKV。统一汉字的特点在于,几种语言共享的符号且经同意,是共享统一编码,专用汉字则否。
http://unicode.org/charts/unihan.html

Unihan.jpg

CLDR

这里的CLDR不是美股实时行情,而是通用区域资料库,其中存有不少数据,可以用XML或JSON格式取用,应用于网站或软件的在地化或全球化。
http://cldr.unicode.org/index/charts
此外,github或者Unicode网站上都有集体协作用于进行CLDR的完善。现在CLDR拥有地域-语言表[http://www.unicode.org/cldr/charts/latest/supplemental/territory_language_information.html],Terriotory Language Information,详列用户贡献但经专家审批的各地域之语言人口侧写。
https://github.com/unicode-cldr

参考文献 / 百度文库《Unicode字符集》 廖汉腾et al,2015
图片来源于网络

你可能感兴趣的:(Unicode)