春天随风而逝

常见字符编码介绍以及相互转换

最近在用JS时,涉及到了不同编码之间的转换.于是汇总了一些网上的资料,整合成了自己的文档.

-备忘录

知识点涉及: 字符编码基础,不同编码之间的转换,如UTF-8转UTF-16,如UTF-16转GBK;以及Base64加密,GBK型与UTF-8型加密等.

注:

参考来源于网上资料

来源1: http://my.oschina.net/goal/blog/201032?fromerr=vEgm5b1A#OSC_h2_1

来源2: http://www.qqxiuzi.cn/zh/hanzi-gb2312-bianma.php

来源3: http://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php

来源4: http://www.qqxiuzi.cn/zh/hanzi-gb2312-bianma.php

来源5: http://www.qqxiuzi.cn/zh/hanzi-BIG5-bianma.php

来源6: http://www.fmddlmyy.cn/text6.html

来源7: http://www.cnblogs.com/hongru/archive/2012/01/14/2321397.html

来源8: http://www.jb51.net/article/62415.htm

几种常用编码

ASCII码

1.1.1.1、简介

(American Standand Code for InformationInterchange)的缩写

ASCII码是计算机最开始支持的基于拉丁字母的编码，一个字符用一个字节表示，只用了低7位，最高位为0，因此总共有128个ASCII码，范围为0~127。

1.1.1.2、编码范围

0~127(总共有128个ASCII码),详情百度ASCII码表

1.1.1.3、适用范围以及存在问题

适用于现代英文和其它西欧语言.

但是由于编码范围有限,所以无法支持多种地区的语言,后来就产生了各种其它的编码

方案

1.1.1.4、特性

1.1.1.4.1、单字节编码

只占用一个字节

高位不占用，最多为(01111111)

ISO-8859-1编码

1.1.1.1、简介

即”标准码”，通常叫做Latin-1

ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号

1.1.1.2、编码范围

0x00-0xFF(0-255)

1.1.1.3、适用范围以及存在问题

此字符集支持部分于欧洲使用的语言，包括阿尔巴尼亚语、巴斯克语、布列塔尼语、加泰罗尼亚语、丹麦语、荷兰语、法罗语、弗里西语、加利西亚语、德语、格陵兰语、冰岛语、爱尔兰盖尔语、意大利语、拉丁语、卢森堡语、挪威语、葡萄牙语、里托罗曼斯语、苏格兰盖尔语、西班牙语及瑞典语。

但是不支持中文和东亚等国的语言.

1.1.1.3.1、单字节编码

只占用一个字节

高位可以用，最多为(11111111)

GB2312编码

1.1.1.1、简介

GB是”国标”两字的拼音首字,2312是标准序号

GB2312编码是第一个汉字编码国家标准，由中国国家标准总局1980年发布，1981年5月1日开始使用。GB2312编码共收录汉字6763个，其中一级汉字3755个，二级汉字3008个。同时，GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

(GB2312中的字符是全角字符,ASCII原始的字符是半角字符)

1.1.1.2、编码范围

A1A1－FEFE(41377-65278)

其中汉字编码范围：B0A1-F7FE(45217-63486)。

1.1.1.3、适用范围以及存在问题

基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字，GB 2312不能处理，因此后来GBK及GB 18030汉字字符集相继出现以解决这些问题

中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312

1.1.1.4、特性

1.1.1.4.1、分区表示

GB2312编码对所收录字符进行了“分区”处理，共94个区，每区含有94个位，共8836个码位。这种表示方式也称为区位码。

01-09区收录除汉字外的682个字符。

10-15区为空白区，没有使用。

16-55区收录3755个一级汉字，按拼音排序。

56-87区收录3008个二级汉字，按部首/笔画排序。

88-94区为空白区，没有使用。

举例来说，“啊”字是GB2312编码中的第一个汉字，它位于16区的01位，所以它的区位码就是1601

1.1.1.4.2、双字节编码

GB2312规定对收录的每个字符采用两个字节表示，第一个字节为“高字节”，对应94个区；第二个字节为“低字节”，对应94个位。所以它的区位码范围是：0101－9494。区号和位号分别加上0xA0就是GB2312编码。例如最后一个码位是9494，区号和位号分别转换成十六进制是5E5E，0x5E+0xA0＝0xFE，所以该码位的GB2312编码是FEFE。

GB2312编码范围：A1A1－FEFE，其中汉字的编码范围为B0A1-F7FE，第一字节0xB0-0xF7（对应区号：16－87），第二个字节0xA1-0xFE（对应位号：01－94）

注: 属于原标准码的部分仍然采取单字节编码

GBK编码

1.1.1.1、简介

即汉字国标扩展码,

GBK编码，是对GB2312编码的扩展，因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案，其编码范围：8140－FEFE，剔除xx7F码位，共23940个码位。共收录汉字和图形符号21886个，其中汉字（包括部首和构件）21003个，图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布，这一版的GBK规范为1.0版。

Windows 95系统就是以GBK为内码，又由于GBK同时也涵盖了Unicode所有CJK汉字，所以也可以和Unicode做一一对应

1.1.1.2、编码范围

8140－FEFE (33088-65278)

全部编码分为三大部分:1.汉字区;2.图形符号区;3.用户自定义区(详情见特性码位分配及顺序)

1.1.1.3、适用范围以及存在问题

几乎完美支持汉字,但是不支持部分国家的语言(如一些东亚国家,日本等)

所以经常会有GBK到UNICODE的转换

1.1.1.4、特性

1.1.1.4.1、字汇

GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号，并有所补充。具体包括：

1. GB 2312 中的全部汉字、非汉字符号。

2. GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。

3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。

4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。

5. 13 个汉字结构符。

6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。

7. GB 12345 增补的 6 个拼音符号。

8. 汉字“○”。

9. GB 12345 增补的 19 个竖排标点符号（GB12345 较 GB 2312 增补竖排标点符号 29 个，其中 10 个未被 GB 13000.1 收入，故 GBK 亦不收）。

10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。

11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。

12.未录入《新华字典》上的一些字，如“韡”的简体。

1.1.1.4.2、码位分配及顺序

GBK 亦采用双字节表示，总体编码范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 xx7F 一条线。总计 23940 个码位，共收入 21886 个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号 883 个。

全部编码分为三大部分：

1. 汉字区。包括：

a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个，按原顺序排列。

b. GB 13000.1 扩充汉字区。包括：

(1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。

(2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前，按 UCS 代码大小排列；增补的汉字（包括部首和构件）在后，按《康熙字典》的页码/字位排列。

2. 图形符号区。包括：

a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外，还有 10 个小写罗马数字和 GB12345 增补的符号。计符号 717 个。

b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。

3. 用户自定义区：分为(1)(2)(3)三个小区。

(1) AAA1-AFFE，码位 564 个。

(2) F8A1-FEFE，码位 658 个。

(3) A140-A7A0，码位 672 个。

第(3)区尽管对用户开放，但限制使用，因为不排除未来在此区域增补新字符的可能性

1.1.1.4.3、字形

GBK 对字形作了如下的规定：

1. 原则上与 GB 13000.1 G列（即源自中国大陆法定标准的汉字）下的字形/笔形保持一致。

2. 在 CJK 汉字认同规则的总框架内，对所有的 GBK 编码汉字实施“无重码正形”（“GB 化”）；即在不造成重码的前提下，尽量采用中国新字形。

3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字，在 GBK 码位上暂安放旧字形。这样，在许多情况下 GBK 收入了同一汉字的新旧两种字形。

4. 非汉字符号的字形，凡 GB 2312 已经包括的，与 GB 2312 保持一致；超出 GB 2312 的部分，与 GB 13000.1 保持一致。

5. 带声调的拼音字母取半角形式。

1.1.1.4.3.1、误处理

低字节是0x40-0x7E的GBK字符有一定特殊性，因为这些字符占用了ASCII码的位置，这样会给一些系统带来麻烦。

有些系统中用0x40-0x7E中的字符（如“|”）做特殊符号，在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节，这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0x80的某个字节未必就是ASCII符号；另外就是最好选用小于0×40的ASCII符号做一些特殊符号，这样就可以快速定位，且不用担心是某个汉字的另一半。Big5编码中也存在相应问题。

1.1.1.4.4、双字节编码

遵循GB2312规定

GB18030编码

1.1.1.1、简介

2000年3月17日发布的汉字编码国家标准GB18030编码，是对GBK编码的扩充，覆盖中文、日文、朝鲜语和中国少数民族文字，其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。

国家标准GB18030-2005《信息技术中文编码字符集》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，是我国计算机系统必须遵循的基础性标准之一。 GB18030有两个版本：GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本，它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

GB18030-2000编码标准《信息技术汉字编码字符集基本集的扩充》是由信息产业部和国家质量技术监督局在2000年3月17日联合发布的，并且将作为一项国家标准在2001年的1月正式强制执行。GB18030-2000仅规定了常用非汉字符号和27533个汉字（包括部首、部件等）的编码。

GB18030-2005《信息技术中文编码字符集》是以汉字为主并包含多种我国少数民族文字的超大型中文编码字符集，其中收入汉字70000余个。在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码（如藏、蒙古、傣、彝、朝鲜、维吾尔文等）。增加的这些内容是推荐性的，原GB18030-2000中的内容是强制性的，市场上销售的产品必须符合。故GB18030-2005为部分强制性标准，自发布之日起代替GB18030-2000。

1.1.1.2、编码范围

采用单字节、双字节、四字节分段编码方案，具体码位见特性。

GB18030向下兼容GBK和GB2312编码。

1.1.1.3、适用范围以及存在问题

GB18030可用于一切处理中文（包括汉字和少数民族文）信息，特别是汉字信息的信息处理产品。

1.1.1.4、特性

1.1.1.4.1、 GB18030-2000字汇

GB18030-2000标准收录的字符分别以单字节、双字节和四字节编码。

1、单字节部分

本标准中，单字节的部分收录了GB11383的0x00到0x7F全部128个字符及单字节编码的欧元符号。

2、双字节部分

本标准中，双字节的部分收录内容如下：

GB 13000.1的全部CJK统一汉字字符。

GB 13000.1的CJK兼容区挑选出来的21个汉字。

GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。

GB 13000.1收录的其它字符31个。

GB 2312中的非汉字符号。

GB 12345 的竖排标点符号19个。

GB 2312未收录的10个小写罗马数字。

GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ。

汉字数字“〇”。

表意文字描述符13个。

增补汉字和部首/构件80个。

双字节编码的欧元符号。

3 、四字节部分

本标准的四字节的部分，收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1 中的全部字符。

1.1.1.4.2、 GB18030-2005字汇

GB18030-2005标准收录的字符分别以单字节、双字节或四字节编码。

1、单字节部分

本标准中，单字节的部分收录了GB/T11383-1989的0x00到0x7F全部128个字符。

2、双字节部分

本标准中，双字节的部分收录内容如下：

GB 13000.1－1993的全部CJK统一汉字字符。

GB 13000.1－1993的CJK兼容区挑选出来的21个汉字。

GB 13000.1－1993中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。

GB 13000.1－1993收录的其它字符31个。

GB 2312中的非汉字符号。

GB 12345 的竖排标点符号19个。

GB 2312未收录的10个小写罗马数字。

GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ。

汉字数字“〇”。

表意文字描述符13个。

对GB 13000.1－1993增补的汉字和部首/构件80个。

双字节编码的欧元符号。

3、四字节部分

本标准的四字节的部分，收录了上述双字节字符之外的，GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字符。

GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编码的欧元符号0x80）。

GB18030有1611668个码位，在GB18030-2005中定义了76556个字符。随着我国汉字整理和编码研究工作的不断深入，以及国际标准ISO/IEC 10646的不断发展，GB18030所收录的字符将在新版本中增加。

1.1.1.4.3、 GB18030-2000汉字

如下表所示，GB18030-2000收录了27533个汉字：

类别	码位范围	码位数	字符数	字符类型
双字节部分	第一字节0xB0-0xF7	6768	6763	汉字
	第二字节0xA1-0xFE
	第一字节0x81-0xA0	6080	6080	汉字
	第二字节0x40-0xFE
	第一字节0xAA-0xFE	8160	8160	汉字
	第二字节0x40-0xA0
四字节部分	第一字节0x81-0x82	6530	6530	CJK统一汉字扩充A
	第二字节0x30-0x39
	第三字节0x81-0xFE
	第四字节0x30-0x39

27533就是6763+6080+8160+6530。双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字。

在Unicode中，CJK统一汉字扩充A有6582个汉字，为什么这里只有6530个汉字？

这是因为在GBK时代，双字节部分已经收录过CJK统一汉字扩充A的52个汉字，所以还余6530个汉字。

1.1.1.4.4、 GB18030-2005汉字

如下表所示，GB18030-2005收录了70244个汉字：

类别	码位范围	码位数	字符数	字符类型
双字节部分	第一字节0xB0-0xF7	6768	6763	汉字
	第二字节0xA1-0xFE
	第一字节0x81-0xA0	6080	6080	汉字
	第二字节0x40-0xFE
	第一字节0xAA-0xFE	8160	8160	汉字
	第二字节0x40-0xA0
四字节部分	第一字节0x81-0x82	6530	6530	CJK统一汉字扩充A
	第二字节0x30-0x39
	第三字节0x81-0xFE
	第四字节0x30-0x39
	第一字节0x95-0x98	42711	42711	CJK统一汉字扩充B
	第二字节0x30-0x39
	第三字节0x81-0xFE
	第四字节0x30-0x39

70244就是6763+6080+8160+6530+42711。

BIG5 编码

1.1.1.1、简介

BIG5编码又称大五码，是繁体中文字符集编码标准，共收录13060个中文字，其中有二字为重复编码。

BIG5采用双字节编码，使用两个字节来表示一个字符。高位字节使用了0x81-0xFE，低位字节使用了0x40-0x7E，及0xA1-0xFE。在BIG5的分区中：

8140-A0FE 保留给使用者自定义字符（造字区）

A140-A3BF 标点符号、希腊字母及特殊符号。其中在A259-A261，收录了度量衡单位用字：兙兛兞兝兡兣嗧瓩糎。

A3C0-A3FE 保留。此区没有开放作造字区用。

A440-C67E 常用汉字，先按笔划再按部首排序。

C6A1-F9DC 其它汉字。

F9DD-F9FE 制表符。

值得留意的是，BIG5重复地收录了两个相同的字：“兀、兀”（A461及C94A)、“嗀、嗀”(DCD1及DDFC)。

1.1.1.2、编码范围

8140－FEFE(33088-65278)

其中汉字编码范围：A440-F9DC(42048-63964)

1.1.1.3、适用范围以及存在问题

适用于台湾和香港地区的繁体中文系统软件等.不过由于编码本身存在的问题.已经基本改用Unicode编码了.

1.1.1.3.1.1、兼容问题:

由于各厂商及政府推出的Big5延伸，彼此互不兼容，造成乱码问题。

1.1.1.3.1.2、冲码问题

因为低位元字符中包含了编程语言、shell、script 中，字串或命令常会用到的特殊字符，例如0x5C “\”、0x7C “|”等。“\”在许多用途的字串中是当作转义符号又称为跳脱字符，例如 \n（换行）、\r（归位）、\t（tab）、\\（\本身符号）、\"（引号）等等。而 “|” 在UNIX操作系统中大多当作命令管线的使用，如 "ls -la | more" 等等。如果在字串中有这些特殊的转义字符，会

BIG-5

被程式或直译器解释为特殊用途。但是因为是中文的原因，故无法正确解释为上面所述的行为，因此程式可能会忽略此转义符号或是中断执行。若此，就违反了使用者本来要当成中文字符一部份使用的本意。

在常用字如“功”（0xA55C)、“许”（0xB35C)、“盖”（0xBB5C)、“育”（0xA87C)中时常出现，造成了许多软件无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化，称为“许功盖”或“许盖功”（这三个字都有这种问题）。但是额外的困扰是，有些输出功能并不会把“\”当作特殊字符看待，所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\”。

1.1.1.3.1.3、私人造字

在倚天中文系统，以及后来的Windows3.1、95及98中，定义了四个私人造字区范围：0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。私人造字区的原意，是供使用者加入本来在编码表中缺少的字符，但当每个使用者都在不同的地方加上不同的字符后，当交换资料时，对方便难以知道某一个编码究竟想表达什么字

1.1.1.4、特性

1.1.1.4.1.1、双字节编码

Big5是双字节编码，高字节编码范围是0x81-0xFE，低字节编码范围是0x40-0x7E和0xA1-0xFE。和GBK相比，少了低字节是0x80-0xA0的组合。0x8140-0xA0FE是保留区域，用于用户造字区

1.1.1.4.1.2、字符有限

Big5收录的汉字只包括繁体汉字，不包括简体汉字，一些生僻的汉字也没有收录。GBK收录的日文假名字符、俄文字符Big5也没有收录。因为Big5当中收录的字符有限，因此有很多在Big5基础上扩展的编码，如倚天中文系统。Windows系统上使用的代码页CP950也可以理解为是对Big5的扩展，在Big5的基础上增加了7个汉字和一些符号。Big5编码对应的字符集是GBK字符集的子集，也就是说Big5收录的字符是GBK收录字符的一部分，但相同字符的编码不同。

会有

1.1.1.4.1.3、误处理

因为Big5也占用了ASCII的编码空间（低字节所使用的0x40-0x7E），所以Big5编码在一些环境下存在和GBK编码相同的问题，即低字节范围为0x40-0x7E的字符有可能会被误处理，尤其是低字节是0x5C（"/"）和0x7C（"|"）的字符。可以参考GBK一节相应说明。

Unicode 编码

1.1.1.1、简介

Unicode 是全球文字统一编码。它把世界上的各种文字的每一个字符指定唯一编码，实现跨语种、跨平台的应用。

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。

1.1.1.1.1.1、 Tips

Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

根据维基百科全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。

在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。

目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode4.1.0。ISO的最新标准是ISO 10646-3:2003。

UCS只是规定如何编码，并没有规定如何传输、保存这个编码。例如“汉”字的UCS编码是6C49，我可以用4个ascii数字来传输、保存这个编码；也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的方案。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的缩写。

IETF的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

1.1.1.2、编码范围

详情百度Unicode编码范围.

例如,中文范围为: 4E00-9FBF,其中

CJK 统一表意符号(4DC0-4DFF)等等…

Unicode是一种规范,具体的实现由各自实现的编码方式决定.

1.1.1.3、适用范围

作为一种全球统一编码,适用于世界范围,有多种实现方式.

(如utf-8,utf-16,utf-32)

1.1.1.4、特性

Unicode只是一种规范,没有明确规定实现方式.所有不同的实现方案有着不同的存储方式等

(如utf-8,utf-16,utf-32的区别)

1.1.2、 UTF-8编码

1.1.2.1、简介

UTF-8是Unicode的一种实现方式，根据不同的Unicode字符,用1到6个字节编码.

UTF-8的字节结构有特殊要求，比如我们说一个汉字的范围是0X4E00到0x9FA5，是指unicode值，至于放在utf-8的编码里去就是由三个字节来组织.

注:遵循Unicode规范.

1.1.2.2、特性

1.1.2.2.1、变长编码

根据不同的Unicode字符,用1到6个字节编码

1.1.2.3、实现方式

1.1.2.3.1、 Unicode和Utf-8对照表

UTF8是采用变长的编码方式，为1~6个字节，但通常我们只把它看作单字节或三字节的实现，因为其它情况实在少见。UTF8编码通过多个字节组合的方式来显示，这是计算机处理UTF8的机制，它是无字节序之分的，并且每个字节都非常有规律，详见上图

UTF-16 编码

1.1.1.1、简介

UTF-16是Unicode的一种实现方式.

UTF-16是完全对应于UCS-2的，即把UCS-2规定的代码点通过Big Endian或Little Endian方式直接保存下来。所以UTF-16采用2个字节来存储Unicode。UTF-16也可以表示UCS-4的部分字符，所以UTF-16也采用4个字节来存储Unicode。

UTF16编码是Unicode最直接的实现方式，通常我们在windows上新建文本文件后保存为Unicode编码，其实就是保存为UTF16编码。

1.1.1.1.1、 Tips

1. Javascript内置的实现就是UTF-16编码

2. UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节 (2字节) 储存，但UTF-16却无法兼容于ASCII编码。

3. 大端字节序，高字节存于内存低地址，低字节存于内存高地址；小端字节序反之

如一个long型数据0x12345678

大端字节序：

内存低地址--> 0x12

0x34

　　　　　　 0x56

内存高地址--> 0x78

小端字节序：

内存低地址--> 0x78

　　　　　　 0x56

　　　　　　 0x34

内存高地址--> 0x12

1.1.1.2、特性

1.1.1.2.1、不兼容ASCII码

由于UTF-16固定是两字节的(UCS-4部分字符4字节),所以无法支持单字节的ASCII码

1.1.1.2.2、实现方式

因为是多字节存储，所以它的存储方式分为2种：大端序和小端序。

UTF16编码在windows上采用小端序的方式存储；而比如JavaScript语言，它内部就是采用UTF16编码，并且它的存储方式为大端序。

UTF-32 编码

1.1.1.1、简介

UTF-32是Unicode的一种实现方式.

UTF32编码使用固定的4个字节来存储。

因此,非常浪费空间,不利于网络传输,所以使用不普遍。

Tips: Html5中明确规定禁止使用Utf-32编码.

1.1.1.2、特性

浪费空间,使用不普遍

ANSI 编码

1.1.1.1、简介

(American National Standards Institute) 美国国家标准学会的缩写

针对汉字的编码，不同的国家和地区制定了不同的标准，由此产生了 GB2312、GBK、Big5、Shift_JIS 等各自的编码标准。这些使用 1 至 4 个字节来代表一个字符的各种汉字延伸编码方式，称为ANSI 编码。

例如:在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在繁体中文操作系统中,ANSI编码代表Big5编码；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码。

编码之间的转换

UTF-16和UTF-8之间的转换

1.1.1.1、 Unicode和Utf-8对照表

1.1.1.1、 UTF-16转UTF-8

UTF16和UTF8之间的相互转换可以通过上图的转换表来实现，判断Unicode码所在的区间就可以得到这个字符是由几个字节所组成，之后通过移位来实现,分为新的多个字节来存储。

1.1.1.1.1、步骤(以其中一个字符转换为例)

Step1:获取该字符对应的Unicode码

Step2:判断该Unicode码所在的范围,根据不同的范围,来决定存储它的字节长度.

*如果介于U+00000000 – U+0000007F之间,代表该字符采取一个字节存储,那么直接通过这个新字节的unicode码,即可转换为UTF-8码(这是这里的一种简称,不同的编程语言有不同实现,例如可以用两个字节来存储一个字符的信息,解码时进行判断,如果发现是UTF-8的多字节实现,那么将多字节合并后再转为一个字符输出).转换完毕

*如果介于U+00000080 – U+000007FF之间,代表该字符采取两个字节存储,那么将该Unicode码转为二进制,取出高5位(这里不分大端序和小端序，只以实际的码为准，具体实现可以采取移位实现)，并加上头部110，组成第一个字节；再取出低6位(按顺序取),加上头部10，组成第二个字节。然后分别通过两个新的字节的unicode码,可以转换为相应的UTF-8码.转换完毕

*如果介于U+00000800 – U+0000FFFF之间,代表该字符采取三个字节存储,那么将该Unicode码转为二进制,取出高4位，并加上头部1110，组成第一个字节；再取出低6位(按顺序取),加上头部10，组成第二个字节；再取出低6位(按顺序取),加上头部10，组成第三个字节。然后分别通过三个新的字节的unicode码,可以转换为相应的UTF-8码.转换完毕

*如果介于U+00010000 – U+001FFFFF之间,代表该字符采取四个字节存储(实际上,四个字节或以上存储的字符是很少的),那么将该Unicode码转为二进制,取出高3位，并加上头部11110，组成第一个字节；再取出低6位(按顺序取),加上头部10，组成第二个字节；再取出低6位(按顺序取),加上头部10，组成第三个字节；再取出低6位(按顺序取),加上头部10，组成第四个字节。然后分别通过四个新的字节的unicode码,可以转换为相应的UTF-8码.转换完毕

*如果介于U+00200000 – U+03FFFFFF,代表该字符采取五个字节存储,那么将该Unicode码转为二进制,取出高2位，并加上头部111110，组成第一个字节；再取出低6位(按顺序取),加上头部10，组成第二个字节；再取出低6位(按顺序取),加上头部10，组成第三个字节；再取出低6位(按顺序取),加上头部10，组成第四个字节；再取出低6位(按顺序取),加上头部10，组成第五个字节。然后分别通过五个新的字节的unicode码,可以转换为相应的UTF-8码.转换完毕

*如果介于U+04000000 – U+7FFFFFFF,代表该字符采取六个字节存储,那么将该Unicode码转为二进制,取出高1位，并加上头部1111110，组成第一个字节；再取出低6位(按顺序取),加上头部10，组成第二个字节；再取出低6位(按顺序取),加上头部10，组成第三个字节；再取出低6位(按顺序取),加上头部10，组成第四个字节；再取出低6位(按顺序取),加上头部10，组成第五个字节；再取出低6位(按顺序取),加上头部10，组成第六个字节。然后分别通过六个新的字节的unicode码,可以转换为相应的UTF-8码.转换完毕

1.1.1.1.2、代码实现

见示例源码(以JS为例子)

		/**
		 * @description 将utf-16编码字符串转为utf-8编码字符串
		 * @param {String} str 传入的 utf16编码字符串(javascript内置的就是utf16编码)
		 * @return {String} utf8编码的字符串,js打印会有乱码
		 */
		exports.UTF16StrToUTF8Str = function(str) {
			if (!str) {
				//''字符属于ascii码,所以不必担心不同编码的转换问题
				return '';
			}
			//res是用来存放结果的字符数组,最终会转为字符串返回
			var res = [],
				len = str.length;
			for (var i = 0; i < len; i++) {
				var code = str.charCodeAt(i);
				if (code > 0x0000 && code <= 0x007F) {
					// 单字节，这里并不考虑0x0000，因为它是空字节
					// U+00000000 – U+0000007F  0xxxxxxx
					res.push(str.charAt(i));
				} else if (code >= 0x0080 && code <= 0x07FF) {
					// 双字节
					// U+00000080 – U+000007FF  110xxxxx 10xxxxxx
					// 110xxxxx
					//0xC0 为12*16 = 192 二进制为 11000000
					//0x1F为 31 二进制   00011111,因为第一个字节只取5位
					//code 右移六位是因为从高位开始取得,所以需要将低位的六位留到第二个字节
					var byte1 = 0xC0 | ((code >> 6) & 0x1F);
					// 10xxxxxx
					//0x80为128 二进制为 10000000
					//0x3F为63 二进制位 00111111,因为只需要取到低位的6位
					var byte2 = 0x80 | (code & 0x3F);
					res.push(
						String.fromCharCode(byte1),
						String.fromCharCode(byte2)
					);
				} else if (code >= 0x0800 && code <= 0xFFFF) {
					// 三字节
					// U+00000800 – U+0000FFFF  1110xxxx 10xxxxxx 10xxxxxx
					// 1110xxxx
					//0xE0 为224 二进制为 11100000
					//同理,需要留下 12位给低位
					//0x0F为15 00001111
					var byte1 = 0xE0 | ((code >> 12) & 0x0F);
					// 10xxxxxx
					//再留6位给低位
					var byte2 = 0x80 | ((code >> 6) & 0x3F);
					// 10xxxxxx
					var byte3 = 0x80 | (code & 0x3F);
					res.push(
						String.fromCharCode(byte1),
						String.fromCharCode(byte2),
						String.fromCharCode(byte3)
					);
				} else if (code >= 0x00010000 && code <= 0x001FFFFF) {
					// 四字节
					// U+00010000 – U+001FFFFF  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
					//同理,需要留下 18位给低位
					//0x07 00000111
					//0xF0  240 11110000
					var byte1 = 0xF0 | ((code >> 18) & 0x07);
					// 10xxxxxx
					//再留12位给低位
					var byte2 = 0x80 | ((code >> 12) & 0x3F);
					//再留6位给低位
					var byte3 = 0x80 | ((code >> 6) & 0x3F);
					// 10xxxxxx
					var byte4 = 0x80 | (code & 0x3F);
					res.push(
						String.fromCharCode(byte1),
						String.fromCharCode(byte2),
						String.fromCharCode(byte3),
						String.fromCharCode(byte4)
					);
				} else if (code >= 0x00200000 && code <= 0x03FFFFFF) {
					// 五字节
					// U+00200000 – U+03FFFFFF  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
					//同理,需要留下 24位给低位
					//0x03 00000011
					//0xF8  248 11111000
					var byte1 = 0xF8 | ((code >> 24) & 0x03);
					// 10xxxxxx
					//再留18位给低位
					var byte2 = 0x80 | ((code >> 18) & 0x3F);
					//再留12位给低位
					var byte3 = 0x80 | ((code >> 12) & 0x3F);
					//再留6位给低位
					var byte4 = 0x80 | ((code >> 6) & 0x3F);
					// 10xxxxxx
					var byte5 = 0x80 | (code & 0x3F);
					res.push(
						String.fromCharCode(byte1),
						String.fromCharCode(byte2),
						String.fromCharCode(byte3),
						String.fromCharCode(byte4),
						String.fromCharCode(byte5)
					);
				} else /** if (code >= 0x04000000 && code <= 0x7FFFFFFF)*/ {
					// 六字节
					// U+04000000 – U+7FFFFFFF  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
					//同理,需要留下 24位给低位
					//0x01 00000001
					//0xFC  252 11111100
					var byte1 = 0xFC | ((code >> 30) & 0x01);
					// 10xxxxxx
					//再留24位给低位
					var byte2 = 0x80 | ((code >> 24) & 0x3F);
					//再留18位给低位
					var byte3 = 0x80 | ((code >> 18) & 0x3F);
					//再留12位给低位
					var byte4 = 0x80 | ((code >> 12) & 0x3F);
					//再留6位给低位
					var byte5 = 0x80 | ((code >> 6) & 0x3F);
					// 10xxxxxx
					var byte6 = 0x80 | (code & 0x3F);
					res.push(
						String.fromCharCode(byte1),
						String.fromCharCode(byte2),
						String.fromCharCode(byte3),
						String.fromCharCode(byte4),
						String.fromCharCode(byte5),
						String.fromCharCode(byte6)
					);
				}
			}
			return res.join('');
		};

1.1.1.2、 UTF-8转UTF-16

这是UTF8转换到UTF16，同样需要对照转换表来实现。需要判断字符的Unicode码,然后判断是属于用几个字节存储的,然后分别用对应的字节数合并起来,形成新的字符输出.

1.1.1.2.1、步骤(以其中一个字符转换为例)

Step1:获取该字符对应的Unicode码

Step2:用该码的二进制和相应的关键字节相与,根据上图,判断处于那一段区间,来判断是使用几个字节存储字符的,然后分别合并对应的字节数,组成新的字符输出。

*用该Unicode码的二进制右移7位后与(11111111)相与,如果得到了0,代表该字符只用了一个字节存储,所以直接输出该字符.转换完毕

*用该Unicode码的二进制右移5位后与(11111111)相与，如果得到了110(6),代表该字符占用了二个字节,所以分别获取该字符和下一个字符,然后分别取出本字节的低5位后左移6位和取出下一个字节的低6位(保持不变)，将2个字节相或，得到一个新的字节.这个字节就是最终字符的unicode码,然后转为对应的字符输出. 转换完毕

*用该Unicode码的二进制右移4位后与(11111111)相与，如果得到了1110(14),代表该字符占用了三个字节,所以分别获取该字符和下一个字符和下下个字符,然后分别取出本字节的低4位后左移12位和取出下一个字节的低6位后左移6位和取出下下一个字节的低6位(保持不变)，将3个字节相或，得到一个新的字节.这个字节就是最终字符的unicode码,然后转为对应的字符输出. 转换完毕

*用该Unicode码的二进制右移3位后与(11111111)相与，如果得到了11110(30),代表该字符占用了四个字节,所以分别获取该字符和下一个字符和下下个字符和下下下个字符,然后分别取出本字节的低3位后左移18位取出下一个字节的低6位后左移12位和和取出下下一个字节的低6位后左移6位和取出下下下一个字节的低6位(保持不变)，将4个字节相或，得到一个新的字节.这个字节就是最终字符的unicode码,然后转为对应的字符输出. 转换完毕

*用该Unicode码的二进制右移2位后与(11111111)相与，如果得到了111110(62),代表该字符占用了五个字节,所以分别获取该字符和下一个字符和下下个字符和下下下个字符和下下下下个字符,然后分别取出本字节的低2位后左移24位和取出下一个字节的低6位后左移18位和取出下下一个字节的低6位后左移12位和和取出下下下一个字节的低6位后左移6位和取出下下下下一个字节的低6位(保持不变)，将5个字节相或，得到一个新的字节.这个字节就是最终字符的unicode码,然后转为对应的字符输出. 转换完毕

*用该Unicode码的二进制右移1位后与(11111111)相与，如果得到了1111110(126),代表该字符占用了六个字节,所以分别获取该字符和下一个字符和下下个字符和下下下个字符和下下下下个字符和下下下下下个字符,然后分别取出本字节的低1位后左移30位和取出下一个字节的低6位后左移24位和取出下下一个字节的低6位后左移18位和取出下下下一个字节的低6位后左移12位和和取出下下下下一个字节的低6位后左移6位和取出下下下下下一个字节的低6位(保持不变)，将6个字节相或，得到一个新的字节.这个字节就是最终字符的unicode码,然后转为对应的字符输出. 转换完毕

1.1.1.2.2、代码实现

见示例源码(以JS为例子)

		/**
		 * @description UTF8编码字符串转为UTF16编码字符串
		 * @param {String} str utf8编码的字符串
		 * @return {String} utf16编码的字符串,可以直接被js用来打印
		 */
		exports.UTF8StrToUTF16Str = function(str) {
			if (!str) {
				return '';
			}
			//res是用来存放结果的字符数组,最终会转为字符串返回
			var res = [],
				len = str.length;
			for (var i = 0; i < len; i++) {
				//获得对应的unicode码
				var code = str.charCodeAt(i);
				// 对第一个字节进行判断
				if (((code >> 7) & 0xFF) == 0x0) {
					//0xFF 255 11111111,代表只取前8位
					//右移7位,如果是只剩下0了,代表这个是单字节
					// 单字节
					// 0xxxxxxx
					res.push(str.charAt(i));
				} else if (((code >> 5) & 0xFF) == 0x6) {
					// 双字节 110开头  
					// 110xxxxx 10xxxxxx
					//需要用到下一个字节
					var code2 = str.charCodeAt(++i);
					//0x1F 31 00011111
					//取到第一个字节的后5位,然后左移6位(这6位留给第二个字节的低6位)，由于js是number型,所以不必担心溢出
					var byte1 = (code & 0x1F) << 6;
					//0x3F 63  00111111
					var byte2 = code2 & 0x3F;
					//或运算,因为第一个字节第六位没有,第二个字节只有低6位,所以算是结合了
					var utf16 = byte1 | byte2;
					res.push(String.fromCharCode(utf16));
				} else if (((code >> 4) & 0xFF) == 0xE) {
					// 三字节 1110开头
					// 1110xxxx 10xxxxxx 10xxxxxx
					var code2 = str.charCodeAt(++i);
					var code3 = str.charCodeAt(++i);
					//和00001111与后, 左移12位
					var byte1 = (code & 0x0F) << 12;
					//和00111111与后,左移6位
					var byte2 = (code2 & 0x3F) << 6;
					//和00111111与
					var byte3 = code3 & 0x3F
					var utf16 = byte1 | byte2 | byte3;
					res.push(String.fromCharCode(utf16));
				} else if (((code >> 3) & 0xFF) == 0x1E) {
					// 四字节 11110开头
					// 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
					var code2 = str.charCodeAt(++i);
					var code3 = str.charCodeAt(++i);
					var code4 = str.charCodeAt(++i);
					//和00000111与后, 左移18位
					var byte1 = (code & 0x07) << 18;
					//和00111111与后,左移12位
					var byte2 = (code2 & 0x3F) << 12;
					//和00111111与后,左移6位
					var byte3 = (code3 & 0x3F) << 6;
					//和00111111与
					var byte4 = code4 & 0x3F
					var utf16 = byte1 | byte2 | byte3 | byte4;
					res.push(String.fromCharCode(utf16));
				} else if (((code >> 2) & 0xFF) == 0x3E) {
					// 五字节 111110开头
					// 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
					var code2 = str.charCodeAt(++i);
					var code3 = str.charCodeAt(++i);
					var code4 = str.charCodeAt(++i);
					var code5 = str.charCodeAt(++i);
					//和00000011与后, 左移24位
					var byte1 = (code & 0x03) << 24;
					//和00111111与后,左移18位
					var byte2 = (code2 & 0x3F) << 18;
					//和00111111与后,左移12位
					var byte3 = (code3 & 0x3F) << 12;
					//和00111111与后,左移6位
					var byte4 = (code4 & 0x3F) << 6;
					//和00111111与
					var byte5 = code5 & 0x3F
					var utf16 = byte1 | byte2 | byte3 | byte4 | byte5;
					res.push(String.fromCharCode(utf16));
				} else /** if (((code >> 1) & 0xFF) == 0x7E)*/ {
					// 六字节 1111110开头
					// 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
					var code2 = str.charCodeAt(++i);
					var code3 = str.charCodeAt(++i);
					var code4 = str.charCodeAt(++i);
					var code5 = str.charCodeAt(++i);
					var code6 = str.charCodeAt(++i);
					//和00000001与后, 左移30位
					var byte1 = (code & 0x01) << 30;
					//和00111111与后,左移24位
					var byte2 = (code2 & 0x3F) << 24;
					//和00111111与后,左移18位
					var byte3 = (code3 & 0x3F) << 18;
					//和00111111与后,左移12位
					var byte4 = (code4 & 0x3F) << 12;
					//和00111111与后,左移6位
					var byte5 = (code5 & 0x3F) << 6;
					//和00111111与
					var byte6 = code6 & 0x3F
					var utf16 = byte1 | byte2 | byte3 | byte4 | byte5 | byte6;
					res.push(String.fromCharCode(utf16));
				}
			}
			return res.join('');
		};

Unicode和GBK之间的转换

这里以UTF-16和GBK之间的转换为例(示例用的Javascript语言,内置UTF-16编码)

1.1.1.1、 UTF-16转GBK

UTF-16转为GBK，需要先得知两者之间的映射表才行.(可以百度搜索Unicode和GBK之间的转换表),然后根据两者的映射关系,进行一一对应转换.

1.1.1.1.1、步骤(以其中一个字符转换为例)

Step1:获取该字符对应的Unicode码

Step2:判断该Unicode的范围,如果是普通的ASCII码,则不进行转换,如果是大于127小于等于255的(标准码范围的,GBK兼容ISO-8859标准码的),根据映射表,转为对应的GBK码,如果是大于255的(大于255代表一个字节装不下了,所以这时候不再是兼容模式,而是GBK的存储模式,需要两个字节来存储),就将改码转换为GBK独特的双字节存储方式来存储(高字节区存储分区号,低字节去存储码号).转换完毕

1.1.1.1.2、代码实现

见示例源码(js为例)

		/**
		 * @description 将utf16编码的字符串(js内置编码)转为GBK编码的字符串
		 * @param {String} str utf16编码的字符串(js内置)
		 * @return {String} 转换后gbk编码的字符串
		 */
		exports.UTF16StrToGBKStr = function(str) {
			if (!str) {
				return '';
			}
			//res是用来存放结果的字符数组,最终会转为字符串返回
			var res = [],
				len = str.length;
			for (var i = 0; i < len; i++) {
				//获得对应的unicode码
				var code = str.charCodeAt(i);
				if (code < 0) {
					code += 65536;
				}
				if (code > 127) {
					code = UniCode2GBKCode(code);
				}
				if (code > 255) {
					//gbk中,如果是汉字的,需要两位来表示
					//对所收录字符进行了“分区”处理，分为若干区,每区若干码位
					//第一个字节为“高字节”，对应不同分区
					//第二个字节为“低字节”，对应每个区的不同码位
					var varlow = code & 65280;
					//取得低位				
					varlow = varlow >> 8;
					//取得高位
					var varhigh = code & 255;
					res.push(String.fromCharCode(varlow));
					res.push(String.fromCharCode(varhigh));
				} else {
					res.push(String.fromCharCode(code));
				}
			}
			return res.join('');
		};
		/**
		 * @description 将unicode通过查表转换,转为gbk的code
		 * @param {Number} chrCode 字符unicode编码

		 */
		function UniCode2GBKCode(chrCode) {

			//这里UnicodeCharTable和GBKCharTable由于太长了,就没有给出了,可以下载源码例子查看
			var chrHex = chrCode.toString(16);
			chrHex = "000" + chrHex.toUpperCase();
			chrHex = chrHex.substr(chrHex.length - 4);
			var i = UnicodeCharTable.indexOf(chrHex);
			if (i != -1) {
				chrHex = GBKCharTable.substr(i, 4);
			} 
			return parseInt(chrHex, 16)
		};

2.1.1.1.1、 GBK转UTF-16

GBK转为UTF-16，也需要根据Unicode和GBK之间的映射表,然后根据两者的映射关系,进行一一对应转换.

2.1.1.1.2、步骤

Step1:获取该字符对应的Unicode码

Step2:判断该Unicode的范围,如果是普通的ASCII码,则不进行转换,直接输出,否则,需要根据GBK和Unicode的对应关系,转换为Unicode码,需要注意的是,这里由于GBK采取双字节编码的,所以需要用到两个字节,转码时需要将编码时的运算逆转,转为Unicode码,然后再输出相应的字符.转换完毕

2.1.1.1.3、代码实现

三、见示例源码(js)

		/**
		 * @description将 gbk的对应的code通过查表转换,转为unicode
		 * @param {Number} chrCode gbk字符对应的编码
		 */
		function GBKCode2UniCode(chrCode) {

			//这里UnicodeCharTable和GBKCharTable由于太长了,就没有给出了,可以下载源码例子查看
			//以16进制形式输出字符串
			var chrHex = chrCode.toString(16);
			//
			chrHex = "000" + chrHex.toUpperCase();
			//
			chrHex = chrHex.substr(chrHex.length - 4);

			var i = GBKCharTable.indexOf(chrHex);

			if (i != -1) {
				chrHex = UnicodeCharTable.substr(i, 4);
			} 
			return parseInt(chrHex, 16)
		};
		/**
		 * @description 将GBK编码的字符串转为utf16编码的字符串(js内置编码)
		 * @param {String} str GBK编码的字符串
		 * @return {String} 转化后的utf16字符串
		 */
		exports.GBKStrToUTF16Str = function(str) {
			if (!str) {
				return '';
			}
			//res是用来存放结果的字符数组,最终会转为字符串返回
			var res = [],
				len = str.length;
			for (var i = 0; i < len; i++) {
				//获得对应的unicode码
				var code = str.charCodeAt(i);
				//如果不是ASCII码
				if (code > 127) {
					//转为unicode	
					//这里左移8位是因为编码时,被右移了8位
					code = GBKCode2UniCode((code << 8) + str.charCodeAt(++i));		
				} else {
					//普通的ASCII码,什么都不做				
				}
				res.push(String.fromCharCode(code));
			}
			return res.join('');
		};

编码之间的转换

Base64编码

Base64编码要求把3个8位字节（3*8=24）转化为4个6位的字节（4*6=24），之后在6位的前面补两个0，形成8位一个字节的形式。由于2的6次方为64，所以每6个位为一个单元，对应某个可打印字符。当原数据不是3的整数倍时，如果最后剩下两个输入数据，在编码结果后加1个“=；如果最后剩下一个输入数据，编码结果后加2个“=；如果没有剩下任何数据，就什么都不要加，这样才可以保证资料还原的正确性。

Base64解码

解码是编码的逆过程，先看后面补了几个“=”号，最多只可能补2个“=”号。一个“=”相当于补了2个0，所以去掉后面补的0后，再按8位展开，即可还原。

转码对照表

每6个单元高位补2个零形成的字节位于0~63之间，通过在转码表中查找对应的可打印字符。“=”用于填充。如下图所示为转码表。

示例

以”Word”字符串的编码和解码为例。

1.1.1.1、编码

原始字符	W		o		r		d(由于不是3的倍数,所以补0了)
ASCII码	87		111		114		100
8bit字节	01010111		01101111		01110010		01100100		00000000		00000000
6bit字节	010101	110110		111101		110010	011001	000000		000000		000000
B64十进制	21	54		61		50	25	0 (注意,这里有两位是d里面的,所以是正常的0)		异常 (注意这里不能按正规的0来算)		异常 (需要补上=号)
对应编码	V	2		9		y	Z	A		=		=

所以’Word’的编码结果是V29yZA==

1.1.1.2、解码

原始编码	V	2		9		y	Z	A		=		=
B64十进制	21	54		61		50	25	0		异常		异常
6bit字节	010101	110110		111101		110010	011001	000000		000000		000000
8bit字节	01010111		01101111		01110010		01100100		00000000		00000000
ASCII码	87		111		114		100		异常		异常
对应字符	W		o		r		d		无		无

由此可见,解码过程就是编码过程的逆过程。

源码实现

需要注意的是,实际编码时需要注意程序内部的编码,例如Javascript内置的是UTF-16编码,所以如果编码成GBK或UTF-8时需要经过一定的转换.

详情见示例源码

		/**
		 * @description 创建一个base64对象
		 */
		(function(base64) {
			/**
			 * Base64编码要求把3个8位字节（3*8=24）转化为4个6位的字节（4*6=24），
			 * 之后在6位的前面补两个0，形成8位一个字节的形式。
			 * 由于2的6次方为64， 所以每6个位为一个单元， 对应某个可打印字符。
			 * 当原数据不是3的整数倍时， 如果最后剩下两个输入数据，
			 * 在编码结果后加1个“=；如果最后剩下一个输入数据，编码结果后加2个“=；
			 * 如果没有剩下任何数据，就什么都不要加，这样才可以保证资料还原的正确性。
			 */
			/**
			 * base64转码表,最后一个=号是专门用来补齐的
			 */
			var keyTable = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=';
			/**
			 * @description 将一个目标字符串编码为base64字符串
			 * @param {String} str 传入的目标字符串
			 * 可以是任何编码类型,传入什么类型就输出成了什么样的编码
			 * 由于js内置是utf16编码,而服务器端一般不使用这种,
			 * 所以传入的编码一般是采取utf8或gbk的编码
			 * @return {String} 编码后的base64字符串
			 */
			function encodeBase64(str) {
				if (!str) {
					return '';
				}
				var i = 0; // 遍历索引
				var len = str.length;
				var res = [];
				var c1, c2, c3 = '';
				//用来存对应的位置
				var enc1, enc2, enc3, enc4 = '';
				while (i < len) {
					c1 = str.charCodeAt(i++) & 0xFF;
					c2 = str.charCodeAt(i++);
					c3 = str.charCodeAt(i++);
					enc1 = c1 >> 2;
					enc2 = ((c1 & 0x3) << 4) | ((c2 >> 4) & 0x0F);
					enc3 = ((c2 & 0x0F) << 2) | ((c3 & 0xC0) >> 6);
					enc4 = c3 & 0x3F;
					//专门用来补齐=号的
					if (isNaN(c2)) {
						enc3 = enc4 = 0x40;
					} else if (isNaN(c3)) {
						enc4 = 0x40;
					}
					res.push(keyTable.charAt(enc1));
					res.push(keyTable.charAt(enc2));
					res.push(keyTable.charAt(enc3));
					res.push(keyTable.charAt(enc4));
					c1 = c2 = c3 = "";
					enc1 = enc2 = enc3 = enc4 = "";
				}
				return res.join('');
			};
			/**
			 * @description 解码base64字符串，还原为编码前的结果
			 * @param {String} str 传入的目标字符串
			 * 可以是任何编码类型,传入什么类型就输出成了什么样的编码
			 * 由于js内置是utf16编码,而服务器端一般不使用这种,
			 * 所以传入的编码一般是采取utf8或gbk的编码
			 * @return {String} 编码后的base64字符串
			 */
			function decodeBase64(str) {
				if (!str) {
					return '';
				}
				//这里要判断目标字符串是不是base64型,如果不是,直接就不解码了
				//两层判断
				if (str.length % 4 != 0) {
					return "";
				}
				var base64test = /[^A-Za-z0-9\+\/\=]/g;
				if (base64test.exec(str)) {
					return "";
				}
				var len = str.length;
				var i = 0;
				var res = [];
				var code1, code2, code3, code4;
				while (i < len) {
					code1 = keyTable.indexOf(str.charAt(i++));
					code2 = keyTable.indexOf(str.charAt(i++));
					code3 = keyTable.indexOf(str.charAt(i++));
					code4 = keyTable.indexOf(str.charAt(i++));

					c1 = (code1 << 2) | (code2 >> 4);
					c2 = ((code2 & 0xF) << 4) | (code3 >> 2);
					c3 = ((code3 & 0x3) << 6) | code4;

					res.push(String.fromCharCode(c1));

					if (code3 != 64) {
						res.push(String.fromCharCode(c2));
					}
					if (code4 != 64) {
						res.push(String.fromCharCode(c3));
					}
				}
				return res.join('');
			};
			/**
			 * @description 将utf16字符串转为utf8编码类型的base64编码
			 * 注意:js内置的编码是utf16型,所以传入的是utf16型码
			 * @param {String} str 传入的utf16编码
			 * @return {String} 编码后的utf8型base64字符串
			 */
			base64.encode_Utf8 = function(str) {
				// 转成UTF8
				var utf8 = exports.UTF16StrToUTF8Str(str);
				return encodeBase64(utf8);
			};
			/**
			 * @description utf8编码的base64解密,解密成为js内置的utf16编码
			 * 注意:这里会讲传入的字符串当成utf8型,如果类型不匹配,就会产生错误结果
			 * @param {String} str 传入的utf8编码型base64字符串
			 * @return {String} 解码后的utf16字符串
			 */
			base64.decode_Utf8 = function(str) {
				var decodeStr = decodeBase64(str);
				// 转成UTF16
				return exports.UTF8StrToUTF16Str(decodeStr);
			};
			/**
			 * @description 将utf16字符串转为GBK编码类型的base64编码
			 * 注意:js内置的编码是utf16型,所以传入的是utf16型码
			 * @param {String} str 传入的utf16编码
			 * @return {String} 编码后的gbk型base64字符串
			 */
			base64.encode_GBK = function(str) {
				// 转成GBK
				var GBK = exports.UTF16StrToGBKStr(str);
				return encodeBase64(GBK);
			};
			/**
			 * @description GBK编码的base64解密,解密成为js内置的utf16编码
			 * 注意:这里会讲传入的字符串当成GBK型,如果类型不匹配,就会产生错误结果
			 * @param {String} str 传入的GBK编码型base64字符串
			 * @return {String} 解码后的utf16字符串
			 */
			base64.decode_GBK = function(str) {
				var decodeStr = decodeBase64(str);
				// 转成UTF16
				return exports.GBKStrToUTF16Str(decodeStr);
			};
		})(exports.Base64 = {});
		return exports;
	});

源码项目

http://download.csdn.net/detail/u010979495/9421230

你可能感兴趣的:(总结,JavaScript,字符编码,编码转换,base64加密)

为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Cesium加载各类数据总结 zhu_zhu_xia cesium JavaScript javascript
接触到的加载数据类型：源地图、shp、Geojson、png、wms、地形底图一.Cesium加载各类底图#此类加载的本质在于newCesium.ImageryProvider()Apidefination：“Providesimagerytobedisplayedonthesurfaceofanellipsoid.Thistypedescribesaninterfaceandisnotinten
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
无线鼠标产品整体技术分析总结悟空胆好小计算机外设
无线鼠标产品对比分析，以小米为例文章目录无线鼠标产品对比分析，以小米为例一.小米无线鼠标产品对比1.1小米无线鼠标XMSMSB05YM2.4G单模款1.2小米无线鼠标XMSMSB01YM2.4G+BT双模款二.**单模鼠标与双模的区别****1.连接方式****2.通信性能与可靠性****3.功耗管理****4.适用场景****5.技术扩展性**6.**小结**三.无线鼠标产品技术重点分析3.1.
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
深入了解 Vim 编辑器：从入门到精通誰能久伴不乏编辑器 vim linux
文章目录深入了解Vim编辑器：从入门到精通一、Vim的三个基本模式1.普通模式（NormalMode）2.插入模式（InsertMode）3.命令模式（CommandMode）二、常用快捷键光标移动删除操作复制和粘贴撤销和重做三、文件操作与搜索文件操作搜索文本替换文本四、Vim的进阶功能多文件编辑分屏功能标签页查看帮助五、总结深入了解Vim编辑器：从入门到精通Vim是一个强大的文本编辑器，广泛应用
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
如何为加壳保护后的程序提供调试支持深盾科技安全开发语言
在软件开发领域，加壳保护是一种常见的安全手段，用于防止程序被逆向分析。然而，当程序崩溃时，开发人员需要定位原始错误位置，这就与加壳保护产生了天然的矛盾。本文将从加壳原理出发，为大家介绍兼容调试的解决方案。一、加壳的基本功能1.加密/压缩加壳最常见的功能就是对程序的整个代码段和数据段进行压缩或加密。这样做的目的是防止静态反编译，但在程序运行过程中，代码段和数据段是明文状态，所以不会对调试造成影响。2
.NET 程序的强名称签名与安全防护技术干货深盾科技安全
在.NET开发领域，保障程序的安全性和完整性至关重要。强名称签名和有效的安全防护措施是实现这一目标的关键手段。下面将详细介绍.NET程序的强名称签名以及相关的安全防护方法。一、什么是强名称签名强名称签名是.NET框架提供的一种安全机制，其主要作用是唯一标识程序集、验证程序集的完整性以及解决版本冲突问题。它本质上是通过加密技术为程序集创建数字签名，确保程序集在分发和运行过程中的安全性。二、签名文件要
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
V少JS基础班之第五弹 V少在逆向 JS基础班 javascript 开发语言 ecmascript
文章目录一、前言二、本节涉及知识点三、重点内容1-函数的定义2-函数的构成1.函数参数详解1）参数个数不固定2）默认参数3）arguments对象（类数组）4）剩余参数（Rest参数）5）函数参数是按值传递的6）解构参数传递7）参数校验技巧（JavaScript没有类型限制，需要手动校验）2.函数返回值详解3-函数的分类1-函数声明式：2-函数表达式：3-箭头函数：4-构造函数：5-IIFE：6-
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
深入解析 “void(0)；” 的用法与作用_void(0)；
关键要点void(0);是JavaScript中的一个表达式，研究表明它通常用于超链接中，防止页面跳转。它通过void运算符计算表达式并返回undefined，常用于创建“死链接”。证据显示，这种用法简单易用，但现代开发更推荐使用事件监听器。基本概念void(0);的作用void(0);是JavaScript的void运算符的一个实例，void运算符会计算一个表达式但不返回任何值，而是始终返回un
11. TCP 滑动窗口、拥塞控制是什么，有什么区别 yqcoder 前端面试-服务协议 tcp/ip 网络 php
总结滑动窗口：早期网络，通信双方不考虑网络拥挤情况，导致掉包。滑动窗口大小意味着有多少缓冲区接受数据。拥塞控制：防止过多数据注入网络中，拥塞控制是一个全局过程，控制网络流量。区别：滑动窗口解决掉包问题，拥塞控制解决网络拥塞问题。TCP滑动窗口与拥塞控制详解在TCP协议中，为了实现可靠传输和高效通信，引入了两个核心机制：滑动窗口（SlidingWindow）和拥塞控制（CongestionContr
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
7. TCP 和 UDP 的区别 yqcoder 前端面试-服务协议网络网络协议 http
总结TCP面向连接，需要三次握手建立连接，UDP无连接，不需要握手，直接发送数据。UDP有较好的实时性，效率比TCP高。TCP面向字节流，实际上是TCP把数据看成一连串无结构的字节流，UDP是面向报文的，一次交付一个完整的报文，报文不可分割，报文是UDP数据报处理的最小单位。每一条TCP连接时一对一的，UDP可以一对多，多对一，多对多。UDP分组首部开销小，八个字节，TCP首部开销大约20字节。U
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

常见字符编码介绍以及相互转换

几种常用编码

ASCII码

1.1.1.1、 简介

1.1.1.2、 编码范围

1.1.1.3、 适用范围以及存在问题

1.1.1.4、 特性

1.1.1.4.1、 单字节编码

ISO-8859-1编码

1.1.1.1、 简介

1.1.1.2、 编码范围

1.1.1.3、 适用范围以及存在问题

1.1.1.3.1、 单字节编码

GB2312编码

1.1.1.1、 简介

1.1.1.2、 编码范围

1.1.1.3、 适用范围以及存在问题

1.1.1.4、 特性

1.1.1.4.1、 分区表示

1.1.1.4.2、 双字节编码

GBK编码

1.1.1.1、 简介

1.1.1.2、 编码范围

1.1.1.3、 适用范围以及存在问题

1.1.1.4、 特性

1.1.1.4.1、 字汇

1.1.1.4.2、 码位分配及顺序

1.1.1.4.3、 字形

1.1.1.4.3.1、 误处理

1.1.1.4.4、 双字节编码

GB18030编码

1.1.1.1、 简介

1.1.1.2、 编码范围

1.1.1.3、 适用范围以及存在问题

1.1.1.4、 特性

1.1.1.4.1、 GB18030-2000字汇

1.1.1.4.2、 GB18030-2005字汇

1.1.1.4.3、 GB18030-2000汉字

1.1.1.4.4、 GB18030-2005汉字

BIG5 编码

1.1.1.1、 简介

1.1.1.2、 编码范围

1.1.1.3、 适用范围以及存在问题

1.1.1.3.1.1、 兼容问题:

1.1.1.3.1.2、 冲码问题

1.1.1.3.1.3、 私人造字

1.1.1.4、 特性

1.1.1.4.1.1、 双字节编码

1.1.1.4.1.2、 字符有限

1.1.1.4.1.3、 误处理

Unicode 编码

1.1.1.1、 简介

1.1.1.1.1.1、 Tips

1.1.1.2、 编码范围

1.1.1.3、 适用范围

1.1.1.4、 特性

1.1.2、 UTF-8编码

1.1.2.1、 简介

1.1.2.2、 特性

1.1.2.2.1、 变长编码

1.1.2.3、 实现方式

1.1.2.3.1、 Unicode和Utf-8对照表

UTF-16 编码

1.1.1.1、 简介

1.1.1.1.1、 Tips

1.1.1.2、 特性

1.1.1.2.1、 不兼容ASCII码

1.1.1.2.2、 实现方式

UTF-32 编码

1.1.1.1、 简介

1.1.1.2、 特性

ANSI 编码

1.1.1.1、 简介

编码之间的转换

UTF-16和UTF-8之间的转换

1.1.1.1、 Unicode和Utf-8对照表

1.1.1.1、 UTF-16转UTF-8

1.1.1.1.1、 步骤(以其中一个字符转换为例)

1.1.1.1.2、 代码实现

1.1.1.2、 UTF-8转UTF-16

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围以及存在问题

1.1.1.4、特性

1.1.1.4.1、单字节编码

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围以及存在问题

1.1.1.3.1、单字节编码

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围以及存在问题

1.1.1.4、特性

1.1.1.4.1、分区表示

1.1.1.4.2、双字节编码

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围以及存在问题

1.1.1.4、特性

1.1.1.4.1、字汇

1.1.1.4.2、码位分配及顺序

1.1.1.4.3、字形

1.1.1.4.3.1、误处理

1.1.1.4.4、双字节编码

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围以及存在问题

1.1.1.4、特性

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围以及存在问题

1.1.1.3.1.1、兼容问题:

1.1.1.3.1.2、冲码问题

1.1.1.3.1.3、私人造字

1.1.1.4、特性

1.1.1.4.1.1、双字节编码

1.1.1.4.1.2、字符有限

1.1.1.4.1.3、误处理

1.1.1.1、简介

1.1.1.2、编码范围

1.1.1.3、适用范围

1.1.1.4、特性

1.1.2.1、简介

1.1.2.2、特性

1.1.2.2.1、变长编码

1.1.2.3、实现方式

1.1.1.1、简介

1.1.1.2、特性

1.1.1.2.1、不兼容ASCII码

1.1.1.2.2、实现方式

1.1.1.1、简介

1.1.1.2、特性

1.1.1.1、简介

1.1.1.1.1、步骤(以其中一个字符转换为例)

1.1.1.1.2、代码实现

1.1.1.2.1、步骤(以其中一个字符转换为例)

1.1.1.2.2、代码实现

1.1.1.1.1、步骤(以其中一个字符转换为例)

1.1.1.1.2、代码实现

2.1.1.1.2、步骤

2.1.1.1.3、代码实现

1.1.1.1、编码

1.1.1.2、解码