十甫寸木南

Java 中 Unicode 和 char 的关系

Unicode 字符集的出现
- 字符集
- ASCII 字符集 ^查看^
- OEM 字符集的衍生
- 多字节字符集(MBCS，Multi-Byte Chactacter Set)和中文字符集
- - GB2312^查看^
  - GBK^查看^
  - GB18030
  - GB 系字符集的共同点
- Unicode 字符集^查找^
Unicode 字符集详情与 UTF 编码
- Unicode 字符集介绍
- - 一些相关术语
- Unicode 字符集的几种常见编码方式
- - UTF-8 编码方式
  - UTF-16 编码方式
  - UTF-32(UCS-4) 编码方式
  - UTF 中的 BOM
Java 中的 Unicode 与 char
总结
参考资料

众所周知，

Java 语言使用的字符集是 Unicode 字符集；
而 Java 使用的编码方式则为 UTF-16。
同时，在 Java 中，char 类型用于表示 UTF-16 编码方式下 Unicode 编码的一个代码单元。

Unicode 字符集的出现

字符集

从字面意思来看，字符(character)就是各种文字和符号，包括文字、标点符号、图形符号、数字等。
而字符集(character set)则是一个系统支持的所有抽象字符的集合。

乍看起来，也并没有什么难的，但是，这仅是通常意义上抽象的字符集；而我们(程序猿们)通常所说的字符集，其实是指编码字符集(coded character set)(有人也叫它字符编码集)。
那么，什么是编码字符集呢？

对于计算机来说，任何字符其实都是一张图片，计算机把这个图片内容绘制在屏幕上，我们就能看到它了。

为了便于传输与编辑，人们事先在每个计算机上存好一套字符库，记录了每个字符的样子，其实就是字体文件。每个字符对应一个唯一的 ID，这样计算机处理字符以及传输字符时，就能只处理这些 ID，实际上就是一连串的整数。

而这个唯一的 ID 就叫做码点。专业一点来说，码点(code point)就是指与一个编码表中的某个字符对应的代码值。

比如：
在 ASCII 字符集中，
- 字符 '0' 对应的码点(十进制)是 48 # 未验证是否 ASCII 的码点用十进制表示
- 字符 'A' 对应的码点是 65
- 字符 'a' 对应的码点是 97
在 Unicode 字符集中，
- 字符 '0' 对应的码点(十六进制)是 U+0030
- 字符 '™' 对应的码点是 U+2122
- 字符 '回' 对应的码点是 U+56DE

而编码字符集，则是指这个字符集里的每一个字符，都有一个对应的唯一代码值，也就是码点(可以看做是这个字符在编码字符集里的序号)。

而常见的字符集有：

ASCII：早期的计算机系统只能处理英文，所以 ASCII 也就成为了计算机的默认字符集，包含了英文所需要的所有字符。
GB2312：简体中文编码表，是对 ASCII 的中文扩展，包含了已有的 ASCII 字符集，同时收录了一些常用的中文汉字，甚至还收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GBK：GB2312 的扩展，完整包含了GB2312的所有内容，并增加了近 20000 个罕见字、繁体字、符号等。
GB18030：GBK 字符集的超集，常叫大汉字字符集，也叫 CJK（Chinese，Japanese，Korea）字符集，包含了中、日、韩三国语言中的所有字符，以及国内一些少数民族的文字字符等。
BIG5：繁体中文字符集，也叫大五码或五大码，在台湾、香港、澳门等地区使用较多。
Unicode：统一字符集，也叫统一码、万国码、单一码等，涵盖了目前世界上所有的已经发现且需要使用的字符（如中文、日文、英文、德文、拉丁文、希腊字母…所有）。

ASCII 字符集 ^查看

要弄明白 ASCII 字符集是什么，就要从它的历史开始说起。

计算机一开始发明的时候是用来解决数字计算的问题，后来人们发现，计算机还可以做更多的事，例如文本处理。
—— Java为什么选择unicode字符集？字符编码的那些事

但是因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。
最早的计算机在设计时采用 8 个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是 255（二进制 11111111 = 十进制 255）。
—— 漫画：什么是字符集和编码？ASCII、UTF-8、UTF-16、UTF-32 又是什么？

在计算机中，1 字节对应 8 位二进制数，而每位二进制数有 0、1 两种状态，因此 1 字节可以组合出 256 种状态。^{(有些重复，不要在意)}
如果这 256 种状态每一个都对应一个符号，就能通过 1 字节的数据表示 256 个字符。美国人(美国国家标准协会 ANSI)于是就制定了一套编码（其实就是个字典），描述英语中的字符和这 8 位二进制数的对应关系，这被称为 ASCII 码。

ASCII 码一共定义了 128 个字符，例如大写的字母 A 是 65（这是十进制数，对应二进制是 0100 0001）。这 128 个字符只使用了 8 位二进制数中的后面 7 位，最前面的一位统一规定为 0。
—— 浅谈Unicode和char的关系（Java）

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是一套基于拉丁字母的字符编码，主要用于显示英语字符。
ASCII 共收录了 128 个字符，用一个字节就可以存储，是现今最通用的单字节编码系统，它等同于国际标准 ISO/IEC 646。

ASCII 规范于 1967 年第一次发布，最后一次更新是在 1986 年，共 128 个字符，包括 33 个无法显示的控制字符和 95 个可显示字符(包括空白字符)。
—— ASCII码一览表，ASCII码对照表
—— ASCII码对照表

OEM 字符集的衍生

后来，随着计算机在世界各地的流行与发展，人们越发地发现，ASCII 字符集里那可怜的 128 个字符已经不能再满足他们的需求了。

因为这个世界，不是所有人都在用英语，有法语、有德语、有俄罗斯语等等，很多国家用的不是英文，他们的字母里有许多是 ASCII 字符集里没有的。于是这个时候，为了可以在计算机中保存他们各自国家的文字，人们就在想，一个字节能够表示的数字（编号）有 256 个，而 ASCII 字符集只用到了 0x00~0x7F，也就是只占用了前 128 个，后面 128 个数字不用白不用，因此很多人打起了后面这 128 个数字的主意。

它们用 0x7F(127) 之后的空位来表示新的字母、符号，甚至还加入了很多画表格时需要用到的横线、竖线、交叉等字符，一直将 256 个字符全部用完。
但是，同时产生这样的想法并实施行动的，并不只是一个国家，于是乎，又一个问题产生了：不同国家^{(似乎大部分是欧洲国家，并未验证)}的字符集可能不同，即使他们很默契地没有改动前 128 位(用于兼容 ASCII 字符集)，但后 128 位也会因为国家的不同、语言的不同而分别对应不同的字符。这就导致了当时世界上出现了大量各式各样的 OEM 字符集。

而在这些字符集中，同一个编码序号表示的字符可能完全不同，例如：144 在阿拉伯人的字符集中是 گ，而在俄罗斯的字符集中却是 ђ。
—— Java为什么选择unicode字符集？字符编码的那些事
—— 浅谈Unicode和char的关系（Java）
—— 常用编码字符集

^Note！关于 OEM 的解释可以参考以下几篇文章：

代码页
ANSI编码与代码页(Code Page)
Character Sets
INFO: Windows, Code Pages, and Character Sets

^Note！同时，随着各式各样的 OEM 字符集陆续出现，软件开发者们迎来了他们的噩梦。他们想要把软件卖到国外，就需要使用不同国家的语言。于是，他们提出了一个概念：代码页(Code Page，也叫内码表)。只要切换到相应语言对应的代码页，就可以正确显示该语言。详情请参考➡️ANSI编码与代码页(Code Page)

多字节字符集(MBCS，Multi-Byte Chactacter Set)和中文字符集

随着各种 OEM 字符集的出现，世界各国人民^欧美？都能使用计算机表示他们本国的语言了，一切看起来似乎都皆大欢喜^{(即使内码表比较麻烦，但也能用)}。

但是，当计算机传到中国后，我们惊骇地发现，我们已经没有可以利用的字节状态来表示汉字了，即便是创造我们自己的 OEM 字符集也根本没用，因为我们的汉字，可不仅仅是几百个那么简单，而是成千上万，就这，还只是常用字而已。

而不管是前面提到的 ASCII 字符集还是后面衍生出的各种 OEM 字符集，它们都是基于单字节编码，也就是说，一个字节翻译成一个字符。这对于拉丁语系国家来说可能没有什么问题，因为他们通过扩展第 8 个比特，就可以得到 256 个字符了，完全足够用来表示它们的语言。

但是对于亚洲国家来说，256 个字符是远远不够用的，连塞牙缝都不够，不管是中国还是日本，还是韩国，都有着成千上万的文字。
—— 关于字符编码，你所需要知道的
—— 常用编码字符集

而如果要表示这些文字，通过简单地扩充 ASCII 是绝不可能办到的。于是，一个迫切的问题出现了：需要创造一种全新结构的不同于 ASCII 的字符集！

而为了解决这个问题，也是为了可以更方便地使用电脑，亚洲国家就发明了多字节编码方式，相应的字符集也被称为多字节字符集（MBCS，Multi-Byte Chactacter Set）。而在这其中，中国使用的就是双字节字符集编码（DBCS，Double Byte Character Set），包括：GB2312、GBK、GB18030。

GB2312^查看

既然我们说中国使用的是双字节字符集编码（DBCS），那么，到底是怎么使用的呢？
参考了 OEM 字符集的做法，中国也对 ASCII 字符集做了兼容，前 127 号字符保持不变，而从 127 号之后就是我们新加入的字符。

规定：一个小于 127 的字符的意义与 ASCII 相同，但两个大于 127 的字符连在一起时，就表示一个汉字，前面的一个字节（高字节）从 0xA1 用到 0xF7，后面一个字节（低字节）从 0xA1 到 0xFE，这样我们就可以组合出大约 7000 多个简体汉字了。

在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母等都统统重新编了两个字节长的编码，这就是常说的“全角”字符，而原来在 127 号以下的那些就叫"半角"字符了。于是就把这种汉字方案叫做 GB2312。
GB2312 是对 ASCII 的中文扩展。
—— 常用编码字符集

GBK^查看

后来，随着计算机在中国的普及，一个新的问题出现了，并日渐常见：很多人的名字打不出来——一些罕见的字并未收录在 GB2312 中！
这怎么办呢？
研究者们想出了一个办法：

将 GB2312 中没有用到的码位用起来；
这确实解决了一些问题，但治标不治本，没有从源头上解决问题——中国的罕见字可不是几百几千个那么简单的！
于是，又一个新的办法被提出来：
不再要求低字节一定是 127 号之后的内码，只要第一个字节是大于 127 就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。
—— 常用编码字符集

这个办法最终形成了一套新的编码方案，也就是 GBK（汉字内码扩展规范）字符集。
GBK 不仅包括了 GB2312 的所有内容，同时还增加了近 20000 个新的汉字（包括繁体字）和符号。

GB18030

后来，我们又在 GBK 中新加入了数千个少数民族的字符，于是，GBK 便顺势扩展成为了 GB18030。
从此，我大天朝的文化在虚拟世界开始传承！
而事实上，GB18030 也是包含两个版本的：

GB18030-2000
GB18030-2005

同时，GB18030 收录的字符事实上分别以单字节、双字节和四字节编码。

^Note！具体信息这里不再讨论，可自省查找细节或参考以下给出的部分资料，这里仅用于了解字符集的发展历史。

GB18030 编码
gb18030

GB 系字符集的共同点

由于 GB 系字符集采用双字节表示汉字，但同时又兼容 ASCII，因此，事实上 GB 系字符集是单字节的英文字符和至少双字节的汉字字符同时存在的。

因此，那时候的程序猿们为了使应用支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于 127 的，那么就认为一个双字节字符集^{(这里忽略四字节，不进行讨论)}里的字符出现了。
那时候凡是受过编程学习的程序员都要每天念下面这个咒语数百遍的折磨：
“一个汉字算两个英文字符！一个汉字算两个英文字符……”
—— 常用编码字符集

事实上，我还在大学时，也背过相似的话

Unicode 字符集^查找

说完了我大华夏的字符集发展历史，这个时候，随着历史的车轮滚滚向前，一个新的问题再次产生，那就是：
世界各地，全球各地，几乎各个国家都搞出了一套自己的编码标准，但是，互相之间谁也不懂谁的编码，谁也不支持别人的编码，连大陆和台湾这样只相隔了 150 海里，使用着同一种语言的兄弟地区，也分别采用了不同的编码方案（GB 系 VS BIG5）。

于是乎，有人意识到，需要有一种新的标准方案来展示世界上所有语言中的所有字符了，而正是出于这个目的，Unicode 诞生了。

多语言软件制造商组成的统一码联盟(The Unicode Consortium)于 1991 年发布的统一码标准（The Unicode Standard)，定义了一个全球统一的通用字符集即 Unicode 字符集解决了上述的问题。
统一码标准为每个字符提供一个唯一的编号，旨在支持世界各地的交流，处理和显示现代世界各种语言和技术学科的书面文本。
此外，它支持许多书面语言的古典和历史文本，不管是什么平台，设备，应用程序或语言，都不会造成乱码问题，它已被所有现代软件供应商采用，是目前所有主流操作系统，搜索引擎，浏览器，笔记本电脑和智能手机以及互联网和万维网（URL，HTML，XML，CSS，JSON 等）中表示语言和符号的基础。统一码标准的一个版本由核心规范、Unicode 标准、代码图、Unicode 标准附件以及 Unicode 字符数据库（Unicode Character Database 简写成 UCD）组成，同时也是开发的字符集，在不断的更加和增加新的字符。
—— Unicode 及编码方式概述

而且，在 Unicode 标准中，仅仅为每个字符分配了一个唯一的字符编号(代码点，Code Point)，对于这个数字对应的二进制串如何存储并没有规定。
值得注意的是：这个数字采用 U+ 紧跟着十六进制数表示。例如：U+56DE 代表汉字 回。

Unicode 字符集详情与 UTF 编码

Unicode 字符集介绍

世界经济日益全球化的同时，一个应用程序需要在全球范围内使用势在必然，基于 Unicode 的应用程序能够很好地处理来自世界各地的用户文本，并适应其文化习俗。它通过消除每种语言的构建，安装和维护更新来最大限度地降低成本。Unicode（与其并行 ISO 10646 标准）标准除了覆盖全球所有地区国家使用的字符外，它还定义了一系列文本处理的数据和算法，极大简化了 Unicode 的应用，并确保所有遵守其标准的软件产生相同的结果。在过去十年的广泛应用中，Unicode 成为互联网的基石。

Unicode 编码字符集旨在收集全球所有的字符，为每个字符分配唯一的字符编号即代码点（Code Point），用 U+ 紧跟着十六进制数表示。
所有字符按照使用上的频繁度划分为 17 个平面（编号为 0-16），即:

基本的多语言平面和增补平面(辅助平面)。

基本的多语言平面（英文为 Basic Multilingual Plane，简称 BMP）又称平面 0，收集了使用最广泛的字符，代码点从 U+0000 到 U+FFFF，每个平面有 2¹⁶=65536 个码点；

增补平面(辅助平面)从平面 1-16，分为增补多语言平面（平面 1）、增补象形平面（平面 2）、保留平面（平 3-13）、增补专用平面等，每个增补平面也有 2¹⁶=65536 个码点。

所以 17 个平面总计有 17 × 65,536 = 1,114,112 个码点。

Unicode 平面分布图

Unicode 平面分布和码点空间

一些相关术语

Coded Character Set（CCS）：即编码字符集，给字符表里的抽象字符编上一个数字，也就是字符集合到一个整数集合的映射。这种映射称为编码字符集，Unicode 字符集就是属于这一层的概念；

Character Encoding Form（CEF）：即字符编码表，根据一定的算法，将编码字符集（CCS）中字符对应的码点转换成一定长度的二进制序列，以便于计算机处理，这个对应关系被称为字符编码表，UTF-8、 UTF-16 属于这层概念；

Code Point: 码点，简单理解就是字符的数字表示。一个字符集一般可以用一张或多张由多个行和多个列所构成的二维表来表示。二维表中行与列交叉的点称之为码点，每个码点分配一个唯一的编号，称之为码点值或码点编号，除开某些特殊区域(比如代理区、专用区)的非字符码点和保留码点，每个码点唯一对应于一个字符。

Code Unit：代码单元，是指一个已编码的文本中具有最短的比特组合的单元。对于 UTF-8 来说，代码单元是 8 比特长；对于 UTF-16 来说，代码单元是 16 比特长。换一种说法就是 UTF-8 的是以一个字节为最小单位的，UTF-16 是以两个字节为最小单位的。

Code Space：码点空间，字符集中所有码点的集合。

BOM（ Byte Order Mark ）：字节序，出现在文件头部，表示字节的顺序，第一个字节在前，就是”大头方式”（Big-Endian），第二个字节在前就是”小头方式”（Little-Endian）。这两个古怪的名称来自英国作家斯威夫特的《格列佛游记》，在该书中，小人国里爆发了内战，战争起因是人们争论，吃鸡蛋时究竟是从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开。为了这件事情，前后爆发了六次战争，一个皇帝送了命，另一个皇帝丢了王位。

Unicode 字符集的几种常见编码方式

Unicode 字符集中的字符可以有多种不同的编码方式，如 UTF-8、UTF-16、UTF-32、压缩转换等。这里的 UTF 是 Unicode Transformation Format 的缩写，即统一码转换格式，将 Unicode 编码空间中每个码点和字节序列进行一一映射的算法。
^Note！编码：将字母，数字，图片，符号等转换为不同的比特序列代表不同的字符；
^Note！解码：将存储在计算机中的比特位序列（或者叫二进制序列）解析显示出来成对应的字母，数字，图片和符号。

UTF-8 编码方式

UTF-8 是一种变长的编码方式，一般用 1-4 个字节序列来表示 Unicode 字符，也是目前应用最广泛的一种 Unicode 编码方式，但是它不是最早的 Unicode 编码方式，最早的 Unicode 编码方式是 UTF-16。UTF-8 编码算法有以下特点：

首字节码用来区分采用的编码字节数 ：如果首字节以 0 开头，表示单字节编码；如果首字节以 110 开头，表示双字节编码；如果首字节以 1110 开头，表示三字节编码，以此类推；

除了首字节码外， 用 10 开头表示多字节编码的后续字节，下图列出 UTF-8 用 1~6 个字节所表示的编码方式和码点范围（实际上 1-4 个字节基本可以覆盖大部分 Unicode 码点）；

与 ASCII 编码方式完全兼容：U+0000 到 U+007F 范围内(十进制为 0~127)的 Unicode 码点值所对应的字符就是 ASCII 字符集中的字符，用一个字节表示，编码方式和 ASCII 编码一致；

无字节序，在 UFT-8 编码格式的文本中，如果添加了 BOM，则标示该文本是由 UTF-8 编码方式编码的，而不用来说明字节序。

UTF-8 编码方式

在实际的解码过程中：

情况 1：读取到一个字节的首位为 0，表示这是一个单字节编码的 ASCII 字符；

情况 2：读取到一个字节的首位为 1，表示这是一个多字节编码的字符，如继续读到 1，则确定这是首字节，在继续读取直到遇到 0 为止，一共读取了几个 1，就表示在字符为几个字节的编码；

情况 3：当读取到一个字节的首位为 1，紧接着读取到一个 0，则该字节是多字节编码的后续字节。

下图概述了 UTF-8 编码方式的特点，其中的 自同步 表示在传输过程中如果有字节序列丢失，并不会造成任何乱码现象，或者存在错误的字节序列也不会影响其他字节的正常读取。例如读取了一个 10xxxxxx 开头的字节，但是找不到首字节，就可以将这个后续字节丢弃，因为它没有意义，但是其他的编码方式，这种情况下就很可能读到一个完全不同或者错误的字符。

UTF-8 编码方式

UTF-16 编码方式

UTF-16 是最早的 Unicode 字符集编码方式，在概述 UTF-16 之前，需要解释一下 USC-2 编码方式，他们有源远流长的关系，UTF-16 源于 UCS-2。UCS-2 将字符编号（同 Unicode 中的码点）直接映射为字符编码，亦即字符编号就是字符编码，中间没有经过特别的编码算法转换。下图就是对 UCS-2 编码方式的概括。

UCS-2 编码方式

由上图可知，UCS-2 编码方式只覆盖基本多语言平面的码点，因为 16 位二进制表示的最大值为 0xFFFF，而对于增补平面中的码点（范围为 0x10000-0x10FFFF，十进制为 65536-1114111），两字节的 16 位二进制是无法表示的。为了解决这个问题，The Unicode Consortium 提出了通过代理机制来扩展原来的 UCS-2 编码方式，也就是 UTF-16。

UTF-16 编码介于 UTF-8 与 UTF-32 之间，同时结合了定长和变长两种编码方法的特点。它的编码规则很简单：

基本多语言平面（BMP）中有效码点用固定两字节的 16 位代码单元为其编码，其数值等于相应的码点，桶 USC-2 的编码方式；

辅助多语言平面 1-16 中的有效码点采用代理对（surrogate pair）对其编码：用两个基本平面中未定义字符的码点合起来表示增补平面中的码点编码。

也就是说，UTF-16 的编码长度要么是 2 个字节（U+0000 到 U+FFFF），要么是 4 个字节（U+010000 到 U+10FFFF）。那么问题来了，当我们遇到两个字节时，到底是把这两个字节当作一个字符还是与后面的两个字节一起当作一个字符呢？

这里有一个很巧妙的地方，在基本平面内，从 U+D800 到 U+DFFF(十进制 55296-57343，共 2048 个码点) 是一个空段，即这些码点不对应任何字符。于是，这个空段被用来作为代理区(Surrogate Zone)，用两个基本平面中的代理区（代理对，surrogate pair）代理辅助多语言平面 1-16 中的一个有效码点。

辅助平面的字符位共有 2²⁰ 个，因此表示这些字符至少需要 20 个二进制位。UTF-16 将这 20 个二进制位分成两半，前 10 位映射在 U+D800 到 U+DBFF，称为高代理码点，后 10 位映射在 U+DC00 到 U+DFFF，称为低代理码点。这意味着，一个辅助平面的字符，被拆成两个基本平面的字符表示。

因此，当遇到两个字节，发现它的码点在 U+D800 到 U+DBFF 之间，就可以断定，紧跟在后面的两个字节的码点，应该在 U+DC00 到 U+DFFF 之间，这四个字节必须放在一起解读，表示一个辅助平面的字符。

UTF-16 代理对

UTF-32(UCS-4) 编码方式

UTF-32 是一个以固定四字节编码方式，所有的字符都用四个字节，特别浪费空间，所以实际上使用比较少。

UTF-32 编码

UTF 中的 BOM

UTF-16 和 UTF-32 的最小 Code Unit（代码单元）是双字节即 16 个比特位，即多字节编码方式，因此这两种编码方式都存在字节序标记（BOM）问题。

Big-Endian（ BE ）即大端序：就是高位字节(即大端字节)存放在内存的低地址，低位字节(即小端字节)存放在内存的高地址。UTF-16(BE)以 FEFF 作为开头字节，UTF-32(BE)以 00 00 FE FF 作为开头字节；

Little-Endian (LE) 即小端序：低位字节(即小端字节)存放在内存的低地址，而高位字节(即大端字节)存放在内存的高地址。UTF-16(LE)以 FFFE 作为开头字节，UTF-32(LE)以 FF FE 00 00 作为开头字节。

UTF-8 不需要 BOM 来表明字节顺序：可以用 BOM（EF BB BF 称为零宽无间断间隔）来表明编码方式，如果接收者收到以 EF BB BF 开头的字节流，就知道这是 UTF-8 编码。

Unicode 编码方式中的 BOM
三种编码方式的比较
^Note！该节内容全部来自彻底弄懂 Unicode 编码和 Unicode 及编码方式概述

Java 中的 Unicode 与 char

^Note！啊！终于到这部分了！我本来只想写个 Unicode 和 char 的关系的，结果——说多了都是泪啊！o(╥﹏╥)o

前面已经介绍了字符集、Unicode、编码等概念的一些情况，相信这里不用再过多地赘述了！

Java 在设计之初便选择了 Unicode 字符集，同时选择的编码方案为 UTF-16!
这样的设计在最初是非常优秀的，既满足了可以表示世界上所有语言(几乎)的需求，又有一定的可扩展性！也因此^{(具体详细原因未知，可自行查找，此处不深究)}，Java 的基础类型之一 char 类型被设计为 2 个字节，用于表示一个字符！
在当时，这样的设计可以表示世界上几乎所有的字符！
但是，随着时间的推移，Unicode 字符集不可避免地进行了一次又一次的扩充，很快便超过了 65536(2¹⁶) 个字符。于是，这个时候，一个 char 表示不了所有的字符了！
于是，Java 做出了一些改变，用一个 char 表示 Unicode 的一个代码单元^{(是指一个已编码的文本中具有最短的比特组合的单元;在 UTF-16 中即 16 个比特位)}!
采取这样的方案后，一个字符便既有可能是用 1 个 char 来表示，也有可能是用 2 个 char 来表示！具体一点来说，如果一个字符位于 Unicode 的基本语言平面，那么用 1 个char 就可以表示它；但如果该字符位于辅助语言平面，那么就需要用 2 个 char 才能表示它。

下面用一个简单的例子来看一下：

jshell> "a人".length()
$1 ==> 2

jshell> "a人".codePointCount(0, 2)
$2 ==> 2

jshell> "".length()
$3 ==> 2

jshell> "".codePointCount(0, 1)
$4 ==> 1

jshell> "".codePointAt(0)
$5 ==> 131813

jshell> Integer.toHexString(131813)
$6 ==> "202e5"

^Note！该节关于 Java 语言设计意图及 Unicode 和 UTF 这几个东西的时间线这部分参考了一些文章，也加入了一些笔者的猜测，我实在没在网上找到关于这方面的文章！而且，这个意图，其实并不非常重要，不是吗？没找到也不用纠结，这里不做过多深究！如果有知道的朋友，欢迎留言告知，不胜感激！
^Note！该节也参考了一些文章，感兴趣的朋友可以去看看！

结合Java详谈字符编码和字符集
Unicode -
为什么java中的char是2个字节
深入学习Java中的字符串,代码点和代码单元

^Note！还有几篇文章中提到了关于乱码、Java 应用如何选用编码、Java 关于编码的API 等话题，感兴趣的朋友可以去看下！^{链接同样贴下面}

结合Java详谈字符编码和字符集(最后两节)
Java为什么选择unicode字符集？字符编码的那些事(最后一节)
Unicode 及编码方式概述(后三节)
常用编码字符集(后两节)
关于字符编码，你所需要知道的(后两节)

总结

^Note！还需要总结吗？我实在写不动了

Unicode 字符集仅规定了每个字符的码点(唯一编码ID)
Unicode 字符集有多种编码方案：UTF-8、UTF-16、UTF-32等
Java 使用的字符集为 Unicode 字符集，编码方案为 UTF-16
Java 中的 char 占 2 个字节
Java 中 char 代表 UTF-16 编码方案下 Unicode 编码的一个代码单元(Code Unit)
Java 中一个字符可能占 1 个 char，也可能占 2 个 char
^{Note！引用别人一句话}强烈建议不要在程序中使用 char 类型，如果可以，请使用 String

^Note！这篇文章引用了很多朋友的博客或文章内容，也没有去一一寻找，如果有版权相关的问题，请联系我，我会及时删除相关内容

参考资料

结合Java详谈字符编码和字符集
unicode、utf-8、utf-16的理解和 java的char类型所使用的编码
常用编码字符集
GB2312简体中文编码表
三国志X威力加强版解决新武将姓名和列传乱码问题——大五码（BIG5）
Java为什么选择unicode字符集？字符编码的那些事
漫画：什么是字符集和编码？ASCII、UTF-8、UTF-16、UTF-32 又是什么？
浅谈Unicode和char的关系（Java）
ASCII码一览表，ASCII码对照表
ASCII码对照表
关于字符编码，你所需要知道的
GB2312 字符集
最全面的GBK编码表/GBK字符集
GB18030 编码
gb18030
Unicode 及编码方式概述
彻底弄懂 Unicode 编码
深入学习Java中的字符串,代码点和代码单元
为什么java中的char是2个字节
Unicode -
代码页
ANSI编码与代码页(Code Page)
Character Sets
INFO: Windows, Code Pages, and Character Sets

你可能感兴趣的:(Java,java,unicode,utf)

分享：Javascript开源桌面环境-Puter ac-er8888 javascript 开发语言 ecmascript
Puter这是一个运行在浏览器里的桌面操作系统，提供了笔记本、代码编辑器、终端、画图、相机、录音等应用和一些小游戏。该项目作者出于性能方面的考虑没有选择Vue和React技术栈，而是采用的JavaScript和jQuery构建，支持Docker一键部署和在线使用。简介：Puter是一个先进的开源项目，旨在为用户提供全新的云端体验。它可以在浏览器中运行，无需安装，即可提供丰富的功能和极快的速度。功能
redis过期删除、内存淘汰、双写一致性---java 皮卡兔子屋 #redis redis java mybatis
过期删除Redis的缓存失效不会立即删除，Redis的过期删除策略是选择「惰性删除+定期删除」这两种策略配和使用。惰性删除策略的做法是，不主动删除过期键，每次从数据库访问key时，都检测key是否过期，如果过期则删除该key。定期删除策略的做法是，每隔一段时间「随机」从数据库中取出一定数量的key进行检查，并删除其中的过期key。内存淘汰Redis提供了8种不同的数据淘汰策略，默认是noevict
百度Android最新150道面试题及参考答案（上）大模型大数据攻城狮 android 大厂面经手撕时间复杂度空间复杂度启动模式四大组件
Java的多态如何实现？在Java中，多态主要通过以下两种方式来实现：一、方法重写（Override）实现运行时多态概念基础方法重写发生在子类和父类之间。当子类定义了一个与父类中方法签名（方法名、参数列表、返回类型）完全相同的方法时，就实现了方法重写。例如，有一个父类Animal，其中有一个叫makeSound的方法，然后有一个子类Dog，Dog类重写了makeSound方法来实现狗特有的叫声。代
Java并发实战——线程池一篇详解 1加1等于 Java并发 java 多线程
本文将深入探讨Java线程池的各个方面，从基础概念到高级应用，从而全面掌握线程池的使用，解决频繁地创建和销毁线程带来巨大的系统开销，包括内存消耗、CPU时间浪费等，通过复用线程，避免了线程的频繁创建和销毁，从而提高了系统的性能和稳定性。本文目录一、线程池简介二、线程池优点三、线程池相关概念ThreadPoolExecutor的构造函数任务队列拒绝策略四、线程池的使用五、线程池工厂类固定大小线程池单
Spring Boot 2.0配置接口 WebMvcConfigurer quick458 java spring boot
WebMvcConfigurer配置类其实是Spring内部的一种配置方式，采用JavaBean的形式来代替传统的xml配置文件形式进行针对框架个性化定制。基于java-based方式的springmvc配置，需要创建一个配置类并实现WebMvcConfigurer接口。有时候我们想要自己定义一些Handler，Interceptor，ViewResolver，MessageConverter，这
JavaWeb学习笔记时间会给答案scidag java java-ee servlet 笔记学习数据库
一.刨析JDBC1.概念：JDBC就是java语言操作关系型数据库的一套API2.常用API2.1DriverManager:作用1.注册驱动2.获取数据库连接;都是静态方法，直接类名.方法2.2Connection:作用1.获取sql执行对象2.事务管理《《关于管理事务回滚常用方法setAutoCommit（）commit(),rollback()2.3Statement:作用执行SQL语句《《
《Java开发者必备：jstat、jmap、jstack实战指南》 ——从零掌握JVM监控三剑客 admin_Single java jvm 开发语言
《Java开发者必备：jstat、jmap、jstack实战指南》——从零掌握JVM监控三剑客文章目录**《Java开发者必备：jstat、jmap、jstack实战指南》**@[toc]**摘要****核心工具与场景****关键实践****诊断流程****工具选型决策表****调优原则****未来趋势****第一章：GC基础：垃圾回收机制与监控的关系****1.1内存世界的"垃圾分类"——GC分
10初识Spring MVC框架 TechLens JAVA EE笔记 servlet spring java
学习内容一、回顾1.JSPModel2架构模型采用JSP+Servlet+JavaBean技术实现了页面显示、流程控制和业务逻辑的分离Jsp负责生成动态网页，只用做显示页面；Servlet负责流程控制，用来处理各种请求的分派；JavaBeans负责业务逻辑，对数据库的操作流程控制等通用逻辑以硬编码的方式实现，每次开发新的Web应用程序均需重新编写流程控制、通用逻辑代码2.WebMVC应用框架Spr
Java多线程反方向的空 Java多线程 java 开发语言
Java多线程为什么要在代码中引入多线程?可以使用多个线程来处理任务,提高效率如果阻塞点过多,一个线程会处理不过来;例如TCP服务器在等待建立连接的时候会阻塞,而整个流程不能因为这个而卡死在这里,所以引入另外的线程去处理另外的任务哪些地方是线程安全问题的风险点?线程对共享数据修改的部分,必须考虑是否线程安全!!!并发编程的优缺点为什么要使用并发编程?(优点)充分利用多核CPU的计算能力:通过并发编
图解HTTP的知识框架详解 GISer_Jinger javascript 前端架构
图解HTTP的知识框架详解，我需要结合提供的搜索结果来整理出一个结构化的回答。首先，看看用户提供的搜索结果，有三个文档，分别是关于《图解HTTP》的读书笔记、Java解析HTTP的方法，以及网络基础知识的图解内容。不过用户的问题主要集中在HTTP的知识框架，所以可能主要参考第一个和第三个文档。第一个搜索结果[1]是《图解HTTP》的读书笔记，里面详细介绍了HTTP协议的基本概念、请求方法、状态码、
Spring MVC +Spring 框架学习总结-入门必学知识点柚子味* Java spring spring mvc java spring mvc
Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而，Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而言，绝大部分Java应用都可以从Spring中受益。spring相关视频教程：https://www.bilibili.com/video/BV1nz4y1d7uySpringMVC是Spr
babel 埋点插件小猫儿工具环境配置等 javascript 开发语言 ecmascript
我们通常对babel的理解就是它可以帮助我们去处理兼容性，也就是有些JavaScript的新特性，可能我们想去使用，但对于某些浏览器来说还并未支持，此时我们就可以通过babel将我们的代码降级处理为浏览器兼容的执行版本，以便能够运行在当前和旧版本的浏览器或其他环境中。Babel插件就是作用于抽象语法树。Babel三个主要的处理步骤就是解析（parse），转换（transform），生成（gener
开源前端埋点监控插件Web-Tracing 研创通之逍遥峰开源工具开源前端
Web-Tracing是一款专为前端项目设计的前端监控插件，它基于JavaScript设计，兼容跨平台使用，并提供了全方位的监控功能。开源地址：https://gitee.com/junluoyu/web-tracing-analysis以下是关于Web-Tracing的详细介绍：一、主要功能Web-Tracing涵盖了多个领域的监控手段，包括但不限于：埋点：通过事件监听，实现对用户交互行为的精准
Java基础9（throws和throw、异常细节）孤影恋长风 java 开发语言
throws和throw可能出现错误的代码写在try中e接受可能出现的异常，为了通用性一般不要写精确的异常，写最大的Exceptionthor抛出一个具体的异常，throw跟在函数之后，标志有异常抛出publicvoidtext（）{如果这个函数将有异常处理，有两种策略，1.立即用try处理2.不处理，抛给调用此函数对象异常处理的原则，谁调用谁处理以后调用别人的函数，除了关注函数的参数，返回值，还
Java设计模式之解释器模式飞翔中文网 java 设计模式
概念解释器模式是一种行为型设计模式，用于定义一种语言的语法规则，并提供解释器来解释该语言中的表达式。作用其核心作用是将复杂的语法分解为简单的语法单元，通过递归组合的方式构建抽象语法树（AST），最终由解释器逐层解释执行。场景1.需要解释特定领域的语言：如数学公式、正则表达式、SQL查询等。2.语法相对简单且稳定：若语法频繁变化或过于复杂，建议使用解析器生成工具（如ANTLR）。3.需要灵活扩展语法
深入理解 Java 内存模型（JMM）：原理、可见性与并发控制全栈探索者chen java java 开发语言缓存程序人生数据库 JMM 内存
深入理解Java内存模型（JMM）：原理、可见性与并发控制1.引言在多线程编程中，内存可见性、指令重排序和线程同步是开发者必须理解的核心概念。Java内存模型（JMM，JavaMemoryModel）定义了一组规则，确保Java程序在并发环境下的线程安全性和一致性。本文将深入剖析JMM的原理，并通过代码示例展示如何正确控制并发。2.什么是Java内存模型（JMM）？Java内存模型（JMM）是Ja
Java 并发编程实战：深入理解线程池的核心原理与最佳实践全栈探索者chen java java 服务器开发语言性能优化缓存 node.js 数据库
Java并发编程实战：深入理解线程池的核心原理与最佳实践1.为什么需要线程池？在Java并发编程中，直接创建和管理线程的成本较高，频繁创建线程会带来性能开销和资源浪费。线程池（ThreadPool）的作用：降低线程创建和销毁的开销，提高系统响应速度。提高系统吞吐量，充分利用CPU资源。避免资源耗尽，限制最大线程数，防止OOM（内存溢出）。支持任务排队，确保任务按照一定规则执行。2.线程池的核心组成
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
Java 24 正式发布：AI 开发与后量子安全引领企业级编程革命程序猿小白菜后端java生态圈 java 人工智能安全
摘要2025年3月18日，Oracle正式发布Java24（OracleJDK24），这是Java诞生30周年之际的重要版本更新。新版本聚焦AI开发支持、后量子安全加密、性能优化和开发效率提升，提供20余项新特性及数千项改进，为企业级应用开发注入全新动力。一、语言特性：代码简洁性与模式匹配增强Java24在语法层面进一步简化代码逻辑，提升开发效率：JEP488：原始类型模式匹配（第二次预览）支持在
什么是Spring Boot？它在Java后端开发中的作用是什么？破碎的天堂鸟学习教程 java spring boot 数据库
什么是SpringBoot？SpringBoot是由Pivotal团队开发的一个基于Spring框架的快速开发框架，旨在简化Spring应用的初始搭建和开发流程。其核心理念是“约定优于配置”（ConventionoverConfiguration），通过默认配置和自动化机制，使开发者能够快速构建独立的、生产级别的应用程序。以下是其核心定义与特点：基于Spring的扩展与优化SpringBoot并非
庖丁解java(一篇文章学java) 庖丁解java java 开发语言 spring boot 后端
(大家不用收藏这篇文章,因为这篇文章会经常更新,也就是删除后重发)一篇文章学java,这是我滴一个执念...当然,真一篇文章就写完java基础,java架构,java业务实现,java业务扩展,根本不可能.所以,这篇文章,就是一个索引,索什么呢?请看下文...关于决定开始写博文的介绍(一切故事的起点源于这一次反省)中小技术公司的软扩展(微服务扩展是否有必要?)-CSDN博客SpringCloud(
ts之变量声明以及语法细节，ts小白初学ing 菥菥爱嘻嘻小白学习ts typescript 前端
TypeScript用js编写的项目虽然开发很快，但是维护是成本很高，而且js不报错啊啊啊啊啊！！！以js为基础进行扩展的给变量赋予了类型语法、实战(ts+vue3)TypeScript是JavaScript的一个超集，支持ECMAScript6标准（ES6教程）。TypeScript由微软开发的自由和开源的编程语言，在JavaScript的基础上增加了静态类型检查的超集。TypeScript设计
Node.js 如何发布一个 NPM 包——详细教程还是鼠鼠 node.js npm 前端 node.js vscode
在本文中，我将带大家一步步学习如何创建并发布一个NPM包，帮助开发者理解整个流程，并能顺利将自己的JavaScript库发布到NPM上供他人使用。1.安装Node.js和npm在开始之前，请确保你的电脑上已经安装了Node.js和npm（Node.js自带npm）。你可以在终端（Windows用户请使用cmd或PowerShell）输入以下命令检查是否已安装：node-vnpm-v如果出现版本号，
QtQML Series - Qt中文乱码解决方案稳定的菜着 #&QT开发数据库 qt
目录系列文章目录前言1.main函数入口设置中文编码2.VisualStudio插件3.如果使用预编译头4.开启UTF-8支持4.1.pro文件4.2MSVC4.3GCC&Clang5.总结系列文章目录系列文章ReadMe前言中文乱码是Qt开发中的常态问题1.main函数入口设置中文编码intmain(){#includeQApplicationa(argc,argv);//设置中文字体a.set
程序员晋升架构师实战指南甘苦人生职业规划职场和发展
以下是为程序员量身定制的晋升架构师实战指南，结合行业案例与可落地路径，助你完成技术跃迁：一、晋升路径拆解（从Code到Architecture）程序员→高级工程师核心任务：独立完成模块开发（需求分析+方案设计+编码实现）技术重点：掌握1-2门核心语言（如Java/Go）、熟悉主流框架（SpringCloud/Dubbo）案例：主导用户中心模块开发，通过缓存优化将接口响应时间从800ms降至150m
Linux 启动Jar脚本&&设置开机自启【超级详细】黑taoA linux jar python
Linux启动Jar脚本&&设置开机自启【超级详细】概要服务器开机自启服务重启脚本概要最近在Linux服务器中部署了一个项目（单机版），每次更新服务的时候需要用到好几个命令，停止服务，再重启，并且服务器突然重启后，还需要人工重启服务，非常繁琐，下面展示了两个脚本的写法。。服务器开机自启检查系统是否安装jdk；java-version查看jdk安装位置whereisjava编写脚本restart_y
包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
PV操作(Java代码)进程同步实战指南 Cloud_. java 开发语言操作系统并发
引言在Java并发编程中，资源同步如同精密仪器的齿轮咬合，任何偏差都可能导致系统崩溃。本文将以Java视角解析经典PV操作原理，通过真实可运行的代码示例，带你掌握线程同步的底层实现逻辑。一、Java信号量实现机制1.1Semaphore类解析importjava.util.concurrent.Semaphore;//创建包含5个许可的信号量（相当于计数信号量）Semaphoresemaphore
开发语言漫谈-groovy 大道不孤,众行致远技术杂谈开发语言
groovy是一门脚本语言，在前期的脚本语言中简单介绍了下。现在再深入介绍下，因为它是本平台上选用的脚本语言。所谓脚本语言就是不用编译，直接执行。这种特色非常适合做嵌入编程，即编即用。我们知道平台后台的业务开发语言是Java，开发人员都熟悉Java。那么使用groovy就是自然而然的事情，因为groovy最大特点就是和Java兼容。然后做了最有意义的改造：1、可以解释执行；2、增加动态类型。发明人
java:实现设置窗体背景颜色为淡蓝色（附带源码） Katie。 Java 实战项目 java 信息可视化开发语言
一、项目简介在桌面应用开发中，窗体背景颜色作为界面设计的重要组成部分，不仅影响整体美观，还能传递特定的情感和品牌信息。本项目旨在使用JavaSwing简单实现将窗体背景颜色设置为淡蓝色效果。该示例展示了如何创建一个基本的JFrame，并通过调用其内容面板的setBackground()方法，设置背景颜色为淡蓝色（RGB值173,216,230）。通过本项目，初学者可以了解Swing基本组件的使用方
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

Java 中 Unicode 和 char 的关系

目录

Unicode 字符集的出现

字符集

ASCII 字符集 查看

OEM 字符集的衍生

多字节字符集(MBCS，Multi-Byte Chactacter Set)和中文字符集

GB2312查看

GBK查看

GB18030

GB 系字符集的共同点

Unicode 字符集查找

Unicode 字符集详情与 UTF 编码

Unicode 字符集介绍

一些相关术语

Unicode 字符集的几种常见编码方式

UTF-8 编码方式

UTF-16 编码方式

UTF-32(UCS-4) 编码方式

UTF 中的 BOM

Java 中的 Unicode 与 char

总结

参考资料

你可能感兴趣的:(Java,java,unicode,utf)

ASCII 字符集 ^查看

GB2312^查看

GBK^查看

Unicode 字符集^查找