铁文

关于Java中的字符串

在Java字符串处理时，在使用length和charAt方法时，应该格外小心，因为length返回的是UTF-16编码表示下的代码单元数量，而非我们所认为的字符的个数，charAt方法返回的是指定位置处的代码单元，而非我们所认为的字符。

至于为什么都是“代码单元”而非字符，这和Unicode字符集的增补相关，具体的参看下面的附录。

要想获得字符串中的字符的个数，应当使用aString.codePointCount(0, aString.length())；要想获得指定位置处的字符，使用aString.codePointAt(i);需要注意codePointAt的返回值，是int而非char。

枚举字符串的正确方法：

for (int i = 0; i < aString.length();) {
int character = aString.codePointAt(i);
if (Character.isSupplementaryCodePoint(character)) i += 2;
else ++i;
}

将codePoint转换为char[]可调用Character.toChars方法，然后可进一步转换为字符串：

String s(Character.toChars(codePoint));

附录A：

《Java核心技术》中关于字符和字符串的讲解：

3.3.3 char类型

char类型用于表示单个字符。通常用来表示字符常量。例如：'A'是编码为65所对应的字符常量。与"A"不同，"A"是一个包含字符A的字符串。Unicode编码单元可以表示为十六进制值，其范围从\u0000到\uffff。例如：。\u2122表示注册符号，\u03C0表示希腊字母π。

除了可以采用转义序列符\u表示Unicode代码单元的编码之外，还有一些用于表示特殊字符的转义序列符，请参看表3-3。所有这些转义序列符都可以出现在字符常量或字符串的引号内。例如，'\u2122'或"Hello\n"。转义序列符\u还可以出现在字符常量或字符串的引号之外（而其他所有转义序列不可以）。例如：

public static void main(String\u005B\u005D args)

这种形式完全符合语法规则，\u005B和\u005D是[和]的编码（修正：原文为(和)）。

表3-3 特殊字符的转义序列符

转义序列	名称	Unicode值
\b	退格	\u0008
\t	制表	\u0009
\n	换行	\u000a
\r	回车	\u000d
\"	双引号	\u0022
\'	单引号	\u0027
\\	反斜杠	\u005c

要想弄清char类型，就必须了解Unicode编码表。Unicode打破了传统字符编码方法的限制。在Unicode出现之前，已经有许多种不同的标准：美国的ASCII、西欧语言中的ISO 8859-1、俄国的KOI-8、中国的GB118030和BIG-5等等，这样就产生了下面两个问题：一个是对于任意给定的代码值，在不同的编码方案下有可能对应不同的字母；二是采用大字符集的语言其编码长度有可能不同。例如，有些常用的字符采用单字节编码，而另一些字符则需要两个或更多个字节。

设计Unicode编码的目的就是要解决这些问题。在20世纪80年代开始启动设计工作时，人们认为两个字节的代码宽度足以能够对世界上各种语言的所有字符进行编码，并有足够的空间留给未来的扩展。在1991年发布了Unicode 1.0，当时仅占用65 536个代码值中不到一半的部分。在设计Java时决定采用16位的Unicode字符集，这样会比使用8位字符集的程序设计语言有很大的改进。

十分遗憾，经过一段时间，不可避免的事情发生了。Unicode字符超过了65 536个，其主要原因是增加了大量的汉语、日语和韩国语言中的表意文字。现在，16位的char类型已经不能满足描述所有Unicode字符的需要了。

下面利用一些专用术语解释一下Java语言解决这个问题的基本方法。从JDK 5.0开始，代码点（code point）是指与一个编码表中的某个字符对应的代码值。在Unicode标准中，代码点采用十六进制书写，并加上前缀U+，例如U+0041就是字母A的代码点。Unicode代码点可以分成17个代码级别（code plane）。第一个代码级别称为基本的多语言组别（basic multilingual plane），代码点从U+0000到U+FFFF，其中包栝了经典的Unicode代码。其余的16个附加级别，代码点从U+10000到U+10FFFF，其中包栝了一些辅助字符（supplementarycharacter）。

UTF-16编码采用不同长度的编码表示所有Unicode代码点。在基本的多语言级别中，每个字符用16位表示，通常被称为代码单元（code unit）；而辅助字符采用对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内，通常被称为替代区域（surrogate area）[U+D800～U+DBFF用于第一个代码单元，U+DC00〜U+DFFF用于第二个代码单元]。这样设计十分巧妙，我们可以从中迅速地知道一个代码单元是一个字符的编码，还是一个辅助字符的第一或第二部分。例如，对于整数集合的数学符号，它的代码点是U+1D568，并且是用两个代码单元U+D835和U+DD68编码的（存关编码算法的描述请参看http://en.wikipe-dia.org/wiki/UTF-16）。

在Java中，char类型用UTF-16编码描述一个代码单元。

我们强烈建议不要在程序中使用char类型，除非确实需要对UTF-16代码单元进行操作。最好将需要处理的字符串用抽象数据类型表示（有关这方面的内容将在稍后讨论）。

3.6.5 代码点与代码单元

Java字符串由char序列组成。从前面已经看到，字符数据类型是一个采用UTF-16编码表示Unicode代码点的代码单元。大多数的常用Unicode字符使用一个代码单元就可以表示，而辅助字符需要一对代码单元表示。

length方法将返回采用UTF-16编码表示的给定字符串所需要的代码单元数量。例如：

Stringgreeting = "Hello";

int n = greeting.length();// is 5

要想得到实际的长度，即代码点数量，可以调用：

int cpCount =greeting.codePointCount(0, greeting.length());

调用s.charAt(n)将返回位置n的代码单元，n介于0~s.length()-1之间。例如：

char first =greeting.charAt(0); // first is 'H'

char last =greeting.charAt(4); // last is 'o'

要想得到第i个代码点，应该使用下列语句

int index =greeting.offsetByCodePoints(0, i);

int cp =greeting.codePointAt(index);

注释：Java以独特的风格对字符串中的代码单元计数：字符串中的第一个代码单元位置为0。这种习愤起源于C，这样处理主要出于技术上的原因。具体理由似乎已经淡忘，而麻烦却保留了下来。但是，许多程序员习惯于这种风格，因而Java设计者也就将其保留了下来。

为什么会对代码单元如此大惊小怪？请考虑下列语句：

Ƶis the set of integers

使用UTF-16编码表示Ƶ需要两个代码单元。调用char ch =sentence.charAt(1);返回的不是空格，而是第二个代码单元Z。为了避免这种情况的发生，请不要使用char类型。这太低级了。

如果想要遍历一个字符串，并且依次査看每一个代码点，可以使用下列语句：

int cp =sentence.codePointAt(i);

if (Character.isSupplementaryCodePoint(cp))i += 2;

else i++;

非常幸运，codePointAt方法能够辨别一个代码单元是辅助字符的第一部分还是第二部分，并能够返回正确的结果。也就是说，可以使用下列语句实现回退操作：

i--;

int cp =sentence.codePointAt(i);

if (Character.isSupplementaryCodePoint(cp))i--;

附录B：Java中的代码点和代码单元（转自网络）

摘要

本文介绍Java平台支持增补字符的方式。增补字符是Unicode标准中代码点超出U+FFFF的字符，因此它们无法在Java编程语言中描述为单个的16位实体（例如char数据类型）。这些字符一般极少用，但是，有些会在诸如中文或日文人名中用到，因此，在东亚国家，政府应用程序通常会要求支持这些字符。

Java平台目前正在改进，以便支持对增补字符的处理，这种改进对现有的应用程序影响微乎其微。新的低层API在需要时能够使用单个的字符运行。不过，大多数文本处理API均使用字符序列，例如String类或字符数组。现在，这些均解释为UTF-16序列，而且，这些API实现已转变为正确地处理增补字符。这些改进已融入Java2平台5.0版，标准版（J2SE）。

除详细解释这些改进之外，本文同时为应用程序开发人员确定和实现必要的更改提供指导，以支持整个Unicode字符集的使用。

背景

Unicode最初设计是作为一种固定宽度的16位字符编码。在Java编程语言中，基本数据类型char初衷是通过提供一种简单的、能够包含任何字符的数据类型来充分利用这种设计的优点。不过，现在看来，16位编码的所有65 536个字符并不能完全表示全世界所有正在使用或曾经使用的字符。于是，Unicode标准已扩展到包含多达1 112 064个字符。那些超出原来的16位限制的字符被称作增补字符。Unicode标准2.0版是第一个包含启用增补字符设计的版本，但是，直到3.1版才收入第一批增补字符集。由于J2SE的5.0版必须支持Unicode标准4.0版，因此它必须支持增补字符。

对增补字符的支持也可能会成为东亚市场的一个普遍商业要求。政府应用程序会需要这些增补字符，以正确表示一些包含罕见中文字符的姓名。出版应用程序可能会需要这些增补字符，以表示所有的古代字符和变体字符。中国政府要求支持GB18030（一种对整个Unicode字符集进行编码的字符编码标准），因此，如果是Unicode 3.1版或更新版本，则将包括增补字符。台湾标准CNS-11643包含的许多字符在Unicode 3.1中列为增补字符。香港政府定义了一种针对粤语的字符集，其中的一些字符是Unicode中的增补字符。最后，日本的一些供应商正计划利用增补字符空间中大量的专用空间收入50 000多个日文汉字字符变体，以便从其专有系统迁移至基于Java平台的解决方案。

因此，Java平台不仅需要支持增补字符，而且必须使应用程序能够方便地做到这一点。由于增补字符打破了Java编程语言的基础设计构想，而且可能要求对编程模型进行根本性的修改，因此，Java Community Process召集了一个专家组，以期找到一个适当的解决方案。该小组被称为JSR-204专家组，使用Unicode增补字符支持的Java技术规范请求的编号。从技术上来说，该专家组的决定仅适用于J2SE平台，但是由于Java2平台企业版（J2EE）处于J2SE平台的最上层，因此它可以直接受益，我们期望Java2平台袖珍版（J2ME）的配置也采用相同的设计方法。

不过，在了解JSR-204专家组确定的解决方案之前，我们需要先理解一些术语。

代码点、字符编码方案、UTF-16：这些是指什么？

不幸的是，引入增补字符使字符模型变得更加复杂了。在过去，我们可以简单地说“字符”，在一个基于Unicode的环境（例如Java平台）中，假定字符有16位，而现在我们需要更多的术语。我们会尽量介绍得相对简单一些—如需了解所有详细的讨论信息，您可以阅读Unicode标准第2章或Unicode技术报告17“字符编码模型”。Unicode专业人士可略过所有介绍直接参阅本部分中的最后定义。

字符是抽象的最小文本单位。它没有固定的形状（可能是一个字形），而且没有值。“A”是一个字符，“€”（德国、法国和许多其他欧洲国家通用货币的标志）也是一个字符。

字符集是字符的集合。例如，汉字字符是中国人最先发明的字符，在中文、日文、韩文和越南文的书写中使用。

编码字符集是一个字符集，它为每一个字符分配一个唯一数字。Unicode标准的核心是一个编码字符集，字母“A”的编码为0041和字符“€”的编码为20AC。Unicode标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，所以“A”的编码书写为“U+0041”。

代码点是指可用于编码字符集的数字。编码字符集定义一个有效的代码点范围，但是并不一定将字符分配给所有这些代码点。有效的Unicode代码点范围是U+0000至U+10FFFF。Unicode 4.0将字符分配给一百多万个代码点中的96 382代码点。

增补字符是代码点在U+10000至U+10FFFF范围之间的字符，也就是那些使用原始的Unicode的16位设计无法表示的字符。从U+0000至U+FFFF之间的字符集有时候被称为基本多语言面（BMP）。因此，每一个Unicode字符要么属于BMP，要么属于增补字符。

字符编码方案是从一个或多个编码字符集到一个或多个固定宽度代码单元序列的映射。最常用的代码单元是字节，但是16位或32位整数也可用于内部处理。UTF-32、UTF-16和UTF-8是Unicode标准的编码字符集的字符编码方案。

UTF-32即将每一个Unicode代码点表示为相同值的32位整数。很明显，它是内部处理最方便的表达方式，但是，如果作为一般字符串表达方式，则要消耗更多的内存。

UTF-16使用一个或两个未分配的16位代码单元的序列对Unicode代码点进行编码。值U+0000至U+FFFF编码为一个相同值的16位单元。增补字符编码为两个代码单元，第一个单元来自于高代理范围（U+D800至U+DBFF），第二个单元来自于低代理范围（U+DC00至U+DFFF）。这在概念上可能看起来类似于多字节编码，但是其中有一个重要区别：值U+D800至U+DFFF保留用于UTF-16；没有这些值分配字符作为代码点。这意味着，对于一个字符串中的每个单独的代码单元，软件可以识别是否该代码单元表示某个单单元字符，或者是否该代码单元是某个双单元字符的第一个或第二单元。这相当于某些传统的多字节字符编码来说是一个显著的改进，在传统的多字节字符编码中，字节值0x41既可能表示字母“A”，也可能是一个双字节字符的第二个字节。

UTF-8使用一至四个字节的序列对编码Unicode代码点进行编码。U+0000至U+007F使用一个字节编码，U+0080至U+07FF使用两个字节，U+0800至U+FFFF使用三个字节，而U+10000至U+10FFFF使用四个字节。UTF-8设计原理为：字节值0x00至0x7F始终表示代码点U+0000至U+007F（Basic Latin字符子集，它对应ASCII字符集）。这些字节值永远不会表示其他代码点，这一特性使UTF-8可以很方便地在软件中将特殊的含义赋予某些ASCII字符。

下表所示为几个字符不同表达方式的比较：

Unicode代码点	U+0041	U+00DF	U+6771	U+10400
表示字形
UTF-32代码单元	00000041	000000DF	00006771	00010400
UTF-16代码单元	0041	00DF	6771	D801 DC00
UTF-8代码单元	41	C3 9F	E6 9D B1	F0 90 90 80

另外，本文在许多地方使用术语字符序列或char序列概括Java2平台识别的所有字符序列的容器：char[]，java.lang.CharSequence的实现（例如String类），和java.text.CharacterIterator的实现。

这么多术语。它们与在Java平台中支持增补字符有什么关系呢？

Java平台中增补字符的设计方法

JSR-204专家组必须作出的主要决定是如何在Java API中表示增补字符，包括单个字符和所有形式的字符序列。专家组考虑并排除了多种方法：

重新定义基本类型char，使其具有32位，这样也会使所有形式的char序列成为UTF-32序列。

在现有的16位类型char的基础上，为字符引入一种新的32位基本类型（例如，char32）。所有形式的Char序列均基于UTF-16。

在现有的16位类型char的基础上，为字符引入一种新的32位基本类型（例如，char32）。String和StringBuffer接受并行API，并将它们解释为UTF-16序列或UTF-32序列；其他char序列继续基于UTF-16。

使用int表示增补的代码点。String和StringBuffer接受并行API，并将它们解释为UTF-16序列或UTF-32序列；其他char序列继续基于UTF-16。

使用代理char对，表示增补代码点。所有形式的char序列基于UTF-16。

引入一种封装字符的类。String和StringBuffer接受新的API，并将它们解释为此类字符的序列。

使用一个CharSequence实例和一个索引的组合表示代码点。

在这些方法中，一些在早期就被排除了。例如，重新定义基本类型char，使其具有32位，这对于全新的平台可能会非常有吸引力，但是，对于J2SE来说，它会与现有的Java虚拟机、序列化和其他接口不兼容，更不用说基于UTF-32的字符串要使用两倍于基于UTF-16的字符串的内存了。添加一种新类型的char32可能会简单一些，但是仍然会出现虚拟机和序列化方面的问题。而且，语言更改通常需要比API更改有更长的提前期，因此，前面两种方法会对增补字符支持带来无法接受的延迟。为了在余下的方法中筛选出最优方案，实现小组使用四种不同的方法，在大量进行低层字符处理的代码（java.util.regex包）中实现了对增补字符支持，并对这四种方法的难易程度和运行表现进行了比较。

最终，专家组确定了一种分层的方法：

使用基本类型int在低层API中表示代码点，例如Character类的静态方法。

将所有形式的char序列均解释为UTF-16序列，并促进其在更高层级API中的使用。

提供API，以方便在各种char和基于代码点的表示法之间的转换。

在需要时，此方法既能够提供一种概念简明且高效的单个字符表示法，又能够充分利用通过改进可支持增补字符的现有API。同时，还能够促进字符序列在单个字符上的应用，这一点一般对于国际化的软件很有好处。

在这种方法中，一个char表示一个UTF-16代码单元，这样对于表示代码点有时并不够用。您会注意到，J2SE技术规范现在使用术语代码点和UTF-16代码单元（表示法是相关的）以及通用术语字符（表示法与该讨论没有关系）。API通常使用名称codePoint描述表示代码点的类型int的变量，而UTF-16代码单元的类型当然为char。我们将在下面两部分中了解到J2SE平台的实质变化——其中一部分介绍单个代码点的低层API，另一部分介绍采用字符序列的高层接口。

开放的增补字符：基于代码点的API

新增的低层API分为两大类：用于各种char和基于代码点的表示法之间转换的方法和用于分析和映射代码点的方法。

最基本的转换方法是Character.toCodePoint(charhigh， charlow)（用于将两个UTF-16代码单元转换为一个代码点）和Character.toChars(intcodePoint)（用于将指定的代码点转换为一个或两个UTF-16代码单元，然后封装到一个char[]内。不过，由于大多数情况下文本以字符序列的形式出现，因此，另外提供codePointAt和codePointBefore方法，用于将代码点从各种字符序列表示法中提取出来：Character.codePointAt(char[] a, int index)和String.codePointBefore(int index)是两种典型的例子。在将代码点插入字符序列时，大多数情况下均有一些针对StringBuffer和StringBuilder类的appendCodePoint(int codePoint)方法，以及一个用于提取表示代码点的int[]的String构建器。

几种用于分析代码单元和代码点的方法有助于转换过程：Character类中的isHighSurrogate和isLowSurrogate方法可以识别用于表示增补字符的char值；charCount(int codePoint)方法可以确定是否需要将某个代码点转换为一个或两个char。但是，大多数基于代码点的方法均能够对所有Unicode字符实现基于char的旧方法对BMP字符所实现的功能。以下是一些典型例子：

Character.isLetter(intcodePoint)可根据Unicode标准识别字母。

Character.isJavaIdentifierStart(intcodePoint)可根据Java语言规范确定代码点是否可以启动标识符。

Character.UnicodeBlock.of(intcodePoint)可搜索代码点所属的Unicode字符子集。

Character.toUpperCase(intcodePoint)可将给定的代码点转换为其大写等值字符。尽管此方法能够支持增补字符，但是它仍然不能解决根本的问题，即在某些情况下，逐个字符的转换无法正确完成。例如，德文字符“"？"”应该转换为“SS”，这需要使用String.toUpperCase方法。

注意大多数接受代码点的方法并不检查给定的int值是否处于有效的Unicode代码点范围之内（如上所述，只有0x0至0x10FFFF之间的范围是有效的）。在大多数情况下，该值是以确保其有效的方法产生的，在这些低层API中反复检查其有效性可能会对系统性能造成负面的影响。在无法确保有效性的情况下，应用程序必须使用Character.isValidCodePoint方法确保代码点有效。大多数方法对于无效的代码点采取的行为没有特别加以指定，不同的实现可能会有所不同。

API包含许多简便的方法，这些方法可使用其他低层的API实现，但是专家组觉得，这些方法很常用，将它们添加到J2SE平台上很有意义。不过，专家组也排除了一些建议的简便方法，这给我们提供了一次展示自己实现此类方法能力的机会。例如，专家组经过讨论，排除了一种针对String类的新构建器（该构建器可以创建一个保持单个代码点的String）。以下是使应用程序使用现有的API提供功能的一种简便方法：

/**

* 创建仅含有指定代码点的新String.

StringnewString(intcodePoint) {

return new String(Character.toChars(codePoint));

}

您会注意到，在这个简单的实现中，toChars方法始终创建一个中间数列，该数列仅使用一次即立即丢弃。如果该方法在您的性能评估中出现，您可能会希望将其优化为针对最为普通的情况，即该代码点为BMP字符：

/**

* 创建仅含有指定代码点的新String. 针对BMP字符优化的版本。

StringnewString(intcodePoint) {

if (Character.charCount(codePoint)== 1) {

return String.valueOf((char) codePoint);

}else{

return new String(Character.toChars(codePoint));

}

或者，如果您需要创建许多个这样的string，则可能希望编写一个重复使用toChars方法所使用的数列的通用版本：

/**

* 创建每一个均含有一个指定代码点的新String. 针对BMP字符优化的版本。

String[]newStrings(int[]codePoints) {

String[]result = newString[codePoints.length];

char[] codeUnits = new char[2];

for (int i = 0; i length;i++) {

int count = Character.toChars(codePoints[i],codeUnits, 0);

result[i]= newString(codeUnits, 0, count);

}

return result;

}

不过，最终您可能会发现，您需要的是一个完全不同的解决方案。新的构建器String(int codePoint)实际上建议作为String.valueOf(char)的一个基于代码点的备选方案。在很多情况下，此方法用于消息生成的环境，例如：

System.out.println("Character"+String.valueOf(char)+"isinvalid.");

新的格式化API支持增补文字，提供一种更加简单的备选方案：

System.out.printf("Character%cis invalid.%n"，codePoint);

使用此高层API不仅简捷，而它有很多特殊的优点：它可以避免串联（串联会使消息很难本地化），并将需要移进资源包（resource bundle）的字符串数量从两个减少到一个。

增补字符透视：功能增强

在支持使用增补字符的Java2平台中的大部分更改没有反映到新的API内。一般预期是，处理字符序列的所有接口将以适合其功能的方式处理增补字符。本部分着重讲述为达到此预期所作一些功能增强。

Java编程语言中的标识符

Java语言规范指出所有Unicode字母和数字均可用于标识符。许多增补字符是字母或数字，因此Java语言规范已经参照新的基于代码点的方法进行更新，以在标识符内定义合法字符。为使用这些新方法，需要检测标识符的javac编译器和其他工具都进行了修订。

库内的增补字符支持

许多J2SE库已经过增强，可以通过现有接口支持增补字符。以下是一些例子：

字符串大小写转换功能已更新，可以处理增补字符，也可以实现Unicode标准中规定的特殊大小写规则。

java.util.regex包已更新，这样模式字符串和目标字符串均可以包含增补字符并将其作为完整单元处理。

现在，在java.text包内进行整理处理时，会将增补字符看作完整单元。

java.text.Bidi类已更新，可以处理增补字符和Unicode4.0中新增的其他字符。请注意，CypriotSyllabary字符子集内的增补字符具有从右至左的方向性。

Java 2D API内的字体渲染和打印技术已经过增强，可以正确渲染和测量包含增补字符的字符串。

Swing文本组件实现已更新，可以处理包含增补字符的文本。

字符转换

只有很少的字符编码可以表示增补字符。如果是基于Unicode的编码（如UTF-8和UTF-16LE），则旧版的J2RE内的字符转换器已经按照正确处理增补字符的方式实现转换。对于J2RE5.0，可以表示增补字符的其他编码的转换器已更新：GB18030、x-EUC-TW（现在实现所有CNS11643层面）和Big5-HKSCS（现在实现HKSCS-2001）。

在源文件内表示增补字符

在Java编程语言源文件中，如果使用可以直接表示增补字符的字符编码，则使用增补字符最为方便。UTF-8是最佳的选择。在所使用的字符编码无法直接表示字符的情况下，Java编程语言提供一种Unicode转义符语法。此语法没有经过增强，无法直接表示增补字符。而是使用两个连续的Unicode转义符将其表示为UTF-16字符表示法中的两个编码单元。例如，字符U+20000写作“/uD840/uDC00”。您也许不愿意探究这些转义序列的含义；最好是写入支持所需增补字符的编码，然后使用一种工具（如native2ascii）将其转换为转义序列。

遗憾的是，由于其编码问题，属性文件仍局限于ISO8859-1（除非您的应用程序使用新的XML格式）。这意味着您始终必须对增补字符使用转义序列，而且可能要使用不同的编码进行编写，然后使用诸如native2ascii的工具进行转换。

经修订的UTF-8

Java平台对经修订的UTF-8已经很熟悉，但是，问题是应用程序开发人员在可能包含增补字符的文本和UTF-8之间进行转换时需要更加留神。需要特别注意的是，某些J2SE接口使用的编码与UTF-8相似但与其并不兼容。以前，此编码有时被称为“Java modified UTF-8”（经Java修订的UTF-8）或（错误地）直接称为“UTF-8”。对于J2SE5.0，其说明文档正在更新，此编码将统称为“modifiedUTF-8”（经修订的UTF-8）。

经修订的UTF-8和标准UTF-8之间之所以不兼容，其原因有两点。其一，经修订的UTF-8将字符U+0000表示为双字节序列0xC00x80，而标准UTF-8使用单字节值0x0.其二，经修订的UTF-8通过对其UTF-16表示法的两个代理代码单元单独进行编码表示增补字符。每个代理代码单元由三个字节来表示，共有六个字节。而标准UTF-8使用单个四字节序列表示整个字符。

Java虚拟机及其附带的接口（如Java本机接口、多种工具接口或Java类文件）在java.io.DataInput和DataOutput接口和类中使用经修订的UTF-8实现或使用这些接口和类，并进行序列化。Java本机接口提供与经修订的UTF-8之间进行转换的例程。而标准UTF-8由String类、java.io.InputStreamReader和OutputStreamWriter类、java.nio.charset设施（facility）以及许多其上层的API提供支持。

由于经修订的UTF-8与标准的UTF-8不兼容，因此切勿同时使用这两种版本的编码。经修订的UTF-8只能与上述的Java接口配合使用。在任何其他情况下，尤其对于可能来自非基于Java平台的软件的或可能通过其编译的数据流，必须使用标准的UTF-8.需要使用标准的UTF-8时，则不能使用Java本机接口例程与经修订的UTF-8进行转换。

在应用程序内支持增补字符

现在，对大多数读者来说最为重要的问题是：必须对应用程序进行哪些更改才能支持增补字符？

答案取决于在应用程序中进行哪种类型的文本处理和使用哪些Java平台API。对于仅以各种形式char序列（[char[]、java.lang.CharSequence实现、java.text.CharacterIterator实现）处理文本和仅使用接受和退回序列（如char序列）的Java API的应用程序，可能根本不需要进行任何更改。Java平台API的实现应该能够处理增补字符。

对于本身解释单个字符、将单个字符传送给Java平台API或调用能够返回单个字符的方法的应用程序，则需要考虑这些字符的有效值。在很多情况下，往往不要求支持增补字符。例如，如果某应用程序搜索char序列中的HTML标记，并逐一检查每个char，它会知道这些标记仅使用BasicLatin字符子集中的字符。如果所搜索的文本含有增补字符，则这些字符不会与标记字符混淆，因为UTF-16使用代码单元表示增补字符，而代码单元的值不会用于BMP字符。

只有在某应用程序本身解释单个字符、将单个字符传送给Java平台API或调用能够返回单个字符的方法且这些字符可能为增补字符时，才必须更改该应用程序。在提供使用char序列的并行API时，最好转而使用此类API。在其他情况下，有必要使用新的API在char和基于代码点的表示法之间进行转换，并调用基于代码点的API。当然，如果您发现在J2SE 5.0中有更新、更方便的API，使您能够支持增补字符并同时简化代码（如上格式化范例中所述），则没有必要这样做。

您可能会犹豫，是将所有文本转换为代码点表示法（即int[]）然后在该表示法中处理，还是在大多数情况下仍采用char序列，仅在需要时转换为代码点，两者之间孰优孰劣很难确定。当然，总体来说，Java平台API相对于char序列肯定具有一定的优势，而且采用Java平台API可以节省内存空间。

对于需要与UTF-8之间进行转换的应用程序，还需要认真考虑是需要标准的UTF-8还是经修订的UTF-8，并针对每种UTF-8采用适当的Java平台。“经修订的UTF-8”部分介绍进行正确选择所需的信息。

使用增补字符测试应用程序

经过前面部分的介绍后，无论您是否需要修订应用程序，测试应用程序是否运行正常始终是一种正确的做法。对于不含有图形用户界面的应用程序，有关“在源文件内表示增补字符”的信息有助于设计测试用例。以下是有关使用图形用户界面进行测试的补充信息。

对于文本输入，Java2 SDK提供用于接受“/Uxxxxxx”格式字符串的代码点输入方法，这里大写的“U”表示转义序列包含六个十六进制数字，因此允许使用增补字符。小写的“u”表示转义序列“/uxxxx”的原始格式。您可以在J2SDK目录demo/jfc/CodePointIM内找到此输入方法及其说明文档。

对于字体渲染，您需要至少能够渲染一些增补字符的字体。其中一种此类字体为JamesKass的Code2001字体，它提供手写体字形（如Deseret和OldItalic）。利用Java2D库中提供新功能，您只需将该字体安装到J2RE的lib/fonts/fallback目录内即可，然后它可自动添加至在2D和XAWT渲染时使用的所有逻辑字体—无需编辑字体配置文件。

至此，您就可以确认，您的应用程序能够完全支持增补字符了！

结论

对增补字符的支持已经引入Java平台，大部分应用程序无需更改代码即可处理这些字符。解释单个字符的应用程序可以在Character类和多种CharSequence子类中使用基于代码点的新API。

以下是Unicode和UTF-8之间的转换关系表：

U-00000000～U-0000007F：0xxxxxxx

U-00000080～U-000007FF：110xxxxx 10xxxxxx

U-00000800～U-0000FFFF：1110xxxx 10xxxxxx 10xxxxxx

U-00010000～U-001FFFFF：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

U-00200000～U-03FFFFFF：111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000～U-7FFFFFFF：1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

你可能感兴趣的:(编程：Java/JavaWeb)

【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
(179)时序收敛---＞(29)时序收敛二九 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛二九（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）
(180)时序收敛---＞(30)时序收敛三十 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛三十（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）
(158)时序收敛---＞(08)时序收敛八 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛八（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）F
(159)时序收敛---＞(09)时序收敛九 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛九（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）F
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本