coolingverse

Java中文处理学习笔记——Hello Unicode

版权声明：可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://www.chedong.com/tech/hello_unicode.html

关键词：linux java mutlibyte encoding locale i18n i10n chinese ISO-8859-1 GB2312 BIG5 GBK UNICODE

内容摘要：

不知道你有没有这样的感受：为什么PHP很少有乱码问题而用Java做WEB应用却这么麻烦呢？为什么在Google上能用简体中文查到繁体中文，甚至日文的结果？而且用Google的时候发现它居然能自动根据我使用浏览器的语言选择自动调出中文界面？

很多国际化应用的让我理解了这么一个道理：Unicode是为更方便的做国际化应用设计的，而Java核心的字符是基于UNICODE的，这一机制为应用提供了对中文“字”的控制（而不是字节）。但如果不仔细理解其中的规范，这种自由反而会成为累赘，从而导致更多的乱码问题：

关于字符集的一些基本概念；
试验1：显示系统的环境设置和支持的编码方式；
试验2：系统缺省编码方式对Java应用的输入输出影响；
试验3：在WEB应用中输出和输出中的字符集问题；

关于字符集的准备知识：
ISO-8859-1 GB2312 BIG5 GBK GB18030 UNICODE 为什么会有这么多字符集编码方式？

注意：以下说明不是严格定义，一些比喻仅作为方便理解使用。

假设一个字符就是棋盘上的一个棋子，有其固定的坐标，如果需要区别所有的字符，就需要有足够的棋格容纳不同的“字符”。　

英文和欧洲其他语言的单字节字符集(SingleByte Charsets)：
首先对于ISO-8859系列的字符集都想象成一个：2^8 = 16 * 16 = 256个格子的棋盘，这样所有的西文字符（英文）用这样一个16×16的坐标系就基本可以覆盖全了。而英文实际上只用其中小于128(/x80)的部分就够了。利用大于128部分的空间的不同定义规则形成了真对其他欧洲语言的扩展字符集：ISO-8859-2 ISO-8859-4等……

ISO-8859-1

ISO-8859-7

其他语言

英文	其他西欧字符
	ōē

英文	希腊字符
	μγ

英文	其他单字节
	字符集

GB2312 BIG5 SJIS等多字节字符集（MultiByte Charsets）：

对于亚洲语言来说：汉字这么多，用这么一个256格的小棋盘肯定放不下，所以要区别成千上万的汉字解决办法就是用2个字节（坐标）来定位一个“字”在棋盘上的位置，将以上规则做一个扩展：

如果第1个字符是小于128(/x80)的仍和英文字符集编码方式保持兼容；
如果第1个字符是大于128(/x80)的，就当成是汉字的第1个字节，这个自己和后面紧跟的1个字节组成一个汉字；

其结果相当于在位于128以上的小棋格里每个小棋格又划分出了一个16×16的小棋盘。这样一个棋盘中的格子数（可能容纳的字符数）就变成了128 + 128 * 256。按照类似的方式有了简体中文的GB2312标准，繁体中文的BIG5字符集和日文的SJIS字符集等，GB2312字符集包含大约有六仟多个常用简体汉字。

简体中文

日文SJIS

繁体中文

英文	简
英文	体
	中
		文

英文	日
英文		文

英文
英文		繁
		体
	中	文

由此可以看出，所有这些从ASCII扩展式的编码方式中：英文部分都是兼容的，但扩展部分的编码方式是不兼容的，虽然很多字在3种体系中写法一致（比如“中文”这2个字）但在相应字符集中的坐标不一致，所以GB2312编写的页面用BIG5看就变得面目全非了。而且有时候经常在浏览其他非英语国家的页面时（比如包含有德语的人名时）经常出现奇怪的汉字，其实就是扩展位的编码冲突造成的。

我把GBK和GB18030理解成一个小UNICODE：GBK字符集是GB2312的扩展(K)，GBK里大约有贰万玖仟多个字符，除了保持和GB2312兼容外，繁体中文字，甚至连日文的假名字符也能显示。而GB18030-2000则是一个更复杂的字符集，采用变长字节的编码方式，能够支持更多的字符。关于汉字的编码方式比较详细的定义规范可以参考：
http://www.unihan.com.cn/cjk/ana17.htm

ASCII（英文） ==> 西欧文字 ==> 东欧字符集（俄文，希腊语等） ==> 东亚字符集（GB2312 BIG5 SJIS等）==> 扩展字符集GBK GB18030这个发展过程基本上也反映了字符集标准的发展过程，但这么随着时间的推移，尤其是互联网让跨语言的信息的交互变得越来越多的时候，太多多针对本地语言的编码标准的出现导致一个应用程序的国际化变得成本非常高。尤其是你要编写一个同时包含法文和简体中文的文档，这时候一般都会想到要是用一个通用的字符集能够显示所有语言的所有文字就好了，而且这样做应用也能够比较方便的国际化，为了达到这个目标，即使应用牺牲一些空间和程序效率也是非常值得的。UNICODE就是这样一个通用的解决方案。

UNICODE双字节字符集
所以你可以把UNICODE想象成这样：让所有的字符（包括英文）都用2个字节（2个8位）表示，这样就有了一个2^(8*2) = 256 * 256 = 65536个格子的大棋盘。在这个棋盘中，这样中（简繁）日韩（还包括越南）文字作为CJK字符集都放在一定的区位内，为了减少重复，各种语言中写法一样的字共享一个“棋格”。详细的区位见附录A

Unicode：(DoubleByte Charsets)

西	C中	其
欧	J日	它
英	K韩	语
文		言

什么还要有UTF-8？毕竟互联网70％以上的信息仍然是英文。如果连英文都用2个字节存取(UCS-2)，空间浪费不就太多了？所谓UTF-8就是这样一个为了提高英文存取效率的字符集转换格式：Unicode Transformation Form 8-bit form。用UTF-8，UNICODE的2字节字符用变长个（1－3个字节）表示：

对英文，仍然和ASCII一样用1个字节表示，这个字节的值小于128(/x80)；
对其他语言的用一个值位于128-256之间的字节开始，再加后面紧跟的2个字节表示，一个字符一共是3个字节；

因此，在应用中程序处理过程中所有字符都是16位（双字节），但在存取转换成字节流时使用UTF-8格式转换，对于英文字符来说和原来用ASCII方式存取时相比大小仍然是一样的，而对中文来说和原来的GB2312编码方式相比，大小为：(3字节/2字节)=1.5倍

小节：

假设英文字符集是一个16×16的棋盘，么其他语言的字符集就是把高位区重新分割的(> 128)的中等棋盘，多种字符集之间互不兼容而UNICODE本身就相当于一个256×256的大棋盘，通过一定规则将英文和其他所有语言的字符都包含在内。

试验1：操作系统语言环境设置对Java应用缺省编码方式的影响

为了了解Java应用的编码处理的机制，首先要了解操作系统对JVM缺省编码方式的影响，因此我做了一个Env.java，用于打印显示不同系统下JVM的属性和系统支持的LOCALE。程序很简单：

/*
 * Copyright (c) 2002 Email: chedongATbigfoot.com/chedongATchedong.com
 * $Id: hello_unicode.html,v 1.6 2003/11/09 07:57:11 chedong Exp $
 */

import java.util.*;
import java.text.*;

/**
 * 目的：
 *     显示环境变量和JVM的缺省属性
 * 输入：无
 * 输出：
 *     1 支持的LOCALE
 *     2 JVM的缺省属性
 */

public class Env {
    /**
     *  main entrance
     */
    public static void main(String[] args) {

        System.out.println("Hello, it's: " +  new Date());

        //print available locales
        Locale list[] = DateFormat.getAvailableLocales();
        System.out.println("======System available locales:======== ");
        for (int i = 0; i < list.length; i++) {
            System.out.println(list[i].toString() + "/t" + list[i].getDisplayName());
        }

        //print JVM default properties
        System.out.println("======System property======== ");
        System.getProperties().list(System.out);
    }
}

最需要注意的是JVM的file.encoding属性，这个属性确定了JVM的缺省的编码/解码方式：从而影响应用中所有字节流==>字符流的解码方式，字符流==>字节流的编码方式。

LINUX下的LOCALE可以通过 LANG=zh_CN; LC_ALL=zh_CN.GBK; export LANG LC_ALL 设置。locale 命令可以显示系统当前的环境设置
Windows的LOCALE可以通过控制面板==>区域设置设置实现

GNU/Linux 2.4.x (J2SE1.3.1)
LANG=en_US LC_ALL=en_US

GNU/Linux 2.4.x (J2SE1.3.1)
LANG=zh_CN LC_ALL=zh_CN.GBK

Windows 2000(J2SE1.3.0)
区域设置:中国中文

Windows 2000(J2SE1.3.0)
区域设置:英国英文

Hello, it's: Tue Jul 30 11:05:44 CST 2002
======System available locales:======== 
en English
en_US English (United States)
ar Arabic
ar_AE Arabic (United Arab Emirates)
ar_BH Arabic (Bahrain)
ar_DZ Arabic (Algeria)
ar_EG Arabic (Egypt)
ar_IQ Arabic (Iraq)
ar_JO Arabic (Jordan)
ar_KW Arabic (Kuwait)
ar_LB Arabic (Lebanon)
ar_LY Arabic (Libya)
ar_MA Arabic (Morocco)
ar_OM Arabic (Oman)
ar_QA Arabic (Qatar)
ar_SA Arabic (Saudi Arabia)
ar_SD Arabic (Sudan)
ar_SY Arabic (Syria)
ar_TN Arabic (Tunisia)
ar_YE Arabic (Yemen)
be Byelorussian
be_BY Byelorussian (Belarus)
bg Bulgarian
bg_BG Bulgarian (Bulgaria)
ca Catalan
ca_ES Catalan (Spain)
ca_ES_EURO Catalan (Spain,Euro)
cs Czech
cs_CZ Czech (Czech Republic)
da Danish
da_DK Danish (Denmark)
de German
de_AT German (Austria)
de_AT_EURO German (Austria,Euro)
de_CH German (Switzerland)
de_DE German (Germany)
de_DE_EURO German (Germany,Euro)
de_LU German (Luxembourg)
de_LU_EURO German (Luxembourg,Euro)
el Greek
el_GR Greek (Greece)
en_AU English (Australia)
en_CA English (Canada)
en_GB English (United Kingdom)
en_IE English (Ireland)
en_IE_EURO English (Ireland,Euro)
en_NZ English (New Zealand)
en_ZA English (South Africa)
es Spanish
es_BO Spanish (Bolivia)
es_AR Spanish (Argentina)
es_CL Spanish (Chile)
es_CO Spanish (Colombia)
es_CR Spanish (Costa Rica)
es_DO Spanish (Dominican Republic)
es_EC Spanish (Ecuador)
es_ES Spanish (Spain)
es_ES_EURO Spanish (Spain,Euro)
es_GT Spanish (Guatemala)
es_HN Spanish (Honduras)
es_MX Spanish (Mexico)
es_NI Spanish (Nicaragua)
et Estonian
es_PA Spanish (Panama)
es_PE Spanish (Peru)
es_PR Spanish (Puerto Rico)
es_PY Spanish (Paraguay)
es_SV Spanish (El Salvador)
es_UY Spanish (Uruguay)
es_VE Spanish (Venezuela)
et_EE Estonian (Estonia)
fi Finnish
fi_FI Finnish (Finland)
fi_FI_EURO Finnish (Finland,Euro)
fr French
fr_BE French (Belgium)
fr_BE_EURO French (Belgium,Euro)
fr_CA French (Canada)
fr_CH French (Switzerland)
fr_FR French (France)
fr_FR_EURO French (France,Euro)
fr_LU French (Luxembourg)
fr_LU_EURO French (Luxembourg,Euro)
hr Croatian
hr_HR Croatian (Croatia)
hu Hungarian
hu_HU Hungarian (Hungary)
is Icelandic
is_IS Icelandic (Iceland)
it Italian
it_CH Italian (Switzerland)
it_IT Italian (Italy)
it_IT_EURO Italian (Italy,Euro)
iw Hebrew
iw_IL Hebrew (Israel)
ja Japanese
ja_JP Japanese (Japan)
ko Korean
ko_KR Korean (South Korea)
lt Lithuanian
lt_LT Lithuanian (Lithuania)
lv Latvian (Lettish)
lv_LV Latvian (Lettish) (Latvia)
mk Macedonian
mk_MK Macedonian (Macedonia)
nl Dutch
nl_BE Dutch (Belgium)
nl_BE_EURO Dutch (Belgium,Euro)
nl_NL Dutch (Netherlands)
nl_NL_EURO Dutch (Netherlands,Euro)
no Norwegian
no_NO Norwegian (Norway)
no_NO_NY Norwegian (Norway,Nynorsk)
pl Polish
pl_PL Polish (Poland)
pt Portuguese
pt_BR Portuguese (Brazil)
pt_PT Portuguese (Portugal)
pt_PT_EURO Portuguese (Portugal,Euro)
ro Romanian
ro_RO Romanian (Romania)
ru Russian
ru_RU Russian (Russia)
sh Serbo-Croatian
sh_YU Serbo-Croatian (Yugoslavia)
sk Slovak
sk_SK Slovak (Slovakia)
sl Slovenian
sl_SI Slovenian (Slovenia)
sq Albanian
sq_AL Albanian (Albania)
sr Serbian
sr_YU Serbian (Yugoslavia)
sv Swedish
sv_SE Swedish (Sweden)
th Thai
th_TH Thai (Thailand)
tr Turkish
tr_TR Turkish (Turkey)
uk Ukrainian
uk_UA Ukrainian (Ukraine)
zh Chinese
zh_CN Chinese (China)
zh_HK Chinese (Hong Kong)
zh_TW Chinese (Taiwan)
======System property======== 
-- listing properties --
java.runtime.name=Java(TM) 2 Runtime Environment, Stand...
sun.boot.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386
java.vm.version=1.3.1_04-b02
java.vm.vendor=Sun Microsystems Inc.
java.vendor.url=http://java.sun.com/
path.separator=:
java.vm.name=Java HotSpot(TM) Client VM
file.encoding.pkg=sun.io
java.vm.specification.name=Java Virtual Machine Specification
user.dir=/home/chedong/src/char_test
java.runtime.version=1.3.1_04-b02
java.awt.graphicsenv=sun.awt.X11GraphicsEnvironment
os.arch=i386
java.io.tmpdir=/tmp
line.separator=

java.vm.specification.vendor=Sun Microsystems Inc.
java.awt.fonts=
os.name=Linux
java.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386:/u...
java.specification.name=Java Platform API Specification
java.class.version=47.0
os.version=2.4.7-10
user.home=/home/chedong
user.timezone=Asia/Shanghai
java.awt.printerjob=sun.awt.motif.PSPrinterJob

java.specification.version=1.3
user.name=chedong
java.class.path=/home/chedong/classes
java.vm.specification.version=1.0
java.home=/usr/java/jdk1.3.1_04/jre

java.specification.vendor=Sun Microsystems Inc.
java.vm.info=mixed mode
java.version=1.3.1_04
java.ext.dirs=/usr/java/jdk1.3.1_04/jre/lib/ext
sun.boot.class.path=/usr/java/jdk1.3.1_04/jre/lib/rt.jar:...
java.vendor=Sun Microsystems Inc.
file.separator=/
java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...
sun.cpu.endian=little
sun.io.unicode.encoding=UnicodeLittle

sun.cpu.isalist=

Hello, it's: Tue Jul 30 11:07:34 CST 2002
======System available locales:========
en 英文
en_US 英文 (美国)
ar 阿拉伯文
ar_AE 阿拉伯文 (阿拉伯联合酋长国)
ar_BH 阿拉伯文 (巴林)
ar_DZ 阿拉伯文 (阿尔及利亚)
ar_EG 阿拉伯文 (埃及)
ar_IQ 阿拉伯文 (伊拉克)
ar_JO 阿拉伯文 (约旦)
ar_KW 阿拉伯文 (科威特)
ar_LB 阿拉伯文 (黎巴嫩)
ar_LY 阿拉伯文 (利比亚)
ar_MA 阿拉伯文 (摩洛哥)
ar_OM 阿拉伯文 (阿曼)
ar_QA 阿拉伯文 (卡塔尔)
ar_SA 阿拉伯文 (沙特阿拉伯)
ar_SD 阿拉伯文 (苏丹)
ar_SY 阿拉伯文 (叙利亚)
ar_TN 阿拉伯文 (突尼斯)
ar_YE 阿拉伯文 (也门)
be 白俄罗斯文
be_BY 白俄罗斯文 (白俄罗斯)
bg 保加利亚文
bg_BG 保加利亚文 (保加利亚)
ca 加泰罗尼亚文
ca_ES 加泰罗尼亚文 (西班牙)
ca_ES_EURO 加泰罗尼亚文 (西班牙,Euro)
cs 捷克文
cs_CZ 捷克文 (捷克共和国)
da 丹麦文
da_DK 丹麦文 (丹麦)
de 德文
de_AT 德文 (奥地利)
de_AT_EURO 德文 (奥地利,Euro)
de_CH 德文 (瑞士)
de_DE 德文 (德国)
de_DE_EURO 德文 (德国,Euro)
de_LU 德文 (卢森堡)
de_LU_EURO 德文 (卢森堡,Euro)
el 希腊文
el_GR 希腊文 (希腊)
en_AU 英文 (澳大利亚)
en_CA 英文 (加拿大)
en_GB 英文 (英国)
en_IE 英文 (爱尔兰)
en_IE_EURO 英文 (爱尔兰,Euro)
en_NZ 英文 (新西兰)
en_ZA 英文 (南非)
es 西班牙文
es_BO 西班牙文 (玻利维亚)
es_AR 西班牙文 (阿根廷)
es_CL 西班牙文 (智利)
es_CO 西班牙文 (哥伦比亚)
es_CR 西班牙文 (哥斯达黎加)
es_DO 西班牙文 (多米尼加共和国)
es_EC 西班牙文 (厄瓜多尔)
es_ES 西班牙文 (西班牙)
es_ES_EURO 西班牙文 (西班牙,Euro)
es_GT 西班牙文 (危地马拉)
es_HN 西班牙文 (洪都拉斯)
es_MX 西班牙文 (墨西哥)
es_NI 西班牙文 (尼加拉瓜)
et 爱沙尼亚文
es_PA 西班牙文 (巴拿马)
es_PE 西班牙文 (秘鲁)
es_PR 西班牙文 (波多黎哥)
es_PY 西班牙文 (巴拉圭)
es_SV 西班牙文 (萨尔瓦多)
es_UY 西班牙文 (乌拉圭)
es_VE 西班牙文 (委内瑞拉)
et_EE 爱沙尼亚文 (爱沙尼亚)
fi 芬兰文
fi_FI 芬兰文 (芬兰)
fi_FI_EURO 芬兰文 (芬兰,Euro)
fr 法文
fr_BE 法文 (比利时)
fr_BE_EURO 法文 (比利时,Euro)
fr_CA 法文 (加拿大)
fr_CH 法文 (瑞士)
fr_FR 法文 (法国)
fr_FR_EURO 法文 (法国,Euro)
fr_LU 法文 (卢森堡)
fr_LU_EURO 法文 (卢森堡,Euro)
hr 克罗地亚文
hr_HR 克罗地亚文 (克罗地亚)
hu 匈牙利文
hu_HU 匈牙利文 (匈牙利)
is 冰岛文
is_IS 冰岛文 (冰岛)
it 意大利文
it_CH 意大利文 (瑞士)
it_IT 意大利文 (意大利)
it_IT_EURO 意大利文 (意大利,Euro)
iw 希伯来文
iw_IL 希伯来文 (以色列)
ja 日文
ja_JP 日文 (日本)
ko 朝鲜文
ko_KR 朝鲜文 (南朝鲜)
lt 立陶宛文
lt_LT 立陶宛文 (立陶宛)
lv 拉托维亚文(列托)
lv_LV 拉托维亚文(列托) (拉脱维亚)
mk 马其顿文
mk_MK 马其顿文 (马其顿王国)
nl 荷兰文
nl_BE 荷兰文 (比利时)
nl_BE_EURO 荷兰文 (比利时,Euro)
nl_NL 荷兰文 (荷兰)
nl_NL_EURO 荷兰文 (荷兰,Euro)
no 挪威文
no_NO 挪威文 (挪威)
no_NO_NY 挪威文 (挪威,Nynorsk)
pl 波兰文
pl_PL 波兰文 (波兰)
pt 葡萄牙文
pt_BR 葡萄牙文 (巴西)
pt_PT 葡萄牙文 (葡萄牙)
pt_PT_EURO 葡萄牙文 (葡萄牙,Euro)
ro 罗马尼亚文
ro_RO 罗马尼亚文 (罗马尼亚)
ru 俄文
ru_RU 俄文 (俄罗斯)
sh 塞波尼斯-克罗地亚文
sh_YU 塞波尼斯-克罗地亚文 (南斯拉夫)
sk 斯洛伐克文
sk_SK 斯洛伐克文 (斯洛伐克)
sl 斯洛文尼亚文
sl_SI 斯洛文尼亚文 (斯洛文尼亚)
sq 阿尔巴尼亚文
sq_AL 阿尔巴尼亚文 (阿尔巴尼亚)
sr 塞尔维亚文
sr_YU 塞尔维亚文 (南斯拉夫)
sv 瑞典文
sv_SE 瑞典文 (瑞典)
th 泰文
th_TH 泰文 (泰国)
tr 土耳其文
tr_TR 土耳其文 (土耳其)
uk 乌克兰文
uk_UA 乌克兰文 (乌克兰)
zh 中文
zh_CN 中文 (中国)
zh_HK 中文 (香港)
zh_TW 中文 (台湾)
======System property========
-- listing properties --
java.runtime.name=Java(TM) 2 Runtime Environment, Stand...
sun.boot.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386
java.vm.version=1.3.1_04-b02
java.vm.vendor=Sun Microsystems Inc.
java.vendor.url=http://java.sun.com/
path.separator=:
java.vm.name=Java HotSpot(TM) Client VM
file.encoding.pkg=sun.io
java.vm.specification.name=Java Virtual Machine Specification
user.dir=/home/chedong/src/char_test
java.runtime.version=1.3.1_04-b02
java.awt.graphicsenv=sun.awt.X11GraphicsEnvironment
os.arch=i386
java.io.tmpdir=/tmp
line.separator=

java.vm.specification.vendor=Sun Microsystems Inc.
java.awt.fonts=
os.name=Linux
java.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386:/u...
java.specification.name=Java Platform API Specification
java.class.version=47.0
os.version=2.4.7-10
user.home=/home/chedong
user.timezone=Asia/Shanghai
java.awt.printerjob=sun.awt.motif.PSPrinterJob

java.specification.version=1.3
user.name=chedong
java.class.path=/home/chedong/classes
java.vm.specification.version=1.0
java.home=/usr/java/jdk1.3.1_04/jre

java.specification.vendor=Sun Microsystems Inc.
java.vm.info=mixed mode
java.version=1.3.1_04
java.ext.dirs=/usr/java/jdk1.3.1_04/jre/lib/ext
sun.boot.class.path=/usr/java/jdk1.3.1_04/jre/lib/rt.jar:...
java.vendor=Sun Microsystems Inc.
file.separator=/
java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...
sun.cpu.endian=little
sun.io.unicode.encoding=UnicodeLittle

sun.cpu.isalist=

Hello, it's: Tue Jul 30 11:49:36 CST 2002
======System available locales:========
en English
en_US English (United States)
ar Arabic
ar_AE Arabic (United Arab Emirates)
ar_BH Arabic (Bahrain)
ar_DZ Arabic (Algeria)
ar_EG Arabic (Egypt)
ar_IQ Arabic (Iraq)
ar_JO Arabic (Jordan)
ar_KW Arabic (Kuwait)
ar_LB Arabic (Lebanon)
ar_LY Arabic (Libya)
ar_MA Arabic (Morocco)
ar_OM Arabic (Oman)
ar_QA Arabic (Qatar)
ar_SA Arabic (Saudi Arabia)
ar_SD Arabic (Sudan)
ar_SY Arabic (Syria)
ar_TN Arabic (Tunisia)
ar_YE Arabic (Yemen)
be Byelorussian
be_BY Byelorussian (Belarus)
bg Bulgarian
bg_BG Bulgarian (Bulgaria)
ca Catalan
ca_ES Catalan (Spain)
ca_ES_EURO Catalan (Spain,Euro)
cs Czech
cs_CZ Czech (Czech Republic)
da Danish
da_DK Danish (Denmark)
de German
de_AT German (Austria)
de_AT_EURO German (Austria,Euro)
de_CH German (Switzerland)
de_DE German (Germany)
de_DE_EURO German (Germany,Euro)
de_LU German (Luxembourg)
de_LU_EURO German (Luxembourg,Euro)
el Greek
el_GR Greek (Greece)
en_AU English (Australia)
en_CA English (Canada)
en_GB English (United Kingdom)
en_IE English (Ireland)
en_IE_EURO English (Ireland,Euro)
en_NZ English (New Zealand)
en_ZA English (South Africa)
es Spanish
es_AR Spanish (Argentina)
es_BO Spanish (Bolivia)
es_CL Spanish (Chile)
es_CO Spanish (Colombia)
es_CR Spanish (Costa Rica)
es_DO Spanish (Dominican Republic)
es_EC Spanish (Ecuador)
es_ES Spanish (Spain)
es_ES_EURO Spanish (Spain,Euro)
es_GT Spanish (Guatemala)
es_HN Spanish (Honduras)
es_MX Spanish (Mexico)
es_NI Spanish (Nicaragua)
es_PA Spanish (Panama)
es_PE Spanish (Peru)
es_PR Spanish (Puerto Rico)
es_PY Spanish (Paraguay)
es_SV Spanish (El Salvador)
es_UY Spanish (Uruguay)
es_VE Spanish (Venezuela)
et Estonian
et_EE Estonian (Estonia)
fi Finnish
fi_FI Finnish (Finland)
fi_FI_EURO Finnish (Finland,Euro)
fr French
fr_BE French (Belgium)
fr_BE_EURO French (Belgium,Euro)
fr_CA French (Canada)
fr_CH French (Switzerland)
fr_FR French (France)
fr_FR_EURO French (France,Euro)
fr_LU French (Luxembourg)
fr_LU_EURO French (Luxembourg,Euro)
hr Croatian
hr_HR Croatian (Croatia)
hu Hungarian
hu_HU Hungarian (Hungary)
is Icelandic
is_IS Icelandic (Iceland)
it Italian
it_CH Italian (Switzerland)
it_IT Italian (Italy)
it_IT_EURO Italian (Italy,Euro)
iw Hebrew
iw_IL Hebrew (Israel)
ja Japanese
ja_JP Japanese (Japan)
ko 韩文
ko_KR 韩文 (大韩民国)
lt Lithuanian
lt_LT Lithuanian (Lithuania)
lv Latvian (Lettish)
lv_LV Latvian (Lettish) (Latvia)
mk Macedonian
mk_MK Macedonian (Macedonia)
nl Dutch
nl_BE Dutch (Belgium)
nl_BE_EURO Dutch (Belgium,Euro)
nl_NL Dutch (Netherlands)
nl_NL_EURO Dutch (Netherlands,Euro)
no Norwegian
no_NO Norwegian (Norway)
no_NO_NY Norwegian (Norway,Nynorsk)
pl Polish
pl_PL Polish (Poland)
pt Portuguese
pt_BR Portuguese (Brazil)
pt_PT Portuguese (Portugal)
pt_PT_EURO Portuguese (Portugal,Euro)
ro Romanian
ro_RO Romanian (Romania)
ru Russian
ru_RU Russian (Russia)
sh Serbo-Croatian
sh_YU Serbo-Croatian (Yugoslavia)
sk Slovak
sk_SK Slovak (Slovakia)
sl Slovenian
sl_SI Slovenian (Slovenia)
sq Albanian
sq_AL Albanian (Albania)
sr Serbian
sr_YU Serbian (Yugoslavia)
sv Swedish
sv_SE Swedish (Sweden)
th Thai
th_TH Thai (Thailand)
tr Turkish
tr_TR Turkish (Turkey)
uk Ukrainian
uk_UA Ukrainian (Ukraine)
zh 中文
zh_CN 中文 (中华人民共和国)
zh_HK 中文 (香港)
zh_TW 中文 (台湾)
======System property========
-- listing properties --
java.runtime.name=Java(TM) 2 Runtime Environment, Stand...
sun.boot.library.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...
java.vm.version=1.3.0_02
java.vm.vendor=Sun Microsystems Inc.
java.vendor.url=http://java.sun.com/
path.separator=;
java.vm.name=Java HotSpot(TM) Client VM
file.encoding.pkg=sun.io
java.vm.specification.name=Java Virtual Machine Specification
user.dir=D:/java/src/char_test
java.runtime.version=1.3.0_02
java.awt.graphicsenv=sun.awt.Win32GraphicsEnvironment
os.arch=x86
java.io.tmpdir=D:/TEMP/
line.separator=

java.vm.specification.vendor=Sun Microsystems Inc.
java.awt.fonts=
os.name=Windows 98
java.library.path=C:/WINDOWS;.;C:/WINDOWS/SYSTEM;C:/WIN...
java.specification.name=Java Platform API Specification
java.class.version=47.0
os.version=4.90
user.home=C:/WINDOWS
user.timezone=Asia/Shanghai
java.awt.printerjob=sun.awt.windows.WPrinterJob

java.specification.version=1.3
user.name=Sicci
java.class.path=d:/java/classes
java.vm.specification.version=1.0
java.home=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_02

java.specification.vendor=Sun Microsystems Inc.
awt.toolkit=sun.awt.windows.WToolkit
java.vm.info=mixed mode
java.version=1.3.0_02
java.ext.dirs=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...
sun.boot.class.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...
java.vendor=Sun Microsystems Inc.
file.separator=/
java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...
sun.cpu.endian=little
sun.io.unicode.encoding=UnicodeLittle

sun.cpu.isalist=pentium i486 i386

Hello, it's: Tue Jul 30 11:53:27 CST 2002
======System available locales:========
en English
en_US English (United States)
ar Arabic
ar_AE Arabic (United Arab Emirates)
ar_BH Arabic (Bahrain)
ar_DZ Arabic (Algeria)
ar_EG Arabic (Egypt)
ar_IQ Arabic (Iraq)
ar_JO Arabic (Jordan)
ar_KW Arabic (Kuwait)
ar_LB Arabic (Lebanon)
ar_LY Arabic (Libya)
ar_MA Arabic (Morocco)
ar_OM Arabic (Oman)
ar_QA Arabic (Qatar)
ar_SA Arabic (Saudi Arabia)
ar_SD Arabic (Sudan)
ar_SY Arabic (Syria)
ar_TN Arabic (Tunisia)
ar_YE Arabic (Yemen)
be Byelorussian
be_BY Byelorussian (Belarus)
bg Bulgarian
bg_BG Bulgarian (Bulgaria)
ca Catalan
ca_ES Catalan (Spain)
ca_ES_EURO Catalan (Spain,Euro)
cs Czech
cs_CZ Czech (Czech Republic)
da Danish
da_DK Danish (Denmark)
de German
de_AT German (Austria)
de_AT_EURO German (Austria,Euro)
de_CH German (Switzerland)
de_DE German (Germany)
de_DE_EURO German (Germany,Euro)
de_LU German (Luxembourg)
de_LU_EURO German (Luxembourg,Euro)
el Greek
el_GR Greek (Greece)
en_AU English (Australia)
en_CA English (Canada)
en_GB English (United Kingdom)
en_IE English (Ireland)
en_IE_EURO English (Ireland,Euro)
en_NZ English (New Zealand)
en_ZA English (South Africa)
es Spanish
es_AR Spanish (Argentina)
es_BO Spanish (Bolivia)
es_CL Spanish (Chile)
es_CO Spanish (Colombia)
es_CR Spanish (Costa Rica)
es_DO Spanish (Dominican Republic)
es_EC Spanish (Ecuador)
es_ES Spanish (Spain)
es_ES_EURO Spanish (Spain,Euro)
es_GT Spanish (Guatemala)
es_HN Spanish (Honduras)
es_MX Spanish (Mexico)
es_NI Spanish (Nicaragua)
es_PA Spanish (Panama)
es_PE Spanish (Peru)
es_PR Spanish (Puerto Rico)
es_PY Spanish (Paraguay)
es_SV Spanish (El Salvador)
es_UY Spanish (Uruguay)
es_VE Spanish (Venezuela)
et Estonian
et_EE Estonian (Estonia)
fi Finnish
fi_FI Finnish (Finland)
fi_FI_EURO Finnish (Finland,Euro)
fr French
fr_BE French (Belgium)
fr_BE_EURO French (Belgium,Euro)
fr_CA French (Canada)
fr_CH French (Switzerland)
fr_FR French (France)
fr_FR_EURO French (France,Euro)
fr_LU French (Luxembourg)
fr_LU_EURO French (Luxembourg,Euro)
hr Croatian
hr_HR Croatian (Croatia)
hu Hungarian
hu_HU Hungarian (Hungary)
is Icelandic
is_IS Icelandic (Iceland)
it Italian
it_CH Italian (Switzerland)
it_IT Italian (Italy)
it_IT_EURO Italian (Italy,Euro)
iw Hebrew
iw_IL Hebrew (Israel)
ja Japanese
ja_JP Japanese (Japan)
ko Korean
ko_KR Korean (South Korea)
lt Lithuanian
lt_LT Lithuanian (Lithuania)
lv Latvian (Lettish)
lv_LV Latvian (Lettish) (Latvia)
mk Macedonian
mk_MK Macedonian (Macedonia)
nl Dutch
nl_BE Dutch (Belgium)
nl_BE_EURO Dutch (Belgium,Euro)
nl_NL Dutch (Netherlands)
nl_NL_EURO Dutch (Netherlands,Euro)
no Norwegian
no_NO Norwegian (Norway)
no_NO_NY Norwegian (Norway,Nynorsk)
pl Polish
pl_PL Polish (Poland)
pt Portuguese
pt_BR Portuguese (Brazil)
pt_PT Portuguese (Portugal)
pt_PT_EURO Portuguese (Portugal,Euro)
ro Romanian
ro_RO Romanian (Romania)
ru Russian
ru_RU Russian (Russia)
sh Serbo-Croatian
sh_YU Serbo-Croatian (Yugoslavia)
sk Slovak
sk_SK Slovak (Slovakia)
sl Slovenian
sl_SI Slovenian (Slovenia)
sq Albanian
sq_AL Albanian (Albania)
sr Serbian
sr_YU Serbian (Yugoslavia)
sv Swedish
sv_SE Swedish (Sweden)
th Thai
th_TH Thai (Thailand)
tr Turkish
tr_TR Turkish (Turkey)
uk Ukrainian
uk_UA Ukrainian (Ukraine)
zh Chinese
zh_CN Chinese (China)
zh_HK Chinese (Hong Kong)
zh_TW Chinese (Taiwan)
======System property========
-- listing properties --
java.runtime.name=Java(TM) 2 Runtime Environment, Stand...
sun.boot.library.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...
java.vm.version=1.3.0_02
java.vm.vendor=Sun Microsystems Inc.
java.vendor.url=http://java.sun.com/
path.separator=;
java.vm.name=Java HotSpot(TM) Client VM
file.encoding.pkg=sun.io
java.vm.specification.name=Java Virtual Machine Specification
user.dir=D:/java/src/char_test
java.runtime.version=1.3.0_02
java.awt.graphicsenv=sun.awt.Win32GraphicsEnvironment
os.arch=x86
java.io.tmpdir=D:/TEMP/
line.separator=

java.vm.specification.vendor=Sun Microsystems Inc.
java.awt.fonts=
os.name=Windows 98
java.library.path=C:/WINDOWS;.;C:/WINDOWS/SYSTEM;C:/WIN...
java.specification.name=Java Platform API Specification
java.class.version=47.0
os.version=4.90
user.home=C:/WINDOWS
user.timezone=Asia/Shanghai
java.awt.printerjob=sun.awt.windows.WPrinterJob

java.specification.version=1.3
user.name=Sicci
java.class.path=d:/java/classes
java.vm.specification.version=1.0
java.home=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_02

java.specification.vendor=Sun Microsystems Inc.
awt.toolkit=sun.awt.windows.WToolkit
java.vm.info=mixed mode
java.version=1.3.0_02
java.ext.dirs=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...
sun.boot.class.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...
java.vendor=Sun Microsystems Inc.
file.separator=/
java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...
sun.cpu.endian=little
sun.io.unicode.encoding=UnicodeLittle

sun.cpu.isalist=pentium i486 i386

结论1：

JVM的缺省编码方式由系统的“本地语言环境”设置确定，和操作系统的类型无关。所以当设置成相同的LOCALE时，Linux和Windows下的缺省编码方式是没有区别的（可以认为cp1252=ISO-8859-1都是一样的西文编码方式，只包含255以下的拉丁字符），因此后面的测试2我只列出了GNU/Linux下LOCALE分别设置成zh_CN和en_US的测试结果输出。以下测试如果在Windows下分别按照不同的区域和字符集设置后试验的输出是一样的。

试验2：Java的输入输出过程中的字节流到字符流的转换过程

通过这个HelloUnicode.java程序，演示说明"Hello world 世界你好"这个字符串（16个字符）在不同缺省系统编码方式下的处理效果。在编码/解码的每个步骤之后，都打印出了相应字符串每个字符(Charactor)的byte值，short值和所在的UNICODE区间。

LANG=en_US LC_ALL=en_US

LANG=zh_CN LC_ALL=zh_CN.GBK

========testing1: write hello world to files========
[test 1-1]: with system default encoding=ISO-8859-1
string=Hello world 世界你好     length=20
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='?    byte=-54 /uFFFFFFCA     short=202 /uCA  LATIN_1_SUPPLEMENT
char[13]='?    byte=-64 /uFFFFFFC0     short=192 /uC0  LATIN_1_SUPPLEMENT
char[14]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT
char[15]='?    byte=-25 /uFFFFFFE7     short=231 /uE7  LATIN_1_SUPPLEMENT
char[16]='?    byte=-60 /uFFFFFFC4     short=196 /uC4  LATIN_1_SUPPLEMENT
char[17]='?    byte=-29 /uFFFFFFE3     short=227 /uE3  LATIN_1_SUPPLEMENT
char[18]='?    byte=-70 /uFFFFFFBA     short=186 /uBA  LATIN_1_SUPPLEMENT
char[19]='?    byte=-61 /uFFFFFFC3     short=195 /uC3  LATIN_1_SUPPLEMENT



[test 1-2]: getBytes with platform default encoding and decoding as gb2312:
string=Hello world ???? length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='?'    byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='?'    byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='?'    byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='?'    byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS


[test 1-3]: convert string to UTF8
string=Hello world 涓栫晫浣犲ソ length=24
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='?    byte=-28 /uFFFFFFE4     short=228 /uE4  LATIN_1_SUPPLEMENT
char[13]='?    byte=-72 /uFFFFFFB8     short=184 /uB8  LATIN_1_SUPPLEMENT
char[14]='?    byte=-106 /uFFFFFF96    short=150 /u96  LATIN_1_SUPPLEMENT
char[15]='?    byte=-25 /uFFFFFFE7     short=231 /uE7  LATIN_1_SUPPLEMENT
char[16]='?    byte=-107 /uFFFFFF95    short=149 /u95  LATIN_1_SUPPLEMENT
char[17]='?    byte=-116 /uFFFFFF8C    short=140 /u8C  LATIN_1_SUPPLEMENT
char[18]='?    byte=-28 /uFFFFFFE4     short=228 /uE4  LATIN_1_SUPPLEMENT
char[19]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT
char[20]='?    byte=-96 /uFFFFFFA0     short=160 /uA0  LATIN_1_SUPPLEMENT
char[21]='?    byte=-27 /uFFFFFFE5     short=229 /uE5  LATIN_1_SUPPLEMENT
char[22]='?    byte=-91 /uFFFFFFA5     short=165 /uA5  LATIN_1_SUPPLEMENT
char[23]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT



========Testing2: reading and decoding from files========
[test 2-1]: read hello.orig.html: decoding with system default encoding
string=Hello world 世界你好     length=20
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='?    byte=-54 /uFFFFFFCA     short=202 /uCA  LATIN_1_SUPPLEMENT
char[13]='?    byte=-64 /uFFFFFFC0     short=192 /uC0  LATIN_1_SUPPLEMENT
char[14]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT
char[15]='?    byte=-25 /uFFFFFFE7     short=231 /uE7  LATIN_1_SUPPLEMENT
char[16]='?    byte=-60 /uFFFFFFC4     short=196 /uC4  LATIN_1_SUPPLEMENT
char[17]='?    byte=-29 /uFFFFFFE3     short=227 /uE3  LATIN_1_SUPPLEMENT
char[18]='?    byte=-70 /uFFFFFFBA     short=186 /uBA  LATIN_1_SUPPLEMENT
char[19]='?    byte=-61 /uFFFFFFC3     short=195 /uC3  LATIN_1_SUPPLEMENT



[test 2-2]: read hello.gb2312.html: decoding as GB2312
string=Hello world ???? length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN
char[13]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN
char[14]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN
char[15]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN



[test 2-3]: read hello.utf8.html: decoding as UTF8
string=Hello world ???? length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='?'    byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='?'    byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='?'    byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='?'    byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS

    ========Testing1: write hello world to files========
[test 1-1]: with system default encoding=GBK
string=Hello world 世界你好     length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



[test 1-2]: getBytes with platform default encoding and decoding as gb2312:
string=Hello world 世界你好     length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



[test 1-3]: convert string to UTF8
string=Hello world 涓栫晫浣犲ソ length=18
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='涓'   byte=-109 /uFFFFFF93    short=28051 /u6D93      CJK_UNIFIED_IDEOGRAPHS
char[13]='栫'   byte=43 /u2B    short=26667 /u682B      CJK_UNIFIED_IDEOGRAPHS
char[14]='晫'   byte=107 /u6B   short=26219 /u666B      CJK_UNIFIED_IDEOGRAPHS
char[15]='浣'   byte=99 /u63    short=28003 /u6D63      CJK_UNIFIED_IDEOGRAPHS
char[16]='犲'   byte=-78 /uFFFFFFB2     short=29362 /u72B2      CJK_UNIFIED_IDEOGRAPHS
char[17]='ソ'   byte=-67 /uFFFFFFBD     short=12477 /u30BD      KATAKANA




========Testing2: reading and decoding from files========
[test 2-1]: read hello.orig.html: decoding with system default encoding
string=Hello world 世界你好     length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS

[test 2-2]: read hello.gb2312.html: decoding as GB2312
string=Hello world 世界你好     length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS

[test 2-3]: read hello.utf8.html: decoding as UTF8
string=Hello world 世界你好     length=16
char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN
char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN
char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN
char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN
char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN
char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN
char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN
char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN
char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN
char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS
char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS
char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS
char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS

试验2的一些结论：

所有的应用都是按照字节流=>字符流=>字节流方式进行的处理的：
byte_stream ==[input decoding]==> unicode_char_stream ==[output encoding]==> byte_stream；
在Java字节流到字符流（或者反之）都是含有隐含的解码处理的（缺省是按照系统缺省编码方式）；
最早的字节流解码过程从javac的代码编译就开始了；
Java中的字符character存储单位是双字节的UNICODE；

试验3：WEB应用中的输入输出中的编码问题：Java是为做国际化应用设计的，Servlet应根据浏览器语言设置自动切换字符集配置

首先一个概念：即使是基于Java的WEB应用，在服务器和客户端之间传递的仍然是字节流，比如我从一个中文客户端的浏览器表单中提交“世界你好”这4个中文字到服务器时：首先浏览器按照GBK方式编码成字节流CA C0 BD E7 C4 E3 BA C3，然后8个字节按照URLEncoding的规范转成：%CA%C0%BD%E7%C4%E3%BA%C3，服务器端的Servlet接收到请求后应该按什么解码处理，输出时又应该按什么方式编码行字节流呢？

在目前的Servlet的规范中，如果不指定的话通过WEB提交时的输入ServletRequest和输出时的ServletResponse缺省都是ISO-8859-1方式编/码解码的（注意，这里的编码/解码方式是和操作系统环境中的语言环境是无关的）。因此，即使服务器操作系统的语言环境是中文，上面输入的请求仍然按英文解码成8个UNICODE字符，输出时仍按照英文再编码成8个字节，虽然这样在浏览器端如果设置是中文能够正确显示，但实际上读写的是“字节”，正确的方式是应该根据客户端浏览器设置ServletRequest和ServletResponse用相应语言的编码方式进行输入解码/输入编码，HelloUnicodeServlet.java就是这样一个监测客户端浏览器语言设置的例子：

当根据浏览器的头信息中的"Accept-Language"为zh-cn（中文）时，设置请求的解码方式和输出的字符集编码方式使用GBK：

        //auto detect broswer's languages
        String clientLanguage = req.getHeader("Accept-Language");

        //for Simplied Chinese        
        if ( clientLanguage.equals("zh-cn") ) {            
            req.setCharacterEncoding("GBK");
            res.setContentType("text/html; charset=GBK");
        }

输出为：

'世界你好' length=4
ServletRequest's Charset Encoding = GBK 
ServletResponse's Charset Encoding = GBK 
char[0]='世' byte=22 /u16 short=19990 /u4E16 CJK_UNIFIED_IDEOGRAPHS
char[1]='界' byte=76 /u4C short=30028 /u754C CJK_UNIFIED_IDEOGRAPHS
char[2]='你' byte=96 /u60 short=20320 /u4F60 CJK_UNIFIED_IDEOGRAPHS
char[3]='好' byte=125 /u7D short=22909 /u597D CJK_UNIFIED_IDEOGRAPHS

再做一个试验：把程序开头部分的浏览器自动检测功能注释掉，再次的输出结果就是和目前很多应用一样其实是按ISO-8859-1方式解码/编码的“字节应用”了：

'世界你好' length=8
ServletRequest's Charset Encoding = null 
ServletResponse's Charset Encoding = ISO-8859-1 
char[0]='? byte=-54 /uFFFFFFCA short=202 /uCA LATIN_1_SUPPLEMENT
char[1]='? byte=-64 /uFFFFFFC0 short=192 /uC0 LATIN_1_SUPPLEMENT
char[2]='? byte=-67 /uFFFFFFBD short=189 /uBD LATIN_1_SUPPLEMENT
char[3]='? byte=-25 /uFFFFFFE7 short=231 /uE7 LATIN_1_SUPPLEMENT
char[4]='? byte=-60 /uFFFFFFC4 short=196 /uC4 LATIN_1_SUPPLEMENT
char[5]='? byte=-29 /uFFFFFFE3 short=227 /uE3 LATIN_1_SUPPLEMENT
char[6]='? byte=-70 /uFFFFFFBA short=186 /uBA LATIN_1_SUPPLEMENT
char[7]='? byte=-61 /uFFFFFFC3 short=195 /uC3 LATIN_1_SUPPLEMENT

虽然这样的输出结果如果在浏览器中设置用中文字符集也能正确显示，但实际上处理的已经是“字节”而不是处理中文“字符”了。ServletRequest 和 ServletResponse 缺省使用ISO-8859-1字符集解码/编码的具体定义请参考：
http://java.sun.com/products/servlet/2.3/javadoc/javax/servlet/ServletRequest.html#setCharacterEncoding(java.lang.String)
http://java.sun.com/products/servlet/2.3/javadoc/javax/servlet/ServletResponse.html#setContentType()

以前能够配置让一个WEB应用能够在GBK方式编码的中文Windows2000服务器上和按ISO-8859-1方式编码的GNU/Linux上都能够正确的显示中文一直让我迷惑了很久。我仔细想了一下，后来终于想明白了，在一个国际化的应用中：ServletRequest和ServletResponse的编码/解码方式的确不应该根据服务器设置成固定的字符集，而应该是面向客户端语言环境进行输入/输出编码方式的自适应。一个按照国际化规范设计的WEB应用中：

在Servlet的源代码中尽量不要有中文：因为在MVC模式中，Servlet主要是控制器（C）的角色，因此，应该通过ResourceBundle机制由Servlet控制转向到相应的显示器（JSP或者XSLT）中，所以应该将与本地界面语言相关的界面显示的部分从Servlet和后台的模块中完全剥离出来，放到相应的ResourceBundle文件中或者XSLT文件中。这样源程序里完全是英文，编译时完全不需要考虑字符集的问题。

如果Servlet实在需要包含中文，则需要设置应用服务器的Javac编译选项，加上-encoding选项成系统缺省的字符集，如果把用中文编写的字符按照英文方式解码编译，然后再按照英文方式输出，虽然结果表面正确，实际上都成了面向“字节”编程。

在Servlet层，应该像GOOGLE搜索引擎那样，设计成能够根据客户端浏览器的语言环境自适应输出，为了判断浏览器的语言Servlet中应该有类似以下的代码：

    public void doGet (HttpServletRequest req, HttpServletResponse res)
            throws ServletException, IOException {
        //从HTTP请求的头信息中获取客户端的语言设置
        String clientLanguage = req.getHeader("Accept-Language");

        //简体中文浏览器     
        if ( clientLanguage.equals("zh-cn") ) {            
            req.setCharacterEncoding("GBK");
            res.setContentType("text/html; charset=GBK");
        }
        //繁体中文浏览器
        else if ( clientLanguage.equals("zh-tw") ) {
            req.setCharacterEncoding("BIG5");
            res.setContentType("text/html; charset=BIG5");
        }
        //日文浏览器
        else if ( clientLanguage.equals("jp") ) {
            req.setCharacterEncoding("SJIS");
            res.setContentType("text/html; charset=SJIS");
        }
        //缺省认为是英文浏览器
        else {
            req.setCharacterEncoding("ISO-8859-1");
            res.setContentType("text/html; charset=ISO-8859-1");
        }
        ...
        //设置好request的解码方式和response的编码方式后，进行后续的操作。
        //比如再转向到HelloWorld.gbk.jsp HelloWorld.big5.jsp HelloWorld.jis.jsp等
    }

而SERVLET缺省将字符集设置为ISO-8859-1也许是标准制定者认为英文的浏览器占大多数吧（而且按照ISO-8859-1方式输出界面往往也是正确的）。

结论：

过以上几个Java试验程序得出的一些结论：

Java环境是基于操作系统上的一个虚拟机应用，因此，如果操作系统遵循国际化规范：JVM的缺省编码方式可以通过修改操作系统的LOCALE设置实现。对于一个Java应用来说，只要将LINUX的缺省编码方式设置成GBK，其文字编码处理应该和中文Windows平台上的表现是一致的。
redhat 6.X使用linux内核的是基于glibc2.1.X，不支持中文LOCALE，因此无法通过改变LOCALE设置改变JVM的缺省编码方式，linux内核2.4开始基于glibc.2.2.x，对中文LOCALE有了比较好的支持。
不同的JVM对字符集的支持程度不同：
比如：IBM的JVM1.3.0开始支持GB18030，SUN的JVM从1.4开始支持GB18030
正确的编码方式不一定表示能正确的显示，正确的显示还要需要相应的前端显示系统（字库）的支持
但对于Linux上的服务应用来说，往往只要能确认字符正确的按照指定的方式编码就够了
如果应用的是基于UNICODE的编码方式处理并使用UTF8字符集做集中存储，这样最便于根据客户端语言环境做本地化输出；

根据以上结论，设计一个适应多语言环境的应用，可以考虑一下2个应用处理模式：

（客户端应用或本地化应用）根据LOCALE，让Java应用根据系统LOCALE的缺省的字符集设置进行切换，按系统缺省的字符集进行编码解码，减少应用在编码处理上的复杂程度。
输入字节流 ==>按系统语言字符集设置将字节流解码==> UNICODE处理 ==> 按系统语言字符集设置将UNICODE编码成字节流 ==> 输出字节流

（服务器端或跨语言平台应用）：在应用的最外端：数据输入输出判断用户语言环境，核心按照UNICODE方式处理存储。可以把各种区域性的字符集（GB2312 BIG5）看成是UNICODE的一个子集。UNICODE存储的数据可以方便的转换成任意字符集。
应用使用UTF8方式存储虽然要增加了存储空间，但也可以大大简化前端应用本地化(i10n)的复杂程度。

简体中文输入 繁体中文输入                 简体中文输出 繁体中文输出
        /   /                                     /     /
   判断用户语言环境：解码            判断用户语言环境：编码
                  /                  /
                  中间处理过程：UNICODE
                           |
                      UTF8编码存储

随着UNICODE被愈来愈多的系统和平台支持：Python Perl Glibc等，但我们应该珍惜一开始就按照国际化规范设计Java，并将其和新发展起来的XML规范相配合，相信符合国际化规范的应用设计从长远来看会展现出更多的优势。

TODO：
数据库应用中的字符集问题试验：MySQL Oracle JDBC

参考文档：
Java的国际化设计
http://java.sun.com/docs/books/tutorial/i18n/index.html

Linux 国际化本地化和中文化
http://www.linuxforum.net/doc/i18n-new.html

Linux 程序员必读：中文化与GB18030标准
http://www.ccidnet.com/tech/os/2001/07/31/58_2811.html

Unicode FAQ
http://www.cl.cam.ac.uk/~mgk25/unicode.html
http://www.linuxforum.net/books/UTF-8-Unicode.html （中文版）

Java 编程技术中汉字问题的分析及解决
http://www-900.ibm.com/developerWorks/cn/java/java_chinese/index.shtml

汉字的编码方式：
http://www.unihan.com.cn/cjk/ana17.htm

不同版本的JVM支持的编码方式
http://java.sun.com/j2se/1.3/docs/guide/intl/encoding.doc.html
http://java.sun.com/j2se/1.4/docs/guide/intl/encoding.doc.html

附录：

A. The Unicode 2.0 Character Set

Characters	Description
`/u0000 - /u1FFF`	Alphabets
`/u0020 - /u007F`	Basic Latin
`/u0080 - /u00FF`	Latin-1 supplement
`/u0100 - /u017F`	Latin extended-A
`/u0180 - /u024F`	Latin extended-B
`/u0250 - /u02AF`	IPA extensions
`/u02B0 - /u02FF`	Spacing modifier letters
`/u0300 - /u036F`	Combining diacritical marks
`/u0370 - /u03FF`	Greek
`/u0400 - /u04FF`	Cyrillic
`/u0530 - /u058F`	Armenian
`/u0590 - /u05FF`	Hebrew
`/u0600 - /u06FF`	Arabic
`/u0900 - /u097F`	Devanagari
`/u0980 - /u09FF`	Bengali
`/u0A00 - /u0A7F`	Gurmukhi
`/u0A80 - /u0AFF`	Gujarati
`/u0B00 - /u0B7F`	Oriya
`/u0B80 - /u0BFF`	Tamil
`/u0C00 - /u0C7F`	Telugu
`/u0C80 - /u0CFF`	Kannada
`/u0D00 - /u0D7F`	Malayalam
`/u0E00 - /u0E7F`	Thai
`/u0E80 - /u0EFF`	Lao
`/u0F00 - /u0FBF`	Tibetan
`/u10A0 - /u10FF`	Georgian
`/u1100 - /u11FF`	Hangul Jamo
`/u1E00 - /u1EFF`	Latin extended additional
`/u1F00 - /u1FFF`	Greek extended
`/u2000 - /u2FFF`	Symbols and punctuation
`/u2000 - /u206F`	General punctuation
`/u2070 - /u209F`	Superscripts and subscripts
`/u20A0 - /u20CF`	Currency symbols
`/u20D0 - /u20FF`	Combining diacritical marks for symbols
`/u2100 - /u214F`	Letterlike symbols
`/u2150 - /u218F`	Number forms
`/u2190 - /u21FF`	Arrows
`/u2200 - /u22FF`	Mathematical operators
`/u2300 - /u23FF`	Miscellaneous technical
`/u2400 - /u243F`	Control pictures
`/u2440 - /u245F`	Optical character recognition
`/u2460 - /u24FF`	Enclosed alphanumerics
`/u2500 - /u257F`	Box drawing
`/u2580 - /u259F`	Block elements
`/u25A0 - /u25FF`	Geometric shapes
`/u2600 - /u26FF`	Miscellaneous symbols
`/u2700 - /u27BF`	Dingbats
`/u3000 - /u33FF`	CJK auxiliary
`/u3000 - /u303F`	CJK symbols and punctuation
`/u3040 - /u309F`	Hiragana
`/u30A0 - /u30FF`	Katakana
`/u3100 - /u312F`	Bopomofo
`/u3130 - /u318F`	Hangul compatibility Jamo
`/u3190 - /u319F`	Kanbun
`/u3200 - /u32FF`	Enclosed CJK letters and months
`/u3300 - /u33FF`	CJK compatibility
`/u4E00 - /u9FFF`	CJK unified ideographs: Han characters used in China, Japan, Korea, Taiwan, and Vietnam
`/uAC00 - /uD7A3`	Hangul syllables
`/uD800 - /uDFFF`	Surrogates
`/uD800 - /uDB7F`	High surrogates
`/uDB80 - /uDBFF`	High private use surrogates
`/uDC00 - /uDFFF`	Low surrogates
`/uE000 - /uF8FF`	Private use
`/uF900 - /uFFFF`	Miscellaneous
`/uF900 - /uFAFF`	CJK compatibility ideographs
`/uFB00 - /uFB4F`	Alphabetic presentation forms
`/uFB50 - /uFDFF`	Arabic presentation forms-A
`/uFE20 - /uFE2F`	Combing half marks
`/uFE30 - /uFE4F`	CJK compatibility forms
`/uFE50 - /uFE6F`	Small form variants
`/uFE70 - /uFEFE`	Arabic presentation forms-B
`/uFEFF`	Specials
`/uFF00 - /uFFEF`	Halfwidth and fullwidth forms
`/uFFF0 - /uFFFF`	Specials

你可能感兴趣的:(java,basic,byte,encoding,servlet,语言,J2SE,文章)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts