mmllkkjj

Java中文处理学习笔记——Hello Unicode

版权声明：可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://www.chedong.com/tech/hello_unicode.html

关键词：linux java mutlibyte encoding locale i18n i10n chinese ISO-8859-1 GB2312 BIG5 GBK UNICODE

内容摘要：

不知道你有没有这样的感受：为什么PHP很少有乱码问题而用Java做WEB应用却这么麻烦呢？为什么在Google上能用简体中文查到繁体中文，甚至日文的结果？而且用Google的时候发现它居然能自动根据我使用浏览器的语言选择自动调出中文界面？

很多国际化应用的让我理解了这么一个道理：Unicode是为更方便的做国际化应用设计的，而Java核心的字符是基于UNICODE的，这一机制为应用提供了对中文“字”的控制（而不是字节）。但如果不仔细理解其中的规范，这种自由反而会成为累赘，从而导致更多的乱码问题：

关于字符集的一些基本概念；
试验1：显示系统的环境设置和支持的编码方式；
试验2：系统缺省编码方式对Java应用的输入输出影响；
试验3：在WEB应用中输出和输出中的字符集问题；

关于字符集的准备知识：
ISO-8859-1 GB2312 BIG5 GBK GB18030 UNICODE 为什么会有这么多字符集编码方式？

注意：以下说明不是严格定义，一些比喻仅作为方便理解使用。

假设一个字符就是棋盘上的一个棋子，有其固定的坐标，如果需要区别所有的字符，就需要有足够的棋格容纳不同的“字符”。　

英文和欧洲其他语言的单字节字符集 (SingleByte Charsets)：
首先对于ISO-8859系列的字符集都想象成一个：2^8 = 16 * 16 = 256个格子的棋盘，这样所有的西文字符（英文）用这样一个16×16的坐标系就基本可以覆盖全了。而英文实际上只用其中小于128(/x80)的部分就够了。利用大于128部分的空间的不同定义规则形成了真对其他欧洲语言的扩展字符集：ISO-8859-2 ISO-8859-4等……

ISO-8859-1

ISO-8859-7

其他语言

英文	其他西欧字符
	ōē

英文	希腊字符
	μγ

英文	其他单字节
	字符集

GB2312 BIG5 SJIS等多字节字符集（MultiByte Charsets）：

对于亚洲语言来说：汉字这么多，用这么一个256格的小棋盘肯定放不下，所以要区别成千上万的汉字解决办法就是用2个字节（坐标）来定位一个“字”在棋盘上的位置，将以上规则做一个扩展：

如果第1个字符是小于128(/x80)的仍和英文字符集编码方式保持兼容；
如果第1个字符是大于128(/x80)的，就当成是汉字的第1个字节，这个自己和后面紧跟的1个字节组成一个汉字；

其结果相当于在位于128以上的小棋格里每个小棋格又划分出了一个16×16的小棋盘。这样一个棋盘中的格子数（可能容纳的字符数）就变成了128 + 128 * 256。按照类似的方式有了简体中文的GB2312标准，繁体中文的BIG5字符集和日文的SJIS字符集等，GB2312字符集包含大约有六仟多个常用简体汉字。

简体中文

日文SJIS

繁体中文

英文	简
英文	体
	中
		文

英文	日
英文		文

英文
英文		繁
		体
	中	文

由此可以看出，所有这些从ASCII扩展式的编码方式中：英文部分都是兼容的，但扩展部分的编码方式是不兼容的，虽然很多字在3种体系中写法一致（比如“中文”这2个字）但在相应字符集中的坐标不一致，所以GB2312编写的页面用BIG5看就变得面目全非了。而且有时候经常在浏览其他非英语国家的页面时（比如包含有德语的人名时）经常出现奇怪的汉字，其实就是扩展位的编码冲突造成的。

我把GBK和GB18030理解成一个小UNICODE：GBK字符集是GB2312的扩展(K)，GBK里大约有贰万玖仟多个字符，除了保持和 GB2312兼容外，繁体中文字，甚至连日文的假名字符也能显示。而GB18030-2000则是一个更复杂的字符集，采用变长字节的编码方式，能够支持更多的字符。关于汉字的编码方式比较详细的定义规范可以参考：
http://www.unihan.com.cn/cjk/ana17.htm

ASCII（英文） ==> 西欧文字 ==> 东欧字符集（俄文，希腊语等） ==> 东亚字符集（GB2312 BIG5 SJIS等）==> 扩展字符集GBK GB18030这个发展过程基本上也反映了字符集标准的发展过程，但这么随着时间的推移，尤其是互联网让跨语言的信息的交互变得越来越多的时候，太多多针对本地语言的编码标准的出现导致一个应用程序的国际化变得成本非常高。尤其是你要编写一个同时包含法文和简体中文的文档，这时候一般都会想到要是用一个通用的字符集能够显示所有语言的所有文字就好了，而且这样做应用也能够比较方便的国际化，为了达到这个目标，即使应用牺牲一些空间和程序效率也是非常值得的。UNICODE就是这样一个通用的解决方案。

UNICODE双字节字符集
所以你可以把 UNICODE想象成这样：让所有的字符（包括英文）都用2个字节（2个8位）表示，这样就有了一个2^(8*2) = 256 * 256 = 65536个格子的大棋盘。在这个棋盘中，这样中（简繁）日韩（还包括越南）文字作为CJK字符集都放在一定的区位内，为了减少重复，各种语言中写法一样的字共享一个“棋格”。详细的区位见附录A

Unicode：(DoubleByte Charsets)

西	C中	其
欧	J日	它
英	K韩	语
文		言

什么还要有UTF-8？毕竟互联网70％以上的信息仍然是英文。如果连英文都用2个字节存取(UCS-2)，空间浪费不就太多了？所谓UTF-8就是这样一个为了提高英文存取效率的字符集转换格式：Unicode Transformation Form 8-bit form。用UTF-8，UNICODE的2字节字符用变长个（1－3个字节）表示：

对英文，仍然和ASCII一样用1个字节表示，这个字节的值小于128(/x80)；
对其他语言的用一个值位于128-256之间的字节开始，再加后面紧跟的2个字节表示，一个字符一共是3个字节；

因此，在应用中程序处理过程中所有字符都是16位（双字节），但在存取转换成字节流时使用UTF-8格式转换，对于英文字符来说和原来用ASCII方式存取时相比大小仍然是一样的，而对中文来说和原来的GB2312编码方式相比，大小为：(3字节/2字节)=1.5倍

小节：

假设英文字符集是一个16×16的棋盘，么其他语言的字符集就是把高位区重新分割的(> 128)的中等棋盘，多种字符集之间互不兼容而UNICODE本身就相当于一个256×256的大棋盘，通过一定规则将英文和其他所有语言的字符都包含在内。

试验1：操作系统语言环境设置对Java应用缺省编码方式的影响

为了了解Java应用的编码处理的机制，首先要了解操作系统对JVM缺省编码方式的影响，因此我做了一个Env.java ，用于打印显示不同系统下JVM的属性和系统支持的LOCALE。程序很简单：

/*

 * Copyright (c) 2002 Email: chedongATbigfoot.com/chedongATchedong.com

 * $Id: hello_unicode.html,v 1.6 2003/11/09 07:57:11 chedong Exp $

 */



import java.util.*;

import java.text.*;



/**

 * 目的：

 *     显示环境变量和JVM的缺省属性

 * 输入：无

 * 输出：

 *     1 支持的LOCALE

 *     2 JVM的缺省属性

 */



public class Env {

    /**

     *  main entrance

     */

    public static void main(String[] args) {

    	

        System.out.println("Hello, it's: " +  new Date());



        //print available locales

        Locale list[] = DateFormat.getAvailableLocales();

        System.out.println("======System available locales:======== ");

        for (int i = 0; i < list.length; i++) {

            System.out.println(list[i].toString() + "/t" + list[i].getDisplayName());

        }



        //print JVM default properties

        System.out.println("======System property======== ");

        System.getProperties().list(System.out);

    }

}

最需要注意的是JVM的file.encoding属性 ，这个属性确定了JVM的缺省的编码/解码方式：从而影响应用中所有字节流==>字符流的解码方式，字符流==>字节流的编码方式。

LINUX下的LOCALE可以通过 LANG=zh_CN; LC_ALL=zh_CN.GBK; export LANG LC_ALL 设置。locale 命令可以显示系统当前的环境设置
Windows的LOCALE可以通过控制面板==>区域设置设置实现

GNU/Linux 2.4.x (J2SE1.3.1)
LANG=en_US LC_ALL=en_US

GNU/Linux 2.4.x (J2SE1.3.1)
LANG=zh_CN LC_ALL=zh_CN.GBK

Windows 2000(J2SE1.3.0)
区域设置:中国中文

Windows 2000(J2SE1.3.0)
区域设置:英国英文

Hello, it's: Tue Jul 30 11:05:44 CST 2002

======System available locales:======== 

en English

en_US English (United States)

ar Arabic

ar_AE Arabic (United Arab Emirates)

ar_BH Arabic (Bahrain)

ar_DZ Arabic (Algeria)

ar_EG Arabic (Egypt)

ar_IQ Arabic (Iraq)

ar_JO Arabic (Jordan)

ar_KW Arabic (Kuwait)

ar_LB Arabic (Lebanon)

ar_LY Arabic (Libya)

ar_MA Arabic (Morocco)

ar_OM Arabic (Oman)

ar_QA Arabic (Qatar)

ar_SA Arabic (Saudi Arabia)

ar_SD Arabic (Sudan)

ar_SY Arabic (Syria)

ar_TN Arabic (Tunisia)

ar_YE Arabic (Yemen)

be Byelorussian

be_BY Byelorussian (Belarus)

bg Bulgarian

bg_BG Bulgarian (Bulgaria)

ca Catalan

ca_ES Catalan (Spain)

ca_ES_EURO Catalan (Spain,Euro)

cs Czech

cs_CZ Czech (Czech Republic)

da Danish

da_DK Danish (Denmark)

de German

de_AT German (Austria)

de_AT_EURO German (Austria,Euro)

de_CH German (Switzerland)

de_DE German (Germany)

de_DE_EURO German (Germany,Euro)

de_LU German (Luxembourg)

de_LU_EURO German (Luxembourg,Euro)

el Greek

el_GR Greek (Greece)

en_AU English (Australia)

en_CA English (Canada)

en_GB English (United Kingdom)

en_IE English (Ireland)

en_IE_EURO English (Ireland,Euro)

en_NZ English (New Zealand)

en_ZA English (South Africa)

es Spanish

es_BO Spanish (Bolivia)

es_AR Spanish (Argentina)

es_CL Spanish (Chile)

es_CO Spanish (Colombia)

es_CR Spanish (Costa Rica)

es_DO Spanish (Dominican Republic)

es_EC Spanish (Ecuador)

es_ES Spanish (Spain)

es_ES_EURO Spanish (Spain,Euro)

es_GT Spanish (Guatemala)

es_HN Spanish (Honduras)

es_MX Spanish (Mexico)

es_NI Spanish (Nicaragua)

et Estonian

es_PA Spanish (Panama)

es_PE Spanish (Peru)

es_PR Spanish (Puerto Rico)

es_PY Spanish (Paraguay)

es_SV Spanish (El Salvador)

es_UY Spanish (Uruguay)

es_VE Spanish (Venezuela)

et_EE Estonian (Estonia)

fi Finnish

fi_FI Finnish (Finland)

fi_FI_EURO Finnish (Finland,Euro)

fr French

fr_BE French (Belgium)

fr_BE_EURO French (Belgium,Euro)

fr_CA French (Canada)

fr_CH French (Switzerland)

fr_FR French (France)

fr_FR_EURO French (France,Euro)

fr_LU French (Luxembourg)

fr_LU_EURO French (Luxembourg,Euro)

hr Croatian

hr_HR Croatian (Croatia)

hu Hungarian

hu_HU Hungarian (Hungary)

is Icelandic

is_IS Icelandic (Iceland)

it Italian

it_CH Italian (Switzerland)

it_IT Italian (Italy)

it_IT_EURO Italian (Italy,Euro)

iw Hebrew

iw_IL Hebrew (Israel)

ja Japanese

ja_JP Japanese (Japan)

ko Korean

ko_KR Korean (South Korea)

lt Lithuanian

lt_LT Lithuanian (Lithuania)

lv Latvian (Lettish)

lv_LV Latvian (Lettish) (Latvia)

mk Macedonian

mk_MK Macedonian (Macedonia)

nl Dutch

nl_BE Dutch (Belgium)

nl_BE_EURO Dutch (Belgium,Euro)

nl_NL Dutch (Netherlands)

nl_NL_EURO Dutch (Netherlands,Euro)

no Norwegian

no_NO Norwegian (Norway)

no_NO_NY Norwegian (Norway,Nynorsk)

pl Polish

pl_PL Polish (Poland)

pt Portuguese

pt_BR Portuguese (Brazil)

pt_PT Portuguese (Portugal)

pt_PT_EURO Portuguese (Portugal,Euro)

ro Romanian

ro_RO Romanian (Romania)

ru Russian

ru_RU Russian (Russia)

sh Serbo-Croatian

sh_YU Serbo-Croatian (Yugoslavia)

sk Slovak

sk_SK Slovak (Slovakia)

sl Slovenian

sl_SI Slovenian (Slovenia)

sq Albanian

sq_AL Albanian (Albania)

sr Serbian

sr_YU Serbian (Yugoslavia)

sv Swedish

sv_SE Swedish (Sweden)

th Thai

th_TH Thai (Thailand)

tr Turkish

tr_TR Turkish (Turkey)

uk Ukrainian

uk_UA Ukrainian (Ukraine)

zh Chinese

zh_CN Chinese (China)

zh_HK Chinese (Hong Kong)

zh_TW Chinese (Taiwan)

======System property======== 

-- listing properties --

java.runtime.name=Java(TM) 2 Runtime Environment, Stand...

sun.boot.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386

java.vm.version=1.3.1_04-b02

java.vm.vendor=Sun Microsystems Inc.

java.vendor.url=http://java.sun.com/

path.separator=:

java.vm.name=Java HotSpot(TM) Client VM

file.encoding.pkg=sun.io

java.vm.specification.name=Java Virtual Machine Specification

user.dir=/home/chedong/src/char_test

java.runtime.version=1.3.1_04-b02

java.awt.graphicsenv=sun.awt.X11GraphicsEnvironment

os.arch=i386

java.io.tmpdir=/tmp

line.separator=



java.vm.specification.vendor=Sun Microsystems Inc.

java.awt.fonts=

os.name=Linux

java.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386:/u...

java.specification.name=Java Platform API Specification

java.class.version=47.0

os.version=2.4.7-10

user.home=/home/chedong

user.timezone=Asia/Shanghai

java.awt.printerjob=sun.awt.motif.PSPrinterJob

file.encoding=ISO-8859-1


java.specification.version=1.3

user.name=chedong

java.class.path=/home/chedong/classes

java.vm.specification.version=1.0

java.home=/usr/java/jdk1.3.1_04/jre

user.language=en


java.specification.vendor=Sun Microsystems Inc.

java.vm.info=mixed mode

java.version=1.3.1_04

java.ext.dirs=/usr/java/jdk1.3.1_04/jre/lib/ext

sun.boot.class.path=/usr/java/jdk1.3.1_04/jre/lib/rt.jar:...

java.vendor=Sun Microsystems Inc.

file.separator=/

java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...

sun.cpu.endian=little

sun.io.unicode.encoding=UnicodeLittle

user.region=US


sun.cpu.isalist=

Hello, it's: Tue Jul 30 11:07:34 CST 2002

======System available locales:========

en 英文

en_US 英文 (美国)

ar 阿拉伯文

ar_AE 阿拉伯文 (阿拉伯联合酋长国)

ar_BH 阿拉伯文 (巴林)

ar_DZ 阿拉伯文 (阿尔及利亚)

ar_EG 阿拉伯文 (埃及)

ar_IQ 阿拉伯文 (伊拉克)

ar_JO 阿拉伯文 (约旦)

ar_KW 阿拉伯文 (科威特)

ar_LB 阿拉伯文 (黎巴嫩)

ar_LY 阿拉伯文 (利比亚)

ar_MA 阿拉伯文 (摩洛哥)

ar_OM 阿拉伯文 (阿曼)

ar_QA 阿拉伯文 (卡塔尔)

ar_SA 阿拉伯文 (沙特阿拉伯)

ar_SD 阿拉伯文 (苏丹)

ar_SY 阿拉伯文 (叙利亚)

ar_TN 阿拉伯文 (突尼斯)

ar_YE 阿拉伯文 (也门)

be 白俄罗斯文

be_BY 白俄罗斯文 (白俄罗斯)

bg 保加利亚文

bg_BG 保加利亚文 (保加利亚)

ca 加泰罗尼亚文

ca_ES 加泰罗尼亚文 (西班牙)

ca_ES_EURO 加泰罗尼亚文 (西班牙,Euro)

cs 捷克文

cs_CZ 捷克文 (捷克共和国)

da 丹麦文

da_DK 丹麦文 (丹麦)

de 德文

de_AT 德文 (奥地利)

de_AT_EURO 德文 (奥地利,Euro)

de_CH 德文 (瑞士)

de_DE 德文 (德国)

de_DE_EURO 德文 (德国,Euro)

de_LU 德文 (卢森堡)

de_LU_EURO 德文 (卢森堡,Euro)

el 希腊文

el_GR 希腊文 (希腊)

en_AU 英文 (澳大利亚)

en_CA 英文 (加拿大)

en_GB 英文 (英国)

en_IE 英文 (爱尔兰)

en_IE_EURO 英文 (爱尔兰,Euro)

en_NZ 英文 (新西兰)

en_ZA 英文 (南非)

es 西班牙文

es_BO 西班牙文 (玻利维亚)

es_AR 西班牙文 (阿根廷)

es_CL 西班牙文 (智利)

es_CO 西班牙文 (哥伦比亚)

es_CR 西班牙文 (哥斯达黎加)

es_DO 西班牙文 (多米尼加共和国)

es_EC 西班牙文 (厄瓜多尔)

es_ES 西班牙文 (西班牙)

es_ES_EURO 西班牙文 (西班牙,Euro)

es_GT 西班牙文 (危地马拉)

es_HN 西班牙文 (洪都拉斯)

es_MX 西班牙文 (墨西哥)

es_NI 西班牙文 (尼加拉瓜)

et 爱沙尼亚文

es_PA 西班牙文 (巴拿马)

es_PE 西班牙文 (秘鲁)

es_PR 西班牙文 (波多黎哥)

es_PY 西班牙文 (巴拉圭)

es_SV 西班牙文 (萨尔瓦多)

es_UY 西班牙文 (乌拉圭)

es_VE 西班牙文 (委内瑞拉)

et_EE 爱沙尼亚文 (爱沙尼亚)

fi 芬兰文

fi_FI 芬兰文 (芬兰)

fi_FI_EURO 芬兰文 (芬兰,Euro)

fr 法文

fr_BE 法文 (比利时)

fr_BE_EURO 法文 (比利时,Euro)

fr_CA 法文 (加拿大)

fr_CH 法文 (瑞士)

fr_FR 法文 (法国)

fr_FR_EURO 法文 (法国,Euro)

fr_LU 法文 (卢森堡)

fr_LU_EURO 法文 (卢森堡,Euro)

hr 克罗地亚文

hr_HR 克罗地亚文 (克罗地亚)

hu 匈牙利文

hu_HU 匈牙利文 (匈牙利)

is 冰岛文

is_IS 冰岛文 (冰岛)

it 意大利文

it_CH 意大利文 (瑞士)

it_IT 意大利文 (意大利)

it_IT_EURO 意大利文 (意大利,Euro)

iw 希伯来文

iw_IL 希伯来文 (以色列)

ja 日文

ja_JP 日文 (日本)

ko 朝鲜文

ko_KR 朝鲜文 (南朝鲜)

lt 立陶宛文

lt_LT 立陶宛文 (立陶宛)

lv 拉托维亚文(列托)

lv_LV 拉托维亚文(列托) (拉脱维亚)

mk 马其顿文

mk_MK 马其顿文 (马其顿王国)

nl 荷兰文

nl_BE 荷兰文 (比利时)

nl_BE_EURO 荷兰文 (比利时,Euro)

nl_NL 荷兰文 (荷兰)

nl_NL_EURO 荷兰文 (荷兰,Euro)

no 挪威文

no_NO 挪威文 (挪威)

no_NO_NY 挪威文 (挪威,Nynorsk)

pl 波兰文

pl_PL 波兰文 (波兰)

pt 葡萄牙文

pt_BR 葡萄牙文 (巴西)

pt_PT 葡萄牙文 (葡萄牙)

pt_PT_EURO 葡萄牙文 (葡萄牙,Euro)

ro 罗马尼亚文

ro_RO 罗马尼亚文 (罗马尼亚)

ru 俄文

ru_RU 俄文 (俄罗斯)

sh 塞波尼斯-克罗地亚文

sh_YU 塞波尼斯-克罗地亚文 (南斯拉夫)

sk 斯洛伐克文

sk_SK 斯洛伐克文 (斯洛伐克)

sl 斯洛文尼亚文

sl_SI 斯洛文尼亚文 (斯洛文尼亚)

sq 阿尔巴尼亚文

sq_AL 阿尔巴尼亚文 (阿尔巴尼亚)

sr 塞尔维亚文

sr_YU 塞尔维亚文 (南斯拉夫)

sv 瑞典文

sv_SE 瑞典文 (瑞典)

th 泰文

th_TH 泰文 (泰国)

tr 土耳其文

tr_TR 土耳其文 (土耳其)

uk 乌克兰文

uk_UA 乌克兰文 (乌克兰)

zh 中文

zh_CN 中文 (中国)

zh_HK 中文 (香港)

zh_TW 中文 (台湾)

======System property========

-- listing properties --

java.runtime.name=Java(TM) 2 Runtime Environment, Stand...

sun.boot.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386

java.vm.version=1.3.1_04-b02

java.vm.vendor=Sun Microsystems Inc.

java.vendor.url=http://java.sun.com/

path.separator=:

java.vm.name=Java HotSpot(TM) Client VM

file.encoding.pkg=sun.io

java.vm.specification.name=Java Virtual Machine Specification

user.dir=/home/chedong/src/char_test

java.runtime.version=1.3.1_04-b02

java.awt.graphicsenv=sun.awt.X11GraphicsEnvironment

os.arch=i386

java.io.tmpdir=/tmp

line.separator=



java.vm.specification.vendor=Sun Microsystems Inc.

java.awt.fonts=

os.name=Linux

java.library.path=/usr/java/jdk1.3.1_04/jre/lib/i386:/u...

java.specification.name=Java Platform API Specification

java.class.version=47.0

os.version=2.4.7-10

user.home=/home/chedong

user.timezone=Asia/Shanghai

java.awt.printerjob=sun.awt.motif.PSPrinterJob

file.encoding=GBK


java.specification.version=1.3

user.name=chedong

java.class.path=/home/chedong/classes

java.vm.specification.version=1.0

java.home=/usr/java/jdk1.3.1_04/jre

user.language=zh


java.specification.vendor=Sun Microsystems Inc.

java.vm.info=mixed mode

java.version=1.3.1_04

java.ext.dirs=/usr/java/jdk1.3.1_04/jre/lib/ext

sun.boot.class.path=/usr/java/jdk1.3.1_04/jre/lib/rt.jar:...

java.vendor=Sun Microsystems Inc.

file.separator=/

java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...

sun.cpu.endian=little

sun.io.unicode.encoding=UnicodeLittle

user.region=CN


sun.cpu.isalist=

Hello, it's: Tue Jul 30 11:49:36 CST 2002

======System available locales:========

en English

en_US English (United States)

ar Arabic

ar_AE Arabic (United Arab Emirates)

ar_BH Arabic (Bahrain)

ar_DZ Arabic (Algeria)

ar_EG Arabic (Egypt)

ar_IQ Arabic (Iraq)

ar_JO Arabic (Jordan)

ar_KW Arabic (Kuwait)

ar_LB Arabic (Lebanon)

ar_LY Arabic (Libya)

ar_MA Arabic (Morocco)

ar_OM Arabic (Oman)

ar_QA Arabic (Qatar)

ar_SA Arabic (Saudi Arabia)

ar_SD Arabic (Sudan)

ar_SY Arabic (Syria)

ar_TN Arabic (Tunisia)

ar_YE Arabic (Yemen)

be Byelorussian

be_BY Byelorussian (Belarus)

bg Bulgarian

bg_BG Bulgarian (Bulgaria)

ca Catalan

ca_ES Catalan (Spain)

ca_ES_EURO Catalan (Spain,Euro)

cs Czech

cs_CZ Czech (Czech Republic)

da Danish

da_DK Danish (Denmark)

de German

de_AT German (Austria)

de_AT_EURO German (Austria,Euro)

de_CH German (Switzerland)

de_DE German (Germany)

de_DE_EURO German (Germany,Euro)

de_LU German (Luxembourg)

de_LU_EURO German (Luxembourg,Euro)

el Greek

el_GR Greek (Greece)

en_AU English (Australia)

en_CA English (Canada)

en_GB English (United Kingdom)

en_IE English (Ireland)

en_IE_EURO English (Ireland,Euro)

en_NZ English (New Zealand)

en_ZA English (South Africa)

es Spanish

es_AR Spanish (Argentina)

es_BO Spanish (Bolivia)

es_CL Spanish (Chile)

es_CO Spanish (Colombia)

es_CR Spanish (Costa Rica)

es_DO Spanish (Dominican Republic)

es_EC Spanish (Ecuador)

es_ES Spanish (Spain)

es_ES_EURO Spanish (Spain,Euro)

es_GT Spanish (Guatemala)

es_HN Spanish (Honduras)

es_MX Spanish (Mexico)

es_NI Spanish (Nicaragua)

es_PA Spanish (Panama)

es_PE Spanish (Peru)

es_PR Spanish (Puerto Rico)

es_PY Spanish (Paraguay)

es_SV Spanish (El Salvador)

es_UY Spanish (Uruguay)

es_VE Spanish (Venezuela)

et Estonian

et_EE Estonian (Estonia)

fi Finnish

fi_FI Finnish (Finland)

fi_FI_EURO Finnish (Finland,Euro)

fr French

fr_BE French (Belgium)

fr_BE_EURO French (Belgium,Euro)

fr_CA French (Canada)

fr_CH French (Switzerland)

fr_FR French (France)

fr_FR_EURO French (France,Euro)

fr_LU French (Luxembourg)

fr_LU_EURO French (Luxembourg,Euro)

hr Croatian

hr_HR Croatian (Croatia)

hu Hungarian

hu_HU Hungarian (Hungary)

is Icelandic

is_IS Icelandic (Iceland)

it Italian

it_CH Italian (Switzerland)

it_IT Italian (Italy)

it_IT_EURO Italian (Italy,Euro)

iw Hebrew

iw_IL Hebrew (Israel)

ja Japanese

ja_JP Japanese (Japan)

ko 韩文

ko_KR 韩文 (大韩民国)

lt Lithuanian

lt_LT Lithuanian (Lithuania)

lv Latvian (Lettish)

lv_LV Latvian (Lettish) (Latvia)

mk Macedonian

mk_MK Macedonian (Macedonia)

nl Dutch

nl_BE Dutch (Belgium)

nl_BE_EURO Dutch (Belgium,Euro)

nl_NL Dutch (Netherlands)

nl_NL_EURO Dutch (Netherlands,Euro)

no Norwegian

no_NO Norwegian (Norway)

no_NO_NY Norwegian (Norway,Nynorsk)

pl Polish

pl_PL Polish (Poland)

pt Portuguese

pt_BR Portuguese (Brazil)

pt_PT Portuguese (Portugal)

pt_PT_EURO Portuguese (Portugal,Euro)

ro Romanian

ro_RO Romanian (Romania)

ru Russian

ru_RU Russian (Russia)

sh Serbo-Croatian

sh_YU Serbo-Croatian (Yugoslavia)

sk Slovak

sk_SK Slovak (Slovakia)

sl Slovenian

sl_SI Slovenian (Slovenia)

sq Albanian

sq_AL Albanian (Albania)

sr Serbian

sr_YU Serbian (Yugoslavia)

sv Swedish

sv_SE Swedish (Sweden)

th Thai

th_TH Thai (Thailand)

tr Turkish

tr_TR Turkish (Turkey)

uk Ukrainian

uk_UA Ukrainian (Ukraine)

zh 中文

zh_CN 中文 (中华人民共和国)

zh_HK 中文 (香港)

zh_TW 中文 (台湾)

======System property========

-- listing properties --

java.runtime.name=Java(TM) 2 Runtime Environment, Stand...

sun.boot.library.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...

java.vm.version=1.3.0_02

java.vm.vendor=Sun Microsystems Inc.

java.vendor.url=http://java.sun.com/

path.separator=;

java.vm.name=Java HotSpot(TM) Client VM

file.encoding.pkg=sun.io

java.vm.specification.name=Java Virtual Machine Specification

user.dir=D:/java/src/char_test

java.runtime.version=1.3.0_02

java.awt.graphicsenv=sun.awt.Win32GraphicsEnvironment

os.arch=x86

java.io.tmpdir=D:/TEMP/

line.separator=



java.vm.specification.vendor=Sun Microsystems Inc.

java.awt.fonts=

os.name=Windows 98

java.library.path=C:/WINDOWS;.;C:/WINDOWS/SYSTEM;C:/WIN...

java.specification.name=Java Platform API Specification

java.class.version=47.0

os.version=4.90

user.home=C:/WINDOWS

user.timezone=Asia/Shanghai

java.awt.printerjob=sun.awt.windows.WPrinterJob

file.encoding=GBK


java.specification.version=1.3

user.name=Sicci

java.class.path=d:/java/classes

java.vm.specification.version=1.0

java.home=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_02

user.language=zh


java.specification.vendor=Sun Microsystems Inc.

awt.toolkit=sun.awt.windows.WToolkit

java.vm.info=mixed mode

java.version=1.3.0_02

java.ext.dirs=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...

sun.boot.class.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...

java.vendor=Sun Microsystems Inc.

file.separator=/

java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...

sun.cpu.endian=little

sun.io.unicode.encoding=UnicodeLittle

user.region=CN


sun.cpu.isalist=pentium i486 i386

Hello, it's: Tue Jul 30 11:53:27 CST 2002

======System available locales:========

en English

en_US English (United States)

ar Arabic

ar_AE Arabic (United Arab Emirates)

ar_BH Arabic (Bahrain)

ar_DZ Arabic (Algeria)

ar_EG Arabic (Egypt)

ar_IQ Arabic (Iraq)

ar_JO Arabic (Jordan)

ar_KW Arabic (Kuwait)

ar_LB Arabic (Lebanon)

ar_LY Arabic (Libya)

ar_MA Arabic (Morocco)

ar_OM Arabic (Oman)

ar_QA Arabic (Qatar)

ar_SA Arabic (Saudi Arabia)

ar_SD Arabic (Sudan)

ar_SY Arabic (Syria)

ar_TN Arabic (Tunisia)

ar_YE Arabic (Yemen)

be Byelorussian

be_BY Byelorussian (Belarus)

bg Bulgarian

bg_BG Bulgarian (Bulgaria)

ca Catalan

ca_ES Catalan (Spain)

ca_ES_EURO Catalan (Spain,Euro)

cs Czech

cs_CZ Czech (Czech Republic)

da Danish

da_DK Danish (Denmark)

de German

de_AT German (Austria)

de_AT_EURO German (Austria,Euro)

de_CH German (Switzerland)

de_DE German (Germany)

de_DE_EURO German (Germany,Euro)

de_LU German (Luxembourg)

de_LU_EURO German (Luxembourg,Euro)

el Greek

el_GR Greek (Greece)

en_AU English (Australia)

en_CA English (Canada)

en_GB English (United Kingdom)

en_IE English (Ireland)

en_IE_EURO English (Ireland,Euro)

en_NZ English (New Zealand)

en_ZA English (South Africa)

es Spanish

es_AR Spanish (Argentina)

es_BO Spanish (Bolivia)

es_CL Spanish (Chile)

es_CO Spanish (Colombia)

es_CR Spanish (Costa Rica)

es_DO Spanish (Dominican Republic)

es_EC Spanish (Ecuador)

es_ES Spanish (Spain)

es_ES_EURO Spanish (Spain,Euro)

es_GT Spanish (Guatemala)

es_HN Spanish (Honduras)

es_MX Spanish (Mexico)

es_NI Spanish (Nicaragua)

es_PA Spanish (Panama)

es_PE Spanish (Peru)

es_PR Spanish (Puerto Rico)

es_PY Spanish (Paraguay)

es_SV Spanish (El Salvador)

es_UY Spanish (Uruguay)

es_VE Spanish (Venezuela)

et Estonian

et_EE Estonian (Estonia)

fi Finnish

fi_FI Finnish (Finland)

fi_FI_EURO Finnish (Finland,Euro)

fr French

fr_BE French (Belgium)

fr_BE_EURO French (Belgium,Euro)

fr_CA French (Canada)

fr_CH French (Switzerland)

fr_FR French (France)

fr_FR_EURO French (France,Euro)

fr_LU French (Luxembourg)

fr_LU_EURO French (Luxembourg,Euro)

hr Croatian

hr_HR Croatian (Croatia)

hu Hungarian

hu_HU Hungarian (Hungary)

is Icelandic

is_IS Icelandic (Iceland)

it Italian

it_CH Italian (Switzerland)

it_IT Italian (Italy)

it_IT_EURO Italian (Italy,Euro)

iw Hebrew

iw_IL Hebrew (Israel)

ja Japanese

ja_JP Japanese (Japan)

ko Korean

ko_KR Korean (South Korea)

lt Lithuanian

lt_LT Lithuanian (Lithuania)

lv Latvian (Lettish)

lv_LV Latvian (Lettish) (Latvia)

mk Macedonian

mk_MK Macedonian (Macedonia)

nl Dutch

nl_BE Dutch (Belgium)

nl_BE_EURO Dutch (Belgium,Euro)

nl_NL Dutch (Netherlands)

nl_NL_EURO Dutch (Netherlands,Euro)

no Norwegian

no_NO Norwegian (Norway)

no_NO_NY Norwegian (Norway,Nynorsk)

pl Polish

pl_PL Polish (Poland)

pt Portuguese

pt_BR Portuguese (Brazil)

pt_PT Portuguese (Portugal)

pt_PT_EURO Portuguese (Portugal,Euro)

ro Romanian

ro_RO Romanian (Romania)

ru Russian

ru_RU Russian (Russia)

sh Serbo-Croatian

sh_YU Serbo-Croatian (Yugoslavia)

sk Slovak

sk_SK Slovak (Slovakia)

sl Slovenian

sl_SI Slovenian (Slovenia)

sq Albanian

sq_AL Albanian (Albania)

sr Serbian

sr_YU Serbian (Yugoslavia)

sv Swedish

sv_SE Swedish (Sweden)

th Thai

th_TH Thai (Thailand)

tr Turkish

tr_TR Turkish (Turkey)

uk Ukrainian

uk_UA Ukrainian (Ukraine)

zh Chinese

zh_CN Chinese (China)

zh_HK Chinese (Hong Kong)

zh_TW Chinese (Taiwan)

======System property========

-- listing properties --

java.runtime.name=Java(TM) 2 Runtime Environment, Stand...

sun.boot.library.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...

java.vm.version=1.3.0_02

java.vm.vendor=Sun Microsystems Inc.

java.vendor.url=http://java.sun.com/

path.separator=;

java.vm.name=Java HotSpot(TM) Client VM

file.encoding.pkg=sun.io

java.vm.specification.name=Java Virtual Machine Specification

user.dir=D:/java/src/char_test

java.runtime.version=1.3.0_02

java.awt.graphicsenv=sun.awt.Win32GraphicsEnvironment

os.arch=x86

java.io.tmpdir=D:/TEMP/

line.separator=



java.vm.specification.vendor=Sun Microsystems Inc.

java.awt.fonts=

os.name=Windows 98

java.library.path=C:/WINDOWS;.;C:/WINDOWS/SYSTEM;C:/WIN...

java.specification.name=Java Platform API Specification

java.class.version=47.0

os.version=4.90

user.home=C:/WINDOWS

user.timezone=Asia/Shanghai

java.awt.printerjob=sun.awt.windows.WPrinterJob

file.encoding=Cp1252


java.specification.version=1.3

user.name=Sicci

java.class.path=d:/java/classes

java.vm.specification.version=1.0

java.home=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_02

user.language=en


java.specification.vendor=Sun Microsystems Inc.

awt.toolkit=sun.awt.windows.WToolkit

java.vm.info=mixed mode

java.version=1.3.0_02

java.ext.dirs=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...

sun.boot.class.path=C:/PROGRAM FILES/JavaSOFT/JRE/1.3.0_0...

java.vendor=Sun Microsystems Inc.

file.separator=/

java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...

sun.cpu.endian=little

sun.io.unicode.encoding=UnicodeLittle

user.region=GB


sun.cpu.isalist=pentium i486 i386

结论1：

JVM的缺省编码方式由系统的“本地语言环境”设置确定，和操作系统的类型无关 。所以当设置成相同的LOCALE 时，Linux和Windows下的缺省编码方式是没有区别的（可以认为cp1252=ISO-8859-1都是一样的西文编码方式，只包含255以下的拉丁字符），因此后面的测试2我只列出了GNU/Linux下LOCALE分别设置成zh_CN和en_US的测试结果输出。以下测试如果在 Windows下分别按照不同的区域和字符集设置后试验的输出是一样的。

试验2：Java的输入输出过程中的字节流到字符流的转换过程

通过这个HelloUnicode.java 程序，演示说明"Hello world 世界你好"这个字符串（16个字符）在不同缺省系统编码方式下的处理效果。在编码/解码的每个步骤之后，都打印出了相应字符串每个字符(Charactor)的byte值，short值和所在的UNICODE区间。

LANG=en_US LC_ALL=en_US

LANG=zh_CN LC_ALL=zh_CN.GBK

========testing1: write hello world to files========

[test 1-1]: with system default encoding=ISO-8859-1

string=Hello world 世界你好     length=20

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='?    byte=-54 /uFFFFFFCA     short=202 /uCA  LATIN_1_SUPPLEMENT

char[13]='?    byte=-64 /uFFFFFFC0     short=192 /uC0  LATIN_1_SUPPLEMENT

char[14]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT

char[15]='?    byte=-25 /uFFFFFFE7     short=231 /uE7  LATIN_1_SUPPLEMENT

char[16]='?    byte=-60 /uFFFFFFC4     short=196 /uC4  LATIN_1_SUPPLEMENT

char[17]='?    byte=-29 /uFFFFFFE3     short=227 /uE3  LATIN_1_SUPPLEMENT

char[18]='?    byte=-70 /uFFFFFFBA     short=186 /uBA  LATIN_1_SUPPLEMENT

char[19]='?    byte=-61 /uFFFFFFC3     short=195 /uC3  LATIN_1_SUPPLEMENT



第1步：在英文编码环境下，虽然屏幕上正确的显示了中文，

但实际上它打印的是“半个”汉字，将结果写入第1个文件 hello.orig.html




[test 1-2]: getBytes with platform default encoding and decoding as gb2312:

string=Hello world ???? length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='?'    byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='?'    byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='?'    byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='?'    byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



按系统缺省编码重新变成字节流，然后按照GB2312方式解码，这里虽然打印出的是问号

（因为当前的英文环境下系统对于255以上的字符是不知道用什么字符表示的，因此全部用?显示）

但从相应的UNICODE MAPPING和SHORT值我们可以知道字符是正确的中文



但下一步的写入第2个文件html.gb2312.html，

没有指定编码方式（按系统缺省的ISO-8859-1编码方式），

因此从后面的测试2－2读取的结果是真的'？'了




[test 1-3]: convert string to UTF8

string=Hello world 涓栫晫浣犲ソ length=24

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='?    byte=-28 /uFFFFFFE4     short=228 /uE4  LATIN_1_SUPPLEMENT

char[13]='?    byte=-72 /uFFFFFFB8     short=184 /uB8  LATIN_1_SUPPLEMENT

char[14]='?    byte=-106 /uFFFFFF96    short=150 /u96  LATIN_1_SUPPLEMENT

char[15]='?    byte=-25 /uFFFFFFE7     short=231 /uE7  LATIN_1_SUPPLEMENT

char[16]='?    byte=-107 /uFFFFFF95    short=149 /u95  LATIN_1_SUPPLEMENT

char[17]='?    byte=-116 /uFFFFFF8C    short=140 /u8C  LATIN_1_SUPPLEMENT

char[18]='?    byte=-28 /uFFFFFFE4     short=228 /uE4  LATIN_1_SUPPLEMENT

char[19]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT

char[20]='?    byte=-96 /uFFFFFFA0     short=160 /uA0  LATIN_1_SUPPLEMENT

char[21]='?    byte=-27 /uFFFFFFE5     short=229 /uE5  LATIN_1_SUPPLEMENT

char[22]='?    byte=-91 /uFFFFFFA5     short=165 /uA5  LATIN_1_SUPPLEMENT

char[23]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT



第3个试验，将字符流按照UTF8方式编码后，写入第3个测试文件hello.utf8.html，

我们可以看到UTF8对英文没有影响，但对于其他文字使用了3字节编码方式，

因此比GB2312编码方式的存储要大50%，




========Testing2: reading and decoding from files========

[test 2-1]: read hello.orig.html: decoding with system default encoding

string=Hello world 世界你好     length=20

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='?    byte=-54 /uFFFFFFCA     short=202 /uCA  LATIN_1_SUPPLEMENT

char[13]='?    byte=-64 /uFFFFFFC0     short=192 /uC0  LATIN_1_SUPPLEMENT

char[14]='?    byte=-67 /uFFFFFFBD     short=189 /uBD  LATIN_1_SUPPLEMENT

char[15]='?    byte=-25 /uFFFFFFE7     short=231 /uE7  LATIN_1_SUPPLEMENT

char[16]='?    byte=-60 /uFFFFFFC4     short=196 /uC4  LATIN_1_SUPPLEMENT

char[17]='?    byte=-29 /uFFFFFFE3     short=227 /uE3  LATIN_1_SUPPLEMENT

char[18]='?    byte=-70 /uFFFFFFBA     short=186 /uBA  LATIN_1_SUPPLEMENT

char[19]='?    byte=-61 /uFFFFFFC3     short=195 /uC3  LATIN_1_SUPPLEMENT



按系统从中间存储hello.orig.html文件中读取相应文件，

虽然是按字节方式（半个“字”）读取的，但由于能完整的还原，因此输出显示没有错误。

其实PHP等应用很少出现字符集问题其实就是这个原因，全程都是按字节流方式处理，

很好的还原了输入，但这样处理的同时也失去了对字符的控制




[test 2-2]: read hello.gb2312.html: decoding as GB2312

string=Hello world ???? length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN

char[13]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN

char[14]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN

char[15]='?'    byte=63 /u3F    short=63 /u3F   BASIC_LATIN



最惨的就是输出的时候这些'?'真的是问号char(63)了，

数据如果是这样就真的没救了




[test 2-3]: read hello.utf8.html: decoding as UTF8

string=Hello world ???? length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='?'    byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='?'    byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='?'    byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='?'    byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



great! 字符虽然显示为'?'，但实际上字符的解码是正确的，

从相应的UNICODE MAPPING就可以看的出来。

    ========Testing1: write hello world to files========

[test 1-1]: with system default encoding=GBK

string=Hello world 世界你好     length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



注意：在新的语言环境中做以上测试需要将源程序重新编译，

最早的字节流到字符流的解码过程从JavaC编译源文件就开始了，

这个测试和刚才最大的不同在于源文件中的“世界你好”这4个字是否按中文编码方式

编译导程序里的，而不是按字节方式编译成8个字符（实际上对应的是8个字节）在程序里。






[test 1-2]: getBytes with platform default encoding and decoding as gb2312:

string=Hello world 世界你好     length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



在中文环境下，解码和上面缺省的编码是一致的，因此输出一致




[test 1-3]: convert string to UTF8

string=Hello world 涓栫晫浣犲ソ length=18

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='涓'   byte=-109 /uFFFFFF93    short=28051 /u6D93      CJK_UNIFIED_IDEOGRAPHS

char[13]='栫'   byte=43 /u2B    short=26667 /u682B      CJK_UNIFIED_IDEOGRAPHS

char[14]='晫'   byte=107 /u6B   short=26219 /u666B      CJK_UNIFIED_IDEOGRAPHS

char[15]='浣'   byte=99 /u63    short=28003 /u6D63      CJK_UNIFIED_IDEOGRAPHS

char[16]='犲'   byte=-78 /uFFFFFFB2     short=29362 /u72B2      CJK_UNIFIED_IDEOGRAPHS

char[17]='ソ'   byte=-67 /uFFFFFFBD     short=12477 /u30BD      KATAKANA



其实我们用于测试的终端窗口就是一个GBK字符集的应用，

这个输出其实都是把UNICODE按GBK字符集解码的效果。






========Testing2: reading and decoding from files========

[test 2-1]: read hello.orig.html: decoding with system default encoding

string=Hello world 世界你好     length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



[test 2-2]: read hello.gb2312.html: decoding as GB2312

string=Hello world 世界你好     length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



[test 2-3]: read hello.utf8.html: decoding as UTF8

string=Hello world 世界你好     length=16

char[0]='H'     byte=72 /u48    short=72 /u48   BASIC_LATIN

char[1]='e'     byte=101 /u65   short=101 /u65  BASIC_LATIN

char[2]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[3]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[4]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[5]=' '     byte=32 /u20    short=32 /u20   BASIC_LATIN

char[6]='w'     byte=119 /u77   short=119 /u77  BASIC_LATIN

char[7]='o'     byte=111 /u6F   short=111 /u6F  BASIC_LATIN

char[8]='r'     byte=114 /u72   short=114 /u72  BASIC_LATIN

char[9]='l'     byte=108 /u6C   short=108 /u6C  BASIC_LATIN

char[10]='d'    byte=100 /u64   short=100 /u64  BASIC_LATIN

char[11]=' '    byte=32 /u20    short=32 /u20   BASIC_LATIN

char[12]='世'   byte=22 /u16    short=19990 /u4E16      CJK_UNIFIED_IDEOGRAPHS

char[13]='界'   byte=76 /u4C    short=30028 /u754C      CJK_UNIFIED_IDEOGRAPHS

char[14]='你'   byte=96 /u60    short=20320 /u4F60      CJK_UNIFIED_IDEOGRAPHS

char[15]='好'   byte=125 /u7D   short=22909 /u597D      CJK_UNIFIED_IDEOGRAPHS



结论：如果后台数据采用UNICODE方式的存储

然后根据需要指定字符集编码、解码方式，则应用几乎可以不受前端应用所处

环境字符集设置的影响

试验2的一些结论：

所有的应用都是按照字节流=>字符流=>字节流方式进行的处理的：
byte_stream ==[input decoding]==> unicode_char_stream ==[output encoding]==> byte_stream；
在Java字节流到字符流（或者反之）都是含有隐含的解码处理的（缺省是按照系统缺省编码方式）；
最早的字节流解码过程从javac的代码编译就开始了；
Java中的字符character存储单位是双字节的UNICODE；

试验3：WEB应用中的输入输出中的编码问题：Java是为做国际化应用设计的， Servlet应根据浏览器语言设置自动切换字符集配置

首先一个概念：即使是基于Java的WEB应用，在服务器和客户端之间传递的仍然是字节流，比如我从一个中文客户端的浏览器表单中提交“世界你好”这4个中文字到服务器时：首先浏览器按照GBK方式编码成字节流CA C0 BD E7 C4 E3 BA C3，然后8个字节按照URLEncoding的规范转成：%CA%C0%BD%E7%C4%E3%BA%C3，服务器端的Servlet接收到请求后应该按什么解码处理，输出时又应该按什么方式编码行字节流呢？

在目前的Servlet的规范中，如果不指定的话通过WEB提交时的输入ServletRequest和输出时的 ServletResponse缺省都是ISO-8859-1方式编/码解码的（注意，这里的编码/解码方式是和操作系统环境中的语言环境是无关的）。因此，即使服务器操作系统的语言环境是中文，上面输入的请求仍然按英文解码成8个UNICODE字符，输出时仍按照英文再编码成8个字节，虽然这样在浏览器端如果设置是中文能够正确显示，但实际上读写的是“字节”，正确的方式是应该根据客户端浏览器设置ServletRequest和 ServletResponse用相应语言的编码方式进行输入解码/输入编码，HelloUnicodeServlet.java 就是这样一个监测客户端浏览器语言设置的例子：

当根据浏览器的头信息中的"Accept-Language"为zh-cn（中文）时，设置请求的解码方式和输出的字符集编码方式使用GBK：

        //auto detect broswer's languages

        String clientLanguage = req.getHeader("Accept-Language");

        

        //for Simplied Chinese        

        if ( clientLanguage.equals("zh-cn") ) {            

            req.setCharacterEncoding("GBK");

            res.setContentType("text/html; charset=GBK");

        }

输出为：

'世界你好' length=4

ServletRequest's Charset Encoding = GBK 

ServletResponse's Charset Encoding = GBK 

char[0]='世' byte=22 /u16 short=19990 /u4E16 CJK_UNIFIED_IDEOGRAPHS

char[1]='界' byte=76 /u4C short=30028 /u754C CJK_UNIFIED_IDEOGRAPHS

char[2]='你' byte=96 /u60 short=20320 /u4F60 CJK_UNIFIED_IDEOGRAPHS

char[3]='好' byte=125 /u7D short=22909 /u597D CJK_UNIFIED_IDEOGRAPHS

再做一个试验：把程序开头部分的浏览器自动检测功能注释掉，再次的输出结果就是和目前很多应用一样其实是按ISO-8859-1方式解码/编码的“字节应用”了：

'世界你好' length=8

ServletRequest's Charset Encoding = null 

ServletResponse's Charset Encoding = ISO-8859-1 

char[0]='? byte=-54 /uFFFFFFCA short=202 /uCA LATIN_1_SUPPLEMENT

char[1]='? byte=-64 /uFFFFFFC0 short=192 /uC0 LATIN_1_SUPPLEMENT

char[2]='? byte=-67 /uFFFFFFBD short=189 /uBD LATIN_1_SUPPLEMENT

char[3]='? byte=-25 /uFFFFFFE7 short=231 /uE7 LATIN_1_SUPPLEMENT

char[4]='? byte=-60 /uFFFFFFC4 short=196 /uC4 LATIN_1_SUPPLEMENT

char[5]='? byte=-29 /uFFFFFFE3 short=227 /uE3 LATIN_1_SUPPLEMENT

char[6]='? byte=-70 /uFFFFFFBA short=186 /uBA LATIN_1_SUPPLEMENT

char[7]='? byte=-61 /uFFFFFFC3 short=195 /uC3 LATIN_1_SUPPLEMENT

虽然这样的输出结果如果在浏览器中设置用中文字符集也能正确显示，但实际上处理的已经是“字节”而不是处理中文“字符”了。ServletRequest 和 ServletResponse 缺省使用ISO-8859-1字符集解码/编码的具体定义请参考：
http://java.sun.com/products/servlet/2.3/javadoc/javax/servlet/ServletRequest.html#setCharacterEncoding(java.lang.String)
http://java.sun.com/products/servlet/2.3/javadoc/javax/servlet/ServletResponse.html#setContentType()

以前能够配置让一个WEB应用能够在GBK方式编码的中文Windows2000服务器上和按ISO-8859-1方式编码的GNU/Linux上都能够正确的显示中文一直让我迷惑了很久。我仔细想了一下，后来终于想明白了，在一个国际化的应用中：ServletRequest和 ServletResponse的编码/解码方式的确不应该根据服务器设置成固定的字符集，而应该是面向客户端语言环境进行输入/输出编码方式的自适应 。一个按照国际化规范设计的WEB应用中：

在Servlet的源代码中尽量不要有中文：因为在MVC模式中，Servlet主要是控制器（C）的角色，因此，应该通过 ResourceBundle机制由Servlet控制转向到相应的显示器（JSP或者XSLT）中，所以应该将与本地界面语言相关的界面显示的部分从 Servlet和后台的模块中完全剥离出来，放到相应的ResourceBundle 文件中或者XSLT文件中。这样源程序里完全是英文，编译时完全不需要考虑字符集的问题。

如果Servlet实在需要包含中文，则需要设置应用服务器的Javac编译选项，加上-encoding选项成系统缺省的字符集，如果把用中文编写的字符按照英文方式解码编译，然后再按照英文方式输出，虽然结果表面正确，实际上都成了面向“字节”编程。

在Servlet层，应该像GOOGLE搜索引擎那样，设计成能够根据客户端浏览器的语言环境自适应输出，为了判断浏览器的语言Servlet中应该有类似以下的代码：

    public void doGet (HttpServletRequest req, HttpServletResponse res)

            throws ServletException, IOException {

        //从HTTP请求的头信息中获取客户端的语言设置

        String clientLanguage = req.getHeader("Accept-Language");

        

        //简体中文浏览器     

        if ( clientLanguage.equals("zh-cn") ) {            

            req.setCharacterEncoding("GBK");

            res.setContentType("text/html; charset=GBK");

        }

        //繁体中文浏览器

        else if ( clientLanguage.equals("zh-tw") ) {

            req.setCharacterEncoding("BIG5");

            res.setContentType("text/html; charset=BIG5");

        }

        //日文浏览器

        else if ( clientLanguage.equals("jp") ) {

            req.setCharacterEncoding("SJIS");

            res.setContentType("text/html; charset=SJIS");

        }

        //缺省认为是英文浏览器

        else {

            req.setCharacterEncoding("ISO-8859-1");

            res.setContentType("text/html; charset=ISO-8859-1");

        }

        ...

        //设置好request的解码方式和response的编码方式后，进行后续的操作。

        //比如再转向到HelloWorld.gbk.jsp HelloWorld.big5.jsp HelloWorld.jis.jsp等

    }

而SERVLET缺省将字符集设置为ISO-8859-1也许是标准制定者认为英文的浏览器占大多数吧（而且按照ISO-8859-1方式输出界面往往也是正确的）。

结论：

过以上几个Java试验程序得出的一些结论：

Java环境是基于操作系统上的一个虚拟机应用，因此，如果操作系统遵循国际化规范：JVM的缺省编码方式可以通过修改操作系统的LOCALE设置实现。对于一个Java应用来说，只要将LINUX的缺省编码方式设置成GBK，其文字编码处理应该和中文Windows平台上的表现是一致的。
redhat 6.X使用linux内核的是基于glibc2.1.X，不支持中文LOCALE，因此无法通过改变LOCALE设置改变JVM的缺省编码方式，linux内核2.4开始基于glibc.2.2.x，对中文LOCALE有了比较好的支持。
不同的JVM对字符集的支持程度不同：
比如：IBM的JVM1.3.0开始支持GB18030，SUN的JVM从1.4开始支持GB18030
正确的编码方式不一定表示能正确的显示，正确的显示还要需要相应的前端显示系统（字库）的支持
但对于Linux上的服务应用来说，往往只要能确认字符正确的按照指定的方式编码就够了
如果应用的是基于UNICODE的编码方式处理并使用UTF8字符集做集中存储，这样最便于根据客户端语言环境做本地化输出；

根据以上结论，设计一个适应多语言环境的应用，可以考虑一下2个应用处理模式：

（客户端应用或本地化应用）根据LOCALE，让Java应用根据系统LOCALE的缺省的字符集设置进行切换，按系统缺省的字符集进行编码解码，减少应用在编码处理上的复杂程度。
输入字节流 ==>按系统语言字符集设置将字节流解码==> UNICODE处理 ==> 按系统语言字符集设置将UNICODE编码成字节流 ==> 输出字节流

（服务器端或跨语言平台应用）：在应用的最外端：数据输入输出判断用户语言环境，核心按照UNICODE方式处理存储。可以把各种区域性的字符集（GB2312 BIG5）看成是UNICODE的一个子集。UNICODE存储的数据可以方便的转换成任意字符集。
应用使用UTF8方式存储虽然要增加了存储空间，但也可以大大简化前端应用本地化(i10n)的复杂程度。

简体中文输入 繁体中文输入                 简体中文输出 繁体中文输出

        /   /                                     /     /

   判断用户语言环境：解码            判断用户语言环境：编码

                  /                  /

                  中间处理过程：UNICODE

                           |

                      UTF8编码存储

随着UNICODE被愈来愈多的系统和平台支持：Python Perl Glibc等，但我们应该珍惜一开始就按照国际化规范设计Java，并将其和新发展起来的XML规范相配合，相信符合国际化规范的应用设计从长远来看会展现出更多的优势。

TODO：
数据库应用中的字符集问题试验：MySQL Oracle JDBC

参考文档：
Java的国际化设计
http://java.sun.com/docs/books/tutorial/i18n/index.html

Linux 国际化本地化和中文化
http://www.linuxforum.net/doc/i18n-new.html

Linux 程序员必读：中文化与GB18030标准
http://www.ccidnet.com/tech/os/2001/07/31/58_2811.html

Unicode FAQ
http://www.cl.cam.ac.uk/~mgk25/unicode.html
http://www.linuxforum.net/books/UTF-8-Unicode.html （中文版）

Java 编程技术中汉字问题的分析及解决
http://www-900.ibm.com/developerWorks/cn/java/java_chinese/index.shtml

汉字的编码方式：
http://www.unihan.com.cn/cjk/ana17.htm

不同版本的JVM支持的编码方式
http://java.sun.com/j2se/1.3/docs/guide/intl/encoding.doc.html
http://java.sun.com/j2se/1.4/docs/guide/intl/encoding.doc.html

附录：

A. The Unicode 2.0 Character Set

你可能感兴趣的:(Java中文处理学习笔记——Hello Unicode)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。