weixin_33973609

Debian中文环境配置及几种中文编码的探究

国际化（Internationalization，简写为I18N）是指软件能用于多国语言环境的能力，它在系统的低层函数库中提供一组标准的函数接口，能根据本地化（locale）设置显示该地区语言环境的信息。本地化（Localization

简写为L10N）是指将本地区的语言环境数据安装在系统底层的数据库中，以便让系统函数存取来显示正确的文字信息。多语言化（Multilingualization

简写为M17N）是指程序可以处理多种语言的过程。本地化和多语言化都是国际化框架中的组成部份。

本地化在Linux中通过locale来设置程序运行的不同语言环境，locale是（Local

Environment）的缩写，它是一个语言环境数据库。locale的命名规则为语言>_地区>.字符集编码>，如zh_CN.UTF-8，zh代表中文，CN代表大陆地区，UTF-8表示字符集编码方式。在locale环境中，有一组变量，代表国际化环境中的不同设置：

LC_COLLATE

定义该环境的排序和比较规则

LC_CTYPE

用于字符分类和字符串处理，控制所有字符的处理方式，包括字符编码，字符是单字节还是多字节，如何打印等。是最重要的一个环境变量。

LC_MONETARY

货币格式

LC_NUMERIC

非货币的数字显示格式

LC_TIME

时间和日期格式

LC_MESSAGES

应用程序显示信息的语言。另外还有一个LANGUAGE参数，它与LC_MESSAGES相似，但如果该参数一旦设置，则LC_MESSAGES参数就会失效。LANGUAGE参数可同时设置多种语言信息，如LANGUANE="zh_CN.GB18030:zh_CN.GB2312:zh_CN"。

LANG

LC_*的默认值，是最低级别的设置，如果LC_*没有设置，则使用该值。类似于 LC_ALL。

LC_ALL

它是一个宏，如果该值设置了，则该值会覆盖所有LC_*的设置值。注意，LANG的值不受该宏影响。

一个例子：

设置前，使用默认locale：

debian:~# locale

LANG="POSIX"

LC_CTYPE="POSIX"

LC_NUMERIC="POSIX"

LC_TIME="POSIX"

LC_COLLATE="POSIX"

LC_MONETARY="POSIX"

LC_MESSAGES="POSIX"

LC_PAPER="POSIX"

LC_NAME="POSIX"

LC_ADDRESS="POSIX"

LC_TELEPHONE="POSIX"

LC_MEASUREMENT="POSIX"

LC_IDENTIFICATION="POSIX"

LC_ALL=

设置后，使用zh_CN.GBK中文locale：

debian:~# export LC_ALL=zh_CN.GBK

debian:~# locale

LANG=zh_CN.UTF-8

LC_CTYPE="zh_CN.GBK"

LC_NUMERIC="zh_CN.GBK"

LC_TIME="zh_CN.GBK"

LC_COLLATE="zh_CN.GBK"

LC_MONETARY="zh_CN.GBK"

LC_MESSAGES="zh_CN.GBK"

LC_PAPER="zh_CN.GBK"

LC_NAME="zh_CN.GBK"

LC_ADDRESS="zh_CN.GBK"

LC_TELEPHONE="zh_CN.GBK"

LC_MEASUREMENT="zh_CN.GBK"

LC_IDENTIFICATION="zh_CN.GBK"

LC_ALL=zh_CN.GBK

"C"是系统默认的locale，"POSIX"是"C"的别名。所以当我们新安装完一个系统时，默认的locale就是C或POSIX。

在Debian中安装locales的方法如下：

通过apt-get

install locales命令安装locales包

安装完成locales包后，系统会自动进行locale配置，你只要选择所需的locale，可以多选。最后指定一个系统默认的locale。这样系统就会帮你自动生成相应的locale和配置好系统的locale。

增加新的locale也很简单，用dpkp-reconfigure

locales重新配置locale即可。

我们也可手动增加locale，只要把新的locale增加到/etc/locale.gen文件中，再运行locale-gen命令即可生成新的locale。再通过设置上面介绍的LC_*变量就可设置系统的locale了。下是一个locale.gen文件的样例。

· # This file lists locales that you wish to have built. You can find a list

· # of valid supported locales at /usr/share/i18n/SUPPORTED. Other

· # combinations are possible, but may not be well tested. If you change

· # this file, you need to rerun locale-gen.

· #

· zh_CN.GBK GBK

· zh_CN.GB18030 GB18030

· zh_CN.UTF-8 UTF-8

在安装了locale支持的系统中，在/usr/share/locale目录下保存locale的信息，在/usr/share/consolefonts目录下保存字体信息，在/usr/lib/gconv目录下保存字符转换模块的信息。总结：如果要在Linux下正确显示中文信息，需要做以下工作。

系统本身要有国际化支持，Linux的国际化支持是很完善的。

安装本地locale，如：zh_CN.GB2312、zh_CN.GBK、zh_CN.GB18030、zh_CN.UTF-8等。

安装中文字体，如：文泉驿和文鼎的中文字体等。

设置中文的环境变量，如：LANG=zh_CN.GB2312、LANG=zh_CN.UTF-8等。有几个地方都可以设置locale环境变量。

一个是在X

Window的登录管理器中可以设置，如GDM、KDM。

一个是在X Window

Session初始化时设置，在/etc/X11/Xsession.d目录下的所有脚本在X Window

Session初始化时都会自动运行，所以我们可把export

LANG="zh_CN.GB18030"这条设置命令放到任意的脚本中。建议放到中文输入法的启动脚本中。示例：（这是我手工创建的启动fcitx中文输入法的脚本91fcitx）

o debian:/etc/X11/Xsession.d# cat 91fcitx

o export LANG="zh_CN.UTF-8"

o export XMODIFIERS="@im=fcitx"

o export XIM_PROGRAM=fcitx

o export XIM=fcitx

o fcitx&

在shell的启动脚本中设置，如在.bashrc、.bash_profile等文件中直接加入export

LANG="zh_CN.UTF-8"命令。

还可以在shell中直接用export

LANG="zh_CN.UTF-8"命令设置。但如果使用该命令设置的环境变量只在当前shell中有效。

在应用程序中配置使用中文显示。

要在Shell中正常显示系统的中文提示信息和支持中文输入。LANG和shell的编码配置需一致，并安装有中文locale。如：LANG和shell的编码都配置成zh_CN.utf8，并安装有zh_CN.utf8这个locale。如果shell和LANG配置不同，则中文显示乱码；如果LANG里设置的locale没有安装，则不能显示系统的中文提示信息，只会显示英文提示信息。

在不同的locale环境下会生成具有不同编码的文件，如在gb2312环境下创建的文件就具有gb2312编码，在utf-8环境下创建的文件就具有utf-8编码。如果我们在gb2312环境下打开utf-8编码的文件中文部份就会显示乱码。在Linux中有一个叫iconv的程序可以帮助我们进行文件编码的转换工作。下面的示例是把一个使用gb2312编码的文件转换成utf-8编码的文件：

debian:~/Desktop# iconv -f gb2312 -t utf-8 7月.txt -o 77.txt

-f选项指定源文件的编码，-t选项指定转换后文件的编码，7月.txt是要转换的文件，-o选项指定转换后输出的文件名。

另注：

内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的.现在的Windows

在内部统一使用Unicode，然后用代码页适应各种语言,“内码”的概念就比较模糊了。微

软一般将缺省代码页指定的编码说成是内码，在特殊的场合也会说自己的内码是Unicode，

例如在GB18030问题的处理上。

所谓代码页(code page)就是针对一种语言文字的字符编码。例如GBK的code page是CP936，BIG5的code page是CP950，GB2312的code page是CP20936。微软也为GB18030定义了code page：CP54936。但是由于GB18030有一部分4字节编码，而Windows的代码页只支持单字节和双字节编码，所以这个code page是无法真正使用的。

Windows中有缺省代码页的概念，即缺省用什么编码来解释字符。例如Windows的记事本打

开了一个文本文件，里面的内容是字节流：BA、BA、D7、D6。Windows是按照Unicode编码解释、还是按照GBK、或者按照BIG5，又或者按照ISO8859-1去解释？如果按GBK去解释，就会得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符，也可能找到错误的字符。所谓“错误”是指与文本作者的本意不符，这时就产生了乱码。

答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控

制面板的区域选项设置。记事本的“另存为”功能中有一项ANSI，其实就是按照缺省代码页的编码方法保存。

Windows的内码是Unicode，它在技术上可以同时支持多个代码页。只要文件能说明自己使

用什么编码，用户又安装了对应的代码页，Windows就能正确显示，例如在HTML文件中就可

以指定charset。有的HTML文件作者，特别是英文作者，认为世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之间的字符，中文Windows又按照缺省的GBK去解释，就会出现乱码。这时需要在这个html文件中加上指定charset的语句，例如：如果原作者使用的代码页和ISO8859-1兼容，就不会出现乱码了。

GB18030编码研究以及GBK、GB18030与Unicode的映射

GB18030有两个版本：GB18030-2000和GB18030-2005。在本文中，没有指明版本的GB18030是指GB18030-2005。本文讨论了以下问题：

GB2312有682个图形符号，都放在1区。GBK的1区有717个图形符号，5区有

166个图形符号，一共有883个图形符号。GB18030的1区有728个图形符号，5区还是166个符号。那么，GBK的1区在GB2312基础上增

加了哪35个符号？GB18030又增加了哪些符号？

GBK支持21003个汉字与883个图形符号，一共21886个字符。这21886个字符究竟是哪些字符？这21886个字符的编码在GB18030中有什么变化？

GB18030是怎样映射Unicode的全部0x110000个码位的？

GB18030-2000和GB18030-2005在字汇上有什么区别，在编码上有什么区别？

GB18030-2005的双字节区中有2067个码位被映射到Unicode BMP的PUA。这些码位有什么规律？这些码位中定义了多少字符？其实这2067个码位中只定义了24个字符。

GBK的21886个字符中有95个字符被映射到Unicode BMP的PUA。在GB18030中这95个字符的编码有哪些变化？哪些字符保持了原来的编码？

GBK的23940个码位中有多少码位被映射到Unicode BMP的PUA？在GB18030中这些码位的编码有什么变化？

在讨论这些问题前，我们先约定一下码位空间的表示方法。

0 码位空间

0.1 约定

GBK是双字节编码，每个字符用两个字节表示。GB18030是多字节字符集，它的字符可以用一个、两个或四个字节表示。码位空间由各字节的范围确定。例如：GB18030的四字节字符码位空间是：

第一字节在0x81~0xFE之间

第二字节在0x30~0x39之间

第三字节在0x81~0xFE之间

第四字节在0x30~0x39之间

为了表述方便，我们用0x81308130~0xFE39FE39表示这个码位空间。也就是说：在本文中0x81308130~0xFE39FE39所指的并不是从0x81308130到0xFE39FE39的连续2097773834（0xFE39FE39-0x81308130+1）个字节。在本文中，0x81308130~0xFE39FE39所指的是编码的各字节在对应范围内的码位空间，这个码位空间的码位数目是：

(0xFE-0x81+1)*(0x39-0x30+1)*(0xFE-0x81+1)*(0x39-0x30+1)=126*10*126*10=1587600

同理，0xB0A1~0xF7FE代表的码位空间是第一字节在0xB0~0xF7之间，第二字节在0xA1~0xFE之间的所有码位。这个码位空间的码位数目是：

(0xF7-0xB0+1)*(0xFE-0xA1+1)=72*94=6768

这个码位空间就是GBK和GB18030的2区，在这6768个码位中定义了6763个字符。

本文用~表示上述码位空间，用-表示一般的范围，即：

0xA1A1~0xA9FE 表示第一字节在0xA1到0xA9之间，第二字节在0xA1~0xFE之间的846（(0xA9-0xA1+1)*(0xFE-0xA1+1)=9*94）个码位。

0xE000-0xF8FF 表示从0xE000-0xF8FF的连续6400（0xF8FF-0xE000+1）个码位。

0.2 习题

读者如果已经理解了上面的约定，请完成下面两个习题：

习题一：求码位空间0x8140~0xFE7E的码位数目。

习题二：求码位空间0x8180~0xFEFE的码位数目。

0.3 答案

以下是习题0.2的答案：

习题一：(0xFE-0x81+1)*(0x7E-0x40+1)=126*63=7938

习题二：(0xFE-0x81+1)*(0xFE-0x80+1)=126*127=16002

GB18030双字节字符的码位空间就是0x8140~0xFE7E和0x8180~0xFEFE，双字节字符的码

位数目是7938+16002=23940。0x8140~0xFE7E和0x8180~0xFEFE也是GBK的全部码位空间。GBK在这23940个

码位中定义了21886个字符。

１ GBK回顾

1.1 简介

GBK是双字节编码方案。它的码位空间就是前面所说的0x8140~0xFE7E和0x8180~0xFEFE，一共23940个码位。在这23940个码位上定义了21886个字符，包括21003个汉字和883个图形符号。

《Unicode、GB2312、GBK和GB18030中的汉字》

详细讨论了这21003个汉字。本文的第3节会讨论GB2312、GBK和GB18030的图形符号。

GBK的码位空间可以划分为以下区域：

类别

区名

码位范围

码位数

字符数

符号区

1区

0xA1A1~0xA9FE

846

717

5区

0xA840~0xA97E和0xA880~0xA9A0

192

166

汉字区

2区

0xB0A1~0xF7FE

6768

6763

3区

0x8140~0xA07E和0x8180~0xA0FE

6080

4区

0xAA40~0xFE7E和0xAA80~0xFEA0

8160

用户自定义区

用户区1

0xAAA1~0xAFFE

564

用户区2

0xF8A1~0xFEFE

658

用户区3

0xA140~0xA77E和0xA180~0xA7A0

672

1.2 GBK字符与Unicode的映射

我制作了一个Excel文件：

附件1

。这个文件包含3张表格：

按照GBK编码排序的GBK全部21886字符码表。这个表格有3列：字符、GBK编码、Unicode编码。

按照Unicode编码排序的GBK全部21886字符码表。这个表格有3列：字符、Unicode编码、GBK编码。

从

按Unicode编码排序的表格中，很容易找到被映射到PUA（0xE000-0xF8FF）的字符。GBK的21886个字符中有95个字符属于

PUA。第三张表格列出了这95个字符（A列）的GBK编码（B列）、Unicode编码（C列）以及这些字符在GB18030中对应的Unicode编

码（D列）。

其中D列可能不太容易理解，我再解释一下。GB18030是兼容GBK的，所以这些字符的GBK编码和GB18030编码是相同的。

例如的GBK编码和GB18030编码都是0xA8BF。但是在GBK和GB18030中，被映射到不同的Unicode码位。在GBK

中，0xA8BF被映射到Unicode的0xE7C8。在Unicode中，码位0xE7C8是一个PUA码位，保留给用户使用。在GB18030

中，0xA8BF被映射到Unicode的0x01F9。在Unicode中，码位0x01F9属于“拉丁字母扩充-B”这个Block，这个码位定义的

字符是“带抑音符的拉丁文小写字母 N”，字形就是。

1.3 GBK码位与Unicode的映射

GBK的23940个码位定义了21886个字符，还有23940-21886=2054个空闲码位，这2054个

码位都被映射到Unicode的PUA。在设计GBK时，GBK的21886个字符中有95个在Unicode中没有对应字符，所以这95个字符也被映射

到Unicode的PUA。在GBK的23940个码位中，一共有2054+95=2149个码位被映射到PUA，对应的PUA编码是

0xE000-0xE864。0xE000-0xE864就是2149个码位。这2149个码位的分配有以下规律：

码位所在区域

码位数量

映射到的PUA范围

用户区1：0xAAA1~0xAFFE

564

0xE000-0xE233

用户区2：0xF8A1~0xFEFE

658

0xE234-0xE4C5

用户区3：0xA140~0xA77E和A180-A7A0

672

0xE4C6-0xE765

符号区（1区和5区）的170个空闲码位

170

0xE766-0xE80F

2区的5个空闲码位：0xD7FA-0xD7FE

0xE810-0xE814

4区的80个Unicode当时没有定义的字符：FE50-FE7E和FE80-FEA0

0xE815-0xE864

附件2

包含两张表格：

23940个GBK码位与Unicode的映射。两组数据分别按GBK和Unicode排序。

2149个映射到PUA的码位，按Unicode顺序排列。

2 GB18030编码

2.1 概述

GB18030是多字节字符集，它的字符可以用一个、两个或四个字节表示。GB18030的码位定义如下：

字节数

码位空间

码位数

字符数

单字节

0x00~0x7F

128

双字节

0x8140~0xFE7E和0x8180~0xFEFE

23940

21897

四字节

0x81308130~0xFE39FE39

1587600

54531

GB18030有128+23940+1587600=1611668个码位。Unicode的码位数目是0x110000（1114112），少于GB18030。所以，GB18030有足够的空间映射Unicode的所有码位。

GB18030的1611668个码位目前定义了128+21897+54531=76556个字符。Unicode 5.0定义了99089个字符。

2.2 设计思路

GB18030编码可以分为：单字节部分、双字节部分和四字节部分。单字节部分与Unicode的0x00-0x7f完全相同。双字节部分与GBK有两点差异：

在1区增加了11个字符。这样1区就有717+11=728个字符。增加的11个字符是：一个欧元符号（0xA2E3）和10个竖排标点符号（0xA6D9-0xA6DF、0xA6EC-0xA6ED和0xA6F3）。

原来因为Unicode没有收录而映射到PUA的字符中的部分字符被新版本的Unicode收录，所以将这些字符映射到非PUA的码位。

Unicode的BMP一共有65536个码位。其中代理区（0xD800-0xDFFF）有2048个码位，这

2048个码位是不能定义字符的。GB18030的单字节部分映射了128个码位，GB18030的双字节部分映射了23940个码位。还剩下

65536-2048-128-23940=39420个码位。

GB18030将这39420个码位顺序映射到从0x81308130开始的码位空间。GB18030将

Unicode的16个辅助平面（0x10000-0x10FFFF，一共1048576个码位）顺序映射到从0x90308130开始的码位空间。

GB18030四字节部分中只有这两个区域定义了字符，其它空间都是保留区和自定义区。本文的第3节和第4节还会详细讨论GB18030的双字节和四字节

部分。

GB18030的设计思路可以概括到以下几点：

单字节部分与Unicode一致。

双字节部分与GBK兼容。适当调整一些字符与Unicode的映射。这些字符原来因为Unicode没有收录而被映射到PUA，现在因为Unicode已经收录而调整到非PUA的Unicode码位。

将Unicode BMP部分还没有映射的39420个码位顺序映射到从0x81308130开始的四字节部分。

将Unicode BMP以外的16个辅助平面映射到39420个码位顺序映射到从0x90308130开始的四字节部分。

在GB18030目前定义的76556个字符中，只有24个字符被定义到Unicode的PUA区。这24个字符包

括1区的10个竖排标点符号（0xA6D9-0xA6DF、0xA6EC-0xA6ED和0xA6F3）和4区的14个汉字（0xFE51、

0xFE52、0xFE53、0xFE59、0xFE61、0xFE66、0xFE67、0xFE6C、0xFE6D、0xFE76、0xFE7E、

0xFE90、0xFE91、0xFEA0）。4区的14个汉字在Unicode 5.0中其实也可以找到非PUA的编码，详见

《Unicode、GB2312、GBK和GB18030中的汉字》

。但按照GB18030，它们还是应该映射到PUA码位。

2.3 GB18030-2000和GB18030-2005的区别及以后版本

GB18030-2005与GB18030-2000的编码体系结构是完全相同的。GB18030-2005相对于GB18030-2000主要有以下变化:

在四字节字符表中增加CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字字符的字形。其实GB18030-2000已经映射了这些码位，但GB18030-2000没有给出这些字符的字形。

调整字符的编码。

其中的编码调整比较有意思。的GB18030编码是0xA8BC，在Unicode

5.0的编码是0x1E3F。在GB18030-2000中0xA8BC被映射到Unicode的0xE7C7，因为双字节部分没有映射0x1E3F，所

以它作为BMP的未映射字符被放到四字节部分的0x8135F437。GB18030-2005将0xA8BC映射到0x1E3F，那么Unicode码

位0xE7C7怎么办呢？为了最小化对原来编码的影响，设计者将Unicode码位0xE7C7映射到本来映射0x1E3F的0x8135F437。

GB18030已经映射了Unicode的所有码位，所以不管Unicode怎么变化，GB18030不过就是在现在的码位上增加一些字形而已，编码不会变化。只有现在还映射到PUA的24个字符以后可能会调整到非PUA码位。调整方法应该与的调整方法相同。

2.4 GB18030双字节部分

前面已经介绍过GB18030双字节部分与GBK的区别，本小节再提一些细节。前面也说过，GB18030映射了

Unicode除代理区外的所有码位。所以，Unicode

BMP的6400个PUA码位在GB18030中都有对应的码位。GB18030双字节部分映射了2067个PUA码位。

前面说过，GBK映射了2149个PUA码位。现在GB18030双字节部分映射了2067个PUA码位。所以有

2149-2067=82个字符的映射发生了变化。GBK原来有95个字符映射到PUA，其中81个字符在GB18030中被映射到非PUA码位。余下的

14个汉字就是

《Unicode、GB2312、GBK和GB18030中的汉字》

提到的那14个汉字（0xFE51、0xFE52、0xFE53、0xFE59、0xFE61、0xFE66、0xFE67、0xFE6C、0xFE6D、0xFE76、0xFE7E、0xFE90、0xFE91、0xFEA0）。

附件1

列出了这些字符的编码变化。82个映射变化的码位，除了这81个外，还有一个就是欧元符号：GB18030编码是0xA2E3，Unicode编码是0x20AC。码位0xA2E3在GBK中被映射到0xE76C，GBK的码位0xA2E3没有定义字符。

GB18030双字节部分与Unicode的映射没有规律，只能通过查表方法映射。

2.5 GB18030四字节部分

GB18030四字节部分的字符可以见GB18030-2005的“表3 四字节部分的码位安排”，一共54531个字符。GB18030四字节部分的码位可以见GB18030-2005的“7.3 四字节部分字符的排列顺序”。其中定义字符的只有两个区域：

GB18030用码位0x81308130~0x8439FE39共50400个码位映射该标准单字节和双字节部分没有映射过的39420个Unicode BMP码位。

GB18030用码位0x90308130~0xE339FE39共1058400个码位映射Unicode 16个辅助平面（平面1到平面16）的65536*16=1048576个码位。

为了叙述方便，本文将0x81308130~0x8439FE39称作“BMP扩展部分”，将

0x90308130~0xE339FE39称作“辅助平面部分”。GB18030四字节部分的码位空间是0x81308130~0xFE39FE39。

第二字节有(0x39-0x30+1)=10个可能值。第三字节有(0xFE-0x81+1)=126个可能值。第四字节也是

(0x39-0x30+1)=10个可能值。为了方便下面的演算，本文为这个码位空间定义几个名词：

我们将四字节码位空间中第一字节相同的区域称作一级区。每个一级区有12600个码位，即：10*126*10。

我们将四字节码位空间中第一字节和第二字节相同的区域称作二级区。每个二级区有1260个码位，即：126*10。

我们将四字节码位空间中前三个字节相同的区域称作三级区，每个三级区有10个码位。

四字节部分一共有(0xFE-0x81+1)=126个一级区。BMP扩展部分有4个一级区。辅助平面部分有84个一级区。还有38个一级区是保留区或自定义区。

2.5.1 BMP扩展部分

BMP扩展部分占据四字节部分开头的4个一级区，一共有4*12600=50400个码位。这段空间的

Unicode映射说起来还是很简单的，就是顺序映射单字节、双字节没有映射过的BMP码位。这些映射关系在GB18030-2000中确定下来。以后的

调整（例如）只是个别字符，不会影响其它字符的位置。但是因为双字节字符已经映射过的BMP码位没有什么规律，所以造成BMP扩展部分的Unicode

映射也不能用公式换算，还是要查表解决。

显然这50400个码位中只用到了39420个码位，其余码位都是保留的。出于好玩，我们来计算一下最后一个非保留码位（0xFFFF）的位置，计算过程如下：

m1=(39420-1)/12600=3

n1=(39420-1)%12600=1619

m2=n1/1260=1619/1260=1

n2=n1%1260=1619%1260=359

m3=n2/10=359/10=35

n3=n2%10=359%10=9

第一字节的位置是：0x81+m1=0x81+3=0x84

第二字节的位置是：0x30+m2=0x30+1=0x31

第三字节的位置是：0x81+m3=0x81+35=0xA4

第四字节的位置是：0x30+n3=0x30+9=0x39

所以Unicode编码0xFFFF映射的GB18030码位是0x8431A439。在BMP扩展部分中，0x8431A439以后的码位都是保留码位。上述计算中，/表示整除（例如5/3=1），%表示取余（例如5%3=2）。

2.5.2 辅助平面部分

辅助平面部分用84个一级区（0x90308130~0xE339FE39）直接映射Unicode的16个辅助平面。这部分映射是可以直接用公式计算的。让我们看看怎么计算。

从Unicode编码到GB18030编码的映射方法如下：

U=Unicode编码-0x10000

m1=U/12600

n1=U%12600

m2=n1/1260

n2=n1%1260

m3=n2/10

n3=n2%10

第一字节b1=m1+0x90

第二字节b2=m2+0x30

第三字节b3=m3+0x81

第四字节b4=n3+0x30

按

照上述方法可以计算出0x10FFFF被映射到0xE3329A35。在辅助平面部分，0xE3329A35以后的码位都是保留码位。以上所写的算法可以

很容易写成C/C++代码。对于不会编程的读者，也可以用Excel公式计算。假设Unicode编码放在单元格A12，计算方法如下：

将m1放在B12，B12=INT((HEX2DEC(A12)-65536)/12600)

将n1放在C12，C12=MOD((HEX2DEC(A12)-65536),12600)

将m2放在D12，D12=INT(C12/1260)

将n2放在E12，E12=MOD(C12,1260)

将m3放在F12，F12=INT(E12/10)

将n3放在G12，G12=MOD(E12,10)

将第一字节放在H12，H12=DEC2HEX(B12+144)

将第二字节放在I12，I12=DEC2HEX(D12+48)

将第三字节放在J12，J12=DEC2HEX(F12+129)

将第四字节放在K12，K12=DEC2HEX(G12+48)

附件3

中有写好上述公式的Excel表格。使用函数HEX2DEC/DEC2HEX需要通过“工具->加载宏”钩上“分析工具库”。

从GB18030编码到Unicode编码的映射方法如下：

设GB18030编码的四个字节依次为：b1、b2、b3、b4，则

Unicode编码=0x10000+(b1-0x90)*12600+(b2-0x30)*1260+(b3-0x81)*10+b4-0x30

假设b1、b2、b3、b4分别放在A4、B4、C4、D4，Unicode编码放在E4，则Excel计算公式为：

E4 = =DEC2HEX((HEX2DEC(A4)-144)*12600+(HEX2DEC(B4)-48)*1260+(HEX2DEC(C4)-129)*10+(HEX2DEC(D4)-48)+65536)

2.6 GB18030和Unicode的映射表

附件3

给出了GB18030和Unicode的映射表。这个Excel文件是在网友谢振斌先生的

映射表

基础上制作的，包含3张表格：

双字节部分23940个码位与Unicode的映射。两组数据分别按GB18030和Unicode排序。

BMP扩展部分39420个码位与Unicode的映射。两组数据分别按GB18030和Unicode排序。

辅助平面部分，GB18030编码和Unicode编码的映射公式。

3 GB2312、GBK和GB18030中的图形符号

在研究GB18030编码的过程中，我整理了GB2312、GBK和GB18030在1区和5区的图形符号，制作了

附件4

。这个Excel文件包含3张表格：

GB2312的1区字符表。GBK和GB18030的1区、5区字符表。用不同颜色标注了GBK增加的35个字符和GB18030增加的11个字符。

GB2312 1区682个符号的编码。

GBK 1区717个符号的编码。

结束语

通过本文的介绍，读者可以回答开头的问题了吗？

无论是Windows

XP还是Vista，中文（中国）区域对应的默认代码页还是GBK。我们只能设置区域，并不能设置区域对应的默认代码页。所以在Windows世界，只要微软不愿意，GB18030就只是一张普通的代码页。目前的简体中文文档使用的编码主要是Unicode和GBK，本文对GB18030编码所作的一些研究，希望能对对GB18030感兴趣的读者有所助益。

转载于:https://blog.51cto.com/bxbx258/744992

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

Debian中文环境配置及几种中文编码的探究

你可能感兴趣的:(Debian中文环境配置及几种中文编码的探究)