Garfield2005

unicode和MBCS（多字节字符集）的关系

看到的这篇文章真是够详细的，没看完，太多了，先转载过来，供大家分享。

转载地址：http://my.oschina.net/alphajay/blog/5691

******************************************************************************************************************************************************

*****************************************************************************************************************************************************

谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词

http://blog.csdn.net/smonster/archive/2008/10/31/3194587.aspx

unicode、ucs-2、ucs-4、utf-16、utf-32、utf-8

http://stallman.blogbus.com/logs/41709878.html

Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值，这个值称为代码点（code point）。代码点的值通常写成 U+ABCD 的格式。而文字和代码点之间的对应关系就是UCS-2（Universal Character Set coded in 2 octets）。顾名思义，UCS-2是用两个字节来表示代码点，其取值范围为 U+0000～U+FFFF。

为了能表示更多的文字，人们又提出了UCS-4，即用四个字节表示代码点。它的范围为 U+00000000～U+7FFFFFFF，其中 U+00000000～U+0000FFFF和UCS-2是一样的。

要注意，UCS-2和UCS-4只规定了代码点和文字之间的对应关系，并没有规定代码点在计算机中如何存储。规定存储方式的称为UTF（Unicode Transformation Format），其中应用较多的就是UTF-16和UTF-8了。

不难猜到，UTF-16是完全对应于UCS-2的，即把UCS-2规定的代码点通过Big Endian或Little Endian方式直接保存下来。UTF-16包括三种：UTF-16，UTF-16BE（Big Endian），UTF-16LE（Little Endian）。

UTF-16BE和UTF-16LE不难理解，而UTF-16就需要通过在文件开头以名为BOM（Byte Order Mark）的字符来表明文件是Big Endian还是Little Endian。

“ABC”这三个字符用各种方式编码后的结果如下：

UTF-16BE	00 41 00 42 00 43
UTF-16LE	41 00 42 00 43 00
UTF-16(Big Endian)	FE FF 00 41 00 42 00 43
UTF-16(Little Endian)	FF FE 41 00 42 00 43 00
UTF-16(不带BOM)	00 41 00 42 00 43

Windows平台下默认的Unicode编码为Little Endian的UTF-16（即上述的 FF FE 41 00 42 00 43 00）。

UTF-16还能表示一部分的UCS-4代码点——U+10000～U+10FFFF。表示算法比较复杂，简单说明如下：

从代码点U中减去0x10000，得到U'。这样U+10000～U+10FFFF就变成了 0x00000～0xFFFFF。
用20位二进制数表示U'。 U'=yyyyyyyyyyxxxxxxxxxx
将前10位和后10位用W1和W2表示，W1=110110yyyyyyyyyy，W2=110111xxxxxxxxxx，则 W1 = D800～DBFF，W2 = DC00～DFFF。但是由于这种算法的存在，造成UCS-2中的 U+D800～U+DFFF 变成了无定义的字符

UTF-32

UTF-32用四个字节表示代码点，这样就可以完全表示UCS-4的所有代码点，而无需像UTF-16那样使用复杂的算法。与UTF-16类似，UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三种编码，UTF-32也同样需要BOM字符。仅用'ABC'举例：

UTF-32BE	00 00 00 41 00 00 00 42 00 00 00 43
UTF-32LE	41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(Big Endian)	00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43
UTF-32(Little Endian)	FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00
UTF-32(不带BOM)	00 00 00 41 00 00 00 42 00 00 00 43

UTF-8

UTF-16和UTF-32的一个缺点就是它们固定使用两个或四个字节，这样在表示纯ASCII文件时会有很多00字节，造成浪费。而RFC3629定义的UTF-8则解决了这个问题。

UTF-8用1～4个字节来表示代码点。表示方式如下：

UCS-2 (UCS-4)	位序列	第一字节	第二字节	第三字节	第四字节
U+0000 .. U+007F	00000000-0xxxxxxx	0xxxxxxx
U+0080 .. U+07FF	00000xxx-xxyyyyyy	110xxxxx	10yyyyyy
U+0800 .. U+FFFF	xxxxyyyy-yyzzzzzz	1110xxxx	10yyyyyy	10zzzzzz
U+10000..U+1FFFFF	00000000-000wwwxx- xxxxyyyy-yyzzzzzzz	11110www	10xxxxxx	10yyyyyy	10zzzzzz

* 0xxxxxxx                                                                (00-7f)
* 110xxxxx 10xxxxxx                                                 (c0-df)(80-bf)
* 1110xxxx 10xxxxxx 10xxxxxx                                  (e0-ef)(80-bf)(80-bf)
* 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                    (f0-f7)(80-bf)(80-bf)(80-bf)
* 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx           (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf)
* 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx  (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf)

可见，ASCII字符（U+0000～U+007F）部分完全使用一个字节，避免了存储空间的浪费。而且UTF-8不再需要BOM字节。

另外，从上表中可以看出，单字节编码的第一字节为[00-7F]，双字节编码的第一字节为[C0-DF]，三字节编码的第一字节为[E0-EF]。这样只要看到第一个字节的范围就可以知道编码的字节数。这样也可以大大简化算法。

Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与 ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。

Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

根据维基百科全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。

在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从 Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。

目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003。

UCS只是规定如何编码，并没有规定如何传输、保存这个编码。例如“汉”字的UCS编码是6C49，我可以用4个ascii数字来传输、保存这个编码；也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的方案。UTF-8的一个特别的好处是它与ISO- 8859-1完全兼容。UTF是“UCS Transformation Format”的缩写。

IETF的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得 IETF是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

2.1、内码和code page

目前Windows的内核已经支持Unicode字符集，这样在内核上可以支持全世界所有的语言文字。但是由于现有的大量程序和文档都采用了某种特定语言的编码，例如GBK，Windows不可能不支持现有的编码，而全部改用Unicode。

Windows使用代码页(code page)来适应各个国家和地区。code page可以被理解为前面提到的内码。GBK对应的code page是CP936。

微软也为GB18030定义了code page：CP54936。但是由于GB18030有一部分4字节编码，而Windows的代码页只支持单字节和双字节编码，所以这个code page是无法真正使用的。

3、UCS-2、UCS-4、BMP

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上只用了31位，最高位必须为0）编码。下面让我们做一些简单的数学游戏：

UCS-2有2^16=65536个码位，UCS-4有2^31=2147483648个码位。

UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第 3个字节分为256行 (rows)，每行包含256个cells。当然同一行的cells只是最后一个字节不同，其余都相同。

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节为0的码位被称作BMP。

将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节，就得到了UCS-4的BMP。而目前的 UCS-4规范中还没有任何字符被分配在BMP之外。

4、UTF编码

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：

UCS-2编码(16进制)	UTF-8 字节流(二进制)
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：1110011010110001 10001001，即 E6 B1 89。

读者可以用记事本测试一下我们的编码是否正确。需要注意，UltraEdit在打开utf-8编码的文本文件时会自动转换为UTF-16，可能产生混淆。你可以在设置中关掉这个选项。更好的工具是Hex Workshop。

UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。不过由于实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以认为 UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。

谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词

这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：

问题一：

使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？

我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？

问题二：

最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于 Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。

查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。

0、big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little- Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

1、字符编码、内码，顺带介绍汉字编码

字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从 A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。

从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK都属于双字节字符集 (DBCS)。

2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码 0x3400-0x4db5），一共收录了27484个汉字。

CJK就是中日韩的意思。Unicode为了节省码位，将中日韩三国语言中的文字统一编码。GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。

GB18030的编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK是完全兼容的。4字节编码的码位就是收录了CJK扩展A的 6582个汉字。例如：UCS的0x3400在GB18030中的编码应该是8139EF30，UCS的0x3401在GB18030中的编码应该是8139EF31。

微软提供了GB18030的升级包，但这个升级包只是提供了一套支持CJK扩展A的6582个汉字的新字体：新宋体-18030，并不改变内码。 Windows 的内码仍然是GBK。

这里还有一些细节：

GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。
对于任何字符编码，编码单元的顺序是由编码方案指定的，与endian无关。例如GBK的编码单元是字节，用两个字节表示一个汉字。这两个字节的顺序是固定的，不受CPU字节序的影响。UTF-16的编码单元是word（双字节），word之间的顺序是编码方案指定的，word内部的字节排列才会受到endian的影响。后面还会介绍UTF-16。
GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析：在读取DBCS字符流时，只要遇到高位为1的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

2、Unicode、UCS和UTF

目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003。

2.1、内码和code page

Windows使用代码页(code page)来适应各个国家和地区。code page可以被理解为前面提到的内码。GBK对应的code page是CP936。

3、UCS-2、UCS-4、BMP

UCS-2有2^16=65536个码位，UCS-4有2^31=2147483648个码位。

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节为0的码位被称作BMP。

4、UTF编码

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：

UCS-2编码(16进制)	UTF-8 字节流(二进制)
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

5、UTF的字节序和BOM

UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎” 还是“乙”？

Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。

这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

Windows就是使用BOM来标记文本文件的编码方式的。

“GB2312的原文”是指国家1980年的一个标准《中华人民共和国国家标准信息交换用汉字编码字符集基本集 GB 2312-80》。这个标准用两个数来编码汉字和中文符号。第一个数称为“区”，第二个数称为“位”。所以也称为区位码。1-9区是中文符号，16-55 区是一级汉字，56-87区是二级汉字。现在Windows也还有区位输入法，例如输入1601得到“啊”。（这个区位输入法可以自动识别16进制的 GB2312和10进制的区位码，也就是说输入B0A1同样会得到“啊”。）

内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的。现在的Windows在系统内部支持Unicode，然后用代码页适应各种语言，“内码”的概念就比较模糊了。微软一般将缺省代码页指定的编码说成是内码。

内码这个词汇，并没有什么官方的定义，代码页也只是微软这个公司的叫法。作为程序员，我们只要知道它们是什么东西，没有必要过多地考证这些名词。

Windows中有缺省代码页的概念，即缺省用什么编码来解释字符。例如Windows的记事本打开了一个文本文件，里面的内容是字节流：BA、 BA、D7、D6。Windows应该去怎么解释它呢？

是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释，还是按照ISO8859-1去解释？如果按GBK去解释，就会得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符，也可能找到错误的字符。所谓“错误”是指与文本作者的本意不符，这时就产生了乱码。

答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控制面板的区域选项设置。记事本的另存为中有一项 ANSI，其实就是按照缺省代码页的编码方法保存。

Windows的内码是Unicode，它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码，用户又安装了对应的代码页，Windows就能正确显示，例如在HTML文件中就可以指定charset。

有的HTML文件作者，特别是英文作者，认为世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之间的字符，中文Windows又按照缺省的GBK去解释，就会出现乱码。这时只要在这个html文件中加上指定charset的语句，例如：
<meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">
如果原作者使用的代码页和ISO8859-1兼容，就不会出现乱码了。

再说区位码，啊的区位码是1601，写成16进制是0x10,0x01。这和计算机广泛使用的ASCII编码冲突。为了兼容00-7f的ASCII 编码，我们在区位码的高、低字节上分别加上A0。这样“啊”的编码就成为B0A1。我们将加过两个A0的编码也称为GB2312编码，虽然GB2312的原文根本没提到这一点。

*****************************************************************************

Unicode字符集和多字节字符集关系

在计算机中字符通常并不是保存为图像，每个字符都是使用一个编码来表示的，而每个字符究竟使用哪个编码代表，要取决于使用哪个字符集(charset)。
在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。
后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，因此，为了能够表示其它国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与Leading Byte一起作为实际的编码。这样的字符集有很多，我们常见的GB-2312就是其中之一。
例如在GB-2312字符集中，“连通”的编码为C1 AC CD A8，其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留，例如“0”的编码是30H（30H表示十六进制的30）。软件在读取时，如果看到30H，知道它小于128就是标准ASCII，表示“0”，看到C1大于128就知道它后面有一个另外的编码，因此C1 AC一同构成一个整个的编码，在GB-2312字符集中表示“连”。
由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，提出了Unicode字符集，它固定使用16 bits（两个字节、一个字）来表示一个字符，共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中，方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码，它属于Unicode字符集。Unicode字符集有多种编码形式，而ASCII只有一种，大多数MBCS（包括GB-2312）也只有一种。Unicode的最初目标，是用1个16位的编码来为超过65000字符提供映射。但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题 (implantation head-ache's)，尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。因此，Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示，在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分，例如，在UTF－8和ASCII中，“A”的编码都是0x41.UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的，通常说的Unicode就是指UTF-16。
例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为：DE 8F 1A 90
而其UTF-8编码为：E8 BF 9E E9 80 9A
最后，当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码：
最标准的途径是检测文本最开头的几个字节，如下表：

开头字节 Charset/encoding
EF BB BF UTF-8
FE FF UTF-16/UCS-2, little endian
FF FE UTF-16/UCS-2, big endian
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian.例如插入标记后，连通”两个字的UTF-16 (big endian)和UTF-8码分别为：
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A
但是MBCS文本没有这些位于开头的字符集标记，更不幸的是，一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此，软件不能依赖于这种途径。这时，软件可以采取一种比较安全的方式来决定字符集及其编码，那就是弹出一个对话框来请示用户，例如将那个“连通”文件拖到MS Word中，Word就会弹出一个对话框。
如果软件不想麻烦用户，或者它不方便向用户请示，那它只能采取自己“猜”的方法，软件可以根据整个文本的特征来猜测它可能属于哪个charset，这就很可能不准了。使用记事本打开那个“连通”文件就属于这种情况。
我们可以证明这一点：在记事本中键入“连通”后，选择“Save As”，会看到最后一个下拉框中显示有“ANSI”，这时保存。当再当打开“连通”文件出现乱码后，再点击“File”->“Save As”，会看到最后一个下拉框中显示有“UTF-8”，这说明记事本认为当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明，记事本猜测了“连通”文件的字符集，认为它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的，这是一个巧合，不是所有文字都这样。可以使用记事本的打开功能，在打开“连通”文件时在最后一个下拉框中选择ANSI，就能正常显示了。反过来，如果之前保存时保存为UTF-8编码，则直接打开也不会出现问题。
如果将“连通”文件放入MS Word中，Word也会认为它是一个UTF-8编码的文件，但它不能确定，因此会弹出一个对话框询问用户，这时选择“简体中文（GB2312）”，就能正常打开了。记事本在这一点上做得比较简化罢了，这与这个程序的定位是一致的。

需要提醒大家的是，部分Windows 2000字型无法显示所有的Unicode字符。如果发现文件中缺少了某些字符，只需将其变更为其它字型即可。

big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

Unicode big endian：在Big-endian处理器（如苹果Macintosh电脑）上建立的Unicode文件中的文字位元组（存放单位）排列顺序，与在Intel处理器上建立的文件的文字位元组排列顺序相反。最重要的位元组拥有最低的地址，且会先储存文字中较大的一端。为使这类电脑的用户能够存取你的文件，可选择Unicode big-endian格式。

#####################################################################

ANSI字符，UNICODE，宽字符，窄字符,多字节字符集

Unicode ：宽字节字符集
1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数？
可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节（既包括单字节也包括双字节）字符串。
调用strlen函数，无法真正了解字符串中究竟有多少字符，它只能告诉你到达结尾的0之前有多少个字节。
2. 如何对DBCS（双字节字符集）字符串进行操作？
函数描述
PTSTR CharNext （ LPCTSTR ）; 返回字符串中下一个字符的地址
PTSTR CharPrev （ LPCTSTR, LPCTSTR ）；返回字符串中上一个字符的地址
BOOL IsDBCSLeadByte( BYTE )；如果该字节是DBCS字符的第一个字节，则返回非0值
3. 为什么要使用Unicode？
（1）可以很容易地在不同语言之间进行数据交换。
（2）使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。
（3）提高应用程序的运行效率。
Windows 2000是使用Unicode从头进行开发的，如果调用任何一个Windows函数并给它传递一个ANSI字符串，那么系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串，系统就会首先将Unicode字符串转换成ANSI字符串，然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序，就能够使你的应用程序更加有效地运行。
Windows CE 本身就是使用Unicode的一种操作系统，完全不支持ANSI Windows函数
Windows 98 只支持ANSI，只能为ANSI开发应用程序。
Microsoft公司将COM从16位Windows转换成Win32时，公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。
4. 如何编写Unicode源代码？
Microsoft公司为Unicode设计了WindowsAPI，这样，可以尽量减少代码的影响。实际上，可以编写单个源代码文件，以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏（UNICODE和_UNICODE），就可以修改然后重新编译该源文件。
_UNICODE宏用于C运行期头文件，而UNICODE宏则用于Windows头文件。当编译源代码模块时，通常必须同时定义这两个宏。
5. Windows定义的Unicode数据类型有哪些？
数据类型说明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指针
PCWSTR 指向一个恒定的Unicode字符串的指针
对应的ANSI数据类型为CHAR，LPSTR和LPCSTR。
ANSI/Unicode通用数据类型为TCHAR，PTSTR,LPCTSTR。
6. 如何对Unicode进行操作？
字符集特性实例
ANSI 操作函数以str开头 strcpy
Unicode 操作函数以wcs开头 wcscpy
MBCS 操作函数以_mbs开头 _mbscpy
ANSI/Unicode 操作函数以_tcs开头 _tcscpy（C运行期库）
ANSI/Unicode 操作函数以lstr开头 lstrcpy（Windows函数）
所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示；Unicode版本函数结尾以W表示。Windows会如下定义：
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE
7. 如何表示Unicode字符串常量？
字符集实例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
8. 为什么应当尽量使用操作系统函数？
这将有助于稍稍提高应用程序的运行性能，因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多，因此，在应用程序运行时，它们可能已经被装入RAM。
如：StrCat，StrChr，StrCmp和StrCpy等。
9. 如何编写符合ANSI和Unicode的应用程序？
（1）将文本串视为字符数组，而不是chars数组或字节数组。
（2）将通用数据类型（如TCHAR和PTSTR）用于文本字符和字符串。
（3）将显式数据类型（如BYTE和PBYTE）用于字节、字节指针和数据缓存。
（4）将TEXT宏用于原义字符和字符串。
（5）执行全局性替换（例如用PTSTR替换PSTR）。
（6）修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小，而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递（sizeof(szBuffer)/sizeof(TCHAR)。另外，如果需要为字符串分配一个内存块，并且拥有该字符串中的字符数目，那么请记住要按字节来分配内存。这就是说，应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)。

10. 如何对字符串进行有选择的比较？
通过调用CompareString来实现。
标志含义
NORM_IGNORECASE 忽略字母的大小写
NORM_IGNOREKANATYPE 不区分平假名与片假名字符
NORM_IGNORENONSPACE 忽略无间隔字符
NORM_IGNORESYMBOLS 忽略符号
NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符
SORT_STRINGSORT 将标点符号作为普通符号来处理
11. 如何判断一个文本文件是ANSI还是Unicode？
判断如果文本文件的开头两个字节是0xFF和0xFE，那么就是Unicode，否则是ANSI。
12. 如何判断一段字符串是ANSI还是Unicode？
用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法，以便猜测缓存的内容。由于这不是一种确切的科学方法，因此 IsTextUnicode有可能返回不正确的结果。
13. 如何在Unicode与ANSI之间转换字符串？
Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串；函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

________________________________________________________________

UCS,UNICODE和UTF-8

本文简单介绍UCS,UNICODE和UTF-8，并利用C语言实现了UTF-8与UCS2之间的互相转化。
1.什么是UCS和ISO10646？
国际标准ISO10646定义了通用字符集(Universal Character Set, UCS). UCS是所有其它字符集标准的一个超集，它保证也其它字符集双向兼容，即编码间相互转换不会丢失任何信息。UCS字符集U+0000到U+007F与US-ASCII是一致的。
2.什么是UNICODE
历史上, 有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目. 幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展.
3.什么是UTF-8(一种传送和存储格式)
UCS和UNICODE为每个字符分配了一个对应的整数，但并没有明确说明其实现机制.故存在多种编码方式,其中以两个字节和四个字节来存储一个字符的方法分别叫UCS-2, UCS-4,要将一个ASCII文件转换成一个UCS-2文件只要在每个字节前加一个字节0X00,转换成UCS-4只要在每个字节前加三个0X00。
而internet上大量的信息是以ASCII码存在的，如果都用两个字节来存储将浪费大量的资源,同时Unix和Linux下使用USC-2和USC-4会导致严重问题，于是出现了UTF-8(定义于ISO10646-1).
UTF-8

(UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.)
UNICODE(UCS)和UTF-8的对应关系。
U-00000000 - U-0000007F:  0xxxxxxx   （ASCII码最重用）
U-00000080 - U-000007FF:  110xxxxx 10xxxxxx   （第二优先级常用）
U-00000800 - U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx10xxxxxx 10xxxxxx （很少用）
在多字节串中，第一个字节的开头‘1’的数目就是整个串中字节的数目.
下面举UCS-2与UTF-8的对应关系,并利用C语言实现之间的互相转化。
-----------------------------------------------------------------------------------------------------------
| UCS2                            | UTF-8                               |
|----------------------------------------------------------------------------------------------------------
|                                         | code          | 1st Byte    | 2nd byte    | 3rd Byte    |
|--------------------------------------------------------------------------------------------------------
| 000000000aaaaaaa | 0000 - 007F  | 0aaaaaaa  |                      |                   |
|--------------------------------------------------------------------------------------------------------
| 00000bbbbbaaaaaa    | 0080 - 07FF  | 110bbbbb  | 10aaaaaa    |                      |
|--------------------------------------------------------------------------------------------------------
| ccccbbbbbbaaaaaa    | 0800 - FFFF  | 1110cccc | 10bbbbbb    | 10aaaaaa  |
|--------------------------------------------------------------------------------------------------------

alphajay的疑问：这里是a b c应该是从0 1中取的一个bit位吧

因为USC-2 每个字符用两个字节 16bit表示

在这儿我只实现了单个字符的转换，串的转换也是一样的道理。
1，把一个UTF-8字符转换成一个UCS-2字符。
如果转换成功返回1，如果UTF-8字符是一个unrecognized字符，则返回0，且存一个blackbox(U+22e0)到ucs2_code_ptr中。

typedef unsigned short UINT16;
typedef unsigned char UINT8;
typedef unsigned char BOOL;
#define TRURE (BOOL)(1)
#define FALSE (BOOL)(0)
BOOL UTF8toUCS2Code(const UINT8* utf8_code, UINT16* ucs2_code){
   UINT16 temp1, temp2;
   BOOL is_unrecognized = FALSE ;
   UINT16 * in = utf8_code;
   if(!utf8_code || !ucs2_code){
         return is_unrecognized;
   }

   if(0x00 == (*in & 0x80)){
   /* 1 byte UTF-8 Charater.*/
         *ucs2_code= (UINT16)*in;
         is_unrecognized = TRUE;
   }
   else if(0xc0 == (*in & 0xe0) &&
            0x80 == (*(in + 1) & 0xc0)
            ){
   /* 2 bytes UTF-8 Charater.*/
         temp1 = (UINT16)(*in & 0x1f);
         temp1 <<= 6;
         temp1 |= (UINT16)(*(in + 1) & 0x3f);
         *ucs2_code = temp1;
         is_unrecognized = TRUE;
   }
   else if( 0xe0 == (*in & 0xf0) &&
            0x80 == (*(in +1) & 0xc0) &&
            0x80 == (*(in + 2) & 0xc0)
            ){
   /* 3bytes UTF-8 Charater.*/
         temp1 = (UINT16)(*in &0x0f);
         temp1 <<= 12;
         temp2 = (UINT16)(*(in+1) & 0x3F);
         temp2 <<= 6;
         temp1 = temp1 | temp2 | (UINT16)(*(in+2) & 0x3F);
         *ucs2_code = temp1;
         is_unrecognized  = TRUE;
   }
   else{
   /* unrecognize byte. */
         *ucs2_code = 0x22e0;
         is_unrecognized = FALSE;
   }
   return is_unrecognized;
}
2,把一个UCS-2字符转换成UTF-8字符。函数返回转换成UTF-8的长度(字节1 -- 3)，如果目标指针为空，返回0。
UINT8 UCS2toUTF8Code(UINT16 ucs2_code, UINT8* utf8_code){
   int length = 0;
   UINT8* out = utf8_code;
   if(!utf8_code){
         return length;
   }
   if(0x0080 > ucs2_code){
   /* 1 byte UTF-8 Character.*/
      *out = (UINT8)ucs2_code;
      length++;
   }
   else if(0x0800 > ucs2_code){
   /*2 bytes UTF-8 Character.*/
         *out = ((UINT8)(ucs2_code >> 6)) | 0xc0;
         *(out+1) = ((UINT8)(ucs2_code & 0x003F)) | 0x80;
         length += 2;
   }
   else{
   /* 3 bytes UTF-8 Character .*/
      *out = ((UINT8)(ucs2_code >> 12)) | 0xE0;
      *(out+1) = ((UINT8)((ucs2_code & 0x0FC0)>> 6)) | 0x80;
      *(out+2) = ((UINT8)(ucs2_code & 0x003F)) | 0x80;
      length += 3;
}
return length;
}
字符串间的转换也是一样的。

[概述]
   计算机中的一切都是以数字来表示的，字符同样如此。字符编码就是将字符集编码成为数字序列，以便能让计算机识别。各个地区和国家使用的语言有别，将本地使用的语言符号进行编码就得到本地编码字符集。例如西欧国家使用的本地编码是ISO8859-1，中国大陆和新加坡等地区使用本地编码是GB2312或GBK，中国港台地区使用的本地编码是BIG5，韩国和日本的本地编码分别是euc-kr和Shift_JIS。电脑的操作系统支持各种本地编码字符集，操作系统默认的本地编码和你所安装的操作系统语言版本是一致的。本地集只对本地使用的文字符号进行了编码，并不包括其他地区使用的文字，即使两个本地集中包含了相同的字符，这个字符的编码值也是不同的。例如“中”的GB2312或GBK编码值为“0xD6D0”，而BIG5编码值为“0xA4A4”。
   全球信息交流与融合的趋势要求实现对本地字符集的统一，1984年4月ISO成立了工作组，针对各国文字、符号进行统一编码，这种编码成为Unicode。Unicode于1992年6月通过DIS(DrafInternationalStandard)，V2.0版本于1996年发布。Unicode编码包括了符号6811个、汉字20902个、韩文11172个、等等。Unicode虽然实现了全球统一编码，但是在字符集数量和编码效率方面显然存在着不足，而UTF-8、UTF-16就是针对Unicode编码进行转换或扩充形成的编码，UTF是Unicode Translation Format的缩写。

[细节]
关于ASCII编码
   ASCII编码是美国标准信息交换码，这种编码方式针对的是英文字符。ASCII编码使用一个字节对字符进行编码，而且字节的最高位都为0，因此ASCII编码的字符集大小是128个。由于英文字母仅有26个，再加上其他一些常用符号，总大小也不会超过128个，因此ASCII编码的空间是足够的。例如，字符“a”被编码为0x61，字符“b”被编码为0x62等等。注意，在有的时候ASCII泛指本地编码，例如文本编辑器UltraEdit中有诸如“ASCII转Unicode”的功能，这里的ASCII就泛指本地编码，如果本地编码是GBK，这个功能执行的就是GBK编码到Unicode编码的转换。

关于ISO8859-1编码
   ISO8859-1是西欧语系国家通用的字符集编码，ISO8859-1使用一个字节对字符进行编码，编码值范围是0x00-0xFF。其中，0x00-0x1F用作控制字，0x20-0x7F表示字母、数字和符号这些图形字符，0xA0-0xFF作为附加部分使用。由于ASCII编码只使用了一个字节中的低7位，编码范围仅为0-127，虽然可以容纳英文字符和其他的一些符号，但是却不能包含除英文以外的其他西欧语言的字母，因此ASCII编码在西欧国家并不通用。针对这个问题ISO在ASCII编码的基础上进行了扩充，制定了ISO8859-1编码，ISO8859-1编码使用了一个字节的全部8位，编码范围是0-255，能包含西欧语系的所有字母和符号。

关于GB2312、GBK和BIG5编码
   GB2312码是中华人民共和国国家汉字信息交换使用码，全称《信息交换使用汉字编码字符集－基本集》，由国家标准总局发布，1981年5月1日实施，中国大陆和新加坡等地使用此编码。GB2312收录了简化汉字、符号、字母、日文假名等共计7445个字符，其中汉字占6763个。GB2312将代码表分区94个区(0xA1-0xFE)，对应第一个字节，每个区94个位(0xA1-0xFE)，对应了第二字节，两个字节的值分别为区号的值和位号的值加32(0x20)，因此也被称为区位码。GB2312的编码范7围是0x2121-0x777E，与ASCII有重叠，通常方法是将GB码的两个字节的最高位置1区别。
    GBK是GB2312-80的扩展，向上兼容，包含了20902个汉字，编码范围是0x8140-0xFEFE，剔除高位0x80的字位，其他字符都可以一一映射到Unicode2.0。GB18030-2000(GBK2K)在GBK的基础上增加了藏、蒙等少数民族的字符，GBK2K从根本上解决了字位不够、字形不足的问题。GBK2K首先要求实现能够完全映射到Unicode3.0标准的所有字形，现在还没有任何一个操作系统支持GBK2K。
   BIG5码被称为大五码，是中国港台地区使用的字符编码方式。TW-BIG5码将所有字分为两大群，即常用字区和次常用字区，每个字区分都采用笔画排序，同笔画的字依部首排序。TW-BIG5每个字由两个字节组成

你可能感兴趣的:(unicode和MBCS（多字节字符集）的关系)

不常用的第三方服务集成彼岸花@开 spring boot 后端 java
1.ldap1.1.ldap服务搭建docker方式搭建：包含了ldap服务和ldapadmin图形化界面服务参考ldap服务：http://127.0.0.1:81用户名：CN=admin,DC=ldap,DC=com密码：123456docker-compose.yml文件内容如下version:'3'services:ldap:image:osixia/openldap:latestcont
解决浏览器不支持访问FTP服务器的问题彼岸花@开 linux 服务器运维
1.抛出问题由于安全性和性能方面的考虑，GoogleChrome在版本72之后停止了对FTP协议的支持。因此，如果你想查看FTP目录，你可以考虑以下几种方法：使用专门的FTP客户端软件：可以使用一些专门的FTP客户端软件，如FileZilla、WinSCP等。这些软件提供了直观的用户界面，可以方便地连接到FTP服务器，并浏览、上传、下载文件。使用其他支持FTP的浏览器：虽然GoogleChrome
maven本地仓库--各种好玩的配置彼岸花@开 maven java
目录前提1.自定义配置本地仓库目录2.设置maven依赖的jdk版本3.使用指定的阿里云maven中央仓库4.配置私有仓库（假如所有的maven项目都使用私服，例如nexus3）5.使用本地仓库的jar包，禁止从远端（有可能是外网的中央仓库，有可能是私服nexus3）下载6.将本地jar包导入本地仓库7.将本地jar包导入私服nexus的maven库中8.将本地项目发布到Nexus私服前提下载并解
科学与《易经》碰撞（46）：太阳黑子周期的卦气推演 1079986725 AI科学与《易经》碰撞科学与《易经》碰撞量子计算人工智能机器学习量子计算 ai 算法
引言：阴阳消长的宇宙节律太阳黑子，这一太阳表面的暗斑，自17世纪伽利略首次观测以来，便以其约11年的周期性活动吸引着人类的目光。它既是太阳磁场剧烈活动的标志，也是地球气候波动的潜在驱动者。而在东方，《易经》的“卦气”学说以六十四卦对应四季轮转、节气变迁，试图用阴阳二气的升降解释自然节律。当科学发现太阳黑子的周期性波动时，一个跨越时空的追问浮现：卦气推演的阴阳消长模型，能否为理解太阳活动的规律提供一
如何使用Anthropic Chat模型：快速入门指南 shuoac python 开发语言
如何使用AnthropicChat模型：快速入门指南Anthropic提供了多个聊天模型，这篇文章将帮助你快速入门。详细文档请参考AnthropicAPI文档。技术背景介绍Anthropic提供了多种聊天模型，这些模型可以通过AWSBedrock和GoogleVertexAI进行访问。使用Anthropic你可以快速创建高效的对话代理。核心原理解析Anthropic模型支持结构化输出、JSON模式
科学与《易经》碰撞（35）：五运六气说的流行病预测验证 1079986725 AI科学与《易经》碰撞科学与《易经》碰撞量子计算人工智能机器学习量子计算 ai 算法
核心发现通过将中医“五运六气”理论量化建模，结合现代流行病学数据，构建时空运气预测模型（WYLYModel），成功预测了2019-2023年全球主要传染病的时空分布规律，对COVID-19大流行的暴发时间、传播路径预测准确率达78.4%，显著优于传统SEIR模型（52.1%）。理论框架五运六气数字化五运量化：math\text{木运指数}=\frac{\text{春季风速}}{\text{年平均风
透析Vue的nextTick原理 Sean2077 Vue vue.js
nextTick是Vue.js中的一个核心机制，用于在下一次DOM更新周期后执行回调函数。它的核心原理是利用JavaScript的事件循环机制（EventLoop），结合微任务（Microtask）或宏任务（Macrotask）的调度策略，确保回调在DOM更新完成后执行。核心原理分析1.DOM更新的异步性Vue的数据驱动视图更新是异步批量执行的。当数据变化时，Vue不会立即更新DOM，而是开启一个
透析主流CSS预处理器的区别 Sean2077 CSS css
Sass和Less是两种主流的CSS预处理器（CSSPreprocessor），它们通过扩展原生CSS的语法，提供了变量、嵌套、混合（Mixins）、函数等高级功能，帮助开发者编写更高效、可维护的样式代码。以下是它们的详细介绍：一、Sass（SyntacticallyAwesomeStyleSheets）1.基本特性语法形式：SCSS（SassyCSS）：兼容原生CSS语法，文件扩展名为.scss
idea使用Junit hellopbc software #Idea junit intellij-idea java
文章目录idea使用JunitJunit配置常用注解常用于测试的断言方法后续idea使用Junit对项目使用Junit主要有两个步骤：添加Junit依赖，即添加Junitjar包使用JunitJunit配置方法一：idea自带的快捷方法对要测试的类的方法，在该类中，右键鼠标呼出菜单，选择Generate，快捷键是Alt+Insert选择Test选项，对应如下：这步之前可能会说你缺少Junit依赖，
自动化测试工具-Playwright介绍和快速实例 oscar999 软件测试大全自动化测试工具运维
Playwright是什么Playwright是由Microsoft开发的开源自动化测试工具，专为现代Web应用设计。它支持Chromium、Firefox和WebKit内核的浏览器，能够跨平台（Windows、macOS、Linux）运行，提供强大的浏览器自动化能力，适用于测试、爬虫和监控等场景。Playwright的核心功能跨浏览器支持：Playwright兼容所有现代渲染引擎，包括Chrom
如何在Nginx 中实现动态封禁IP 白露与泡影 nginx tcp/ip junit
需求为了封禁某些爬虫或者恶意用户对服务器的请求，我们需要建立一个动态的IP黑名单。对于黑名单中的IP，我们将拒绝提供服务。并且可以设置封禁失效时间环境准备linuxversion:centos7/ubuntu等redisversion:5.0.5nginxversion:nginx-openresty设计方案实现IP黑名单的功能有很多途径：1、在操作系统层面，配置iptables，来拦截指定IP的
神经网络 - 前馈神经网络（FNN）、全连接神经网络（FCNN）和卷积神经网络（CNN）的区别与联系谦亨有终 AI学习笔记神经网络 cnn 人工智能深度学习机器学习
在前面的博文中，我们依次学习了前馈神经网络（FNN）、全连接神经网络（FCNN）和卷积神经网络（CNN），为了避免混淆，本文我们来总结一下这三种神经网络的区别和联系。全连接神经网络（FCNN）和卷积神经网络（CNN）都属于前馈神经网络（FNN）的范畴，因为它们的核心特点是数据单向传播，没有循环或反馈连接。（请注意理解这句话，对于我们学习神经网络非常重要！）1.前馈神经网络（FNN）的定义前馈神经网
【漏洞修复】Android Studio快速编译glibc2.39、curl7.86.0、openssl3.1.2、cups2.4.10、zlib1.3.0源码(arm64 Android11为例) 漫步企鹅 android studio gitee android
要在AndroidStudio中编译或获取高版本的glibc、curl、openssl等库的arm64-v8a架构二进制文件，需结合NDK工具链和构建脚本配置。以下是具体步骤和建议：一、环境配置安装NDK和CMake在AndroidStudio中通过SDKManager安装最新NDK（建议r25及以上版本）和CMake，确保支持C++17/20特性12。NDK路径通常位于Android/sdk/n
AI数字人：虚拟与现实的交融革命一休哥助手人工智能人工智能
一、数字生命的觉醒：从科幻到现实1.1数字人的进化图谱2001年《最终幻想》中的虚拟角色需要400台工作站渲染，2023年一个实时数字人只需消费级显卡驱动。这种跨越式发展背后是三大技术革命的叠加：图形渲染革命：从多边形建模到神经辐射场（NeRF）算力飞跃：GPU算力10年增长1000倍AI突破：生成对抗网络（GAN）创造逼真面容1.2市场爆发进行时根据IDC报告，全球数字人市场规模：2022年：$
Claude-API 使用教程郑悦莲
Claude-API使用教程Claude-APIThisprojectprovidesanunofficialAPIforClaudeAI,allowinguserstoaccessandinteractwithClaudeAI.项目地址:https://gitcode.com/gh_mirrors/cla/Claude-API项目介绍Claude-API是一个基于开源技术的API项目，旨在提供一
深入了解Anthropic与LangChain集成：使用Claude模型的指南 dsndnwfk langchain python
#深入了解Anthropic与LangChain集成：使用Claude模型的指南##引言Anthropic是一家专注于AI安全和研究的公司，并推出了著名的Claude模型。这篇文章旨在介绍如何在LangChain中集成和使用Anthropic的Claude模型，包括模型的安装、设置及使用示例。##主要内容###安装和设置要使用Anthropic模型，需要先安装一个Python包。使用以下命令安装L
浅谈PyQt6的OpenGL Widget控件 dasatalan windows
前言QOpenGLWidget是用于渲染OpenGL图形的小部件，QOpenGLWidget提供了一个用于绘制OpenGL图形的界面。它是QOpenGLContext和QOpenGLFunctions的封装，允许开发者利用OpenGL的强大功能进行2D和3D渲染。下面是它的相关控件继承关系：这个控件我也只是简单的了解了一下，由B站上QOpenGLWidget控件教学大多数是用C++写的，所以我通过
深入解析嵌入式内核：从架构到实践 JNTeresa 架构
一、嵌入式内核概述嵌入式内核是嵌入式操作系统的核心组件，负责管理硬件资源、调度任务、处理中断等关键功能。其核心目标是在资源受限的环境中提供高效、实时的控制能力。与通用操作系统不同，嵌入式内核通常具有高度可裁剪性、实时性和可靠性，能够适应工业控制、医疗设备、智能家居等多样化场景的需求。内核的核心功能-**任务管理**：支持多任务调度，确保关键任务的实时响应。-**内存管理**：优化内存分配，满足嵌入
【深度学习新浪潮】图像修复（Image Inpainting）技术综述：定义、进展与应用展望 AndrewHZ 深度学习新浪潮图像处理算法计算机视觉深度学习人工智能图像修复 LLM
本文为精简版，完整技术细节与参考文献可与作者讨论。1.图像修复的定义与核心目标图像修复（ImageInpainting）是一种通过算法手段填补图像中缺失区域或移除不需要对象的技术，其核心目标是利用图像上下文信息生成与周围像素一致且视觉自然的内容。该技术通过计算机视觉和深度学习模型，从损坏、遮挡或人为标记的区域中推断出合理的像素填充，最终实现图像的无痕修复。从数学视角看，图像修复可建模为一个逆向优化
2022万向区块链春季黑客马拉松赛题及奖励详解 WXblockchain1 黑客马拉松区块链元宇宙区块链
2022万向区块链春季黑客马拉松正在全球火热招募中！本次大赛由万向区块链实验室主办，Nervos、ProtocolLabs和Qtum（按首字母音序排列）倾情赞助，北京大学学生区块链中心、北京航空航天大学区块链协会、北京邮电大学区块链协会、复旦MBA区块链俱乐部、上海交通大学区块链协会、清华大学学生区块链协会、YaleVentureClub及以太行星（按首字母音序排列）提供社区支持。本次大赛以“元宇
springboot 四层架构之间的关系整理笔记一 Q18600000000 spring boot 架构后端
‌1.控制层（Controller）——像工厂的前台接待员‌就像你去玩具工厂订玩具，前台接待员负责收你的订单，然后把做好的玩具交给你。控制层就是专门和用户打招呼的部门，负责接收用户的请求（比如点击按钮），然后把结果返回给用户看。‌2.Service层——像工厂的设计师团队‌比如你要做一个会说话的芭比娃娃，设计师团队就要想：怎么让娃娃说话？用什么材料？要分几个步骤做。Service层就是专门处理这些
手把手教你搭建本地AI知识库：Ollama+Deepseek+Cherry Studio Ljugg 人工智能 php 开发语言
手把手教你搭建本地AI知识库：Ollama+Deepseek+CherryStudio为什么要搭建本地AI知识库在这个信息爆炸的时代，数据就像一座蕴藏着无限价值的宝藏，而AI知识库则是开启这座宝藏的关键钥匙。搭建本地AI知识库，对我们来说有着诸多不可忽视的重要性。从数据安全角度来看，本地部署就像是为我们的数据筑起了一座坚固的堡垒。在如今这个网络攻击手段层出不穷的环境里，数据泄露事件频频发生，将数据
DeepSeek大模型不同微调方法对比分析与代码实战 Ljugg 大模型 easyui 前端 javascript
DeepSeek大模型不同微调方法对比分析与代码实战一、引言1.1研究背景与目的在自然语言处理领域，大模型如GPT-4、DeepSeek等展现出了强大的语言理解与生成能力。然而，预训练的大模型通常是在大规模通用数据上进行训练，难以满足特定领域或任务的个性化需求。这就使得大模型微调成为提高模型在特定任务上性能的关键步骤。通过微调，可以使大模型在医疗、金融、教育等专业领域表现更加出色，生成更符合领域知
常用的空间转录组分析工具 Ljugg 空间转录组 python
常用空间转录组分析工具（Omicverse、Seurat、Scanpy、SpaGCN）。1.Omicverse特点是新兴的用于生物组学数据分析的Python库，为空间转录组分析提供了全面且集成化的功能。其API设计简洁，易于使用，能帮助用户快速完成从数据读取到可视化的全流程分析。支持多种数据格式的读取，并且在数据处理和分析过程中，提供了多种算法和方法，可灵活适应不同的研究需求。示例代码import
使用 Conda 安装 Omicverse，pip版 Ljugg conda
使用Conda安装Omicverse1.安装Conda推荐使用Mambaforge，因为它是一个优化过的Conda发行版，能够更快地处理环境和依赖项。下载并安装Mambaforge：访问Mambaforge官方下载页面。下载适合Windows的安装脚本（通常是.exe文件）。运行安装程序，按照提示完成安装。2.创建新的Conda环境创建一个名为omicverse的新环境，并指定Python版本为3
安装 Microsoft Visual C++ Build Tools Ljugg windows
安装MicrosoftVisualC++BuildTools是为了在Windows系统上编译和运行需要C++支持的程序或库（例如某些Python包、Node.js模块等）。以下是安装MicrosoftVisualC++BuildTools的详细步骤总结：1.通过官方渠道安装步骤1：访问VisualStudio官方网站打开VisualStudioBuildTools官方下载页面。步骤2：下载安装程序
Advanced Renamer：拯救杂乱文件的整理神器 KJ-拾荒者职场和发展经验分享性能优化软件推荐效率提升
你是否经历过这样的崩溃瞬间？电脑里上千张旅行照片命名混乱，音乐文件全是乱码数字，工作文档版本号纠缠不清……手动一个个修改文件名不仅耗时费力，还容易出错。这种低效的文件管理方式，正在悄悄消耗你的时间和耐心。今天要介绍的AdvancedRenamer，正是一款能根治这类痛点的文件管理工具。它不靠花哨的界面吸引眼球，而是用扎实的功能帮你从文件命名的泥潭中解脱。精准匹配各类需求无论是摄影师需要整理带GPS
NHANES指标推荐：BPb 正在读博的学术灰姑娘数据库线性回归数据挖掘论文阅读健康医疗
文章题目：Associationbetweenglycosylatedhemoglobinandbloodlead:Across-sectionalstudyDOI：10.1371/journal.pone.0318580中文标题：糖化血红蛋白与血铅的关系：一项横断面研究发表杂志：PLoSOne影响因子：1区，IF=2.9发表时间：2025年2月今天给大家分享一篇在2025年2月发表在《PLoSO
人工智能与网络安全结合的思考黑客Jack 人工智能 web安全安全
一、人工智能时代的网络安全网络攻击越来越多样化、智能化、隐蔽性越来越高、危害性越来越大二、人工智能与网络安全结合的可能性1.信息检索：面对大量日志数据处理，AI的算力能够提前发现潜在威胁，进行漏洞自动挖掘；NLP技术能够帮助用户自动提取威胁情报。2.安全性分析：分析网络攻防策略、密码/协议/系统安全性分析等；AI可以分析大量网络数据，识别异常行为和潜在的威胁，以及实时响应攻击。这种能力使得AI能够
android初学金是沉默。 android
Intent直译意图显式意图：构造函数（实参为两个）(当前类对象this，要跳转的.javaclass文件)，隐式意图：构造方法实参(填写一个)(需要在清单文件配置)系统自动匹配点击事件:注册设置点击监听器的常用三种方法On...Click，1、匿名内部类适应只需要一个对象，2、外部类即自己写一个类实现监听器接口，3、当前类实现监听器接口(实参填this))，可以lambad表达式常用UI控件Te
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam