william750214

《中文化和国际化问题(1)--字符编码发展历程》

作者序
在我开发 Java 程序的几年中，遇到得最多，也是别人向我提问最多的问题，就是各种各样看似稀奇古怪的中文乱码问题了。网上也有许多解释和解决 Java 中文问题的文章，但水平参差不齐，有一些文章甚至是错误的。

此外，我们公司自己的 Java 程序从一开始就采用了错误的方式处理中文问题，虽能解一时之急，却引出了越来越多的深远的问题。每当我听到有的同事还在讨论如何特殊处理双字节的中文 GB 码，就感慨他们思路的狭隘。试问，今天我们可以用特殊的方式处理我们所熟悉的中文编码，可是今后我们怎样才能应付日文版、韩文版、或世界其它国家语言的产品开发呢？

在我看来，与其说这些问题是 “ 中文化问题 ” ，不如说是 “ 国际化问题 ” 。所谓的 “ 汉化 ” 这种说法已经随时代远去了。想想看，这个词带有明显的小农经济的色彩：自家汉化自家用，哪管世界变化多。经过汉化的软件，常常意味着：版本落后、不兼容、不稳定。为什么会这样呢？根本原因是，从软件的设计阶段，就没有考虑国际用户的需要，没有采用国际通用的标准。事后要弥补自然难上加难。

所以让我们把眼光放开，想一想 “ 国际化 ” 。当然国际化的目的还是生产出 “ 汉化 ” 的软件，但我们可以用同样的方法 “ 韩化 ” 、 “ 日化 ” 、 “ 阿拉伯化 ” ，统称为 “ 本地化 ” —— 这就是 “ 国际化 ” 的目的。国际化和本地化有两个很体面的英文缩写： I18n （ Internationalization ）和 L10n （ Localization ）。

想要开发出国际化的软件产品，首先要了解国际标准，而不是使用东拼西凑的权宜之计。本文首先从相关国际标准的讨论切入，相信正确地理解和应用这些标准，所有的 “ 中文化问题 ” 或 “ 国际化问题 ” 都会迎刃而解。

字符编码简介
ASCII 码
从学计算机的那天开始，老师就告诉我们在计算机里面，所有的英文字母都对应到一个数字编码，这就是 ASCII 码（ American Standard Code for Information Interchange ）。 ASCII 码是很久很久以前（ 1968 年）制定的。它只使用了一个 8 位字节中的低 7 位，总共是 127 个编码位。这样的方案很快就不够使用了。

单字节编码的发展
在 80 年代早期，一些现在流行的标准（如 ISO 8859 和 Unicode ）还未出现。那时为了支持多种地区的语言，各大组织机构或 IT 厂商开始发明它们自己的编码方案，以便弥补 ASCII 编码的不足。一时间，各种互不相容的字符编码方案成百花齐放之势。

为了避免混乱， ISO 组织在 1998 年之后，陆续发表了一系列代号为 8859 的标准，作为 ASCII 编码的标准扩展，终于统一了单字节的西方字符的编码。 ISO 是设在瑞士的国际标准化组织的简称（ International Organization for Standardization ）。

ISO-8859-1 （ Latin1 - 西欧字符）

ISO-8859-1 覆盖了大多数西欧语言，包括：法国、西班牙、葡萄牙、意大利、荷兰、德国、丹麦、瑞典、挪威、芬兰、冰岛、爱尔兰、苏格兰、英格兰等，因而也涉及到了整个美洲大陆、澳大利亚和非洲很多国家的语言。

此外， ISO-8859-1 后来被采纳为 ISO-10646 标准（后面会讲到）的首页，换句话说， Unicode 的最开头 256 个字符编码和 ISO-8859-1 是一一对应的。正是由于这个特殊性，使很多人产生了对 ISO-8859-1 编码的误用。

ISO-8859 标准还包括：

ISO-8859-2 （ Latin2 - 中、东欧字符）
ISO-8859-3 （ Latin3 - 南欧字符）
ISO-8859-4 （ Latin4 - 北欧字符）
ISO-8859-5 （ Cyrillic - 斯拉夫语）
ISO-8859-6 （ Arabic - 阿拉伯语）
ISO-8859-7 （ Greek - 希腊语）
ISO-8859-8 （ Hebrew - 希伯来语）
ISO-8859-9 （ Latin5 ）
ISO-8859-10 （ Latin6 ）
ISO-8859-11 （ Thai - 泰国语）
ISO-8859-12 （保留）
ISO-8859-13 （ Latin7 ）
ISO-8859-14 （ Latin8 ）
ISO-8859-15 （ Latin9 ）
但是 ISO 8859 系列标准的字符编码，还是互不相容，不可能同时使用的。毕竟它们只是单字节的编码方案。而且，它们和多字节的编码方案如中文编码 GB2312 和 BIG5 也是不相容的。那些欧洲字符（最高位为 1 的字符），在 GB2312 和 BIG5 中被认为是双字节汉字编码的首字节。

多字节编码的发展
单字节编码只有 256 个码位（ 28 =256 ），而中文字符何止千千万，单字节编码不可能满足中文编码的需要。于是为了适应东方文字信息处理的需要， ISO 又制定了 ISO 2022 标准（ Character code structure and extension techniques ），提供了七位与八位编码字符集的扩充方法的标准。我国根据 ISO 2022 制定了国家标准 GB2311 —— 《信息交换用七位编码字符集的扩充方法》，并根据该标准制定了国家标准 GB2312-80 编码。其他东方国家和地区也制定了各自的字符编码标准，如日本的 JIS0208 ，韩国的 KSC5601 ，台湾地区的 CNS11643 等。

BIG5

BIG5 是从 CNS11643 的早期版本发展而来的，虽然没有包括 CNS11643 的全部内容，但却是目前台湾、香港地区普遍使用的一种繁体汉字的市场标准，包括 440 个符号，一级汉字 5401 个、二级汉字 7652 个，共计 13060 个汉字。

GB2312-80

全称是《信息交换用汉字编码字符集基本集》， 1980 年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。

·         双字节编码

·         A1-A9 ：符号区，包含 682 个符号

·         B0-F7 ：汉字区，包含 6763 个汉字

GB2312 码共收录 6763 个简体汉字、 682 个符号，其中汉字部分：一级字 3755 ，以拼音排序，二级字 3008 ，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

GBK

汉字内码扩展规范（ GBK ）是国家技术监督局 1995 年为中文 Windows 95 所制定的新的汉字内码规范。

·         双字节编码， GB2312-80 的扩充，在码位上和 GB2312-80 兼容。

·         范围： 8140 ～ FEFE （剔除 xx7F ）共 23940 个码位。

·         包含 21003 个汉字，包含了 ISO 10646 中的全部中日韩汉字，简、繁体字融于一库。

严格说， GBK 不能算是国家标准，最多算是一个商业标准。而 GB18030 才是真正的国家标准。

GB18030-2000

全称是《信息交换用汉字编码字符集》，是我国的强制标准，所有不支持 GB18030 标准的软件将不能作为产品出售。

·         单字节、双字节、四字节编码。

·         向下与 GB2312 编码兼容。

·         支持 GB 13000.1-1993 中的全部中、日、韩（ CJK ）统一汉字字符和全部 CJK 统一汉字扩展 A 的字符。

虽然 GB18030 标准非常强大，但它是一个中国大陆的标准。在编码上，除了和 GB2312 以外，还是不能和世界上其它任何一种字符编码统一。

终极标准 —— Unicode 和 ISO 10646
前面所讲的一切字符编码方案，都是针对局部地区或少数语言文字的，没有办法同时表达所有的语言文字，或在多种语言平台上交换。这对今天极其频繁的国际信息交流是不相称的。

为了提高计算机的信息处理和交换功能，使得世界各国的文字都能在计算机中处理，从 1984 年起， ISO 组织就开始研究制定一个全新的标准：通用多八位编码字符集（ Universal Multiple-Octet Coded Character Set ），简称 UCS 。标准的编号为： ISO 10646 。这一标准为世界各种主要语言的字符 ( 包括简体及繁体的中文字 ) 及附加符号，编制统一的内码。

统一码（ Unicode ）是 Universal Code 的缩写，是由另一个叫 “Unicode 学术学会 ” （ The Unicode Consortium ）的机构制定的字符编码系统。 Unicode 与 ISO 10646 国际编码标准从内容上来说是同步一致的。

Unicode 是 Java 语言和 XML 的基础，所以我们要稍微详细地介绍一下 Unicode 以及 ISO 10646 标准。

注意：不够耐心的读者可以跳过本章的余下部分。但显然了解本章所描述的 Unicode 及相关编码的技术细节，有利于你更好地理解和应用 Unicode 。

Unicode 和 ISO 10646 的关系
在 1991 年， Unicode 学术学会与 ISO 国际标准化组织决定共同制订一套适用于多种语言文本的通用编码标准。 Unicode 与 ISO 10646 国际编码标准于 1992 年 1 月正式合作发展一套通用编码标准。自此，两个组织便一直紧密合作，同步发展 Unicode 及 ISO 10646 国际编码标准。

ISO 10646 （ UCS ）
Unicode

1993 年， ISO 组织发表 ISO 10646 国际编码标准的第一个版本，全名是 ISO/IEC 10646-1:1993 。它收录了 20902 个表意字符（ ideograph ，中日韩文均属表意字符）。
同年， Unicode 学术学会根据 ISO/IEC 10646-1:1993 修订了 Unicode 1.0 ，发布 Unicode 1.1 。

不断改善和修订 ISO 10646 标准。
1996 年发表 Unicode 2.0 ， 1998 年发表 Unicode 2.1 ，根据 ISO 10646 做了一些改善和修订，新增了欧元符号。

2000 年 10 月发表了 ISO 10646 第二版的第一部分： ISO/IEC 10646-1:2000 ，新增收了 6,582 个表意字符于扩展区 A 中（ CJK Unified Ideographs Extension A ）。
2000 年 2 月，发表 Unicode 3.0 ，也包含了同样的 CJK Ext A 。

2001 年，发表了 ISO/IEC 10646 的第二部分，增收了 42711 个表意字符于扩展区 B 里。
2001 年， Unicode 发表 3.1 版，将 CJK Ext B 纳入新版 Unicode 中。

虽然两个组织保持如此密切的合作关系，但 Unicode 和 ISO 10646 还是有区别的。 ISO 10646 着重定义字符编码，而 Unicode 则在此基础上，为这些字符及编码数据提出应用的方法以及对语义数据作补充。

UCS 的结构
UCS 的结构是一个四维的编码空间，每一维由一个字节（八位二进制位）组成，范围是 00 到 FF 。总体上分为 128 个群组 (Group 00-7F) ，每一群组由 256 个平面 (Plane 00-FF) 组成，每一平面有 256 行 (Row 00-FF) ，每一行 256 个编码位 (Cell 00-FF) 。所以，每一平面包括 65,536 个字符位 (Character Position 0000-FFFF) 。

整个编码字符集的每个字符都由 4 个字节，按 “ 组 - 面 - 行 - 列 ” 的顺序表示。所以 UCS 的可编码空间为： 128 × 256 × 256 × 256 = 231 。

UCS 将其第一个平面 (00 群组中的 00 平面 ) 称作基本多语种平面（ Basic Multilingual Plane ， BMP ）。

在 UCS 中，目前只有 00 组是重要的， Unicode 学术学会断言，在可以预见的将来，甚至不可能用完 00 组中的前 17 个平面（ 00 平面到 10 平面）。因此， Unicode 只定义了 ISO 10646 的第 00 组的前 17 个平面。事实上，目前绝大多数字符，都分配在第 00 平面 BMP 中。

下表中列出了 BMP 中的字符分配情况：

区间
描述

（ 0000-1FFF ）基本拼音字符区
包括所有拼读文字的字母拼音和音标。它的字符集一般较小，如：拉丁文、西里尔文、希腊文、希伯来文、阿拉伯文、泰文、天成文书（梵文）等。

（ 2000-28FF ）符号区
包括许多种用于标点、数学、化学、科技及其它特殊用途上的 “ 符号 ” 和 “ 丁贝符 ” （示意图形符号）。

（ 2E80-33FF ）中日韩语音及符号区
包括用于中国、日本、韩国语言中的标点、符号、字根（笔画）及发音等字符。

（ 3400-9FA5 ）中日韩汉字字符区
由 27,484 个中日韩（越）的统一汉字组成。

（ A000-A4C6 ）彝族字符区
由 1,165 个中国南方彝族音节和 50 个其字根组成。

（ AC00-D7A3 ）韩字符拼音区
由 11,172 个预先组合的韩字符拼音音节组成。

（ D800-DFFF ）代理区
这个区被平分为 1024 个 “ 高半代理区 ” （ D800-DBFF ）码位和 1024 个 “ 低半代理区 ” （ DC00-DFFF ）码位，用来形成代理对，可以得到超过一百万个扩充编码位。

（ E000-F8FF ）私人专用区
包含 6,400 个编码位，用于用户或开发商自行定义的字符编码。

（ F900-FA2D ）兼容字符区
包括一些被许多行业协会和国家标准广泛使用的字符，但在 Unicode 编码中有不同的表现形式。包含一些专用字符。

UCS 的表现形式
UCS 有两种方式来表示一个字符编码：四字节正规形式（ UCS-4 ， Four-octet canonical form ）和双字节基本平面形式（ UCS-2 ， Two-octet BMP form ）。

UCS-4 —— 四字节正规形式

UCS-4 用 4 个字节来表示一个字符。第一个字节表示组（ Group ），第二表示平面（ Plane ），第三表示行（ Row ），第四表示单元号或列（ Cell ）。

UCS-2 —— 双字节基本平面形式

当系统只使用 BMP 的字符码时，可以省略群组和平面中的八位，将字符码由 32 个位缩短为 16 个位（ 2 个字节）。标记为 UCS-2 。

Unicode 和 UCS-2 同样采用 16 位编码。所以一般可以把 Unicode 和 UCS-2 看作是同一样东西。

代理对（ Surrogate Pair ）

UCS-4 定义了 4 个字节表示一个字符，用来应付将来的扩展是绰绰有余。可是 Unicode 和 UCS-2 只定义了 2 个字节，却很容易用尽。代理对（ Surrogate Pair ）的设计在这种背景下应运而生。

UCS-2 在 BMP 中开辟了一个特殊的区间（ D800 - DFFF ） -- 代理区，并平分成两个区，分别称为高半代理区（ High-half Zone ， D800 - DBFF ），和低半代理区（ Low-half Zone ， DC00 - DFFF ），各有 1024 个码位。使用时，从高低两个代理区中各取一个编码组成一个四字节的代理，来表示一个在 BMP 以外平面上的编码字符位。这样一来，总共可以多表示 1024×1024 个字符，映射到 00 群组中的 01 到 10 平面（共 16 个平面）。

代理对提供了用 BMP 的 2 字节编码来表示在基本多文种平面（ BMP ）之外的 16 个平面编码的机制。一些不常用的字符可以用代理对表示。目前，只有 ISO/IEC 10646-2:2001 和 Unicode 3.1 才使用到代理对。

高半代理区和低半代理区的划分，使编码位相互区分开。非代理区字符一定不会在这个区里。因为高半代理区和低半代理区不相交，所以很容易决定字符值的边界。一个完好的文本中，高半代理码和低半代理码总是按先后成对出现。

如果在实现上没有删除代理码或在代理码对中插入字符，数据的完整性就可得到保证。即使数据有残损，也只是局部的。一个残缺的码只影响一个字符。因为高半代理区和低半代理区不相交，且成对出现，错码不会传到文本的其它部分。

具体来说，一个代理对（ H ， L ）由码值为 D800-DBFF 的高半代理码 H 和码值为 DC00-DFFF 低半代理码 L 组成。将一个字符映射到 UCS-4 码位中。假设 N 是 UCS-4 码值，则有：（以下所有数字均为 16 进制）

N = (H - D800) × 400 + (L - DC00) + 10000

于是得到 N 的码值为 10000 到 10FFFF 。

注意

Unicode 3.0 没有用到代理对，直到 3.1 才增加了 CJK Ext B ，用到了 02 平面，需要使用代理对才能访问。但 99.99% 的情况下，根本用不到那些字。此外， JDK1.4 只支持到 Unicode 3.0 ，所以目前 Java 还不能应用代理对。

UTF 编码
UTF 为 UCS Transformation Format 的缩写，意为 “UCS 转换格式 ” 。 UCS 只是一个字形和内码上的标准，并没有定义实际在计算机上存取的方法，而 UTF 便定义了一整套的计算机存取 UCS 编码的转换格式，并考虑了与其它编码方式兼容。常用的格式有 UTF-8 和 UTF-16 。有时也用到 UTF-7 来进行 7 位数据传输。

UTF-16

UTF-16 是用定长 16 位（ 2 字节）来表示的 UCS-2 或 Unicode 转换格式。它将 Unicode 的编码值变成 2 字节的 Big-endian （高位字节在前，低位字节在后）或 Little-endian （低位字节在前，高位字节在后）编码。 UTF-16 利用代理对来访问 BMP 之外的字符编码。

Java 使用 Big-endian 系统，而 Intel 系列处理器内部使用 Little-endian 系统（学汇编语言和 C 语言的人都知道）。

例如： “ 中国 ” 两字， Unicode 是 4E2D 56FD ，在 Windows 上用 UTF-16 编码，结果为四个字节： 2D 4E FD 56 ；如果使用 Java 输出，结果为： 4E 2D 56 FD 。

使用 UTF-16 有什么缺点呢？很显然，

1.   所有原本 1 个字节就可以表示的西方字符，现在要用 2 个字节来表示，体积大了一倍。

2.   学过 C 的人都知道， 0x00 代表 C 字符串的结尾。但是用 UTF-16 来表示单字节字符（ ISO-8859-1 ）时，高位字节为 0x00 。这样就会使 C 语言库函数发生误判。用 UTF-16 表示文件名、网址等，全引出无数的问题。

3.   字符的边界不好找。程序处理时必须从字符串的头部开始扫描，才可能正确地找出一个字符的边界，效率较低。此外，万一坏掉一个字节，这个字节之后的字符都会错位，坏掉一片。

所有的这些问题，在 UTF-8 中都不存在。

但是， UTF-16 也有其天然的优点：它直接表现了字符编码的整数值。所以 UTF-16 是最直接的 Unicode 表示法。此外，它是定长的，这大大简化了字符串的操作。 Java 语言就是用 UTF-16 格式将字符存储在内存中的。正是这样，才使 Java 的 Unicode 字符串的操作格外简单高效。

UTF-8

UTF-8 使用了变长技术，在每一个编码区域有不同的字码长度：

1.   对 UCS-2 ，由 1 字节至 3 字节构成；

2.   如果 UCS-2 使用了代理对，则 UTF-8 最长可到 4 字节；

3.   对 UCS-4 ，由 1 字节至 6 字节构成。

因为以字节（ 8 位）为组成单元，故称为 “UTF-8 ” 。对于英文文本， UTF-8 的文件大小比其它转换格式都小。

在 UTF-8 内，字符由 1 个至 6 个字节为组合。下表列举出了不同范围的 UCS 码转换成 UTF-8 的规则。英文字母 “x” 代表可以用来记录 Unicode 码值的区域。

UCS-4 区域（十六进制）
UTF-8 字节组合（二进制）

0000 0000 —— 0000 007F
0xxxxxxx

0000 0080 —— 0000 07FF
110xxxxx 10xxxxxx

0000 0800 —— 0000 FFFF
1110xxxx 10xxxxxx 10xxxxxx

0001 0000 —— 001F FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0020 0000 —— 03FF FFFF
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

0400 0000 —— 7FFF FFFF
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

在 UTF-8 内，

1.   如果一个字节，最高位（第 8 位）为 0 ，表示这是一个 ASCII 字符（ 00 - 7F ）。可见，所有 ASCII 编码已经是 UTF-8 了。

2.   如果一个字节，以 11 开头，连续的 1 的个数暗示这个字符的字节数，例如： 110xxxxx 代表它是双字节 UTF-8 字符的首字节。

3.   如果一个字节，以 10 开始，表示它不是首字节，需要向前查找才能得到当前字符的首字节。

可见 UTF-8 可以有效地保证数据的完整性，避免出现编码的错位。即使偶然出现 “ 坏字 ” ，也不会影响到后续的文本。

那么 UTF-8 有什么缺点呢？显然，对于在 BMP 中的中文字来说，需要用 3 个字节才能表示，比使用 UTF-16 或直接使用双字节的 GB2312 编码大了 0.5 倍。

上文说了一大通，总结一下，其实很简单：

字符编码是抽象字符在计算机中的数字表示。
字符编码集（ character set ，简称字符集）是一批字符编码的集合。世界上存在大量互不兼容的字符集，给国际交流带来了困难。
ASCII 码是最古老的字符编码，它总共只定义了 7 位共 128 个字母、数字和符号。但它是其它所有字符编码的基础。
Unicode 用 16 位整数编码，将世界上所有主要文字的字符统一起来了。如果利用代理对（ surrogate pair ）最多可以表示从 0 到 1FFFF 的字符。然而绝大多数情况下，只需要用到 0 到 FFFF 之间的字符就足够了。
Unicode 常用 UTF-8 和 UTF-16 来表示。 7 位的 ASCII 码不用作任何变化，就已经是 UTF-8 了。但 UTF-8 需要用 3 个字节来表示一个汉字。
ISO 8859 系列字符集，定义了单字节字符编码的标准。其中最特殊的是 ISO-8859-1 编码，它的编码和 Unicode 中最开始的 256 个字符编码完全相同。
GB18030 编码是中国大陆的国家标准，在字汇上等同于 Unicode ，在编码上和 GB2312 编码以及 GBK 编码兼容。

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
科幻游戏《外卖员模拟器》主要地理环境设定 (1) 穷人小水滴游戏科幻设计
游戏名称:《外卖员模拟器》(英文名称:waimai_se)作者:穷人小水滴本故事纯属虚构,如有雷同实属巧合.故事发生在一个(架空)平行宇宙的地球,21世纪(超低空科幻流派).相关文章:https://blog.csdn.net/secext2022/article/details/141790630目录1星球整体地理设定2巨蛇国主要设定3海蛇市主要设定3.1主要地标建筑3.2交通3.3能源(电力)
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
TextFiled 中输入金额宁梓茞
要求:输入的金额不能超过六位,小数点后面只能输入两位小数如果textFIled中第一位输入的是0,后面必须输入小数点,否则禁止输入用到textfiled代理方法#pragmamark----textFiledDelegate-----(BOOL)textField:(UITextField*)textFieldshouldChangeCharactersInRange:(NSRange)range
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
2023最详细的Python安装教程（Windows版本）程序员林哥 Python python windows 开发语言
python安装是学习pyhon第一步，很多刚入门小白不清楚如何安装python，今天我来带大家完成python安装与配置，跟着我一步步来，很简单，你肯定能完成。第一部分：python安装（一）准备工作1、下载和安装python(认准官方网站)当然你不想去下载的话也可以分享给你，还有入门学习教程，点击下方卡片跳转进群领取（二）开始安装对于Windows操作系统，可以下载“executableins
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
python获取子进程返回值_Python对进程Multiprocessing子进程返回值 weixin_39752157 python获取子进程返回值
在实际使用多进程的时候，可能需要获取到子进程运行的返回值。如果只是用来存储，则可以将返回值保存到一个数据结构中；如果需要判断此返回值，从而决定是否继续执行所有子进程，则会相对比较复杂。另外在Multiprocessing中，可以利用Process与Pool创建子进程，这两种用法在获取子进程返回值上的写法上也不相同。这篇中，我们直接上代码，分析多进程中获取子进程返回值的不同用法，以及优缺点。初级用法
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

《中文化和国际化问题(1)--字符编码发展历程》

你可能感兴趣的:(数据结构,windows,ext,IT厂商)