majiabao123

中文化和国际化问题权威解析之一：字符编码发展历程

前几天看文初的《精武门之Web安全研讨会首日感受》，说到利用字符集攻击时提到以前宝宝写的一篇有关国际化的文章，趁机再次拜读了宝宝的这篇大作，不得不感慨宝宝的写作功底，无敌！这么好的文章不分享出来实在是太可惜了，在此将宝宝的大作转帖于此；

作者序

在我开发 Java 程序的几年中，遇到得最多，也是别人向我提问最多的问题，就是各种各样看似稀奇古怪的中文乱码问题了。网上也有许多解释和解决 Java 中文问题的文章，但水平参差不齐，有一些文章甚至是错误的。

此外，我们公司自己的 Java 程序从一开始就采用了错误的方式处理中文问题，虽能解一时之急，却引出了越来越多的深远的问题。每当我听到有的同事还在讨论如何特殊处理双字节的中文 GB 码，就感慨他们思路的狭隘。试问，今天我们可以用特殊的方式处理我们所熟悉的中文编码，可是今后我们怎样才能应付日文版、韩文版、或世界其它国家语言的产品开发呢？

在我看来，与其说这些问题是 “ 中文化问题 ” ，不如说是 “ 国际化问题 ” 。所谓的 “ 汉化 ” 这种说法已经随时代远去了。想想看，这个词带有明显的小农经济的色彩：自家汉化自家用，哪管世界变化多。经过汉化的软件，常常意味着：版本落后、不兼容、不稳定。为什么会这样呢？根本原因是，从软件的设计阶段，就没有考虑国际用户的需要，没有采用国际通用的标准。事后要弥补自然难上加难。

所以让我们把眼光放开，想一想 “ 国际化 ” 。当然国际化的目的还是生产出 “ 汉化 ” 的软件，但我们可以用同样的方法 “ 韩化 ” 、 “ 日化 ” 、 “ 阿拉伯化 ” ，统称为 “ 本地化 ” —— 这就是 “ 国际化 ” 的目的。国际化和本地化有两个很体面的英文缩写： I18n （ Internationalization ）和 L10n （ Localization ）。

想要开发出国际化的软件产品，首先要了解国际标准，而不是使用东拼西凑的权宜之计。本文首先从相关国际标准的讨论切入，相信正确地理解和应用这些标准，所有的 “ 中文化问题 ” 或 “ 国际化问题 ” 都会迎刃而解。

字符编码简介

ASCII 码

从学计算机的那天开始，老师就告诉我们在计算机里面，所有的英文字母都对应到一个数字编码，这就是 ASCII 码（ American Standard Code for Information Interchange ）。 ASCII 码是很久很久以前（ 1968 年）制定的。它只使用了一个 8 位字节中的低 7 位，总共是 127 个编码位。这样的方案很快就不够使用了。

单字节编码的发展

在 80 年代早期，一些现在流行的标准（如 ISO 8859 和 Unicode ）还未出现。那时为了支持多种地区的语言，各大组织机构或 IT 厂商开始发明它们自己的编码方案，以便弥补 ASCII 编码的不足。一时间，各种互不相容的字符编码方案成百花齐放之势。

为了避免混乱， ISO 组织在 1998 年之后，陆续发表了一系列代号为 8859 的标准，作为 ASCII 编码的标准扩展，终于统一了单字节的西方字符的编码。 ISO 是设在瑞士的国际标准化组织的简称（ International Organization for Standardization ）。

ISO-8859-1 （ Latin1 - 西欧字符）

ISO-8859-1 覆盖了大多数西欧语言，包括：法国、西班牙、葡萄牙、意大利、荷兰、德国、丹麦、瑞典、挪威、芬兰、冰岛、爱尔兰、苏格兰、英格兰等，因而也涉及到了整个美洲大陆、澳大利亚和非洲很多国家的语言。

此外， ISO-8859-1 后来被采纳为 ISO-10646 标准（后面会讲到）的首页，换句话说， Unicode 的最开头 256 个字符编码和 ISO-8859-1 是一一对应的。正是由于这个特殊性，使很多人产生了对 ISO-8859-1 编码的误用。

ISO-8859 标准还包括：

ISO-8859-2 （ Latin2 - 中、东欧字符）
ISO-8859-3 （ Latin3 - 南欧字符）
ISO-8859-4 （ Latin4 - 北欧字符）
ISO-8859-5 （ Cyrillic - 斯拉夫语）
ISO-8859-6 （ Arabic - 阿拉伯语）
ISO-8859-7 （ Greek - 希腊语）
ISO-8859-8 （ Hebrew - 希伯来语）
ISO-8859-9 （ Latin5 ）
ISO-8859-10 （ Latin6 ）
ISO-8859-11 （ Thai - 泰国语）
ISO-8859-12 （保留）
ISO-8859-13 （ Latin7 ）
ISO-8859-14 （ Latin8 ）
ISO-8859-15 （ Latin9 ）

但是 ISO 8859 系列标准的字符编码，还是互不相容，不可能同时使用的。毕竟它们只是单字节的编码方案。而且，它们和多字节的编码方案如中文编码 GB2312 和 BIG5 也是不相容的。那些欧洲字符（最高位为 1 的字符），在 GB2312 和 BIG5 中被认为是双字节汉字编码的首字节。

多字节编码的发展

单字节编码只有 256 个码位（ 2⁸ =256 ），而中文字符何止千千万，单字节编码不可能满足中文编码的需要。于是为了适应东方文字信息处理的需要， ISO 又制定了 ISO 2022 标准（ Character code structure and extension techniques ），提供了七位与八位编码字符集的扩充方法的标准。我国根据 ISO 2022 制定了国家标准 GB2311 —— 《信息交换用七位编码字符集的扩充方法》，并根据该标准制定了国家标准 GB2312-80 编码。其他东方国家和地区也制定了各自的字符编码标准，如日本的 JIS0208 ，韩国的 KSC5601 ，台湾地区的 CNS11643 等。

BIG5

BIG5 是从 CNS11643 的早期版本发展而来的，虽然没有包括 CNS11643 的全部内容，但却是目前台湾、香港地区普遍使用的一种繁体汉字的市场标准，包括 440 个符号，一级汉字 5401 个、二级汉字 7652 个，共计 13060 个汉字。

GB2312-80

全称是《信息交换用汉字编码字符集基本集》， 1980 年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。

· 双字节编码

· A1-A9 ：符号区，包含 682 个符号

· B0-F7 ：汉字区，包含 6763 个汉字

GB2312 码共收录 6763 个简体汉字、 682 个符号，其中汉字部分：一级字 3755 ，以拼音排序，二级字 3008 ，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

GBK

汉字内码扩展规范（ GBK ）是国家技术监督局 1995 年为中文 Windows 95 所制定的新的汉字内码规范。

· 双字节编码， GB2312-80 的扩充，在码位上和 GB2312-80 兼容。

· 范围： 8140 ～ FEFE （剔除 xx7F ）共 23940 个码位。

· 包含 21003 个汉字，包含了 ISO 10646 中的全部中日韩汉字，简、繁体字融于一库。

严格说， GBK 不能算是国家标准，最多算是一个商业标准。而 GB18030 才是真正的国家标准。

GB18030-2000

全称是《信息交换用汉字编码字符集》，是我国的强制标准，所有不支持 GB18030 标准的软件将不能作为产品出售。

· 单字节、双字节、四字节编码。

· 向下与 GB2312 编码兼容。

· 支持 GB 13000.1-1993 中的全部中、日、韩（ CJK ）统一汉字字符和全部 CJK 统一汉字扩展 A 的字符。

虽然 GB18030 标准非常强大，但它是一个中国大陆的标准。在编码上，除了和 GB2312 以外，还是不能和世界上其它任何一种字符编码统一。

终极标准 —— Unicode 和 ISO 10646

前面所讲的一切字符编码方案，都是针对局部地区或少数语言文字的，没有办法同时表达所有的语言文字，或在多种语言平台上交换。这对今天极其频繁的国际信息交流是不相称的。

为了提高计算机的信息处理和交换功能，使得世界各国的文字都能在计算机中处理，从 1984 年起， ISO 组织就开始研究制定一个全新的标准：通用多八位编码字符集（ Universal Multiple-Octet Coded Character Set ），简称 UCS 。标准的编号为： ISO 10646 。这一标准为世界各种主要语言的字符 ( 包括简体及繁体的中文字 ) 及附加符号，编制统一的内码。

统一码（ Unicode ）是 Universal Code 的缩写，是由另一个叫 “Unicode 学术学会 ” （ The Unicode Consortium ）的机构制定的字符编码系统。 Unicode 与 ISO 10646 国际编码标准从内容上来说是同步一致的。

Unicode 是 Java 语言和 XML 的基础，所以我们要稍微详细地介绍一下 Unicode 以及 ISO 10646 标准。

注意：不够耐心的读者可以跳过本章的余下部分。但显然了解本章所描述的 Unicode 及相关编码的技术细节，有利于你更好地理解和应用 Unicode 。

Unicode 和 ISO 10646 的关系

在 1991 年， Unicode 学术学会与 ISO 国际标准化组织决定共同制订一套适用于多种语言文本的通用编码标准。 Unicode 与 ISO 10646 国际编码标准于 1992 年 1 月正式合作发展一套通用编码标准。自此，两个组织便一直紧密合作，同步发展 Unicode 及 ISO 10646 国际编码标准。

ISO 10646 （ UCS ）	Unicode
1993 年， ISO 组织发表 ISO 10646 国际编码标准的第一个版本，全名是 ISO/IEC 10646-1:1993 。它收录了 20902 个表意字符（ ideograph ，中日韩文均属表意字符）。	同年， Unicode 学术学会根据 ISO/IEC 10646-1:1993 修订了 Unicode 1.0 ，发布 Unicode 1.1 。
不断改善和修订 ISO 10646 标准。	1996 年发表 Unicode 2.0 ， 1998 年发表 Unicode 2.1 ，根据 ISO 10646 做了一些改善和修订，新增了欧元符号。
2000 年 10 月发表了 ISO 10646 第二版的第一部分： ISO/IEC 10646-1:2000 ，新增收了 6,582 个表意字符于扩展区 A 中（ CJK Unified Ideographs Extension A ）。	2000 年 2 月，发表 Unicode 3.0 ，也包含了同样的 CJK Ext A 。
2001 年，发表了 ISO/IEC 10646 的第二部分，增收了 42711 个表意字符于扩展区 B 里。	2001 年， Unicode 发表 3.1 版，将 CJK Ext B 纳入新版 Unicode 中。

虽然两个组织保持如此密切的合作关系，但 Unicode 和 ISO 10646 还是有区别的。 ISO 10646 着重定义字符编码，而 Unicode 则在此基础上，为这些字符及编码数据提出应用的方法以及对语义数据作补充。

UCS 的结构

UCS 的结构是一个四维的编码空间，每一维由一个字节（八位二进制位）组成，范围是 00 到 FF 。总体上分为 128 个群组 (Group 00-7F) ，每一群组由 256 个平面 (Plane 00-FF) 组成，每一平面有 256 行 (Row 00-FF) ，每一行 256 个编码位 (Cell 00-FF) 。所以，每一平面包括 65,536 个字符位 (Character Position 0000-FFFF) 。

整个编码字符集的每个字符都由 4 个字节，按 “ 组 - 面 - 行 - 列 ” 的顺序表示。所以 UCS 的可编码空间为： 128 × 256 × 256 × 256 = 2³¹ 。

UCS 将其第一个平面 (00 群组中的 00 平面 ) 称作基本多语种平面（ Basic Multilingual Plane ， BMP ）。

在 UCS 中，目前只有 00 组是重要的， Unicode 学术学会断言，在可以预见的将来，甚至不可能用完 00 组中的前 17 个平面（ 00 平面到 10 平面）。因此， Unicode 只定义了 ISO 10646 的第 00 组的前 17 个平面。事实上，目前绝大多数字符，都分配在第 00 平面 BMP 中。

下表中列出了 BMP 中的字符分配情况：

区间	描述
（ 0000-1FFF ）基本拼音字符区	包括所有拼读文字的字母拼音和音标。它的字符集一般较小，如：拉丁文、西里尔文、希腊文、希伯来文、阿拉伯文、泰文、天成文书（梵文）等。
（ 2000-28FF ）符号区	包括许多种用于标点、数学、化学、科技及其它特殊用途上的 “ 符号 ” 和 “ 丁贝符 ” （示意图形符号）。
（ 2E80-33FF ）中日韩语音及符号区	包括用于中国、日本、韩国语言中的标点、符号、字根（笔画）及发音等字符。
（ 3400-9FA5 ）中日韩汉字字符区	由 27,484 个中日韩（越）的统一汉字组成。
（ A000-A4C6 ）彝族字符区	由 1,165 个中国南方彝族音节和 50 个其字根组成。
（ AC00-D7A3 ）韩字符拼音区	由 11,172 个预先组合的韩字符拼音音节组成。
（ D800-DFFF ）代理区	这个区被平分为 1024 个 “ 高半代理区 ” （ D800-DBFF ）码位和 1024 个 “ 低半代理区 ” （ DC00-DFFF ）码位，用来形成代理对，可以得到超过一百万个扩充编码位。
（ E000-F8FF ）私人专用区	包含 6,400 个编码位，用于用户或开发商自行定义的字符编码。
（ F900-FA2D ）兼容字符区	包括一些被许多行业协会和国家标准广泛使用的字符，但在 Unicode 编码中有不同的表现形式。包含一些专用字符。

UCS 的表现形式

UCS 有两种方式来表示一个字符编码：四字节正规形式（ UCS-4 ， Four-octet canonical form ）和双字节基本平面形式（ UCS-2 ， Two-octet BMP form ）。

UCS-4 —— 四字节正规形式

UCS-4 用 4 个字节来表示一个字符。第一个字节表示组（ Group ），第二表示平面（ Plane ），第三表示行（ Row ），第四表示单元号或列（ Cell ）。

UCS-2 —— 双字节基本平面形式

当系统只使用 BMP 的字符码时，可以省略群组和平面中的八位，将字符码由 32 个位缩短为 16 个位（ 2 个字节）。标记为 UCS-2 。

Unicode 和 UCS-2 同样采用 16 位编码。所以一般 可以把 Unicode 和 UCS-2 看作是同一样东西 。

代理对（ Surrogate Pair ）

UCS-4 定义了 4 个字节表示一个字符，用来应付将来的扩展是绰绰有余。可是 Unicode 和 UCS-2 只定义了 2 个字节，却很容易用尽。代理对（ Surrogate Pair ）的设计在这种背景下应运而生。

UCS-2 在 BMP 中开辟了一个特殊的区间（ D800 - DFFF ） -- 代理区，并平分成两个区，分别称为高半代理区（ High-half Zone ， D800 - DBFF ），和低半代理区（ Low-half Zone ， DC00 - DFFF ），各有 1024 个码位。使用时，从高低两个代理区中各取一个编码组成一个四字节的代理，来表示一个在 BMP 以外平面上的编码字符位。这样一来，总共可以多表示 1024×1024 个字符，映射到 00 群组中的 01 到 10 平面（共 16 个平面）。

代理对提供了用 BMP 的 2 字节编码来表示在基本多文种平面（ BMP ）之外的 16 个平面编码的机制。一些不常用的字符可以用代理对表示。目前，只有 ISO/IEC 10646-2:2001 和 Unicode 3.1 才使用到代理对。

高半代理区和低半代理区的划分，使编码位相互区分开。非代理区字符一定不会在这个区里。因为高半代理区和低半代理区不相交，所以很容易决定字符值的边界。一个完好的文本中，高半代理码和低半代理码总是按先后成对出现。

如果在实现上没有删除代理码或在代理码对中插入字符，数据的完整性就可得到保证。即使数据有残损，也只是局部的。一个残缺的码只影响一个字符。因为高半代理区和低半代理区不相交，且成对出现，错码不会传到文本的其它部分。

具体来说，一个代理对（ H ， L ）由码值为 D800-DBFF 的高半代理码 H 和码值为 DC00-DFFF 低半代理码 L 组成。将一个字符映射到 UCS-4 码位中。假设 N 是 UCS-4 码值，则有：（以下所有数字均为 16 进制）

N = (H - D800) × 400 + (L - DC00) + 10000

于是得到 N 的码值为 10000 到 10FFFF 。

注意

Unicode 3.0 没有用到代理对，直到 3.1 才增加了 CJK Ext B ，用到了 02 平面，需要使用代理对才能访问。但 99.99% 的情况下，根本用不到那些字。此外， JDK1.4 只支持到 Unicode 3.0 ，所以目前 Java 还不能应用代理对。

UTF 编码

UTF 为 UCS Transformation Format 的缩写，意为 “UCS 转换格式 ” 。 UCS 只是一个字形和内码上的标准，并没有定义实际在计算机上存取的方法，而 UTF 便定义了一整套的计算机存取 UCS 编码的转换格式，并考虑了与其它编码方式兼容。常用的格式有 UTF-8 和 UTF-16 。有时也用到 UTF-7 来进行 7 位数据传输。

UTF-16

UTF-16 是用定长 16 位（ 2 字节）来表示的 UCS-2 或 Unicode 转换格式。它将 Unicode 的编码值变成 2 字节的 Big-endian （高位字节在前，低位字节在后）或 Little-endian （低位字节在前，高位字节在后）编码。 UTF-16 利用代理对来访问 BMP 之外的字符编码。

Java 使用 Big-endian 系统，而 Intel 系列处理器内部使用 Little-endian 系统（学汇编语言和 C 语言的人都知道）。

例如： “ 中国 ” 两字， Unicode 是 4E2D 56FD ，在 Windows 上用 UTF-16 编码，结果为四个字节： 2D 4E FD 56 ；如果使用 Java 输出，结果为： 4E 2D 56 FD 。

使用 UTF-16 有什么缺点呢？很显然，

1. 所有原本 1 个字节就可以表示的西方字符，现在要用 2 个字节来表示，体积大了一倍。

2. 学过 C 的人都知道， 0x00 代表 C 字符串的结尾。但是用 UTF-16 来表示单字节字符（ ISO-8859-1 ）时，高位字节为 0x00 。这样就会使 C 语言库函数发生误判。用 UTF-16 表示文件名、网址等，全引出无数的问题。

3. 字符的边界不好找。程序处理时必须从字符串的头部开始扫描，才可能正确地找出一个字符的边界，效率较低。此外，万一坏掉一个字节，这个字节之后的字符都会错位，坏掉一片。

所有的这些问题，在 UTF-8 中都不存在。

但是， UTF-16 也有其天然的优点：它直接表现了字符编码的整数值。所以 UTF-16 是最直接的 Unicode 表示法。此外，它是定长的，这大大简化了字符串的操作。 Java 语言就是用 UTF-16 格式将字符存储在内存中的。正是这样，才使 Java 的 Unicode 字符串的操作格外简单高效。

UTF-8

UTF-8 使用了变长技术，在每一个编码区域有不同的字码长度：

1. 对 UCS-2 ，由 1 字节至 3 字节构成；

2. 如果 UCS-2 使用了代理对，则 UTF-8 最长可到 4 字节；

3. 对 UCS-4 ，由 1 字节至 6 字节构成。

因为以字节（ 8 位）为组成单元，故称为 “UTF-8 ” 。对于英文文本， UTF-8 的文件大小比其它转换格式都小。

在 UTF-8 内，字符由 1 个至 6 个字节为组合。下表列举出了不同范围的 UCS 码转换成 UTF-8 的规则。英文字母 “x” 代表可以用来记录 Unicode 码值的区域。

UCS-4 区域（十六进制）	UTF-8 字节组合（二进制）
0000 0000 —— 0000 007F	0xxxxxxx
0000 0080 —— 0000 07FF	110xxxxx 10xxxxxx
0000 0800 —— 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 —— 001F FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000 —— 03FF FFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000 —— 7FFF FFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

在 UTF-8 内，

1. 如果一个字节，最高位（第 8 位）为 0 ，表示这是一个 ASCII 字符（ 00 - 7F ）。可见，所有 ASCII 编码已经是 UTF-8 了。

2. 如果一个字节，以 11 开头，连续的 1 的个数暗示这个字符的字节数，例如： 110xxxxx 代表它是双字节 UTF-8 字符的首字节。

3. 如果一个字节，以 10 开始，表示它不是首字节，需要向前查找才能得到当前字符的首字节。

可见 UTF-8 可以有效地保证数据的完整性，避免出现编码的错位。即使偶然出现 “ 坏字 ” ，也不会影响到后续的文本。

那么 UTF-8 有什么缺点呢？显然，对于在 BMP 中的中文字来说，需要用 3 个字节才能表示，比使用 UTF-16 或直接使用双字节的 GB2312 编码大了 0.5 倍。

上文说了一大通，总结一下，其实很简单：

字符编码是抽象字符在计算机中的数字表示。
字符编码集（ character set ，简称字符集）是一批字符编码的集合。世界上存在大量互不兼容的字符集，给国际交流带来了困难。
ASCII 码是最古老的字符编码，它总共只定义了 7 位共 128 个字母、数字和符号。但它是其它所有字符编码的基础。
Unicode 用 16 位整数编码，将世界上所有主要文字的字符统一起来了。如果利用代理对（ surrogate pair ）最多可以表示从 0 到 1FFFF 的字符。然而绝大多数情况下，只需要用到 0 到 FFFF 之间的字符就足够了。
Unicode 常用 UTF-8 和 UTF-16 来表示。 7 位的 ASCII 码不用作任何变化，就已经是 UTF-8 了。但 UTF-8 需要用 3 个字节来表示一个汉字。
ISO 8859 系列字符集，定义了单字节字符编码的标准。其中最特殊的是 ISO-8859-1 编码，它的编码和 Unicode 中最开始的 256 个字符编码完全相同。
GB18030 编码是中国大陆的国家标准，在字汇上等同于 Unicode ，在编码上和 GB2312 编码以及 GBK 编码兼容。

你可能感兴趣的:(java,语言,character,localization,transformation)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比