bzt_java

Unicode字符编码标准---上(转帖)

Unicode
1. 编码知识
1.1 文本和字符
在计算机程序中或者数据文件里，文本（text）是作为数字序列存储的。序列中的数字是具有不同大小、取值和解释的整数。如何解释这些整数是由字符集（character set）、编码（encoding）决定的。
文本主要是由字符（character）组成。在格式文本（fancy text, or rich text）中包括显示属性，如颜色、斜体字、上标等，但仍然是以字符组成的纯文本（plain text）为基础的。有时，格式文本与纯文本之间的区别很复杂，依赖于具体的应用。
什么是字符？典型地，是字母。也可以是数字、句点、连字号、标点符号和数学符号，对于中文，也可以是汉字。还包括定义行尾和段落等的控制字符（一般不可见）。
有了字符，就可以为它们分配数字编码。为字符分配什么数字值，依赖于具体情况。一个简单的字符，如字母"a"，在不同的程序或者数据文件中可能具有不同的整数值。
1.2 字符集：具有数字编码的字符
在信息处理中，所使用的整数总有上限，依赖于存储整数的位的数目。这也决定了可以同时区分的字符的数量。
在设计字符集时，首先要决定所需字符的数目，并确定所需字符的清单。根据字符的数目，可以设定整数值的上限，这个整数范围称为编码空间（code space），其中的一个特定整数称为一个码点（code point）。
然后，为字符清单中的每个字符指定一个整数值，也就是一个码点。这样就得到一个字符集，称作编码字符集（Coded Character Set）。
1.3 编码单元、字节和编码
在计算机系统的实现中，整数以特定大小的单元表示，通常为8位（1字节），16位，或32位。在字符编码中，这样的单元称为编码单元（code unit）。根据编码空间的大小和具体要求，来选择合适的编码单元。通常，所选择编码单元对应的整数范围要大于编码空间的整数范围，这样每个码点就只需一个编码单元表示，并且在字符码点与编码单元间的转换非常简便，因为字符码点对应的整数值与相应编码单元的整数值相同。如果编码单元对应的整数范围小于编码空间的整数范围，就需要多个编码单元表示一个码点。
字节是计算机系统中最基本的表示单元，无论是存储在内存中，还是将文本写入文件或通过网络发送，总是要读写若干字节。因此，在实际应用中，还需要将编码单元进一步表示为字节序列。
将字符表示为字节序列的过程就称为编码（encoding），更重要的是，还包括如何对字节序列进行解释以取得字符。
1.4 不同的字符集
在一些常用的编码中，每个字符只使用一个字节表示，称单字节字符集（single-byte character set, SBCS）。这些字符集都仅限于256个字符。
在ASCII之后，目前应用最广泛的单字节字符集是ISO-8859-1。它是ASCII的一个8位超集，并且提供西欧语言所需的大多数字符。它的一个改进的版本，ISO-8859-15，还包括新的欧元符号和更多的一些法语和芬兰语字母。
    双字节字符集（double-byte character set, DBCS）用于为东亚书写系统中所使用成千上万个表意字符提供足够空间。这里的编码仍是基于字节的，不过是两个字节一起表示一个单一的字符。
    即使在东亚，文本中也会包含小字母表中的字母，如拉丁字母表。这些字母使用单字节表示的效率会更高。因此，提出了多字节字符集（multi-byte character set, MBDC），使用可变数目的字节来表示字符。多字节字符集通常与ASCII兼容，也就是说，在这种编码中，拉丁字母使用与ASCII中相同的字节来表示。一些不常用的字符可能会使用三个甚至四个字节编码。
1.4 常见字符集
1.4.1 ASCII: The American Standard Code form Information Interchange
    ASCII是一个使用7位单元的字符集，及针对7位字节的简单编码方式。尽管局限于很少的一些字符，ASCII是最重要的一种字符集，因为它是目前大多数字符集的基础。
    ASCII只提供了128个数字值（也可称作码点，code point），其中33个被保留用作特殊功能。只有95个码点用作"真正的"文本字符。这些图形字符大多时大写和小写拉丁字母，数字和标点符号，外加一些特殊的括号、下划线和重音符号。
1.4.2 EBCDIC: The Extended Binary-Coded Decimal Interchange Code
EBCDIC是由IBM设计的编码格式，使用8位字节，被一些字符集用于大型机。EBCDIC在与ASCII相近的时期开发的，具有一些相似的特性。
1.4.3 Unicode
Unicode标准定义了一个字符集和几种编码。
Unicode最有吸引力的特点是它涵盖了几乎世界上的所有字符，可以只通过一个唯一的数字（Unicode码点）来访问和操作字符。
2. Unicode介绍
2.1 为什么使用Unicode?
在创造Unicode之前，有数百种编码系统。但是，没有任何一个编码可以包含足够的字符。例如，仅欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一的一种语言，如英语，也没有哪一个编码可以适用于所有的字母，标点符号，和常用的技术符号。
这些编码系统也会互相冲突。也就是说，两种编码可能使用相同的数字代表两个不同的字符，或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码，但是，不论什么时候数据通过不同的编码或平台之间，那些数据总会有损坏的危险。
而Unicode正在改变所有这一切！
在Unicode标准中，提供了1,114,112个码点，不仅可以包含当今世界使用的所有语言文字和其他符号，也足够容纳绝大多数具有历史意义的古文字和符号。并且，Unicode给每个字符提供了一个唯一的数字，不论是什么平台，不论是什么程序，不论什么语言。
Unicode 标准已经被工业界的领导们所采用，例如：Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys等等。最新的标准都需要Unicode，例如XML, Java, ECMAScript , LDAP, CORBA 3.0, WML等等，并且，Unicode是实现ISO/IEC 10646的正规方式。许多操作系统，所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在，是近来全球软件技术最重要的发展趋势。
2.2 Unicode与国际化
直到最近，国际化的常用方法是，假定任何给定的可执行程序同时只和一种语言工作。如果在英文环境下安装，它就只处理英文文本；如果在中文环境下安装，就只处理中文文本。
在这种模型下，针对不同的书写系统和语言，使用的字符集和字符编码不同。在Windows和大型机环境下，术语"代码页"(Code Page)用于描述如何将二进制值映射到人类可读得字符（字形）。一个运行的程序处在单一的代码页，该代码页确定二进制值如和与字形关联。
简便的国际化是Unicode的另一项优势。在内部使用Unicode的应用程序，能够同时存储和处理世界上所有的字符，这消除了传统的国际化方法所面临的一些困难。
当然，成功的国际化不仅仅是在应用程序中采用Unicode，还需要谨慎的屏幕布局设计（不同的语言具有不同的书写习惯）、翻译和文化理解。
2.3 设计原则
Unicode的设计反映了十大基本原则，但这些原则并不是可以同时满足。整个设计是在保证简便高效和保持与已有编码标准兼容之间的平衡。
（1）广泛性（Universality）
Unicode标准对一个单一的大字符集进行编码，包括满足世界范围需求的所有字符。
（2）高效（Efficiency）
在Unicode的字符编码模型中没有换码符(escape character)，每个字符编码与其它字符编码具有相同的状态。使高效率的实现成为可能。
所有Unicode编码方式都是自同步的，并且相互不重叠。使在字符流中随机访问和查找操作高效。
同一书写字母体系中的字符被放置在一起，不仅方便字符的查找，并且使实现更紧凑压缩方法更高效。
（3）针对字符编码，而不是字形（Character, Not Glyph）
字符是书写语言中具有语义的最小组件的抽象表示。字符是以驻留在内存中的码点表示。
字形是字符被显示时具有的形状。与字符相比，字形出现在屏幕或纸张上作为一个或多个字符的特定表示。字形的集合构成一种字体。
字符和字形间存在多种关系：一个字形可以对应一个字符；一个字形也可以对应几个字符；多个字形也可能出自一个字符。
（4）语义（Semantic）
在Unicode中，字符都有明确定义的语义。字符属性表可用于解析、排序等需要有关码点语义知识的算法中。Unicode中定义的属性包括数字、间隔、组合和方向属性。
（5）纯文本（Plain Text）
纯文本或无格式文本，仅仅是字符编码的序列。纯Unicode文本就是Unicode编码的序列。而格式文本（styled text, or rich text）是由纯文本添加一些附加信息（如语言标识、字体大小、颜色等）组成的文本表示。
Unicode标准针对的是纯文本。
（6）逻辑顺序（Logical Order）
Unicode文本在内存表示中以逻辑顺序存储，大致对应于借助键盘输入文本的顺序。在一些情况下，当显示或打印文本时，字符顺序与逻辑顺序不同。
（7）统一（Unification）
Unicode标准为避免对字符重复编码，对不同语言书写方式中的字符进行统一，相同的字符分配唯一的一个编码。普通字母、标点符号、标记，和变音符都只分配一个编码，而不管语言；同样的还有中日韩使用的表意字符。
（8）动态组合（Dynamic Composition）
Unicode标准允许加重音符好的形式和Hangul音节的动态组合。
（9）等价序列（Equivalent Sequences）
一些文本元素即可以使用静态的预先组合好的形式，也可使用动态组合的形式。Unicode字符的不同表示序列被认为是等价的。
如果两个或多个序列被认为是等价的，Unicode标准不规定哪一种特定的序列是正确的，而认为每一个序列只不过与其它序列等价。
如果需要一种单一的单一的表示方式，可以使用一种规范化的Unicode文本形式来减少不想要区别。Unicode标准定义了四种规范化形式： Normalization Form D (NFD)，Normalization Form KD (NFKD)，Normalization Form C (NFC)，和Normalization Form KC (NFKC)。大约来说，NFD和NFKD将可能的字符进行分解，而NFC和NFKC将可能的字符进行组合。
（10）可转换性（Convertibility）
在Unicode 标准和其他字符集标准之间可以实现准确的转换。一般说，在其他标准中的一个码点对应于Unicode标准中一个单一的码点。然而，有时在其他标准中的一个码点对应于Unicode标准中一个码点的序列。在Unicode文本和其他字符编码文本间的转换一般是通过明确的表映射过程完成的。
2.4 Unicode的码点、编码格式、编码方案
2.4.1 Unicode编码空间和码点
在Unicode标准中，编码空间的整数范围是从0到10FFFF（16进制），共1,114,112个可用的码点。
为了与已有的编码标准兼容，一些抽象字符可能会与多个分别编码的字符关联。而在其他一些情况下，一个抽象字符可能会用两个（或更多）编码字符序列来表示，如带重音符的字母。
2.4.2 Unicode编码格式
在Unicode字符编码模型中，编码格式（encoding form）指定如何将每个码点表示为一个或多个编码单元序列。Unicode标准提供了三种不同的编码格式，使用8位、16位和32位编码单元，分别为UTF-8、UTF-16、UTF-32。
（1）UTF-32
UTF-32是一种最简单的Unicode编码格式。每个Unicode码点被直接表示为一个32位的编码单元。UTF-32是一种固定宽度的字符编码格式。
每个UTF-32编码单元的值与Unicode码点的值完全相同。
（2）UTF-16
在UTF-16中，在范围U+0000到U+FFFF间的码点使用一个单一的16位编码单元表示；而，在范围U+10000到U+10FFFF间的码点则使用一对16位编码单元表示，称作代理对(surrogate pair)。
UTF -16优化了基本多语言平面(Basic Multilingual Plane)中字符的表示，即位于U+0000到U+FFFF范围内的字符。该范围包含了目前世界上所使用的书写系统中的绝大多数字符，每个字符只需要一个16位的编码单元。对于基本多语言平面，UTF-16可作为固定宽度的编码格式来有效使用。
但对于增补字符，UTF-16需要两个16位的编码单元，意味着正式的UTF-16是一个变宽的编码格式。
UTF-16是早期Unicode遗留下的历史产物，原本被设计成具有固定宽度的16位编码格式。为支持超过U+FFFF的增补字符，设立了代理机制。
（3）UTF-8
为满足基于ASCII，面向字节的系统的需要，Unicode标准中定义了第三种编码格式UTF-8。它是一种使用8位编码单元的变宽的编码格式。
在UTF-8的编码单元种，一些高位用于指示当前字节在编码单元序列中的那一部分。8位编码单元的取值的一部分范围保留给UTF-8的编码单元序列的首字节；另一部分完全奋力的范围保留给序列中的后续字节，以保证UTF-8不重叠。
UTF -8编码格式对所有ASCII码点具有透明性。在U+0000到U+007F范围内的Unicode码点，被转换为UTF-8中单一的字节0x00到 0x7F，与ASCII码没有区别。并且，从0x00到0x7F不会出现在其他Unicode码点的UTF-8表示中的任一字节中，保证了不存在歧义。
Unicode中超出ASCII范围的其他一些非表意字母，每个都在UTF-8种使用量各字节表示；位于U+0800到U+FFFF范围内的非代理码点使用三字节表示；超出U+FFFF的增补码点则需要四字节表示。
UTF-8是Internet中HTML和类似协议偏好的编码格式。
UTF-8同其他的多字节编码方式相比具有以下特点：
a) UTF-8的编码单元序列的第一个字节指明了后面所跟的字节的数目。对前向解析非常有效。
b) 从UTF-8字节流的任意位置开始可以有效的找到一个字符的其实位置。
c) UTF-8中不存在字节取值的重叠。
2.4.3 Unicode编码方案
在Unicode标准中，用于Unicode数据字节串行化的各种不同类型的规范被称为Unicode编码方案（encoding scheme）。
在计算机系统中，大数值类型（如整型）使用多个字节表示，不同体系结构采用的字节排列顺序不同。其中，部分采用由高字节到低字节的排列顺序，称为big-endian；其他则采用由低字节到高字节的排列顺序，称little-endian。
对于UTF-16和UTF-32，字节串行化规范必须考虑当前表示数据的系统采用的是big-endian还是little-endian结构。
一个字符编码方案包括指定的字符编码格式，以及如何将编码单元串行化为字节的规范。在Unicode标准中，还规定了初始的字节顺序标志（byte order mark, BOM）的使用，用于显示区分big-endian和little-endian数据。
对于UTF-8，在序列中只包括UTF-8的编码单元（1字节），因此，UTF-8中的数据表示不存在字节顺序的问题。但对于16位和32位的编码方案，字节串行化过程必须将编码单元分解为两个或四个字节，并且必须清楚的定义这些字节的顺序。
因此，Unicode标准中定义的三种编码格式，导致总共七种Unicode编码方案，分别为：UTF-8、UTF-16、UTF-16BE、UTF-16LE、UTF-32、UTF-32BE、UTF-32LE。
必须明确，字符编码格式(character encoding form)指在内存或API中的整数数据单元，与字节顺序不相关；字符编码方案(character encoding scheme)指字节串行化的数据，如I/O流或者文件，必须制定字节顺序。
2.4.4 Unicode编码空间分配
根据在语言学上和功能上的类别，Unicode标准中的编码字符被分成组。
Unicode 编码空间的范围为0到10FFFF，可以被划分为字符平面（planes of characters），每个平面包含64K各码点。因此，最底层的平面为基本多语言平面（Basic Multilingual Plane）,包括范围从0000到FFFF；下一个平面为增补多语言平面（Supplementary Multilingual Plane），也被称为第一平面（Plane 1），包括范围10000到1FFFF；以及，第二平面（Plane 2），增补表意字符平面（Supplementary Ideographic Plane），包括范围20000到2FFFF；等等。基本多语言平面有时也被称为Plane 0。
基本多语言平面（BMP, or Plane 0）包含目前世界上使用的所有书写系统中的全部常用字符，以及一些历史上的不常用字符。
增补多语言平面（SMP, or Plane 1）用于一些较少使用的历史上的书写系统，针对特殊目的创建的书写系统，和特殊的标记系统，它们要么无法放入基本多语言平面中，要么特别不常用。
增补表意字符平面（SIP, or Plane 2）用于无法放入基本语言平面众所分配区域中/日/韩字符(CJK character)。尽管在SIP中包含少量的常用CJK字符（例如，用于粤语），其中绝大多数字符是仅具有历史意义的不常用字符。
增补专用平面(Supplementary Special-purpose Plane, SSP, or Plane 14)用于无法放入基本多语言平面众所分配区域的格式控制字符。
3. 一致性
符合Unicode一致性要求的实现必须满足本部分定义的标准，以便与其他规范的实现进行交互。
3.1 一致性要求
3.1.1 未分配的码点（Unassigned Code Points）
C4 处理过程不应该把高代理码点（high-surrogate code point）或者低代理码点（low-surrogate code point）解释为抽象字符。
C5 处理过程不应该把非字符码点解释为抽象字符。
C6 处理过程不应该将未分配的码点解释为抽象字符。
3.1.2解释（Interpretation）
C7 如果处理过程要解释编码字符的表示，就必须根据标准中确立的字符语义进行解释。
C8 不要求处理过程对任何特定的编码字符都作解释。
允许处理过程只解释Unicode字符中的一个子集；不需要解释所有Unicode字符。
标准中不涉及任何指定字符子集的方法。
标准中不涉及自定义区中码点的语义。
C9 处理过程不应认为对两个具有规范等价性字符序列（canonical-equivalent character sequence）的解释会不同。
该条款包含两层意义：（一）处理过程不应该对两个不同但又具有规范等价性的字符序列由不同的解释；（二）任何处理过程不应假设其他处理过程会对两个不同但具有规范等价性的字符序列进行不同的解释。
3.1.3 修改（Modification）
C10 如果一个处理过程声称不会修改对一个正确的编码字符表示的解释，则它不能对编码字符的表示进行任何修改，除非是用具有规范等价性的字符序列进行替换，或者是删除非字符的码点。
用具有规范等价性的字符序列替换原有字符序列不会修改对文本的解释。
替换或者删除处理过程不能会不进行解释的字符序列，不修改对文本的解释。
当在不同计算机体系结构间转换字符序列时，对字符序列位或者字节顺序的改变，不修改对文本的解释。
将一个正确的编码字符的表示从一种Unicode字符编码格式转换为另一种编码格式时，不修改对文本的解释。
将编码单元序列的字节串行化从一种Unicode字符编码方案转换为另一种编码方案时，不修改对文本的解释。
如果在处理过程中意外遇到一个没有明确内部用途的非字符，在实现中可以发出错误，或者删除或忽略该非字符。如果没有采取这些选择，这个非字符应该被作为一个为分配的码点。
3.1.4 字符编码格式（Character Encoding Forms）
C11 当处理过程对一个声称以某种Unicode字符编码格式存在的编码单元序列进行解释时，必须按照相应的码点序列进行解释。
C12 当处理过程以某种Unicode字符编码格式生成编码单元序列时，不应生成形式错误(ill-formed)的编码单元序列。
C12a 当处理过程对一个声称以某种Unicode字符编码格式存在的编码单元序列进行解释时，应该将形式错误的编码单元序列看作错误条件，而不能将序列解释为字符。
3.1.5 字符编码方案（Character Encoding Schemes）
C12b 当处理过程对一个具有某种Unicode字符编码方案的字节序列进行处理时，应该根据字节顺序和标准中针对字符编码方案设立的字节顺序标记(byte order mark)使用规范，进行解释。
3.1.6 双向文本（Bidirectional Text）
C13 用于显示包含从右到左的字符文本的处理过程，当没有高层协议时，必须以对文本应用双向算法后同样的顺序显示所有具有可见表示的字符（不包括格式字符）。
3.1.7 正规化形式（Normalization Forms）
C14 以某种正规化形式生成Unicode文本的处理过程，必须与Unicode Standard Annex #15 "Unicode Normalization Forms"中定义的规范相符合。
C15 测试Unicode文本是否具有某种正规化形式的处理过程，必须与必须与Unicode Standard Annex #15中定义的规范相符合。
C16 将文本转换为某种正规化形式的处理过程必须生成Unicode Standard Annex #15中规定的结果。
3.1.8 标准的引用（Normative References）
C17 对标准、属性别名、属性值别名或者Unicode算法的标准引用，必须依照Unicode标准种指定的格式。
C18 高层协议不能对临时属性进行标准引用。
3.1.9 Unicode算法(Unicode Algorithms)
C19 如果处理过程声称实现某个Unicode算法，则必须符合标准中定义的算法规范，除非被高层协议改变。
3.2 术语定义
以下是对一致性条款中所使用术语的准确定义。
3.2.1 字符的身份和语义（Character Identity and Semantics）
D1 标准的行为（normative behavior）：Unicode标准中的标准行为包括以下列表，以及在一致性条款种指定的其他行为。
1. 字符组合；
2. 规范化的分解；
3. 兼容的分解；
4. 规范的排序行为；
5. 双向行为；
6. 联合jamo行为(conjoining jamo behavior);
7. 变化选择；
8. 正规化。
D2a 字符身份（character identity）：一个字符的身份是由它的字符名称、表示的字形确定的。
D2b 字符语义（character semantics）：一个字符的语义是由它的身份、标准的属性和行为决定的。
3.2.2 字符与编码（Characters and Encoding）
D3 抽象字符（abstract character）：信息的单元，用于文本数据的组织、控制或表示。
抽象字符没有具体的形状，不应与字形混淆。
Unicode标准中没有直接编码的抽象字符经常可以使用组合字符序列表示。
D4 抽象字符序列：抽象字符的有序序列。
D4a Unicode编码空间（Unicode codespace）：从0到10FFFF的整数空间（十六进制）。
D4b 码点（code point）：Unicode编码空间中的任何一个整数值。
一个码点也称为一个编码位置。
D5 编码字符（encoded character）：在一个抽象字符和一个码点间的关联。
在Unicode中，为了与其它标准兼容，一个单个的抽象字符可能与多个码点对应。
一个单个的抽象字符也可能使用一个码点序列表示。
D6 编码字符表示（coded character representation）：一个码点序列。通常，是由编码字符的序列组成，但也可能包含非字符或保留的码点。
编码字符表示也称为编码字符序列（coded character sequence）。
在内部，处理过程可能会在编码字符表示中使用非字符码点。但是，这些非字符码点可能不会被解释成抽象字符；并且，如果这些非字符码点被具有一致性的处理过程删除，不构成对编码字符表示解释的修改。
D7a 不赞成使用的字符（deprecated character）：强烈不鼓励使用的编码字符。
在标准中保留不赞成使用的字符，以便使以前相容的数据仍然与今后的Unicode标准保持一致性。
D7b 非字符（noncharacter）：被永久保留做内部使用的码点，不应用于交换。非字符包括值U+nFFFE和U+nFFFF（n表示十六进制整数从0到10），以及值从U+FDD0到U+FDEF。
D7c 保留的码点（reserved code point）：Unicode标准中保留的，用于今后分配的码点。也称为位分配码点（unassigned code point）。
代理码点和非字符码点是已分配的码点，但不是分配给字符。
D8 高层协议（higher-level protocol）：任何超出Unicode标准范围，对Unicode字符进行解释协议。
D8a Unicode算法（Unicode Algorithm）：对处理过程的逻辑描述，用于获得涉及Unicode字符的指定结果。
3.2.3 属性（Properties）
（1）标准的和指示性属性（Normative and Informative Properties）
Unicode字符属性可以分为标准的和指示性的。
D9 标准属性（normative property）：Unicode字符属性，它的取值必须为与标准相一致。
D9a 指示性属性（Informative property）：Unicode字符属性，它的取值仅仅是为了提供更多信息。
D9b 临时的属性（provisional property）：Unicode字符属性，它的取值未被批准、试验性的，也可能是不完全的。
（2）简单的和衍生出的属性（Simple and Derived Properties）
D9c 简单属性（simple property）：Unicode字符属性，它的取值在UCD，the Unicode Character Database（或标准中的其他地方）直接指定，并且它的取值无法从其他简单属性中衍生出来。
D9d 衍生属性（derived property）：Unicode字符属性，它的取值可通过算法从一些简单属性的组合中衍生出来。
（3）属性别名（Property Aliases）
D10 属性别名（property alias）：特定Unicode字符属性的一个唯一标示名。
用于属性别名的标示名中仅包含ASCII中的字母、数字和下划线。
为每个属性别名分别定义了长、短两种形式的名称。短的形式一般只有两个或三个字符长，便于在标记语言中用于标记属性。
D10a 属性值别名（property value alias）：为Unicode字符属性的特定取值定义的唯一标示名。
用于属性值别名的标示名中仅包含ASCII中的字母、数字和下划线，或者是特殊的值"n/a"。
为每个属性值别名分别定义了长、短两种形式的名称。
属性值别名仅在相关联的特定属性环境中唯一。
（4）却省属性值（Default Property Value）
D11 却省属性值（default property value）：针对一个给定的Unicode属性，用于指派给未分配的码点或没有明确指定其他属性值的属性值。
（5）私用（Private Use）
D12 私用码点(private-use code point)：在范围U+E000到U+F8FF、U+F0000到U+FFFFD和U+100000到U+10FFFD内的码点。
私用码点被认为已分配给字符，但标准中没有指定对私用码点相关联的抽象字符的解释。
私用码点可能会被赋予却省的属性值，但这些却省值可以被对私用码点进行解释的高层协议替换。
3.2.4 组合（Combination）
D13 基字符（base character）：在书写上，不与前面的字符进行组合的字符，它既不是控制字符也不是格式字符。
D14 组合字符（combining character）：在书写上，与前面的基字符进行组合的字符。称组合字符应用于基字符。
组合字符不单独使用。它们包括重音符、变音符、希伯莱文中的点、阿拉伯文元音符号等。
尽管组合字符用来与基字符组合显示的，但可能出现两种情况(1)在组合字符前没有基字符；(2)处理过程无法执行组合操作。在这两种情况下，处理过程可能会不进行书写上的合并而显示组合字符。
在编码表中，组合字符的表示使用虚线圆圈描绘。当与前面的基字符组合显示时，基字符要出现在虚线圆圈的位置上。
组合字符一般具有它们的基字符的属性，同时保留它们的组合属性。
控制字符和格式字符，如tab和right-left mark不是基字符。
D15 非间距标记（nonspacing mark）：在显示时，位置取决于基字符的组合字符。这些字符一般在可视基线上不占用空间。
这些字符可能会很大，影响它们的基字符相对于前后基字符的放置。
D16 间距标记（spacing mark）：不是非间距标记的组合字符。
一般来说，间距标记的行为与基字符没有太大区别。
D17 组合字符序列（combining character sequence）：一个字符序列，由一个基字符后跟了一个或多个组合字符组成，或者是一个或多个组合字符的组成的序列。
D17a 不良的组合字符序列(defective combining character sequence)：一个不是以基字符开始的组合字符序列。
当组合字符序列出现在串的开始位置，或者跟在控制字符或格式字符后出现时，产生不良的组合字符序列。
3.2.5 分解（Decomposition）
D18 可分解字符（decomposable character）：根据分解映像表，与一个或多个字符组成的序列等价的字符。也被称作预组合字符（precomposed character）或复合字符（composite character）。
D19 分解（decomposition）：与一个可分解字符等价的一个或多个字符组成的序列。一个字符序列的完全分解，是对序列中每个字符进行分解直到没有字符可以进一步分解。
（1）兼容的分解(Compatibility Decomposition)
D20 兼容的分解(compatibility decomposition)：递归应用Character Names List中的兼容映像表和规范映像表，以及Conjoining Jamo Behavior中的定义，对字符进行分解，直到没有任何字符可以进一步分解，并根据Canonical Ordering Behavior中的定义对非间距标记进行重新排序。
D21 兼容的可分解字符(compatibility decomposable character)：兼容分解的结果与规范分解结果不相同的字符。
（2）规范的分解(Canonical Decomposition)
D23 规范的分解(canonical decomposition)：递归应用Character Names List中的规范映像表，以及Conjoining Jamo Behavior中的定义，对字符进行分解，直到没有任何字符可以进一步分解，并根据Canonical Ordering Behavior中的定义对非间距标记进行重新排序。
D21 规范的可分解字符(compatibility decomposable character)：与规范分解结果不相同的字符。
D24 规范等价性(canonical equivalent)：如果两个字符序列的完全规范分解结果相同，称它们具有规范的等价性。
3.2.6 代理（Surrogates）
D25 高代理码点（high-surrogate code point）：位于范围U+D800到U+DBFF内的Unicode码点。
D25a 高代理编码单元（high-surrogate code unit）：在范围D800到DBFF内的16位编码单元，作为UTF-16中代理对的起始编码单元。
D26 低代理码点（low-surrogate code point）：位于范围U+DC00到U+DFFF内的Unicode码点。
D26a 低代理编码单元（low-surrogate code unit）：在范围DC00到DFFF内的16位编码单元，作为UTF-16中代理对的结尾编码单元。
D27 代理对（surrogate pair）：由两个16位编码单元组成的序列来表示单个的抽象字符，其中，代理对的第一部分为高代理编码单元，第二部分为低代理编码单元。
代理对仅用于UTF-16。
孤立的代理编码单元自身没有解释。
3.2.7 Unicode编码格式（Unicode Encoding Forms）
D28 Unicode标量值（Unicode scalar value）：除了高代理和低代理码点外的其他所有Unicode码点。
D28a 编码单元（code unit）：为了处理和交换，表示编码文本单元的最小的位组合。
编码单元是计算机存储中的特定单元。Unicode标准在UTF-8中使用8位编码单元，在UTF-16中使用16位编码单元，在UTF-32中使用32位编码单元。
在Unicode标准中，一些编码单元的特定值不能单独用于表示编码字符。该限制条件应用于UTF-16中孤立的代理码点，以及UTF-8中的字节80-FF。
D28b 编码单元序列（code unit sequence）：一个或多个编码单元的有序序列。
当编码单元是8位时，编码单元序列也可被称作字节序列。
一个编码单元序列可能只有一个单个的编码单元。
在程序设计语言中，字符串类型的值基本由编码单元序列组成。
依赖字符编码标准的结构，可能要使用编码单元序列（包含多个编码单元）来表示一个单个的编码字符。
D29 Unicode编码格式将每个Unicode标量值分配给一个唯一的编码单元序列。
由于历史原因，Unicode编码格式也被称作Unicode（or UCS） transformation formats（UTF）。
在Unicode标量值集合与针对Unicode编码格式的编码序列集合间的映射是一对一的。
对给定的编码格式，存在编码单元序列没有相关联的Unicode标量值。
D29a Unicode串（Unicode string）：由Unicode编码格式中编码单元组成的编码单元序列。
D29b 8位Unicode串（Unicode 8-bit string）：只包含UTF-8编码单元的Unicode串。
D29c 16位Unicode串（Unicode 16-bit string）：只包含UTF-16编码单元的Unicode串。
D29d 32位Unicode串（Unicode 32-bit string）：只包含UTF-32编码单元的Unicode串。
D30 形式不良的（ill-formed）：如果具有Unicode编码格式的Unicode编码单元序列没有遵照Unicode编码格式规范，就称为形式不良的。
如果编码单元序列对应的码点位与Unicode标量范围之外，就是形式不良的。
UTF-8对起始字节和后续字节的字节范围有严格的约束。违反这些约束，将使生成的编码单元序列无法映射到Unicode标量值上，产生一个形式不良的编码单元序列。
D30a 形式良好的（well-formed）：遵照Unicode编码格式规范的Unicode编码单元序列，就成为形式良好的。
D30b 形式良好的UTF-8编码单元序列（well-formed UTF-8 code unit sequence）
D30c 形式良好的UTF-16编码单元序列（well-formed UTF-16 code unit sequence）
D30d 形式良好的UTF-32编码单元序列（well-formed UTF-32 code unit sequence）
D30e 具有Unicode编码格式（in a Unicode encoding form）：如果一个Unicode串是由某个特定的Unicode编码格式的形式良好的编码单元序列组成，称该Unicode字符串具有Unicode编码格式。
UTF-32
D31 UTF-32编码格式（UTF-32 encoding form）：一种Unicode编码格式，为每个Unicode标量值分配一个单一的无符号的32位编码单元，编码单元的数字值与Unicode标量值相同。
因为代理码点没有包括在Unicode标量值集合中，所以位与范围0000D800到0000DFFF间的UTF-32编码单元使形式不良的。
任何大于0010FFFF的UTF-32编码单元是形式不良的。
UTF-16
D35 UTF-16编码格式（UTF-16 encoding form）：一种Unicode编码格式，为处在范围U_0000到U+D7FF和U+E000到U+FFFF内的每个Unicode标量值分配一个单一的无符号的16位编码单元，编码单元的数字值与Unicode标量值相同；位处在范围U+10000到U+10FFFF内的每个Unicode标量值分配一个代理对。
因为代理码点不是Unicode标量值，位于范围D800到DFFF间单独的UTF-16编码单元是形式不良的。
UTF-16 Bit Distribution
Scalar Value UTF-16
xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx
000uuuuuxxxxxxxxxxxxxxxx 110110wwwwxxxxxx110111xxxxxxxxxx
wwww=uuuuu-1
UTF-8
D36 UTF-8编码格式(UTF-8 encoding form)：一种Unicode编码格式，位每个Unicode标量值分配一个由一到四个无符号字节组成的序列。
UTF-8 Bit Distribution
Scalar Value 1st Byte 2nd Byte 3rd Byte 4th Byte
00000000 0xxxxxxx 0xxxxxxx
00000yyy yyxxxxxx 110yyyyy 10xxxxxx
zzzzyyyy yyxxxxxx 1110zzzz 10yyyyyy 10xxxxxx
000uuuuu zzzzyyyy yyxxxxxx 11110uuu 10uuzzzz 10yyyyyy 10xxxxxx
编码格式转换(Encoding Form Conversion)
D37 编码格式转换：在一种Unicode编码格式的编码单元序列与另一种Unicode编码格式的编码单元序列间，直接定义的转换。
   * 在Unicode标准实现中，一个典型的API在逻辑上，将输入的编码单元序列转化为Unicode标量值（码点），然后将标量值转化为输出的编码单元序列。然而，可以直接在不同编码格式间进行转换，以获取更高的效率。
   * 具有一致性的编码格式转换过程应将任何形式不良的编码单元序列作为一个错误条件。
3.2.8 Unicode编码方案(Unicode Encoding Schemes)
D38 Unicode编码方案：针对Unicode编码格式的一种指定的字节串行换，也可包括处理字节顺序标记(byte order mark, BOM)的规范。
D39 UTF-8编码方案(UTF-8 encoding scheme)：对UTF-8编码单元序列进行串行化的Unicode编码方案，字节序列与编码单元序列本身完全一致。
D40 UTF-16BE编码方案(UTF-16BE encoding scheme)：将UTF-16编码单元序列串行化为big-endian格式字节序列的Unicode编码方案。
D41 UTF-16LE编码方案(UTF-16LE encoding scheme)：将UTF-16编码单元序列串行化为little-endian格式字节序列的Unicode编码方案。
D42 UTF-16编码方案(UTF-16 encoding scheme)：将UTF-16编码单元序列串行化为big-endian或者little-endian格式字节序列的Unicode编码方案。
在UTF-16编码方案中，与U+FEFF对应的初始字节序列，被解释为字节顺序标记(BOM)，用于区分两种字节顺序。初始字节顺序<FE FF>表明是big-endian顺序，<FF FE>表明是little-endian顺序。BOM不是文本内容的一部分。
UTF-16编码方案可能以BOM开始，也可能没有。然而，如果没有BOM，也没有高层协议指示，UTF-16编码方案的字节顺序为big-endian。
D43 UTF-32BE编码方案(UTF-32BE encoding scheme)：将UTF-32编码单元序列串行化为big-endian格式字节序列的Unicode编码方案。
D44 UTF-32LE编码方案(UTF-16LE encoding scheme)：将UTF-32编码单元序列串行化为little-endian格式字节序列的Unicode编码方案。
D45 UTF-32编码方案(UTF-32 encoding scheme)：将UTF-32编码单元序列串行化为big-endian或者little-endian格式字节序列的Unicode编码方案。
在UTF-32编码方案中，与U+FEFF对应的初始字节序列，被解释为字节顺序标记(BOM)，用于区分两种字节顺序。初始字节顺序<00 00 FE FF>表明是big-endian顺序，<FF FE 00 00>表明是little-endian顺序。BOM不是文本内容的一部分。
UTF-32编码方案可能以BOM开始，也可能没有。然而，如果没有BOM，也没有高层协议指示，UTF-16编码方案的字节顺序为big-endian。
3.2.9规范排序行为(Canonical Ordering Behavior)
用于对组合字符序列提供无歧义的解释，以便能按照可预知的方式创建和交换包含组合字符的序列。正规化是规范排序行为的另一个重要应用。
在Unicode标准中，组合字符序列中字符的顺序按照以下原则解释：
所有组合字符必须跟在所应用的基字符后面。
封闭的标记(enclosing mark)将包围基字符以及标记之前的所有组合字符。也包围它之前的其他封闭标记。
double diacritic的结合程度比其他非间距标记(nonspacing mark)要松。当显示时，double diacritic的位置在其他变音符之上，不包括封闭的变音符。
具有相同组合类别(combining class)的组合标记在书写上的位置一般是由所修饰的基字符向外排列。一些特定的非间距标记将改变却省的排列行为，与相邻的非间距标记并行排列。当并行排列时，编码的顺序与书写中占支配的顺序有关。
如果组合字符的组合类别不同，将不会有显示形式或语义上的差别。
（1）组合类别(Combining Class)
D46 组合类别：分配给每个Unicode组合字符的数字值，用于确定与那些组合字符在排字上相互作用。
如果组合字符间在排字上相互作用，则具有相同的组合类别；否则，具有不同类别。
封闭字符和间距组合字符的组合类别与它们的基字符相同。
组合类别具有的特定数字没有特别的重要性，只是用来比较是否相等，区分不同的组合类别。
（2）规范排序(Canonical Ordering)
对一个被分解的字符序列的规范排序，是根据组合类别对每个组合字符序列进行排序来完成的。字符序列的规范排序不反映任何语言正确性或偏好。
对被分解的字符序列D进行规范排序的算法为：
R1 对D中的任意字符x，定义p(x)为字符x的组合类别。
R2 如果在D中存在想的字符对(A,B)，并且p(B)不为零，p(A)>p(B)，则交换两个字符。
R3 重复执行R2，直到在D中没有发生任何交换。
（3）Conjoining Jamo Behavior
在Unicode标准中包含了一套预组合的Hangual音节，以及一套用于表示古老的韩文音节和现代韩文音节的jamo。

你可能感兴趣的:(算法,网络协议,网络应用,Scheme,单元测试)

SpringBoot整合Netty 晚上睡不着！ #SpringBoot spring boot nio websocket tcp/ip http
前言Netty是一个高性能、异步事件驱动的网络应用程序框架，用于快速开发可维护的高并发协议服务器和客户端。Netty主要基于JavaNIO实现，提供了异步和事件驱动的网络编程工具，简化了TCP和UDP服务器的编程。Netty广泛应用于分布式系统、实时通信、游戏开发等领域，例如，知名的Elasticsearch和Dubbo框架内部都采用了Netty。Netty吸收了多种协议的实现经验，经过精心设计，
【蓝桥】枚举 CH3_CH2_CHO QuantumCoffee 算法 c++枚举蓝桥杯
1、引言在算法领域中，枚举算法是一种基础且直观的解题思路。无论是新手入门还是复杂问题的简化处理，它都扮演着重要角色。本文将结合枚举算法的核心思想、解空间类型以及循环枚举的实践步骤，带大家深入理解这一经典算法。2、核心2.1算法思想枚举算法的核心是穷举所有可能的情况。它将问题解空间中的每个可能解逐一枚举，通过验证和比较，找到满足问题条件的最优解或所有解。例如，在寻找数字组合的问题中，枚举算法会遍历所
算法学习1 求两个数的和奋斗小小鸟cy 数据结构与算法算法 java
本文翻译自：https://leetcode.com问题：给定一个整数数组，返回两个数字的索引，使它们相加到一个特定的目标。您可以假设每个输入都只有一个解决方案，而您可能不会使用相同的元素两次。例：给定nums=[2，7，11，15]，target=9，因为nums[0]+nums[1]=2+7=9，返回[0，1]。答案：方案一：穷举法穷举法很简单，循环nums里面的每一个元素x，查找是否有另一个
笔记:代码随想录算法训练营day42:LeetCode188.买卖股票的最佳时机IV,309.最佳买卖股票时机含冷冻期,714.买卖股票的最佳时机含手续费 jingjingjing1111 笔记动态规划 leetcode
学习资料:代码随想录感觉还没有把这个股票的递归变成直觉的东西.anyway,每一天的各种状态都是从上一天的各种状态中优化出来的,到最后的再选择一个最大的状态,应该是没啥问题,不会有漏掉的情况188.买卖股票的最佳时机IV力扣题目链接思路:和上一题差不多,限制上买卖次数倒比不限制买卖次数复杂了不少要给上一题的代码套个循环classSolution{public:intmaxProfit(intk,v
笔记：代码随想录算法训练营第35天： 01背包问题二维、 01背包问题一维、LeetCode416. 分割等和子集 jingjingjing1111 算法 leetcode 数据结构动态规划笔记
学习资料：代码随想录这一块儿学得挺痛苦注：文中含大模型生成内容动态规划：01背包理论基础卡码网第46题思路：五部曲定义：dp[i][j]为第i个物品背包容量为j，能装下的最大价值递推公式：dp[i][j]的值等于dp[i-1][j]的值和dp[i-1][j-weight[i]]+value相比的最大值，后者为看放下当前物品+减去当前物品的容量能放下什么价值，当然，要是放不下当前物品，就算了，保持原
AI Agent在企业预算管理与成本控制中的应用 SuperAGI2025 DeepSeek 人工智能大数据 ai
AIAgent在企业预算管理与成本控制中的应用关键词：AIAgent、企业预算管理、成本控制、机器学习、预测模型、优化算法摘要：本文深入探讨了AIAgent在企业预算管理与成本控制中的应用。通过详细的背景介绍、核心概念解析、算法原理讲解和实际案例剖析，本文展示了AIAgent如何通过智能预测和优化算法，为企业带来更高的效率和精确度，从而实现成本控制和预算优化的目标。背景介绍核心概念AIAgent:
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
【GPT入门】第16课 RAG入门 *星星之火* 大模型 gpt
【GPT入门】第16课RAG入门1.RAG概念核心原理主要应用优势挑战RGA工作图解2.RAG系统基本搭建流程1.RAG概念RAG通常指检索增强生成（Retrieval-AugmentedGeneration），是一种将检索技术与生成式人工智能相结合的技术架构，以下是关于它的详细介绍：核心原理检索：RAG会在大量的文本数据中进行检索，这些数据可以是网页、文档、知识库等。它通过各种检索算法和技术，快
Python学习第十五天 Leo来编程 Python学习 python 学习
Django概念Django最初被设计用于具有快速开发需求的新闻类站点，目的是要实现简单快捷的网站开发。以下内容简要介绍了如何使用Django实现一个数据库驱动的网络应用。（Django是一个开放源代码的第三方模块Web应用框架，并且是一个功能全，重量的框架。Flask框架是一个轻量级功能少，从github上搜索pythonweb项目基本都出来的是django和flask项目）学习文档可以使用：官
计算机考研408数据结构大题高频考点与真题解析竹木有心数据结构
一、线性表（顺序表与链表）1.1顺序表操作与算法设计高频考点：插入/删除操作的边界处理：检查下标越界与存储空间溢出子数组操作：合并、拆分、逆置等多数组综合问题：如寻找三元组最小距离真题示例：2020年408真题题目：给定三个升序数组S1、S2、S3，求所有可能的三元组(a,b,c)的最小距离D=|a−b|+|b−c|+|c−a|。解法：算法思想：三指针法遍历数组，每次移动当前最小元素的指针核心代码
探地雷达F-K偏移算法详解与Python实现 T2ccc 探地雷达算法 python
探地雷达F-K偏移算法详解与Python实现文章目录探地雷达F-K偏移算法详解与Python实现前言一、探地雷达成像原理与偏移的必要性二、F-K偏移的基本原理2.1波的传播与频率-波数域2.2F-K偏移的基本思路三、F-K偏移算法的数学推导3.1二维傅里叶变换3.2波场外推3.3Stolt映射（核心步骤）3.4逆变换四、F-K偏移的Python代码实现4.1辅助函数和数据准备4.2F-K偏移核心函
Akamai 与 AWS 风控分析与绕过技术探讨 qq_33253945 aws 云计算爬虫网络爬虫算法安全
1.引言本文将深入探讨Akamai风控和AWS签名算法的技术细节。请注意，文中内容仅供技术研究和学习交流使用。2.Akamai风控核心要素Akamai的主要风控机制包含以下几个关键点：Canvas指纹识别每个浏览器环境都有其独特的Canvas指纹这是风控系统的核心识别方式之一用户行为分析鼠标移动轨迹检测操作行为模式识别相关参数的实时计算与验证JA3指纹TLS握手特征识别客户端环境特征分析代码执行流
算法训练：2.移除元素(快慢指针) 貝森不想秃小白算法训练算法
算法原题:27.移除元素-力扣（LeetCode）移除数组元素移除一个元素时，需要将该元素之后的所有元素依次向前移动一个位置，以填补被移除元素的空位，对于静态数组来说，数组的长度是不会发生变化的，多余的数组元素不进行处理：例如{1,2,3,4}移除3,数组会得到{1，2，4，4}解题思路暴力移除通过for循环嵌套，访问到目标元素就将其后面的所有元素向前移动一格，循环往复快慢指针（本节主要内容）快慢
芒格的双轨分析：结合定性和定量的投资方法 SuperAGI2025 DeepSeek ai
芒格的"双轨分析"：结合定性和定量的投资方法关键词：芒格、双轨分析、定性分析、定量分析、投资方法、系统分析摘要：芒格的“双轨分析”是一种结合定性和定量分析的投资方法，旨在通过综合分析企业的内在价值和市场趋势，帮助投资者做出更科学的投资决策。本文将详细介绍双轨分析的背景、核心概念、算法原理、系统架构及实际应用，帮助读者全面理解并掌握这一方法。第一部分:芒格的双轨分析基础第1章:投资分析的演变与双轨分
基于AI智能算法的无人机城市综合治理 GeoSaaS 智慧城市人工智能无人机科技大数据智慧城市 gis
随着人工智能技术的飞速发展，无人机技术与AI的结合正在成为城市治理的新趋势。无人机不仅能够提供城市上空的高清视角，而且通过搭载的智能算法，可以实现自动化的监控、分析和响应，极大地提升了城市管理的效率和智能化水平。无人机技术在城市治理中的应用无人机技术在城市治理中的应用主要集中在以下几个方面：违法建筑监测：无人机可以快速覆盖大范围区域，自动识别并记录违建情况，提高执法效率。环卫垃圾识别：通过AI算法
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
【工厂老板必看】智能切割算法帮您省 30% 原材料！附真实案例——一维下料问题算法、cad c#二次开发山水CAD筑梦人 CAD C#二次开发算法
一、行业痛点：原材料浪费有多严重？现象：传统人工排料导致大量边角料，例如：某钢材厂每月因切割不合理损失15万元木材加工厂平均浪费率高达25%核心问题：无法兼顾切割数量与材料利用率人工计算耗时且容易出错二、解决方案：贪心算法和遗传算法切割优化系统技术原理（通俗解释）：用贪心算法和遗传算法通过编程，自动生成最优切割方案，比人工排料效率高100倍以上！核心优势：省材料：原材料总根数减少20%-40%降成
贪心算法——c# 山水CAD筑梦人 C#学习笔记贪心算法算法
贪心算法通俗解释贪心算法是一种"每一步都选择当前最优解"的算法策略。它不关心全局是否最优，而是通过局部最优的累积来逼近最终解。优点是简单高效，缺点是可能无法得到全局最优解。一句话秒懂自动售货机找零钱：用最少数量的硬币凑出指定金额。比如找零198美分，它会优先用25美分的大硬币，不够再用小的，直到凑够金额。背景故事想象你在加拿大超市当收银员（CAD场景）：顾客买了东西你需要快速找出零钱198分收银台
智能车辆控制技术：MPC与轨迹规划实战项目柚木i
本文还有配套的精品资源，点击获取简介：本压缩包集合了车辆转向控制与轨迹规划的MATLAB代码，包含模型预测控制（MPC）策略、MPT工具箱应用、车辆动力学模型构建、轨迹规划实现、mp-QP算法应用及MATLAB编程实践。旨在通过源码分析，提供智能车辆控制技术的深入学习与研究平台，涉及横向和纵向运动控制、系统模型的定义、控制策略的制定及仿真流程。1.模型预测控制（MPC）基础与应用模型预测控制（MP
Manus详解，看这一篇就够了程序员鑫港 langchain 数据库人工智能 AI 大模型 Agent 智能体
Monica公司发布了AIAgent智能体产品——Manus，是一款具备突破性技术的通用型AI代理，根据Manus官网（https://manus.im）技术白皮书和网络公开资料，整理Manus核心技术和应用信息如下，欢迎讨论。技术架构多智能体协作系统Manus采用规划代理、执行代理和验证代理的分工机制，模拟人类工作流程，提升复杂任务的处理效率。规划代理采用蒙特卡洛树搜索（MCTS）算法优化任务拆
多目标优化算法之NSGA-II、NSGA-III（附Matlab免费代码）优化算法侠Swarm-Opti 智能优化算法算法 matlab 开发语言优化算法 NSGA
引言NSGA-II和NSGA-III都是非支配排序遗传算法的变种，用于解决多目标优化问题，但它们在多个方面存在差异。相同点基本框架相似：两者都基于遗传算法的框架，包括初始化种群、非支配排序、选择、交叉和变异等操作非支配排序：都采用非支配排序技术，将种群中的个体划分为不同的前沿，识别非支配解集不同点适用目标数量不同：NSGA-II：适用于相对较少的目标数量，通常在2到4个目标之间，在处理较少目标的问
计算机网络在办公自动化的应用,浅析计算机网络在办公自动化中的作用生活还是要继续计算机网络在办公自动化的应用
[摘要]人类社会已进入21世纪，科学技术突飞猛进，特别是信息技术和网络技术的迅速发展以及广泛应用，以网络通讯为基础，通过先进的网络应用平台可以建设安全、可靠、开放、高效的网络办公系统。使得很多企事业单位办公实现了网络化，从整体上提高了办公人员的办事效率。本文重点分析了网络在自动化办公中的作用。[关键词]网络办公自动化作用[中图分类号]TP393[文献标识码]A[文章编号]1009-5349(201
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
单元测试方法及其运用一休哥助手软考系统架构师单元测试
引言随着软件规模和复杂度的不断提升，开发人员面临着如何保证软件质量与稳定性的挑战。单元测试作为软件测试中不可或缺的一环，能够在早期发现代码中的问题，从而提高软件的可靠性。本文将结合我参与的一个软件项目，详细介绍单元测试中的静态测试与动态测试方法，以及如何确定白盒测试的覆盖标准和组织实施回归测试。1.项目背景及个人角色在我参与的一个在线教育平台开发项目中，团队的目标是构建一个高度可扩展的课程管理和学
Python实现数据结构与算法——反转字符串 Mantana 数据结构与算法字符串算法数据结构递归法
题目描述：编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组char[]的形式给出。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用O(1)的额外空间解决这一问题。你可以假设数组中的所有字符都是ASCII码表中的可打印字符。示例1：输入：["h","e","l","l","o"]输出：["o","l","l","e","h"]示例2：输入：["H","a"
深度掌握 ReactJS 高级概念：前端开发者必备前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读这篇文章汇总了ReactJS中值得深入研究的高级概念。读完后，不仅在前端面试中能更胸有成竹，还能自行开发一个类似ReactJS的UI库。目录Rendering的含义与过程Re-rendering发生的机制及原因VirtualDOM的原理Reconciliation算法的运行方式ReactJS的性能优化方案1
我的AI工具箱Tauri版-建筑平面图生成装修设计 Mr数据杨 Tauri工具箱 ComfyUI
本模块利用先进的AI绘画大模型，将房屋平面设计图转化为高质量的室内装修效果图，让装修设计更加直观、高效。用户只需提供房屋的平面布局，并选择合适的AI绘画模型，系统即可智能生成涵盖客厅、卧室、厨房、卫生间等最多12个房间的高品质设计样图，完整呈现房屋的整体装修效果。本工具支持多种设计风格，如现代简约、北欧风、中式传统、美式复古、日式禅意等，满足不同用户的个性化装修需求。借助AI算法的自动化生成能力，
数据结构与算法——哈希表，数组加强哈希表，双链表加强哈希表 Book_熬夜！数据结构与算法散列表哈希算法数据结构 javascript 算法
文章目录哈希表1.数组实现hash表2.双链表实现hash表哈希表key是唯一的，value可以重复哈希表和我们常说的Map（键值映射）不是同一个东西。【Map】是一个Java接口，仅声明了若干个方法，并没有给出方法的具体实现；HashMap这种数据结构根据自身特点实现了这些操作。可以说hashmap的get、put、remove等方法复杂度为O(1)，但是map接口的复杂度不一定，需要看他底层数
动态边界冒泡排序优化 Cybernetic Sage 算法排序算法
下午在复习排序算法时，突发奇想自己按照鸡尾酒排序算法思路写一遍，然后动态边界冒泡排序（DynamicBoundaryBoubbleSort）就这么诞生了。它的思路与鸡尾酒排序不同的是：每次扫描后根据最后一次交换的位置动态调整边界减少无效比较，在数组部分有序的情况下，效率应该比鸡尾酒排序更高。代码如下：#includeusingnamespacestd;constintN=1005;inta[N];
简说JVM 祁小白2024 jvm java 后端
目录前言正文JVM内存区域划分JVM执行方式JVM的类加载机制类加载器类加载器的类型自定义类加载器垃圾回收垃圾回收的问题垃圾回收的范围垃圾回收机制垃圾回收算法释放垃圾内存空间前言在Java的技术体系中，有两个至关重要的组件，分别是JVM（Java虚拟机）和Javac（Java编译器），它们在Java程序的生命周期中扮演着截然不同但又紧密关联的角色。Javac编译器的职责是将开发者编写的.java源
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc