bzt_java

Unicode字符编码标准---下(转帖)

4. 实现指南
4.1 编码转换（Transcoding to Other Standards）
一般，在Unicode标准和其他编码标准间的映射需要通过表(table)来完成，而不是算法转换。使用表查找常常具有比简单算法转换更高的效率。
（1）多级表（Multistage Tables）
转换表需要空间。即使是很小的字符集也经常会映射到Unicode标准中几个不同的区块中，因此，至少在一个转换方向上（从Unicode标准到其他编码标准或相反），可能会包含多至64K个项（针对BMP）或1,088K个项（针对全部编码空间）。有多个方法用于减少映射表的内存空间需求，这些方法不仅可用于转换表，也可用于其他实现Unicode标准的表结构，包括字符属性数据、case映射等等。
（2）Flat Tables
如果磁盘空间不是问题，虚拟内存体系可以为flat table安排可接受大小的工作集，因为各字符的使用频率有很大不同，即使是小字符集也包含一些不常使用的字符。并且，需要转换为给定字符集的数据中的字符一般不会来自Unicode标准中的所有区块。
（3）Ranges
提供一个精心创建的嵌套范围判断对表进行优化，可能比较吸引人。但由于分支损失，这种方法会对现代的高度流水线式的处理器体系造成不必要的性能耗费。一种快速的解决方案是采用优化的两级表，可以在编码中不包含任何测试或分支指令。尽管哈希表的速度不如多级表，但也可用于空间优化。
（4）两级表(Two-Stage Tables)
两级表示常用的一种减少表的大小的机制。两级表使用一个指针和却省值的数组。如果指针为空NULL，查找返回却省值。否则，指针指向用于第二级查找的数值块。对于BMP字符，按照高字节和低字节值来组织这样的两级表非常有效，第一级是由256个指针组成数组，每个第二集区块中包含256个值。对于增补字符，应采取不同的方法构造指针和二级数组，以便充分考虑增补字符在剩余编码空间中稀疏的散布。
（5）优化的两级表(Optimized Two-Stage Table)
当任何区块相同时，对应的指针只需其中一个区块。对编码转换表而言，这种情况一般出现在当区块中的字符仅仅映射到"却省"或"无法匹配"的字符时。不是使用空指针NULL和一个却省值，而是创建了一个却省项的"共享"块。由于避免使用测试和分支，这种策略可以提供接近于简单数租访问的速度，却大大节省了存储空间。
（6）多级表调节(Multistage Table Tuning)
给定一个具有任意大小和内容的表，可以较容易的创建一个小的应用程序，来计算多级表的最佳级数和它们的宽度。通过调节级数和它们的索引指针数组的宽度，可以在表大小和平均访问时间之间进行折衷。
4.2 ANSI/ISO C wchar_t
在ANSI/ISO C中，为固定宽度的宽字符定义了类型wchar_t，ANSI/ISO C将宽字符集语义的定义留给了特定的实现。
wchar_t的宽度是由编译器指明的，可以只有8位大小。因此，需要在不同C或C++编译器间可移植的程序不应该使用wchar_t存储Unicode文本。
对于UTF-16的实现，可以使用宏macro或者类型定义typedef（如UNICHAR），编译为unsigned short或者wchar_t（依赖于目标编译器和平台）。对UTF-32的实现可以使用编译为unsigned int或wchar_t的宏或者是类型定义。这样的选择使在不同的系统平台和编译其中可以正确编译。
4.3 未知和缺少的字符(Unknown and Missing Characters)
4.3.1 保留的和私用的字符编码(Reserved and Private-Use Character Codes)
有两类码点，即使是完全的Unicode标准实现也无法正确解释：
被保留的码点；
在私用区中的码点。
一个实现不应试图去解释这样的码点。然而，在实际中，应用程序必须处理为分配的码点或私用字符。例如，当应用程序所处理的文本是由一个实现更新版本的Unicode标准的系统创建的，其中包含更多的分配字符。
对未知字符显示的选择包括将码点显示为四到六位十六进制数字，显示一个黑得或白的方块，针对保留字符和私用字符分别显示适合的字形，或者什么都不显示。一个实现不能删除这样的字符，也不能无目的地转换为其他字符。
4.3.2可解释但无法显示的字符(Interpretable but Unrenderable Character)
一个实现可能接收一个分配给Unicode字符的码点，但无法显示它，因为没有字体或者无法正确显示。
在这种情况下，实现可能会对用户的询问提供进一步有限的反馈，如对数据进行适当的排序，显示它的书写系统，或者以却省放时显示码点。对无法显示的（但是已分配的）码点和未分配的码点，实现可以通过为无法显示的码点使用指示类别的不同字形表示。
4.3.3却省的属性值(Default Property Value)
要使实现可以正常工作，需要把未分配的码点看作字符分配却省的属性值，因为各种算法都需要分配给每个码点的属性值来运作。这些却省值不是对所有未分配的码点都相同，因为码点中的某些范围需要不同的属性值以便与将来期望的分配做到最大兼容。
除非被特指，却省属性值不是标准的，具有一致性的实现可以使用其他值。例如，取代却省值，实现可能使用以下规则，为一块未分配字符插入相邻已分配字符的属性值。
注意在两个方向上最接近的已分配字符，如果它们处在相同的块中具有相同的属性值，则使用这些值。
从任一区块的边界开始，一直扩展到块内最近的已分配字符处为止，使用区块中字符对应的属性值。
如果所有的码点完全位于空的或未分配的块中，使用对应属性的却省值。
4.3.4却省的可忽略的码点(Default Ignorable Code Points)
一般，在可支持字符集外的码点使用一个应变的字形显示，如一个黑方块。然而，格式和控制字符不应该由可见的字形（尽管它们对其他字符的显示有影响）。除非对于一些特定的处理，这些字符也被忽略，例如，字符ZERO WIDTH NON-JOINER在对照(collation)中忽略。为在不同版本的标准间保证最大程度的兼容性，范围U+2060到U+206F，U+FFF0到 U+FFFB，和U+E0000到U+E0FFF保留给格式和控制字符。在这些范围中的位分配码点应该在处理和显示中被忽略。
4.4 处理UTF-16中的代理对(Handling Surrogate Pairs in UTF-16)
在形式良好的UTF-16中，在一个低代理码点之前只能是一个高代理码点，而不能是另一个低代理码点、一个非代理码点或者是文本的开头。一个高代理码点的后面也只能跟一个低代理码点，而不能是另一个高代理码点、一个非代理码点或者是文本的结尾。
高代理码点和低代理码点被分配了不相交的编码单元，非代理的码点也不会使用这些范围内的编码单元值表示。因此，在形式良好的UTF-16中的每个编码单元必须只满足下面三个可能的条件之一：
一个单一的非代理编码单元表示的码点范围是0到D7FF或E000到FFFF；
一个高代理码点表示代理对的第一部分；
一个低代理码点表示代理对的第二部分。
最多访问两个编码单元，使用UTF-16编码格式的处理过程就可以解释任何Unicode字符。确定字符边界最多只需要扫描前一个或后一个编码单元，而不需考虑其他部分。
只要实现不去除代理对中的任一编码单元，或者在代理对中两个编码单元间错误的插入另一个字符，就可以保证数据的完整性。而且，即便数据被破坏了，错误也是局部的。
UTF-16具有非常有利的频率分布，在所有文本数据中的大多数部分中，代理对非常罕见，非代理码点将非常普遍。这不仅有利于减少由于处理变长编码而带来的性能损失，也允许一些处理过程可以不对代理对采取特别的操作，或者使用已有处理字符序列的机制来处理代理对。
实现必须在处理UTF-16文本时完全支持代理对。但是，实现中的单独的组件可以具有对代理对不同程度的支持，只要这些组件之间可以正确的组合和交流。对代理对不同程度的支持由两个主要方面决定：
实现是否解释增补的字符？
实现是否保证代理对的完整性？
Surrogate Support Levels
Support Level Interpretation Interity of Pairs
None No supplementary characters Does not guarantee
Transparent No supplementary characters Guarantees
Weak Some supplementary characters Does not guarantee
Strong Some supplementary characters Guarantees
不支持代理对，实现就不会对任何增补字符进行解释，也不保证代理对的完整性。
透明的代理对支持(transparent surrogate support)，用于这样的组件，如编码格式转换，它可能完全保证对代理对的正确处理，但不解释任何增补字符。也适用于低层串处理操作的组件，一个 Unicode串只是简单地作为编码单元的数组而不顾它们的代理状态，不对串进行解释。
不充分的代理支持(weak surrogate support)只正确地处理那些对应可解释字符的代理对，可能调用的组件被保证不会传递无法解释的字符。
支持代理对的策略(Strategies for Surrogate Pair Support)
处理Unicode标准中高级特性的一些实现可以很容易地被改进，来支持UTF-16的代理对。例如：
在文本对照(text collation)中可以把代理对作为"组合字符"来处理。
文本的输入可以使用一次按键产生两个Unicode码点的键盘来完成，就如一次ENTRE键可以生成CRLF或者在阿拉伯键盘上的"lam-alef"可以生成两个字符lam和alef的序列。
文本截断(truncation)可以使用与保证组合标记紧跟基字符相同的机制。
如果文本编辑器可以保证插入点(insertion point)位于字符边界，就可以阻止用户破坏文本。只要使用文本元素边界，低层的串处理程序（如wcschr）就不用进行修改。实际上，只有某些高层的处理需要注意代理对；底层的例程可以继续使用对16位编码单元操作，而不需特别对待代理对。
4.5 处理数字(Handling Number)
在Unicode 中，有一些字符集合用于表示不同书写系统中的十进制数字。在数字上，解释这些字符的系统必须提供正确的数字值。比如，在数字上，对序列<U+ 0968 DEVANAGARI DIGIT TWO, U+0966 DEVANAGARI DIGIT ZERO>解释，具有值20。
当从二进制的数字值转换为可视的形式时，可以从不同的书写系统中选择数字。
ASCII数字的全角变形(fullwidth)仅是通常数字的兼容变形，应作为一般的西文数字对待。
罗马数字和东亚的表意字符数字也是十进制的数字书写体系，但它们在形式上不是以10为基数的数字系统。因此，不可能采用一对一的方式转换成像123456.789的形式。
使用表意字符，也可能以两种方法书写数字。如数字1,234可以表示为"一千二百三十四"或"一二三四"。在数字解析使支持这些数字意味着实现必须能区分这两种情况。
有时候数字需要解析，但它们并不是数的一部分。例如由字母和数字组成的标示符。
只有在另一层上（如实现一个完整的数学公式解析器），对上标(superscripting)的解释才是至关重要的。
4.6 正规化(Normalization)
（1）可选择的拼写(Alternative Spelling)
在Unicode标准中对最常用的一些加重音符的字符分配明确的编码。这些字符也可以通过组合获得，对于加重音符的字母，可以由基字符和非间距标记(nonspacing mark)组合而来。
Unicode标准提供对可由基字符加一个或多个非间距标记组合而来字符的分解。分解映射与特定Unicode标准的版本有关。
（2）正规化(Normalization)
系统可能会将Unicode编码格式的文本正规化为特定的序列，如将组合字符序列正规化为由预组合字符的序列，或者相反。
无法处理非间距标记的系统，可以正规化为预组合字符，适用于大多数基于拉丁语的现代语言。对于无法处理的组合字符，系统可以使用替代显示方法，至少在显示上表示组合。
对可以处理非间距标记的系统，执行正规化消除预组合字符可能会有用，使系统对组合字符有统一的表示，保持对这类字符处理的一致性。
4.7 压缩(Compression)
使用Unicode字符编码可能会增加用于保存文件文本部分的存储和内存空间。因此，对Unicode文件或串进行压缩是一个很好的选择。压缩往往建立一个更高层的协议，并且依赖于所使用的压缩方法的知识进行交换。
4.8 换行的原则(Newline Guidelines)
换行符在不同的平台上表示为：carriage return(CR)、line feed(LF)、CRLF，或next line(NEL)。不仅换行符使用不同的字符表示，并且在相同平台上，它们也具有不明确的行为。当转换字符集编码时，这些字符通常被直接转换为对应的 Unicode码点。这意味着，即使是处理纯Unicode文本的程序也必须解决这些问题。特别是随着Web的出现，在一台机子上的文本可能具有不同的来源，将引起很大问题。
换行符用来明确指示行的边界。
4.8.1 定义(Definitions)
Hex Values for Acronyms
Acronym Name Unicode ASCII
CR carriage return 000D 0D
LF line feed 000A 0A
CRLF carriage return and line feed 000D,000A 0D,0A
NEL next line 0085 85
VT vertical tab 000B 0B
FF form feed 000C 0C
LS line separator 2028 n/a
PS paragraph separator 2029 n/a
在Unicode标准中，没有正式地分配控制字符，而是为各种7位和8位字符编码标准中使用控制字符提供相应的码点。确保了Unicode标准与其他编码标准的相关性和相互映射。
缩写NLF(newline function)表示针对一个新行分隔符的一般控制功能。
4.8.2 背景(Background)
段落分隔符(paragraph separator)用于指示段落之间的分隔。行分隔符(line separator)指示在何处进行断行，特别是在一个段落中。
记录分隔符(record separator)用于分隔记录。例如，当交换表格式数据时，一种普通的格式是使用TAB分隔单元和在一行单元后使用CRLF。尽管这种功能与行分隔不是正好相同，但使用了同样的字符。
NLF开始时作为行分隔符。现在，在一些简单的文本编辑器中还作为行的分隔符。随着平台和程序开始使用自动分行进行字处理，这些字符被用于表示段落分隔符。
一旦NLF被用来表示段落分隔符，在一些情况下，另一个控制字符就被作为行分隔符使用。例如，在Microsoft Word中，就使用vertical tabulation(VT)。
4.8.3 建议(Recommendation)
在Unicode 中，定义了两个明确的分隔字符：U+2029 PARAGRAPH SEPARATOR(PS)和U+2028 LINE SEPARATOR(LS)。在Unicode文本中，应该在所表达功能明确的地方使用PS和LS字符。否则，当从其他字符集转换为Unicode时，当解释文本中的字符时，和当从Unicode转换为其他字符集时，使用以下规则处理NLF。
即使实现知道在一个特定的平台上用哪个字符表示NLF，在输入和解释时CR、LF、CRLF和NEL应该被相同对待。只要在输出时，才有必要进行区分。
（1）从其他字符编码集转换
R1 如果知道NLF的确切的用法，则转换为LS或PS。
R1a 如果不知道NLF的确切用法，则映射为与平台对应的NFL。
（2）解释文本中的字符
R2 总把PS解释为段落间隔，把LS解释为行间隔。
R2a 在字处理中，把任一NLF都解释为PS。
R2b 在简单文本编辑中，把任一NLF都解释为LS。
R2c 在解析中选择最安全的解释。
例如，对R2c，涉及断句启发规则的实现会按照以下方法，将NLF安全的解释为LS：
当一个NLF应是PS时，假设把它解释为LS。因为多数段落总是以标点符号结束，这只会在个别情况造成对句子边界的错误识别。
当一个NLF应是LS时，假设把它解释为PS。在这种情况下，行分隔符将是句子断开，对断句启发规则带来很大错误。
（3）转换为其他字符编码集
R3 如果已知转换的目标，根据目标协定，适当地对NLF、LS和PS进行映射。
例如，当映射为Microsoft Word对文档的内部协定时，LS将映射为VT，PS和其他NLF将映射为CRLF。
R3a 如果不知道转换的目标，将NLF、LS和PS映射到平台的换行协定。
（4）输入和输出
R4 函数readline应该在遇到NLF、LS、FF或PS时停止。在典型的实现中，不包括停止位置的NLF、LS、FF或PS。
因为分隔符会丢失，对这种readline函数的使用仅限于与分隔符的类型无关的文本处理。
R4a 函数writeline应该根据(3)中的协议转换NLF、LS和PS。
（5）页面分隔符
FF一般用作页面分隔符，在文本中应该按照情况解释。当在屏幕上显示时，在分隔符后的文本会被强制放如下一页。它与段落分隔符无关：一个段落可以在一页开始在下一页中继续。除非是在页面中显示，在大多数解析过程和readline中，与LS的解释相同。
4.9 正则表达式(Regular Expressions)
面向字节的正则表达式工具需要扩展以正确处理Unicode。下面是扩展所涉及方面：
Unicode是一个很大的字符集，只适用于处理小字符集的正则表达式工具可能无法调整。
Unicode包括多种语言，它们具有与英语或其他西欧语言非常不同特性。
4.10 纯文本中的语言信息(Language Information in Plain Text)
4.10.1 语言标记的需要
在纯文本数据中嵌入语言信息的需要经常被夸大。一些普通操作，如对照(collation)很少需要这些额外信息。
然而，语言信息对某些操作非常有用，如对一个混合语言的文档执行拼写检查或者连字(hyphenating)。对于为无格式文本选择却省字体也非常有用，例如日文字体中的省略符号具有与英文字体不同的外观。当前的字体和布局(layout)技术基于语言信息产生不同结果。尽管语言信息对于执行文本-语音转换 (text-to-speech)操作有用，但当前的文本-语音转换软件都必须对文本执行非常复杂的语法分析，因此确定语言的额外工作就不那么重要了。
语言信息可以使用带外信息(out-of-band)或内嵌标记(inline tag)表示。在内部实现中，通常使用带外信息，保存在与文本并联的数据结构中，而不是嵌入到文本数据中。带外信息不影响对文本的正常处理，还可以轻松的支持对文本的操作。
4.10.2 语言标记与汉字统一
对Unicode中汉字统一的一个常见误解是觉得没有语言信息就无法正确显示汉字字符。其实，汉字统一的目标和方法是确保文本可读。尽管需要添加字体、大小、宽度和其他格式规格，以便在源和目标机器上准确产生相同的外观，但在没有这些规格时，纯文本也能保证可读。
因为不同国家所使用的统一的汉字间的不同，都仅限于格式上的变化，不会引起Unicode中的混乱。在Unicode中的汉字统一不会使读者音唯一不同的字体显示而无法识别一个字符。如果准确的字体信息很重要，最好使用格式文本。
4.11 编辑和选择(Editing and Selection)
一致的文本元素(Consistent Text Elements)
从用户的角度，文本的基本表示不是所关心的，但重要的是，编辑接口必须对用户所认为的字符提供一个统一的实现。用户希望在鼠标选择、方向键移动、退格等操作中，这些字符表现得像一个个单元。例如，当实现这些行为后，对一个表示为基字符加非间距组合标记序列的加重音符字母，使用右移方向键时，逻辑上会从基字符的开始跳到最后一个非间距字符后面。
在词中的编辑和选择，一般有三种类型的边界(boundary)。
簇边界(cluster boundary)
任意定义的簇边界可能会出现在像梵文(Devanagari)这样的书写系统中，选择操作可能会应用于音节或者音节的一部分。在这种情况下，组合字符序列，如ka+vowel sign或者联合的簇ka+halant+ta，作为单一的单元选择。
堆叠字符边界(stacked boundary)
堆叠字符边界一般比簇边界更细。独立的元素（如梵文vowel sign a）可以不受约束的选择，但是任何堆叠在一起的字符（包括垂直连字符，如阿拉伯文中的lam+meem）只能作为单一的单元选择。
原子字符边界(atomic character boundary)
原子字符边界的使用最接近于单个Unicode字符的选择。然而，大多数当前系统都采用某种矩形加亮的方式表示选择操作。这种方法限制了编辑操作的一致性，因为一些字符序列不是从行的起始处成直线地发展。当字符堆叠时，两种机制被用于对部分选择地显示：直线的和非直线的边界。
直线的边界(linear boundary)
使用直线边界，将合成字形的全部宽度都归属于序列的第一个字符，认为其余字符没有宽度。
这是最简单的一种机制。它的优点是只需要很少的额外实现工作。它的缺点是选择窄字符变得非常困难，更不用说零宽度的字符。需要用户刚好从非间距标记右边开始选择，并且正好拖到左边。如果有多个非间距标记，它也不允许对单个标记进行选择。
非直线的边界(nonlinear boundary)
使用非直线边界把任何堆叠字符分成各个部分。可以通过对多个矩形加亮，或者对单个字符着色的方法进行表示。
注意到，通过更多的操作，一个预组合的字符在删除操作中可以表现得像一个具有原子字符边界组合字符序列一样。这个过程包括动态地获得字符的分解表示，得到用作模拟的组件。
在多数系统中，字符时文本中最小的可寻址单元，所以选择操作和属性分配操作（如字体、颜色、字符间距等）都在字符的基础上执行。对于预组合地字符无法模拟这种可寻址性，系统地修改所有文本编辑工具来对字符的一部分进行寻址，会十分低效。
由于文本元素不具有一个单一的概念，因此，对字符边界的编辑也没有一个统一的概念。在不同情况下，用户可能会在编辑过程中使用不同程度的粒度大小。可以考虑两种方法：首先，用户可能设定对字符边界的一个全局偏好；第二，用户可能有可选的命令机制，如Shift-Delete，可以提供对却省模式更细（或更粗）的控制。
4.12 处理非间距标记的策略
依据一下策略，开发者可以实现对非字符间距有效和高效使用的系统和例程。开发者也可以选择适用于绝大多数已有系统的最小限度的技术，和适用于要求更苛刻的情况的复杂技术，如高端的桌面出版。
在这里，术语非间距标记(nonspacing mark)和组合字符(combining character)可以互换使用。有时会使用术语diacritic、accent、stress mark、Hebrew point、Arabic vowel等，而不是非间距标记（它们表示特定类型的非间距标记）。
为支持非间距标记，只需要相对较小数量的实现特性。存在多种可能层次的实现。一个最小的系统可以产生较好的结果，并且相对容易实现。要求大多数特性地系统，只是对已有软件地简单修改。
因为有一些语言要求非间距标记，如Arabic、Hebrew和印度次大陆的语言，已有一些可以处理这些字符的系统，可以利用已有经验来生成处理Unicode标准中这些字符的多用途软件。
显示(rendering)
一部分确定的组合字符序列可以通过简单的替换来有效显示。当遇到一个有基字符加一个或多个非间距组合标记组成的序列时，可以使用表示组合形式的字形进行替换。在简单地字符显示中，一个非间距组合标记不增加宽度，一个组合字符序列的具有与基字符相同的宽度。当截断串时，从结尾处开始向后执行截断总是最容易。后续的非间距标记将不会与前面的基字符分开。
一个更复杂得显示系统会考虑使用非间距标记时对宽度和字距更细微的调整，或者组合字符序列具有与基字符不同宽度。对大多数应用而言，这样地显示系统并不是必需的。
其他处理：正确的多语言比较例程也必须能够把字符序列作为一个字符比较，或者把一个字符看作是一个字符序列。只要提供了适当的数据，这些例程也能处理组合字符序列。当查询串时，要检查目标串中可能会影响最后一个匹配字符解释的附加非间距标记。
断行算法一般使用状态机，确定词间的中断。这样的算法可以很容易地改进，来阻止将非间距标记从基字符分开。
键盘输入(Keyboard Input)
用于组合字符序列输入的一个常见实现，是使用所谓的dead key。这些键与打字机生成这样序列所使用的机制匹配，通过在非间距标记之后键入基字符。在计算机的实现中，当按下针对重音符的dead key时键盘进入一种特殊的状态，只有当键入一些有限数目的"合法"基字符之一时产生一个预组合的字符。根据需要，可以改进系统来生成组合字符序列或者预组合的字符。尽管打字员，特别是使用Latin书写系统的，是针对这类系统培训的，然而在Unicode标准中一些书写系统（包括Latin）可能会依据书写的顺序来实现，用户首先键入基字符，其后跟着重音符或其他非间距标记。
在书写顺序的情况下，每一次键入都在屏幕上产生一个不同的自然变化。要给已有的字符添加重音符，用户需要把插入点移到字符后在键入重音符。
截断(Truncation)
有两种类型的阶段：根据字符数目截断和根据显示宽度截断。根据字符数目截断可能带来数据损失，也可以是无损失的。
根据字符数目进行截断使用在，由于存储限制，只有有限数目的字符可以放入某区域；也用于，为了传送和其他目的将文本插入缓冲区中。在后一种情况下，如果在处理前缓冲区中的数据可以无缝的重新组合，或者预先检查一下可能出现的跨缓冲区组合字符序列，就可以做到不丢失数据。
当调整数据以适应有现长度的区域时，一些信息将会丢失。在文本边界上进行截断（例如，在组合字符序列的最后或者在最后一个词边界）通常比在最后一个码点后截断更可取。
根据显示宽度截取用于有限范围内的可视显示。在这种情况下，截断是依据结果串的宽度而不是字符的数目。在简单的系统中，依据宽度截断很容易，从末尾处开始向后操作减去字符的宽度。由于后续非间距标记对串的尺寸没有贡献，最后结果不会把非间距标记与它们的基字符分开。
如果文本环境会更复杂，字符的宽度可能会依赖上下文环境，由于字符间距调整、连字或上下文信息等的作用。对这种系统，一个组合字符的宽度可能会与一个单独的窄字符（如i）的宽度不同。处理这种情况，必须对截断结果进行核查。
一个不同的选择是在图形上对字符进行修剪。但不幸的是，结果可能很难看。并且，如果修剪出现在字符之间，可能不会给出任何世界反馈表示字符被删除了。
4.13 非间距标记的显示(Rendering Nonspacing Marks)
在这里假定使用均衡字体(proportional font)，单个字符的宽度可以变化。对于等宽字体(monospaced font)，可以使用各种技术，但一般而言，对于这种字体的多数书写系统，可能只有一种正确的显示外观。
当显示的序列中包含多于一个的非间距标记时，却省情况下，非间距标记从基字符向外堆叠。即，如果亮格非间距标记出现在基字符的之上，则第一个非间距标记位于基字符上面，第二个非间距标记为与第一个标记上面。如果亮格非间距标记出现在基字符的之下，则第一个非间距标记位于基字符下面，第二个非间距标记为与第一个标记下面。
这种却省行为可能会根据排字上的偏好，或者某个特定书写系统中对多个非间距标记的特定正字法处理，而改变。
后退的显示(fallback rendering)
有几个方法可用于处理在一个固定的可显示集合外未知的组合字符序列。
一种方法是Show Hidden，通过先显示基字符再把非间距标记作为单个单元显示，来表示无法描绘序列。
另一种方法是Simple Overlap，将重叠的零宽度非间距标记放置在却省的固定位置处，一般所放置的位置例可能的基字符较远。尽管显示结果对于一些字母而言没有吸引力，但在只有一个非间距标记的情况下，结果一般还是可以辨认的。
在一个退化的情况下，一个非间距标记作为文本的首字符出现，或者被行分隔符、段落分隔符或其他引起位置分隔的格式符从它的基字符分开。这种结果称为不良的组合字符序列。不良的组合字符序列在显示时，看作是以一个空格作为基字符。
双向定位(bidirectional positioning)
在双向文本中，非间距标记与它们的基字符一起重新排序。即视觉上，在使用双向算法之后它们应用于相同的基字符。
调整(justification)
典型地，对文本的完全调整要给间距字符(space character)添加额外的空间；然而，如果只有很少（或没有）间距字符，一些系统会在字符间添加额外的字间隔空(letterspacing)。如果在文本中包含零宽度的非间距标记，则需要对该过程进行改进。
因为非间距标记总是跟随它们的基字符，正确的调整过程应该只有当第二个字符是一个基字符时才会在字符见添加字间隔空。
规范等价性(Canonical Equivalence)
在显示多个重音符时，必须考虑规范等价性，以便使任两个规范等价的序列显示结果相同。这一点在当规范顺序与习惯的键盘输入顺序不相同时特别重要，如具有元音符号的阿拉伯文和使用点的希伯莱文。在这些情况下，显示系统得到的是典型的键入顺序或者是经过正规化(normalization)的规范顺序。
显示系统应该处理组合标记的任何具有规范等价性的序列。这不会有性能问题，因为对组合标记重新排序所需的时间与其他显示工作的耗时相比微不足道。
一个显示系统，在需要时，可以在内部对标记重新排序，只要结果序列是规范等价的。
定位方法(Positioning Methods)
有一些方法可用于定位非间距标记，使它们相对于基字符和前一个非间距标记（如果有的话）的位置正确。
使用连字(positioning with Ligature)
一个固定范围的组合字符序列可以使用相对简单的替换来有效显示。当字形可以表示一个序列<基字符，非间距标记>时，使用这个字形替换组合形式。因为非间距标记的扩展宽度为零，组合字符序列将自动具有与基字符相同的宽度。跟复杂的文本显示系统可能会采取进一步的措施来处理一些特殊情况，如组合字符序列的紧排(kern)或者宽度与基字符不同。
使用连字可能是支持非间距标记最简单的方法。对于较小的固定字集，如那些对应ISO/IEC 8859-1(Latin-1)重预组合字符的，可以直接采用该方法。因为组合字符序列几乎总是具有与基字符相同的宽度，对这些字符的显示、测量和编辑与一般连字的情况相比都更容易。
如果组合字符序列不能形成一个连字，就需要采用以下两种方法之一。如果这些方法都不可用，则使用后退的方法。
根据上下文结构定位(positioning with contextual forms)
处理非间距标记定位的一个较通用的方法是使用上下文的结构。在这种情况下，有几个不同的字形对应于重音符的不同位置。依据大致的形状和宽度，基字形（基字符的字形？）通常分成数目较小的一些类别。根据基字形的类别，为非间距标记选择一个特定的字形。
在一般情况下，可以从一些具有不同高度的字形中进行选择，以便堆叠字形。这种方法可以与使用连字的方法结合使用，就可在特定情况下，使用连字生成更高的变形。
使用增强的字距调整(positioning with enhanced kerning)
第三种用于定位读音符号的技术是对常规的字距调整（水平的和垂直的）的扩充。典型地，字距调整过程唯一对字形映射一个位置偏移量。例如，在词语"To"中，"o"应该向"T"下面靠一点。这种系统的扩充则分别映射一个垂直的和水平的偏移量。
为了针对一般情况可以有效应用，字距调整过程也必须能够处理比简单字符对更复杂的情况，如在一个基字符后可能有多个读音符号。
使用增强的字句调整技术进行定位，也可以和使用连字的方法结合运用。
4.14 定位文本元素边界(Locating Text Element Boundaries)
Unicode 编码的文本串经常需要被分解为文本元素。文本元素的一般例子包括字符、词、行和句子。文本元素的准确确定可能会依据地区而变化。但要与用户的理解相匹配并不是总能达到的，因为文本本身并不总是包含足够的信息用于明确决定边界。例如，句点"."(U+002E FULL STOP)的使用具有歧义，有使用于表示句子结束，有时用于缩写，有时则用于数字。然而，在多数情况下，文本边界可以符合用户的理解。
4.15 标识符(Identifiers)
Unicode 标准的实现面临的一个常见任务是提供针对标识符的解析工具。为了促进在基于Unicode字符的解析器中对标识符的标准化处理，这里针对标识符语法的定义提出一套指导方针。这些指导方针并不比普通程序设计语言中规则更复杂，只不过包含了更多具有不同类型的字符。
基于属性的标识符语法(property-based identifier syntax)
这里提供的正式语法就是要明确，一个标识符是由一个字母或者一个表意字符开始，包含任意数目的字母、表意字符、数字或下划线的字符串组成的。每种程序设计语言标准都有自己的标识符语法，不同程序设计语言对ASCII范围内特定字符的使用有不同的约定。对这些语法进行扩充以具备Unicode实现的全部行为，只需要讲这些特定规则与下面提供的样本语法结合。
为了正确的涵盖Unicode标准，样本标识符语法中的革新之处包括：
结合对组合标记的恰当处理。
允许有布局和格式控制字符，在解析标识符时忽略。
组合标记(combining marks)
标识符语法中必须考虑组合标记。由一个基字符跟随若干组合标记组成组合字符序列对一个标识符而言是有效的。
封闭的组合标记被排除在<ident_extend>的语法定义外，因为由它们和字母所组合得到的组合字符不是这些标识符有效的组成部分。
布局和格式控制字符(layout and format control character)
用于控制组合行为，双向顺序控制和可选显示格式的Unicode字符，被明确定义为不影响中断行为。不像空格符或其他分隔符，它们不用来指示词、行或其他单元的边界。因而，为了标识符定义，将它们明确包括在内。一些实现可能选择过滤掉这些可忽略字符，这种方法的优点在于两个显示相同的标识符更可能是相同的。
特殊字符调整(specific character adjustments)
特殊的标识符语法可以被看作是基于字符属性对普通语法的少量修改。例如， SQL标识符允许下划线作为标识符的一部分（但不能作为开始字符）；而C标识符允许既下划线作为标识符的一部分也可以作为标识符的开始字符。
可以考虑排除在标识符外的字符集合包括所有兼容映射具有<font>标记的字符。
语法规则(Synactic Rule)
<identifier> := <identifier_start> (<identifier_start>|
<identifier_entent>)*
Sytactic Classes for Identifiers

Syntactic Class Properties
<identifier_start> General Category = L or Nl, or
Other_ID_Start = true
<identifier_extend> General Category = Mn, Mc, or Nd, Pc, or Cf
可选建议(Alternative Recommendation)
使用语法类别不足之处是，用于详细定义的存储空间，以及随着新版本Unicode标准添加的新字符无法被已有的解析器识别。也就是说，无法做到向上兼容。
解决该问题的一个方法是，不去定义允许使用的码点集合，而是将一个较小的固定的码点集合保留给语法使用并且允许使用其他任何码点（包括非分配的码点）用作标识符的一部分。按照这种规范编写的解析器对任何版本的Unicode标准得表现相同。
这种方法的缺点是标识符中部分可能是没有意义的东西，因为将词汇分类与人类的可理解性分开了。然而，可理解性可以通过其他方法解决，如使用用法指南限定使用有意义的术语。例如W3C指定的规范XML 1.1。
通过增加不允许使用字符的集合，可以得到针对标识符较直观的建议。这种方法使用Unicode标准一个特定版本中关于标识符类别的所有规范，并且永远不允许使用该版本中不推荐用作标识符的字符。该版本Unicode标准中没有分配的所有码点可用于标识符，已经考虑到将来对版本的添加。这种方法保证了向上兼容的标识符稳定性，以及将字符合理地划分为具有或不具有意义的标识符组成。
可以对禁止使用的码点列表进行一些额外的扩充，来进一步限制不合理的标识符。
4.16 排序和查找
排序和查找操作部分相一致，都要实现相互比较项的等价程度判定。在查找操作中，等价定义项是否匹配；在排序操作中，等价影响项在有序队列中的邻近。等价的确定经常依赖于应用和语言，但对于支持Unicode标准的实现而言，排序和查找必须考虑到Unicode字符的等价性和规范顺序。
与语言文化有关的排序和查找
排序顺序随着文化的不同而变化，并且一些特殊的应用需要变化。排序的顺序可以依据词或者句子，区分大小写或者不分大小写，忽略重音符或者不忽略；也可以是依据语音，或者基于字符的外观，比如使用笔划和部首对东亚的表意字符排序。对汉字的语音排序需要使用词语的查找词典，或者是可以维持文本中词和相关语音拼写的特殊程序。
语言不仅决定使用哪一种排序，而且决定什么构成排序的基本元素。例如，瑞典语中将U+00C4 LATINE CAPITAL LETTER A WITH DIAERESIS作为一个单独的字母，在字母表中排在z之后；然而，在德语中，则作为ae或者识跟随在a之后的其他重音形式。西班牙语在传统上将连字 ll看作在l和m之间的字母来排序。
因此，不可能在编码时以某种顺序安排字符以便通过简单的二进制串比交接可以生成期待的顺序，也不可能提供单级的排序权重表。后者意味着字符编码细节对文化上期待的排序只具有间接的影响。
与语言无关的排序
在一些环境下，应用程序可能需要进行与语言无关的排序，即对文本数据排序，而不考虑针对串如何排序的与语言相关的文化期望。例如，一个临时的索引可能只需要以某些定义良好的顺序排列，但排序的准确细节并不重要或者对用户不可见。然而，即使在这种情况下，也需要注意一些问题。
首先，三种Unicode编码格式的二进制排序存在一些细微的差别。只需要对Unicode串进行二进制比较的实现必须考虑这一点，不至于在使用不同编码格式的应用程序间引起互操作问题。
一些排序或者查找应用，即使不关心排序中与语言相关的差别，也要求与大小写无关。传统上，执行与大小写无关比较的实现是通过在二进制比较前将两个串都转换为大写的形式来完成的。然而，这种方法一般不能扩展到Unicode标准中的所有字符。
查找
查找也受比较操作中一些同样的问题影响。也增加了其他一些特征，如只匹配词（即在匹配的两边都是词的边界）。一种技术是针对一个弱匹配进行快速查找。当发现一个候选匹配时，根据其他标准（如匹配变音符，词匹配，大小写匹配等等）。
当查找串时，必须检查目标串中尾随的非间距标记，可能影响最后一个匹配字符的解释。也就是，查找"San Jose"可能会在串"Visiting San José, Costa Rica is a ..."发现一个匹配。如果要求准确的匹配，则应该否决该匹配。如果只要求弱匹配，则可以接受该匹配，但是在返回目标字串的位置和长度时必须包括尾随的非间距标记。
弱等价的一个重要应用是与大小写无关的检索。一些传统的实现将查找串和目标串都映射为大写。然而，大小写映射是依赖语言的，并且不是没有歧义。
因为从外部字符集的错误映射，产生一个相关问题。为了解决这个问题，可以将用户易搞混的字符归为一个弱匹配类。这种方法在查找命名的文件或其他对象时可以更好的满足用户的语气。
次线性查找(Sublinear Searching)
使用比较信息，通过硬算(brute force)，国际化的查找是可能的。然而，这种策略在最坏情况下需要O(m*n)算法，在一般情况下需要O(m)算法，n是所寻找的模式中字符的数目，m是目标串中的字符数。
一些算法可以使用次线性的算法对简单文本进行快速查找。通过在目标串中跳过字符，这些算法在通常情况下的复杂度只有O(m/n)。
在次线性查找中采用与语言有关的比较算法的主要问题，与多映射和可忽略有关。另外，次线性算法预先计算信息表。
4.17 二进制顺序
如果比较文本对最终用户是可见的，就应该使用正确的语言排序。然而，在有一些情况下，只需要一个快速的有良好定义的排序。在这种情况下，可以使用一个二进制排序。
Unicode 中的所有编码格式并没有相同的二进制顺序。UTF-8和UTF-32的数据以码点顺序排序，而UTF-16的数据（码点高于U+FFFF）则不是。而且，当UTF-16或UTF-32数据使用某个Unicode模式序列化，并以字节比较时，得到的字节序列可能具有也可能没有相同的二进制排序，因为交换字节顺序将影响数据的大体排序。由于这些因素，UTF-16BE、UTF-16LE、UTF-32LE编码方案下的文本不是以码点顺序排序。
一般，Unicode文本的却省二进制排列顺序应该是码点顺序。然而，可能需要与特定编码格式中的编码单元顺序（或是特定编码方案的字节排序）匹配，以便完成不同应用中使用的排序。
4.18 Case Mapping
Case 是特定字母表中字符的一个标准属性，比如Latin、Greek、Cyrillic、Armenian，和古代格鲁吉亚文，字符被认为是单个字母的变体。这些变体在形状和大小上可能区别很大，称为大写字母和小写字母。一般大写字母比小写字母大。具有大小写差异的字母表称为bicameral；没有的则称为 unicameral。
为了兼容性还包含了某些组合字符，如U+01F1 "DZ" LATIN LETTER DZ，就有了第三种状态，称作titlecase，用于当词的第一个字符被大写时。这种字符的一个例子是U+01F2 "Dz" LATIN CAPITAL LETTER D WITH SMALL LETTER Z。
因此，三种状态形式为UPPERCASE、Titlecase和lowercase。
术语"titlecase"可用于指词语，它的第一个字母是一个大写字母或者是titlecase字母，其余字母为小写。然而，并不是所有在文档标题中的词或者句子中的第一个词都是titlecase。
决定哪一个词是titlecase依赖于语言。例如"Taming of the Shrew"在英语中是适当的大写，但"Taming Of The Shrew"不是。而且，决定什么真正组成一个词是与语言相关的。例如，l'arbre在法语种可能被认为是两个词，但can't在英语种被认为是一个词。
Case Mapping的困难
一旦字符集超出了ASCII的范围，case mapping就会有一些困难。
在多数情况下，titlecase与uppercase相同，但并不总是这样。例如，U+01F1 "DZ" capital dz的titlecase是U+01F2 "Dz" capital d with small z。
case mapping可能生成与源串的长度不同的串。例如，德文字符U+00DF LATIN SMALL LETTER SHARP S在转换成大写时扩张成两个字符的序列"SS"。这种情况也出现在没有预组合字符的情况下。
由一些字符需要特殊的处理，如U+0345 combining iota subscript。
依赖上下文环境，字符也可能有不同的case mapping。例如，U+03A3 GREEK CAPITAL LETTER SIGMA，当后面跟随其他字母的时，对应的小写字符为U+03C3 GREEK SMALL LETTER SIGMA；没有跟其他字母时，对应小写字符为U+03C2 GREEK SMALL LETTER FINAL SIGMAL。
字符的case mapping可能依赖于地区。
由于一些字母实际上不分大小写，没有匹配的大写形式，因此，将一个串转换为大写的过程并不意味着不包括任何小写字母。
可逆性(Reversibility)
必须注意到，没有case转换操作时可逆的。例如：
toUpperCase(toLowerCase("John Brown")) -> "JOHN BROWN"
toLowerCase(toUpperCase("John Brown")) -> "john brown"
甚至还有一些单个词，像意大利语中的vederLa或英语中的名字McGowan，既不是大写，也不是小写或titlecase。这种形式有时称作 inner-caps，通常用于程序设计和Web名称。一旦串"McGowan"被转换成大写、小写或titlecase，就不可能通过另一个大写、小写或titlecase操作恢复原样。也存在单个的字符没有可逆的映射，如希腊文中的sigma。
对于使用单个命令键组成的序列在不同case间转换所选择内容的字处理软件，建议保存初始串，并且可以通过键序列返回初始串。用户界面要生成以下对一系列命令键响应的结果。注意，初始串每隔四次就会被存储。
1. The quick brown
2. THE QUICK BROWN
3. the quick brown
4. The Quick Brown
5. The quick brown
在字处理软件中，大写、小写和titlecase可以使用字符类型来表示。去除字符类型，就将文本恢复为初始状态。然而，如果采用这种方法，任何拼写检查软件必须注意case类型，以便可以对真正的外观进行检查。
不分大小写的匹配(Caseless Matching)
不分大小写的匹配是使用case folding实现的，该过程将串映射为一种消除了大小写差异的规范形式。Case folding顾及到查找中的不分大小写的快速匹配，因为只需要二进制比较。它不仅仅是只转换为小写形式。
通常，初始的串不会被转换的串替代，因为这样的替代可能会抹掉重要的信息。例如，名字"Marco di Silva"转换为"marco di silva"，失去了关于哪个字母是大写的信息。
在Unicode Character Database(UCD)中的文件CaseFolding.txt用于执行与地区无关的case folding。该文件是通过单字符映射和多字符映射，从UCD中的case mapping生成的。它将所有具有不同case形式的字符转换成一个普通形式。对两个串进行不分大小写的比较时，可以利用这些数据对串进行转换，在使用二进制比较。

你可能感兴趣的:(数据结构,算法,正则表达式,单元测试,D语言)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数