hekaihaw

关于unicode和UTF-8

目录(?) [+]

Unicode 的编码和实现
1. 编码方式
2. 实现方式

unicode：

简介　　

Unicode 是基于通用字符集（Universal Character Set）的标准来发展，并且同时也以书本的形式（The Unicode Standard，目前第五版由Addison-Wesley Professional出版，ISBN-10: 0321480910）对外发表。

　　2006年7月的最新版本的 Unicode 是5.0版本。 2005年3月31日推出的Unicode 4.1.0 。另外，5.0 Beta于2005年12月12日推出，5.2版本（unicode standard）于2009年10月1日正式推出，以供各会员评价。

　　目前Unicode标准，6.1版已发布（2012年1月31日）。在unicode联盟网站上可以查看完整的6.1的核心规范。

　　Unicode定义了大到足以代表人类所有可读字符的字符集。

　　Java语言就用到了Unicode编码，从而实现了该语言的国际通用性。

Unicode 的编码和实现

　大概来说，Unicode 编码系统可分为编码方式和实现方式两个层次。

编码方式

　Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

　　通用字符集（Universal Character Set，UCS）是由ISO制定的ISO 10646（或称ISO/IEC 10646）标准所定义的标准字符集。UCS-2用两个字节编码，UCS-4用4个字节编码。

　　历史上存在两个独立的尝试创立单一字符集的组织，即国际标准化组织（ISO）和多语言软件制造商组成的统一码联盟。前者开发的 ISO/IEC 10646 项目，后者开发的统一码项目。因此最初制定了不同的标准。

　　1991年前后，两个项目的参与者都认识到，世界不需要两个不兼容的字符集。于是，它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode 2.0开始，Unicode采用了与ISO 10646-1相同的字库和字码；ISO也承诺，ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值，以使得两者保持一致。两个项目仍都存在，并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容，并紧密地共同调整任何未来的扩展。在发布的时候，Unicode一般都会采用有关字码最常见的字型，但ISO 10646一般都尽可能采用Century字型。

　　UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。group 0的平面0被称作BMP（Basic Multilingual Plane）。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。每个平面有2^16=65536个码位。Unicode计划使用了17个平面，一共有17*65536=1114112个码位。在Unicode 5.0.0版本中，已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区（Private Use Area），分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。所谓专用区，就是保留给大家放自定义字符的区域，可以简写为PUA。

　　平面0也有一个专用区：0xE000-0xF8FF，有6400个码位。平面0的0xD800-0xDFFF，共2048个码位，是一个被称作代理区（Surrogate）的特殊区域。代理区的目的用两个UTF-16字符表示BMP以外的字符。在介绍UTF-16编码时会介绍。

　　如前所述在Unicode 5.0.0版本中，238605-65534*2-6400-2048=99089。余下的99089个已定义码位分布在平面0、平面1、平面2和平面14上，它们对应着Unicode目前定义的99089个字符，其中包括71226个汉字。平面0、平面1、平面2和平面14上分别定义了52080、3419、43253和337个字符。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。

实现方式

　在Unicode中：汉字“字”对应的数字是23383。在Unicode中，我们有很多方式将数字23383表示成程序中的数据，包括：UTF-8、UTF-16、UTF-32。UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。例如，“汉字”对应的数字是0x6c49和0x5b57，而编码的程序数据是：

　　BYTE data_utf8[] = {0xE6, 0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8编码

　　WORD data_utf16[] = {0x6c49, 0x5b57}; // UTF-16编码

　　DWORD data_utf32[] = {0x6c49, 0x5b57}; // UTF-32编码

　　这里用BYTE、WORD、DWORD分别表示无符号8位整数，无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个WORD，大小是4个字节。“汉字”的UTF-32编码需要两个DWORD，大小是8个字节。根据字节序的不同，UTF-16可以被实现为UTF-16LE或UTF-16BE，UTF-32可以被实现为UTF-32LE或UTF-32BE。下面介绍UTF-8、UTF-16、UTF-32、字节序和BOM。

　　UTF-8

　　UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：　

Unicode编码(16进制)	UTF-8 字节流(二进制)
000000 - 00007F	0xxxxxxx
000080 - 0007FF	110xxxxx 10xxxxxx
000800 - 00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

　UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出，4字节模板有21个x，即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。

　　例1：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

　　例2：Unicode编码0x20C30在0x010000-0x10FFFF之间，使用用4字节模板了：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字（不足21位就在前面补0）：0 0010 0000 1100 0011 0000，用这个比特流依次代替模板中的x，得到：11110000 10100000 10110000 10110000，即F0 A0 B0 B0。

　　UTF-16

　　UTF-16编码以16位无符号整数为单位。我们把Unicode编码记作U。编码规则如下：

　　如果U<0x10000，U的UTF-16编码就是U对应的16位无符号整数（为书写简便，下文将16位无符号整数记作WORD）。

　　如果U≥0x10000，我们先计算U'=U-0x10000，然后将U'写成二进制形式：yyyy yyyy yyxx xxxx xxxx，U的UTF-16编码（二进制）就是：110110yyyyyyyyyy 110111xxxxxxxxxx。

　　为什么U'可以被写成20个二进制位？Unicode的最大码位是0x10ffff，减去0x10000后，U'的最大值是0xfffff，所以肯定可以用20个二进制位表示。例如：Unicode编码0x20C30，减去0x10000后，得到0x10C30，写成二进制是：0001 0000 1100 0011 0000。用前10位依次替代模板中的y，用后10位依次替代模板中的x，就得到：1101100001000011 1101110000110000，即0xD843 0xDC30。

　　按照上述规则，Unicode编码0x10000-0x10FFFF的UTF-16编码有两个WORD，第一个WORD的高6位是110110，第二个WORD的高6位是110111。可见，第一个WORD的取值范围（二进制）是11011000 00000000到11011011 11111111，即0xD800-0xDBFF。第二个WORD的取值范围（二进制）是11011100 00000000到11011111 11111111，即0xDC00-0xDFFF。

　　为了将一个WORD的UTF-16编码与两个WORD的UTF-16编码区分开来，Unicode编码的设计者将0xD800-0xDFFF保留下来，并称为代理区（Surrogate）：　

D800－DB7F	High Surrogates	高位替代
DB80－DBFF	High Private Use Surrogates	高位专用替代
DC00－DFFF	Low Surrogates	低位替代

　高位替代就是指这个范围的码位是两个WORD的UTF-16编码的第一个WORD。低位替代就是指这个范围的码位是两个WORD的UTF-16编码的第二个WORD。那么，高位专用替代是什么意思？我们来解答这个问题，顺便看看怎么由UTF-16编码推导Unicode编码。

　　如果一个字符的UTF-16编码的第一个WORD在0xDB80到0xDBFF之间，那么它的Unicode编码在什么范围内？我们知道第二个WORD的取值范围是0xDC00-0xDFFF，所以这个字符的UTF-16编码范围应该是0xDB80 0xDC00到0xDBFF 0xDFFF。我们将这个范围写成二进制：

　　1101101110000000 11011100 00000000 - 1101101111111111 1101111111111111

　　按照编码的相反步骤，取出高低WORD的后10位，并拼在一起，得到

　　1110 0000 0000 0000 0000 - 1111 1111 1111 1111 1111即0xe0000-0xfffff，按照编码的相反步骤再加上0x10000，得到0xf0000-0x10ffff。这就是UTF-16编码的第一个WORD在0xdb80到0xdbff之间的Unicode编码范围，即平面15和平面16。因为Unicode标准将平面15和平面16都作为专用区，所以0xDB80到0xDBFF之间的保留码位被称作高位专用替代。

　　UTF-32

　　UTF-32编码以32位无符号整数为单位。Unicode的UTF-32编码就是其对应的32位无符号整数。

　　字节序

　　根据字节序的不同，UTF-16可以被实现为UTF-16LE或UTF-16BE，UTF-32可以被实现为UTF-32LE或UTF-32BE。例如：

Unicode编码	UTF-16LE	UTF-16BE	UTF32-LE	UTF32-BE
0x006C49	49 6C	6C 49	49 6C 00 00	00 00 6C 49
0x020C30	43 D8 30 DC	D8 43 DC 30	30 0C 02 00	00 02 0C 30

　那么，怎么判断字节流的字节序呢？Unicode标准建议用BOM（Byte Order Mark）来区分字节序，即在传输字节流前，先传输被作为BOM的字符"零宽无中断空格"。这个字符的编码是FEFF，而反过来的FFFE（UTF-16）和FFFE0000（UTF-32）在Unicode中都是未定义的码位，不应该出现在实际传输中。下表是各种UTF编码的BOM：

UTF编码	Byte Order Mark
UTF-8	EF BB BF
UTF-16LE	FF FE
UTF-16BE	FE FF
UTF-32LE	FF FE 00 00
UTF-32BE	00 00 FE FF

UCS-2 编码范围

Unicode 到目前为止所定义的五个平面中,第0平面(BMP)最为重要. 其编码分布如下.

注：中文范围 4E00-9FBF：CJK 统一表意符号 (CJK Unified Ideographs)

0000-007F：C0控制符及基本拉丁文 (C0 Control and Basic Latin)

0080-00FF：C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)

0100-017F：拉丁文扩展-A (Latin Extended-A)

0180-024F：拉丁文扩展-B (Latin Extended-B)

0250-02AF：国际音标扩展 (IPA Extensions)

02B0-02FF：空白修饰字母 (Spacing Modifiers)

0300-036F：结合用读音符号 (Combining Diacritics Marks)

0370-03FF：希腊文及科普特文 (Greek and Coptic)

Microsoft Word

0400-04FF：西里尔字母 (Cyrillic)

0500-052F：西里尔字母补充 (Cyrillic Supplement)

0530-058F：亚美尼亚语 (Armenian)

0590-05FF：希伯来文 (Hebrew)

0600-06FF：阿拉伯文 (Arabic)

0700-074F：叙利亚文 (Syriac)

0750-077F：阿拉伯文补充 (Arabic Supplement)

0780-07BF：马尔代夫语 (Thaana)

07C0-077F：西非书面语言 (N'Ko)

0800-085F：阿维斯塔语及巴列维语 (Avestan and Pahlavi)

0860-087F：Mandaic

0880-08AF：撒马利亚语 (Samaritan)

0900-097F：天城文书 (Devanagari)

0980-09FF：孟加拉语 (Bengali)

0A00-0A7F：锡克教文 (Gurmukhi)

0A80-0AFF：古吉拉特文 (Gujarati)

0B00-0B7F：奥里亚文 (Oriya)

0B80-0BFF：泰米尔文 (Tamil)

0C00-0C7F：泰卢固文 (Telugu)

0C80-0CFF：卡纳达文 (Kannada)

0D00-0D7F：德拉维族语 (Malayalam)

0D80-0DFF：僧伽罗语 (Sinhala)

0E00-0E7F：泰文 (Thai)

0E80-0EFF：老挝文 (Lao)

0F00-0FFF：藏文 (Tibetan)

1000-109F：缅甸语 (Myanmar)

10A0-10FF：格鲁吉亚语 (Georgian)

1100-11FF：朝鲜文 (Hangul Jamo)

1200-137F：埃塞俄比亚语 (Ethiopic)

1380-139F：埃塞俄比亚语补充 (Ethiopic Supplement)

13A0-13FF：切罗基语 (Cherokee)

1400-167F：统一加拿大土著语音节 (Unified Canadian Aboriginal Syllabics)

1680-169F：欧甘字母 (Ogham)

16A0-16FF：如尼文 (Runic)

1700-171F：塔加拉语 (Tagalog)

1720-173F：Hanunóo

1740-175F：Buhid

1760-177F：Tagbanwa

1780-17FF：高棉语 (Khmer)

1800-18AF：蒙古文 (Mongolian)

18B0-18FF：Cham

1900-194F：Limbu

1950-197F：德宏泰语 (Tai Le)

1980-19DF：新傣仂语 (New Tai Lue)

19E0-19FF：高棉语记号 (Kmer Symbols)

1A00-1A1F：Buginese

1A20-1A5F：Batak

1A80-1AEF：Lanna

1B00-1B7F：巴厘语 (Balinese)

1B80-1BB0：巽他语 (Sundanese)

1BC0-1BFF：Pahawh Hmong

1C00-1C4F：雷布查语(Lepcha)

1C50-1C7F：Ol Chiki

1C80-1CDF：曼尼普尔语 (Meithei/Manipuri)

1D00-1D7F：语音学扩展 (Phonetic Extensions)

1D80-1DBF：语音学扩展补充 (Phonetic Extensions Supplem

unicode

ent)

1DC0-1DFF：结合用读音符号补充 (Combining Diacritics Marks Supplement)

1E00-1EFF：拉丁文扩充附加 (Latin Extended Additional)

1F00-1FFF：希腊语扩充 (Greek Extended)

2000-206F：常用标点 (General Punctuation)

2070-209F：上标及下标 (Superscripts and Subscripts)

20A0-20CF：货币符号 (Currency Symbols)

20D0-20FF：组合用记号 (Combining Diacritics Marks for Symbols)

2100-214F：字母式符号 (Letterlike Symbols)

2150-218F：数字形式 (Number Form)

2190-21FF：箭头 (Arrows)

2200-22FF：数学运算符 (Mathematical Operator)

2300-23FF：杂项工业符号 (Miscellaneous Technical)

2400-243F：控制图片 (Control Pictures)

2440-245F：光学识别符 (Optical Character Recognition)

2460-24FF：封闭式字母数字 (Enclosed Alphanumerics)

2500-257F：制表符 (Box Drawing)

2580-259F：方块元素 (Block Element)

25A0-25FF：几何图形 (Geometric Shapes)

2600-26FF：杂项符号 (Miscellaneous Symbols)

2700-27BF：印刷符号 (Dingbats)

27C0-27EF：杂项数学符号-A (Miscellaneous Mathematical Symbols-A)

27F0-27FF：追加箭头-A (Supplemental Arrows-A)

2800-28FF：盲文点字模型 (Braille Patterns)

2900-297F：追加箭头-B (Supplemental Arrows-B)

2980-29FF：杂项数学符号-B (Miscellaneous Mathematical Symbols-B)

2A00-2AFF：追加数学运算符 (Supplemental Mathematical Operator)

2B00-2BFF：杂项符号和箭头 (Miscellaneous Symbols and Arrows)

2C00-2C5F：格拉哥里字母 (Glagolitic)

2C60-2C7F：拉丁文扩展-C (Latin Extended-C)

2C80-2CFF：古埃及语 (Coptic)

2D00-2D2F：格鲁吉亚语补充 (Georgian Supplement)

2D30-2D7F：提非纳文 (Tifinagh)

2D80-2DDF：埃塞俄比亚语扩展 (Ethiopic Extended)

2E00-2E7F：追加标点 (Supplemental Punctuation)

2E80-2EFF：CJK 部首补充 (CJK Radicals Supplement)

2F00-2FDF：康熙字典部首 (Kangxi Radicals)

2FF0-2FFF：表意文字描述符 (Ideographic Description Characters)

3000-303F：CJK 符号和标点 (CJK Symbols and Punctuation)

3040-309F：日文平假名 (Hiragana)

30A0-30FF：日文片假名 (Katakana)

3100-312F：注音字母 (Bopomofo)

3130-318F：朝鲜文兼容字母 (Hangul Compatibility Jamo)

3190-319F：象形字注释标志 (Kanbun)

31A0-31BF：注音字母扩展 (Bopomofo Extended)

31C0-31EF：CJK 笔画 (CJK Strokes)

31F0-31FF：日文片假名语音扩展 (Katakana Phonetic Extensions)

3200-32FF：封闭式 CJK 文字和月份 (Enclosed CJK Letters and Months)

3300-33FF：CJK 兼容 (CJK Compatibility)

3400-4DBF：CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A)

4DC0-4DFF：易经六十四卦符号 (Yijing Hexagrams Symbols)

4E00-9FBF：CJK 统一表意符号 (CJK Unified Ideographs)

A000-A48F：彝文音节 (Yi Syllables)

A490-A4CF：彝文字根 (Yi Radicals)

A500-A61F：Vai

A660-A6FF：统一加拿大土著语音节补充 (Unified Canadian Aboriginal Syllabics Supplement)

A700-A71F：声调修饰字母 (Modifier Tone Letters)

A720-A7FF：拉丁文扩展-D (Latin Extended-D)

A800-A82F：Syloti Nagri

A840-A87F：八思巴字 (Phags-pa)

A880-A8DF：Saurashtra

A900-A97F：爪哇语 (Javanese)

A980-A9DF：Chakma

AA00-AA3F：Varang Kshiti

AA40-AA6F：Sorang Sompeng

AA80-AADF：Newari

AB00-AB5F：越南傣语 (Vi?t Thái)

AB80-ABA0：Kayah Li

AC00-D7AF：朝鲜文音节 (Hangul Syllables)

D800-DBFF：High-half zone of UTF-16

DC00-DFFF：Low-half zone of UTF-16

E000-F8FF：自行使用区域 (Private Use Zone)

F900-FAFF：CJK 兼容象形文字 (CJK Compatibility Ideographs)

FB00-FB4F：字母表达形式 (Alphabetic Presentation Form)

FB50-FDFF：阿拉伯表达形式A ( Arabic Presentation Form-A)

FE00-FE0F：变量选择符 (Variation Selector)

FE10-FE1F：竖排形式 (Vertical Forms)

FE20-FE2F：组合用半符号 (Combining Half Marks)

FE30-FE4F：CJK 兼容形式 (CJK Compatibility Forms)

FE50-FE6F：小型变体形式 (Small Form Variants)

FE70-FEFF：阿拉伯表达形式B ( Arabic Presentation Form-B)

FF00-FFEF：半型及全型形式 (Halfwidth and Fullwidth Form)

FFF0-FFFF：特殊 (Specials)

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
《算法》四学习——1.1节进阶的Farmer 算法算法笔记
前言买了一本算法4，每天看一点，对每个小结来个学习总结，输出驱动输入。本篇笔记针对第一章基础1.1基础编程模型1.1节总结了相关的语法、语言特性和书中将会用到的库。笔记自己在编码中容易遗漏的点&&优先级比||高在开发中习惯了加括号，所以没注意到这点，教材上也有但是忘记了二分查找中计算mid=left+(right-left)/2这样计算可以有效避免(left+right)/2溢出答疑java无穷大
嵌入式单片机中数码管基本实现方法嵌入式开发星球单片机项目实战操作之优秀单片机
1.点亮数码管本节课利用已经学习的LED知识去控制一个8位数码管。本节的原理比较简单。不需要多少时间讲。更多时间是跟大家一起编码调试，从中学习一些编码思路和学习方法。1.1.什么是数码管数码管是什么？下图就是一个数码管从硬件上个看，其实就是8个LED组合在一起。8个LED应该有16个引脚，但是数码管上只有10个引脚。为什么呢？请看下图：1个LED有两个引脚，要控制LED，1个引脚接控制信号，另外一
后端开发刷题 | 把数字翻译成字符串（动态规划） jingling555 笔试题目动态规划 java 算法数据结构后端
描述有一种将字母编码成数字的方式：'a'->1,'b->2',...,'z->26'。现在给一串数字，返回有多少种可能的译码结果数据范围：字符串长度满足0=10&&num<=26){if(i==1){dp[i]+=1;}else{dp[i]+=dp[i-2];}}}returndp[nums.length()-1];}}
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
2. 变量和指令（omron 机器自动化控制器）——2 一半不眠次日si记 OMRON NJ/NX系列PLC 指令基准手册自动化运维
机器自动化控制器——第二章变量和指令22-2指令一览通用指令轴指令轴组指令2-3PDO映射必需对象▶伺服轴▶编码器轴不同指令的设定对象▶伺服轴▶编码器轴2-2指令一览运动控制指令分为以下3种。种类概要通用指令MC功能模块通用指令轴指令MC功能模块执行单轴控制的指令轴组指令MC功能模块执行多轴协调控制的指令通用指令的详情参阅“第5章通用指令”，轴指令的详情参阅“第3章轴指令”，轴组的详情参阅“第4章
算法笔试-编程练习-好题-05 Glen 997 大厂校招-编程集训算法动态规划双指针
【题目类型：动规+双指针】题目内容有N个基站采用链式组网，按照从左到右编码为1到N编号。已知定义“业务”概念为三元组(基站起始编号，基站结束编号，利润)，意味着需要占据基站起始编号到基站结束编号的所有基站，打通信号流，可以获得对应利润。现在外部存在多个“业务"需求待接纳，但基站使用具有排他性，也就是说一旦某一个业务占据某个基站，其他业务不可以再使用此基站。那么接纳哪些业务需求，可以使得利润最大化?
python使用MD5 18.程序员哈希算法算法
一、要使用Python进行MD5加密，可以使用Python标准库中的hashlib模块。二、案例importhashlibstring="Hello,World!"#要进行加密的字符串hash_object=hashlib.md5(string.encode())#将字符串编码并进行MD5加密hash_hex=hash_object.hexdigest()#获取加密后的十六进制字符串print(h
Java字符串为何是不可变的？木南曌 Java java
Java中字符串是一个非常常用的数据类型，它不仅在日常编码中频繁使用，也是面试中常见的考点之一。一个经常被讨论的话题是Java中的字符串为何是不可变的。本文将探讨这个问题，并解释其背后的原因。引言在Java中，字符串是通过String类来表示的，这个类有一个很重要的特性，那就是不可变性（Immutability）。这意味着一旦一个字符串对象被创建，它的值就不能被更改。例如，当你试图修改一个字符串时
CTF-bugku-crypto-[7+1+0]-base64解码之后做偏移沧海一粟日尽其用算法安全 python
CTF-bugku-crypto-[7+1+0]-base64解码之后做偏移1.题目2.解题思路2.1base64编码原理2.2解题思路2.2.1base64解码找规律2.2.2破解思路3.解题脚本4.flag5.附EASCII码表1.题目提示信息：7+1+0？格式bugku{xxxxx}密文：4nXna/V7t2LpdLI44mn0fQ==要求：破解密文获得flag2.解题思路2.1base64
CTF常见编码及加解密（超全）第二篇不会代码的小徐编码密码网络安全密码学预编码
HTML实体编码简述：字符实体是用一个编号写入HTML代码中来代替一个字符，在使用浏览器访问网页时会将这个编号解析还原为字符以供阅读。举例：highlighter-HTML明文：hello，world.十进制：hello，world.十六进制：hel
1-1.Jetpack 之 Navigation 简单编码模板我命由我12345 Android -Jetpack 简化编程 java java-ee android-studio android studio 安卓 android jetpack
一、Navigation1、Navigation概述Navigation是Jetpack中的一个重要成员，它主要是结合导航图（NavigationGraph）来控制和简化Fragment之间的导航，即往哪里走，该怎么走2、Navigate引入在模块级build.gradle中引入相关依赖implementation'androidx.navigation:navigation-fragment:2
HTTP 请求处理的完整流程到Servlet流程图烟雨国度 http servlet 流程图
HTTP请求处理的完整流程。从TCP三次握手开始，一直到Servlet处理请求并返回响应。首先，让我解释一下response.setContentType("text/html;charset=UTF-8");这行代码：这行代码设置了HTTP响应的Content-Type头。它告诉浏览器：响应的内容类型是HTML(text/html)字符编码是UTF-8(charset=UTF-8)这样浏览器就知
全能第三方支付对接pay-java-parent 2.12.7 发布,支付聚合 egzosn 支付第三方支付支付聚合支付对接支付pay 微信
全能第三方支付对接Java开发工具包.优雅的轻量级支付模块集成支付对接支付整合（微信,支付宝,银联,友店,富友,跨境支付paypal,payoneer(P卡派安盈)易极付）app,扫码,网页支付刷卡付条码付刷脸付转账服务商模式、支持多种支付类型多支付账户，支付与业务完全剥离，简单几行代码即可实现支付，简单快速完成支付模块的开发，可轻松嵌入到任何系统里目前仅是一个开发工具包（即SDK），只提供简单W
HTML添加文字若无心_. HTML html5
一、创建HTML5文档基本标签//定义文档类型//定义HTML文档//定义关于文档的信息文档标题//定义文档的标题//定义文档的字符编码//定义文档的主体二、文字相关标签1.标题文字-标签可定义标题。定义最大的标题。定义最小的标题。Document这是标题1这是标题2这是标题3这是标题4这是标题5这是标题62.文本段落Document这次会晤的主题是“金砖国家在非洲：在第四次工业革命中共谋包容增长
PIPE接口奥特曼升级打怪兽网络 macos
nameDeswidthpipe的数据位宽2’b00：8bits（10bits）2’b01：16bits(20bits)2’b11:32bits(40bits)2’b11:保留(80bits)8/10b编码（128/130b编码）data并行数据（加扰）datak指示data为控制字符（gen1/gen2）valid有效接收/输出，表明data、datak上的Symbollock和有效数据data
【python】爬取网站数据进击的C语言网络
编码问题因为涉及到中文，所以必然地涉及到了编码的问题，这一次借这个机会算是彻底搞清楚了。问题要从文字的编码讲起。原本的英文编码只有0~255，刚好是8位1个字节。为了表示各种不同的语言，自然要进行扩充。中文的话有GB系列。可能还听说过Unicode和UTF-8，那么，它们之间是什么关系呢？Unicode是一种编码方案，又称万国码，可见其包含之广。但是具体存储到计算机上，并不用这种编码，可以说它起着
数据压缩（1）——简介永恒星计算机基础数据压缩信息熵
【前言】数据压缩存在于计算机、网络的各个地方，是很底层的技术支持，例如歌曲、图像、视频、网页、文本等的保存和传输都是用过数据压缩算法的。总的来说，我们常使用数据压缩来增多硬盘存储的内容、减少网络传输的流量。数据压缩研究的是，在可接受的信息恢复程度下，可以将信息变得有多紧凑。通常有两个思路：减少数据中不同符号的数据量；用更少的位数对更常见的符号进行编码。数据压缩的算法多种多样，没有万能的算法，通用算
工程项目管理系统源码与Spring Cloud：实现高效系统管理与二次开发微服务技术分享 spring cloud java 工程项目管理系统源码
随着企业规模的不断扩大和业务的快速发展，传统的工程项目管理方式已经无法满足现代企业的需求。为了提高工程管理效率、减轻劳动强度、提高信息处理速度和准确性，企业需要借助先进的数字化技术进行转型。本文将介绍一款采用SpringCloud+SpringBoot+Mybatis技术框架的工程项目管理系统，该系统涵盖了项目管理、合同管理、预警管理、竣工管理、质量管理等多个方面，通过数据字典、编码管理、用户管理
Python世界：简易地址簿增删查改算法实践来知晓 Python世界 python 机器学习开发语言
Python世界：简易地址簿增删查改算法实践任务背景编码思路代码实现本文小结任务背景该任务来自简明Python教程中迈出下一步一章的问题：编写一款你自己的命令行地址簿程序，你可以用它浏览、添加、编辑、删除或搜索你的联系人，例如你的朋友、家人、同事，还有他们诸如邮件地址、电话号码等多种信息。这些详细信息必须被妥善储存以备稍后的检索。编码思路从问题中可以提炼以下信息：1、地址簿需要支持本地存储读写；2
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
详解贪心算法凭君语未可算法软考算法贪心算法
贪心算法什么是贪心算法？贪心算法的特点贪心算法的应用场景贪心算法的基本思路贪心算法的经典应用1.活动选择问题2.最小硬币找零问题3.霍夫曼编码问题贪心算法的正确性贪心算法的优缺点总结什么是贪心算法？贪心算法（GreedyAlgorithm）是一种基于每一步都选择当前最优解的算法设计思想。它在每个阶段总是做出在当前看来最优的选择（局部最优解），而不回溯或考虑整个问题的全局最优性。它期望通过这样逐步构
leetcode--91--解码方法 minningl
题目：一条包含字母A-Z的消息通过以下方式进行了编码：'A'->1'B'->2...'Z'->26给定一个只包含数字的非空字符串，请计算解码方法的总数。示例1:输入:"12"输出:2解释:它可以解码为"AB"（12）或者"L"（12）。示例2:输入:"226"输出:3解释:它可以解码为"BZ"(226),"VF"(226),或者"BBF"(226)。链接：https://leetcode-cn.c
Java-后端程序员个人知识总结金肴羽 java 开发语言
文章目录概要1.编程语言2.数据结构与算法3.数据库知识4.框架和库5.服务器管理6.网络知识7.版本控制8.测试9.安全知识10.系统设计11.编码规范与最佳实践12.持续学习和适应能力概要后端程序员，主要负责应用程序的逻辑、数据库交互、服务器配置以及应用的性能优化等。成为一名优秀的后台程序员，需要掌握以下技能：1.编程语言掌握至少一种后台编程语言JavaPythonHtmlJavaScript
#LLM入门|Prompt#2.3_对查询任务进行分类|意图分析_Classification 向日葵花籽儿 LLM入门教程笔记 prompt 分类数据库
在本章中，我们将重点探讨评估输入任务的重要性，这关乎到整个系统的质量和安全性。在处理不同情况下的多个独立指令集的任务时，首先对查询类型进行分类，并以此为基础确定要使用哪些指令，具有诸多优势。这可以通过定义固定类别和硬编码与处理特定类别任务相关的指令来实现。例如，在构建客户服务助手时，对查询类型进行分类并根据分类确定要使用的指令可能非常关键。具体来说，如果用户要求关闭其账户，那么二级指令可能是添加有
C语言《智能自平衡小车，实现平衡功能的基础上，加入了超声波避障、超声波跟随、蓝牙遥控等功能》+源代码+文档说明 jzpfbpx c语言开发语言
文章目录源代码下载地址项目介绍项目功能项目备注源代码下载地址源代码下载地址点击这里下载源码项目介绍C语言《智能自平衡小车，实现平衡功能的基础上，加入了超声波避障、超声波跟随、蓝牙遥控等功能》+源代码+文档说明项目功能为了实现小车功能，小车硬件主要包括：控制核心板带编码器的直流电机车架12V1900mah锂电池项目备注1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！
物联网之ESP32配网方式、蓝牙、WiFi 智码帮MJ682517 Web前端嵌入式硬件物联网嵌入式硬件物联网 web前端
MENU前言SmartConfig(智能配网)AP模式(AccessPoint模式)蓝牙配网WebServer模式WPS配网(Wi-FiProtectedSetup)Provisioning(配网服务)静态配置(硬编码)总结前言ESP32配网(Wi-Fi配置)的方式有多种，每种方式都有各自的优缺点。根据具体项目需求，可以选择适合的配网方式。SmartConfig(智能配网)原理ESP32通过监听周
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

关于unicode和UTF-8

Unicode 的编码和实现

编码方式

实现方式

你可能感兴趣的:(编码,java开发工具)