浅谈文字编码和Unicode（中）

3 字符编码模型

程序员经常会面对复杂的问题，而降低复杂性的最简单的方法就是分而治之。Peter Constable在他的文章"Character set encoding basics Understanding character set encodings and legacy encodings"中描述了字符编码的四层模型。我觉得这种说法确实可以更清晰地展现字符编码中发生的事情，所以在这里也介绍一下。

3.1 字符的范围（Abstract character repertoire）

设计字符编码的第一层就是确定字符的范围，即要支持哪些字符。有些编码方案的字符范围是固定的，例如ASCII、ISO 8859 系列。有些编码方案的字符范围是开放的，例如Unicode的字符范围就是世界上所有的字符。

3.2 用数字表示字符（Coded character set）

设计字符编码的第二层是将字符和数字对应起来。可以将这个层次理解成数学家（即从数学角度）看到的字符编码。数学家看到的字符编码是一个正整数。例如在Unicode中：汉字“字”对应的数字是23383。汉字“”对应的数字是134192。

在写html文件时，可以通过输入"字"来插入字符“字”。不过在设计字符编码时，我们还是习惯用16进制表示数字。即将23383写成0x5BD7，将134192写成0x20C30。

3.3 用基本数据类型表示字符（Character encoding form）

设计字符编码的第三层是用编程语言中的基本数据类型来表示字符。可以将这个层次理解成程序员看到的字符编码。在Unicode中，我们有很多方式将数字23383表示成程序中的数据，包括：UTF-8、UTF-16、UTF-32。UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。例如，“汉字”对应的数字是0x6c49和0x5b57，而编码的程序数据是：

BYTE data_utf8[]={0xE6,0xB1,0x89,0xE5,0xAD,0x97}; // UTF-8编码
WORD data_utf16[]={0x6c49,0x5b57}; // UTF-16编码
DWORD data_utf32[]={0x6c49,0x5b57}; // UTF-32编码

这里用BYTE、WORD、DWORD分别表示无符号8位整数，无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。

“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个WORD，大小是4个字节。“汉字”的UTF-32编码需要两个DWORD，大小是8个字节。4.2节会介绍将数字映射到UTF编码的规则。

3.4 作为字节流的字符（Character encoding scheme）

字符编码的第四层是计算机看到的字符，即在文件或内存中的字节流。例如，“字”的UTF-32编码是0x5b57，如果用little endian表示，字节流是“57 5b 00 00”。如果用big endian表示，字节流是“00 00 5b 57”。

字符编码的第三层规定了一个字符由哪些编码单位按什么顺序表示。字符编码的第四层在第三层的基础上又考虑了编码单位内部的字节序。UTF-8的编码单位是字节，不受字节序的影响。UTF-16、UTF-32根据字节序的不同，又衍生出UTF-16LE、UTF-16BE、UTF-32LE、UTF-32BE四种编码方案。LE和BE分别是Little Endian和Big Endian的缩写。

3.5 小结

通过四层模型，我们又把字符编码中发生的这些事情梳理了一遍。其实大多数代码页都不需要完整的四层模型，例如GB18030以字节为编码单位，直接规定了字节序列和字符的映射关系，跳过了第二层，也不需要第四层。

4 再谈Unicode

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

Unicode字符集可以简写为UCS（Unicode Character Set）。早期的Unicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码，UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。group 0的平面0被称作BMP（Basic Multilingual Plane）。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。

Unicode标准计划使用group 0 的17个平面: 从BMP（平面0）到平面16，即数字0-0x10FFFF。《谈谈Unicode编码》主要介绍了BMP的编码，本文将介绍完整的Unicode编码，并从多个角度浏览Unicode。本文的介绍基于Unicode 5.0.0版本。

4.1 浏览Unicode

先看一些数字：每个平面有2^16=65536个码位。Unicode计划使用了17个平面，一共有17*65536=1114112个码位。其实，现在已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区（Private Use Area），分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。所谓专用区，就是保留给大家放自定义字符的区域，可以简写为PUA。

平面0也有一个专用区：0xE000-0xF8FF，有6400个码位。平面0的0xD800-0xDFFF，共2048个码位，是一个被称作代理区（Surrogate）的特殊区域。它的用途将在4.2节介绍。

238605-65534*2-6400-2408=99089。余下的99089个已定义码位分布在平面0、平面1、平面2和平面14上，它们对应着Unicode目前定义的99089个字符，其中包括71226个汉字。平面0、平面1、平面2和平面14上分别定义了52080、3419、43253和337个字符。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。

在更深入地了解Unicode字符前，我们先了解一下UCD。

4.1.1 什么是UCD

UCD是Unicode字符数据库（Unicode Character Database）的缩写。UCD由一些描述Unicode字符属性和内部关系的纯文本或html文件组成。大家可以在Unicode组织的网站看到UCD的最新版本。

UCD中的文本文件大都是适合于程序分析的Unicode相关数据。其中的html文件解释了数据库的组织，数据的格式和含义。UCD中最庞大的文件无疑就是描述汉字属性的文件Unihan.txt。在UCD 5.0,0中，Unihan.txt文件大小有28,221K字节。Unihan.txt中包含了很多有参考价值的索引，例如汉字部首、笔划、拼音、使用频度、四角号码排序等。这些索引都是基于一些比较权威的辞典，但大多数索引只能检索部分汉字。

我介绍UCD的目的主要是为了使用其中的两个概念：Block和Script。

4.1.2 Block

UCD中的Blocks.txt将Unicode的码位分割成一些连续的Block，并描述了每个Block的用途：

开始码位
结束码位
Block名称（英文）
Block名称（中文）

0000
007F
Basic Latin
基本拉丁字母

0080
00FF
Latin-1 Supplement
拉丁字母补充-1

0100
017F
Latin Extended-A
拉丁字母扩充-A

0180
024F
Latin Extended-B
拉丁字母扩充-B

0250
02AF
IPA Extensions
国际音标扩充

02B0
02FF
Spacing Modifier Letters
进格修饰字符

0300
036F
Combining Diacritical Marks
组合附加符号

0370
03FF
Greek and Coptic
希腊文和哥普特文

0400
04FF
Cyrillic
西里尔文

0500
052F
Cyrillic Supplement
西里尔文补充

0530
058F
Armenian
亚美尼亚文

0590
05FF
Hebrew
希伯来文

0600
06FF
Arabic
基本阿拉伯文

0700
074F
Syriac
叙利亚文

0750
077F
Arabic Supplement
阿拉伯文补充

0780
07BF
Thaana
塔纳文

07C0
07FF
NKo
N'Ko字母表

0900
097F
Devanagari
天成文书（梵文）

0980
09FF
Bengali
孟加拉文

0A00
0A7F
Gurmukhi
锡克教文

0A80
0AFF
Gujarati
古吉拉特文

0B00
0B7F
Oriya
奥里亚文

0B80
0BFF
Tamil
泰米尔文

0C00
0C7F
Telugu
泰卢固文

0C80
0CFF
Kannada
卡纳达文

0D00
0D7F
Malayalam
德拉维族文

0D80
0DFF
Sinhala
僧伽罗文

0E00
0E7F
Thai
泰文

0E80
0EFF
Lao
老挝文

0F00
0FFF
Tibetan
藏文

1000
109F
Myanmar
缅甸文

10A0
10FF
Georgian
格鲁吉亚文

1100
11FF
Hangul Jamo
朝鲜文

1200
137F
Ethiopic
埃塞俄比亚文

1380
139F
Ethiopic Supplement
埃塞俄比亚文补充

13A0
13FF
Cherokee
切罗基文

1400
167F
Unified Canadian Aboriginal Syllabics
加拿大印第安方言

1680
169F
Ogham
欧甘文

16A0
16FF
Runic
北欧古字

1700
171F
Tagalog
塔加路文

1720
173F
Hanunoo
哈努诺文

1740
175F
Buhid
布迪文

1760
177F
Tagbanwa
Tagbanwa文

1780
17FF
Khmer
高棉文

1800
18AF
Mongolian
蒙古文

1900
194F
Limbu
林布文

1950
197F
Tai Le
德宏傣文

1980
19DF
New Tai Lue
新傣文

19E0
19FF
Khmer Symbols
高棉文

1A00
1A1F
Buginese
布吉文

1B00
1B7F
Balinese
巴厘文

1D00
1D7F
Phonetic Extensions
拉丁字母音标扩充

1D80
1DBF
Phonetic Extensions Supplement
拉丁字母音标扩充增补

1DC0
1DFF
Combining Diacritical Marks Supplement
组合附加符号补充

1E00
1EFF
Latin Extended Additional
拉丁字母扩充附加

1F00
1FFF
Greek Extended
希腊文扩充

2000
206F
General Punctuation
一般标点符号

2070
209F
Superscripts and Subscripts
上标和下标

20A0
20CF
Currency Symbols
货币符号

20D0
20FF
Combining Diacritical Marks for Symbols
符号用组合附加符号

2100
214F
Letterlike Symbols
似字母符号

2150
218F
Number Forms
数字形式

2190
21FF
Arrows
箭头符号

2200
22FF
Mathematical Operators
数学运算符号

2300
23FF
Miscellaneous Technical
零杂技术用符号

2400
243F
Control Pictures
控制图符

2440
245F
Optical Character Recognition
光学字符识别

2460
24FF
Enclosed Alphanumerics
带括号的字母数字

2500
257F
Box Drawing
制表符

2580
259F
Block Elements
方块元素

25A0
25FF
Geometric Shapes
几何形状

2600
26FF
Miscellaneous Symbols
零杂符号

2700
27BF
Dingbats
杂锦字型

27C0
27EF
Miscellaneous Mathematical Symbols-A
零杂数学符号-A

27F0
27FF
Supplemental Arrows-A
箭头符号补充-A

2800
28FF
Braille Patterns
盲文

2900
297F
Supplemental Arrows-B
箭头符号补充-B

2980
29FF
Miscellaneous Mathematical Symbols-B
零杂数学符号-B

2A00
2AFF
Supplemental Mathematical Operators
数学运算符号

2B00
2BFF
Miscellaneous Symbols and Arrows
零杂符号和箭头

2C00
2C5F
Glagolitic
格拉哥里字母表

2C60
2C7F
Latin Extended-C
拉丁字母扩充-C

2C80
2CFF
Coptic
科普特文

2D00
2D2F
Georgian Supplement
格鲁吉亚文补充

2D30
2D7F
Tifinagh
提非纳字母

2D80
2DDF
Ethiopic Extended
埃塞俄比亚文扩充

2E00
2E7F
Supplemental Punctuation
标点符号补充

2E80
2EFF
CJK Radicals Supplement
中日韩部首补充

2F00
2FDF
Kangxi Radicals
康熙字典部首

2FF0
2FFF
Ideographic Description Characters
汉字结构描述字符

3000
303F
CJK Symbols and Punctuation
中日韩符号和标点

3040
309F
Hiragana
平假名

30A0
30FF
Katakana
片假名

3100
312F
Bopomofo
注音符号

3130
318F
Hangul Compatibility Jamo
朝鲜文兼容字母

3190
319F
Kanbun
日文的汉字批注

31A0
31BF
Bopomofo Extended
注音符号扩充

31C0
31EF
CJK Strokes
中日韩笔划

31F0
31FF
Katakana Phonetic Extensions
片假名音标扩充

3200
32FF
Enclosed CJK Letters and Months
带括号的中日韩字母及月份

3300
33FF
CJK Compatibility
中日韩兼容字符

3400
4DBF
CJK Unified Ideographs Extension A
中日韩统一表意文字扩充A

4DC0
4DFF
Yijing Hexagram Symbols
易经六十四卦象

4E00
9FFF
CJK Unified Ideographs
中日韩统一表意文字

A000
A48F
Yi Syllables
彝文音节

A490
A4CF
Yi Radicals
彝文字根

A700
A71F
Modifier Tone Letters
声调修饰字母

A720
A7FF
Latin Extended-D
拉丁字母扩充-D

A800
A82F
Syloti Nagri
Syloti Nagri字母表

A840
A87F
Phags-pa
Phags-pa字母表

AC00
D7AF
Hangul Syllables
朝鲜文音节

D800
DB7F
High Surrogates
高位替代

DB80
DBFF
High Private Use Surrogates
高位专用替代

DC00
DFFF
Low Surrogates
低位替代

E000
F8FF
Private Use Area
专用区

F900
FAFF
CJK Compatibility Ideographs
中日韩兼容表意文字

FB00
FB4F
Alphabetic Presentation Forms
字母变体显现形式

FB50
FDFF
Arabic Presentation Forms-A
阿拉伯文变体显现形式-A

FE00
FE0F
Variation Selectors
字型变换选取器

FE10
FE1F
Vertical Forms
竖排标点符号

FE20
FE2F
Combining Half Marks
组合半角标示

FE30
FE4F
CJK Compatibility Forms
中日韩兼容形式

FE50
FE6F
Small Form Variants
小型变体形式

FE70
FEFF
Arabic Presentation Forms-B
阿拉伯文变体显现形式-B

FF00
FFEF
Halfwidth and Fullwidth Forms
半角及全角字符

FFF0
FFFF
Specials
特殊区域

10000
1007F
Linear B Syllabary
线形文字B音节文字

10080
100FF
Linear B Ideograms
线形文字B表意文字

10100
1013F
Aegean Numbers
爱琴海数字

10140
1018F
Ancient Greek Numbers
古希腊数字

10300
1032F
Old Italic
古意大利文

10330
1034F
Gothic
哥特文

10380
1039F
Ugaritic
乌加里特楔形文字

103A0
103DF
Old Persian
古波斯文

10400
1044F
Deseret
德塞雷特大学音标

10450
1047F
Shavian
肃伯纳速记符号

10480
104AF
Osmanya
Osmanya字母表

10800
1083F
Cypriot Syllabary
塞浦路斯音节文字

10900
1091F
Phoenician
腓尼基文

10A00
10A5F
Kharoshthi
迦娄士悌文

12000
123FF
Cuneiform
楔形文字

12400
1247F
Cuneiform Numbers and Punctuation
楔形文字数字和标点

1D000
1D0FF
Byzantine Musical Symbols
东正教音乐符号

1D100
1D1FF
Musical Symbols
音乐符号

1D200
1D24F
Ancient Greek Musical Notation
古希腊音乐符号

1D300
1D35F
Tai Xuan Jing Symbols
太玄经符号

1D360
1D37F
Counting Rod Numerals
算筹

1D400
1D7FF
Mathematical Alphanumeric Symbols
数学用字母数字符号

20000
2A6DF
CJK Unified Ideographs Extension B
中日韩统一表意文字扩充 B

2F800
2FA1F
CJK Compatibility Ideographs Supplement
中日韩兼容表意文字补充

E0000
E007F
Tags
标签

E0100
E01EF
Variation Selectors Supplement
字型变换选取器补充

F0000
FFFFF
Supplementary Private Use Area-A
补充专用区-A

100000
10FFFF
Supplementary Private Use Area-B
补充专用区-B

Block是Unicode字符的一个属性。属于同一个Block的字符有着相近的用途。Block表中的开始码位、结束码位只是用来划分出一块区域，在开始码位和结束码位之间可能还有很多未定义的码位。使用UniToy，大家可以按照Block浏览Unicode字符，既可以按列表显示：

也可以显示每个字符的详细信息：

ES6 字符串和正则表达式(三) 小李学软件 ES6学习 javascript es6 es6/es7
更好的Unicode支持早期，由于存储空间宝贵，Unicode使用16位二进制来存储文字。我们将一个16位的二进制编码叫做一个码元（CodeUnit）。后来，由于技术的发展，Unicode对文字编码进行了扩展，将某些文字扩展到了32位（占用两个码元），并且，将某个文字对应的二进制数字叫做码点（CodePoint）。ES6为了解决这个困扰，为字符串提供了方法：codePointAt，根据字符串码元的
Python精进系列：ord 函数进一步有进一步的欢喜 python 开发语言
目录一、引言二、基本概念2.1Unicode编码简介2.2ord函数定义三、使用示例3.1处理ASCII字符3.2处理非ASCII字符四、与chr函数的关系五、实际应用场景5.1字符排序5.2简单加密算法5.3字符验证六、注意事项6.1输入参数要求6.2跨平台兼容性七、总结一、引言在Python编程里，字符和编码的处理是常见的操作。ord函数作为Python内置函数之一，在字符和Unicode编码
java.sql.SQLNonTransientConnectionException: Public Key Retrieval is not allowed 二十七剑 java 开发语言
只需要在url:jdbc:mysql://xxx?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf8&useSSL=false后面加上&allowPublicKeyRetrieval=true即url:jdbc:mysql://xxx?serverTimezone=Asia/Shanghai&useUnicode=
软考初级程序员知识点汇总水瓶丫头站住考试软考程序员考试
以下是计算机技术与软件专业技术资格（水平）考试（简称“软考”）中程序员（初级）考试的核心知识点汇总，涵盖考试大纲的主要方向，帮助你系统复习：一、计算机基础计算机组成与体系结构计算机五大部件：运算器、控制器、存储器、输入设备、输出设备进制转换：二进制、八进制、十进制、十六进制的相互转换数据表示：原码、反码、补码、浮点数表示、ASCII码、汉字编码（GB2312、Unicode）存储单位：位（bit）
python 3.13安装 web-editor 出现gbk 错误魔兽-SS python python 开发语言
UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xadinposition795:illegalmultibytesequence直接去https://github.com/alibaba/web-editor下载zip，然后解压，，进入到文件夹里，然后cmd执行pipinstall-rrequirements.txtpipinstall--no-cach
js处理字符串、数组、对象常用方法汇总编码七号 javascript 开发语言 ecmascript
字符串（String）字符串是JavaScript中的基本数据类型之一，用于表示文本数据。以下是一些常用的字符串操作方法：charAt(index):返回指定索引处的字符。charCodeAt(index):返回指定索引处的字符的Unicode编码。concat(string2,string3,...,stringN):连接两个或多个字符串，并返回新的字符串。includes(searchStri
393. UTF-8 编码验证冱洇力扣刷题记录 leetcode 算法
UTF-8编码验证题目描述尝试做法推荐做法题目描述给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符
JavaScript逆向爬虫教程-------基础篇之JavaScript混淆原理 zru_9602 热门话题 javascript 爬虫开发语言
目录一、常量的混淆原理1.1对象属性的两种访问方式1.2十六进制字符串1.3Unicode字符串1.4字符串的ASCII码混淆1.5字符串常量加密1.6数值常量加密二、增加JS逆向者的工作量2.1数组混淆2.2数组乱序2.3花指令2.4jsfuck三、代码执行流程的防护原理3.1流程平坦化3.2逗号表达式混淆四、其他代码防护方案4.1eval加密4.2内存爆破4.3检测代码是否格式化一、常量的混淆
QT中的字符器类型依旧阳光的老码农 C++语法 qt 开发语言
一、QT中的字符串类型在Qt中，字符串处理是非常常见且重要的任务。Qt提供了几种不同的字符串类型，每种类型都有其特定的用途和优势。以下是Qt中主要的字符串类型及其特点：1.QStringQString是Qt中最常用的字符串类，用于处理Unicode字符串。它提供了一整套丰富的函数来处理字符串，包括创建、修改、搜索、比较等。特点：Unicode支持：QString内部使用UTF-16编码，支持Uni
RuntimeWarning: Glyph 35745 missing from current font jst100 python 开发语言
出现该问题的在于在使用plt绘图时找不到合适字体来表示中文。解决方式对于Windows系统可以直接在原始文件中添加如下代码plt.rcParams['font.sans-serif']=['SimHei']对于MAC系统可以在python文件中添加如下代码plt.rcParams["font.family"]='ArialUnicodeMS'对于Linux系统则首先通过命令fc-list:la
黑马程序员瑞吉外卖Day6小程序空白无显示 Lkkkkkkkcy Java学习 java 微信小程序前端
做项目时出现问题之druid连接池报错报错discardlongtimenonereceivedconnection.,jdbcUrl:jdbc:mysql://localhost:3306/sky_take_out?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=c
字符串（Python）小臭希 python
一、转义字符1.\（续行符）：将两行字符串连接起来2.\\（反斜杠）：打印输出反斜杠符3.\"(双引号）：打印输出双引号4.\n(换行符）：换行5.\t（制表符）：将数据对齐二、编码与对应字符的转换ord(x)print(ord("a"))#将字符转成对应的Unicode码chr(x)print(chr(97))#将unicode码转成对应的字符三、判断类函数（不需要特别的去记）1.isalnum
基于Flask实现的多语言Hello World 老大白菜 python flask python 后端
简介在这篇文章中，我们将探讨如何使用Flask框架创建一个智能的多语言HelloWorld服务器。这个服务器能够自动检测访问者的浏览器语言设置，并返回相应语言版本的"HelloWorld"问候语，支持超过20种世界主要语言。技术栈Python3.xFlask框架HTTP请求头处理Unicode字符串处理核心功能自动语言检测多语言支持（支持20种主要语言）优雅的降级处理（默认使用英语）支持区域特定的
QT的字符编码 weixin_30443075 操作系统数据库 c/c++
QString编码：UTF-16QString内部保存的数据就是QChar数组，是Unicode编码（utf16）,在字符显示，操作的时候都是基于Unicode。QString构造时默认采用Latin-1编码转为Unicode保存。所以如果字符数据不是Latin-1编码，那么就需要使用QString::from***函数来构造然后转为Unicode存储。也可以使用强大的QTextCodec，首先Q
char qt 转unicode_Qt QString 中文 char* UTF-8 QByteArray QTextCodec unicode gb2312 GBK 乱码与转码问题... Linkzero Tsang char qt 转unicode
2012-03-2214:00175人阅读评论(0)代码如下：如果不不设全局的字符集是utf-8，那么网上一般的方法是可以转的。如下程序中#defineDD1的情况下；但是如果设置了全局的utf-8，再用以前的方法：QByteArrayba=aaa.toLatin1();constchar*c_str=ba.data();PS:c_str所指向的内存单元，如果你想长时间使用你应该复制出来，要不可能
QT中常用QString字符串编码格式转换函数 lzgeye QT
1、多字节编码转QString多字节转QStringQString::fromStdStringQString转多字节QString::toStdString()2、unicode编码转转QStringunicode转QstringQString::fromStdWStringQstring转unicodeQString::toStdWString()3、utf8编码转转QStringutf8转Q
嵌入式综合-心得与笔记【1】 sakura_sea Embedded system and HPC 嵌入式
文章目录时域信号时域转频域信号傅里叶变换将时域信号转换为频域信号快速傅里叶变换FFT计算离散傅里叶变换参考文献时域信号importnumpyasnpimportmatplotlib.pyplotasplt#设置Matplotlib支持中文plt.rcParams['font.sans-serif']=['SimHei']#设置字体为SimHeiplt.rcParams['axes.unicode_
【详解】PythonUnicodeDecodeError:‘ascii‘codeccan‘tdecodebyte0xe9inposition0解决办法牛肉胡辣汤 java linux 前端
目录PythonUnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe9inposition0解决办法方法一：使用bytes类型方法二：使用unicode_escape编码方法三：确保使用正确的编码方式方法四：使用six库PythonUnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe9inposition0
utf8mb4_general_ci 和 utf8mb4_unicode_ci 是 MySQL 中用于 utf8mb4 字符集的两种常见的排序规则（Collation）小丁学Java 产品资质管理系统 ci/cd mysql android
utf8mb4_general_ci和utf8mb4_unicode_ci是MySQL中用于utf8mb4字符集的两种常见的排序规则（Collation）。它们在字符排序、比较和性能上有一些区别。以下是用表格列出它们的区别：特性utf8mb4_general_ciutf8mb4_unicode_ci字符集支持支持utf8mb4字符集（4字节UTF-8，支持所有Unicode字符，包括表情符号）支持
通过例子学 rust 个人精简版 2-1 独好紫罗兰通过例子学 rust rust
2-1原生类型有符号整数（signedintegers）：i8、i16、i32、i64、i128和isize（指针宽度）无符号整数（unsignedintegers）：u8、u16、u32、u64、u128和usize（指针宽度）浮点数（floatingpoint）：f32、f64char（字符）：单个Unicode字符，如'a'，'α'和'∞'（每个都是4字节）bool（布尔型）：只能是true
SQL中char和nchar 的区别未来无限 C#Winform设计 sql 数据库 char和nchar 的区别
char和varchar的长度都在1到8000之间，它们的区别在于char是定长字符数据，而varchar是变长字符数据。所谓定长就是长度固定的，当输入的数据长度没有达到指定的长度时将自动以英文空格在其后面填充，使长度达到相应的长度；而变长字符数据则不会以空格填充。text存储可变长度的非Unicode数据，最大长度为2^31-1(2,147,483,647)个字符。后面三种数据类型和前面的相比，
第N11周：seq2seq翻译实战-Pytorch复现计算机真好丸 pytorch 人工智能 python
文章目录一、前期准备1.搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五、总结本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备from__future__importunicode_literals,print_fu
关于django __str__ 与 __unicode__ 问题 weixin_40105587 python
因为所有字符串都作为Unicode字符串从数据库返回，基于字符的模型字段(CharField、TextField、URLField等)在Django从数据库检索数据时将包含Unicode值。即使数据可以放入ASCII字节字符串，也总是如此。您可以在创建模型或填充字段时传入bytestring，并且Django会在需要时将其转换为Unicode。¶选择__str__()和__unicode__()请
完成了S60一个无聊的程序，感觉时间都浪费了，不过还是有所收获的。 xiaoyao888 windows 文档编程 api 扩展微软
完成了一个类似于记事本的一个东西，可读取文本文件，但是是只读的，做这个的初衷其实是为了不用sdk的api来转换直接在程序中写中文，现在想来其实是多此一举，我搞的这个还是要进行编码转换，而且效率可能还不如用api，也不如在rss里写方便。最后搞来搞去，搞成了一个文本阅读器，可读gbk，unicode，unicodebigendian和UTF-8，基本和记事本没什么两样，除了只读和界面以外。中间让我感
python表达式懒大王今天不写代码 Python python 开发语言
文章目录1.基本元素1.1.字面值1.1.1.数值字面值1.1.2.字符串字面值1.1.2.1.定义1.1.2.2.基本用法1.1.2.3.转义字符1.1.2.4.原始字符串1.1.2.5.Unicode字符串1.1.3.字节串字面值1.1.3.1.定义1.1.3.2.基本用法1.1.3.3.字节串中的转义字符1.1.3.4.字节串与字符串的区别1.1.4.特殊字面值1.2.标识符1.3.操作符1
集成学习算法简述終不似少年遊* 人工智能学习进阶集成学习算法机器学习人工智能提高效率
目录1.必要的导入2.Bagging集成3.基于matplotlib写一个函数对决策边界做可视化4.总结图中结论5.扩展说明1.必要的导入#Tosupportbothpython2andpython3from__future__importdivision,print_function,unicode_literals#Commonimportsimportnumpyasnpimportos#to
【Python】request函数大神神奇奇奇 python 开发语言
【Python】request函数`response`对象是requests库发送HTTP请求后返回的响应对象response对象是requests库发送HTTP请求后返回的响应对象response.text：以Unicode字符串形式返回响应内容。对于文本响应，这是默认的解析方式。response.content：以字节串形式返回响应内容。对于非文本响应（如图像、音频或视频文件），这是默认的解析
位运算（典型算法思想）—— OJ例题算法解析思路 Exhausted、算法算法开发语言 c语言 c++力扣面试
目录一、面试题01.01.判定字符是否唯一-力扣（LeetCode）运算代码：1.鸽巢原理的优化代码片段：设计思路：2.位图（BitMap）的设计代码片段：设计思路：3.字符到位的映射代码片段：设计思路：4.判断字符是否重复代码片段：设计思路：5.更新位图代码片段：设计思路：6.整体流程7.时间复杂度与空间复杂度8.代码的通用性与局限性通用性：局限性：9.改进思路支持更多字符：支持Unicode：
【MySQL】常用语句 OpenC++ LeetCode 编程概念 mysql 数据库 oracle 经验分享笔记 leetcode
目录1.数据库操作2.表操作3.数据操作（CRUD）4.高级查询5.索引管理6.用户与权限7.数据导入导出8.事务控制9.其他实用语句注意事项如果这篇文章对你有所帮助，渴望获得你的一个点赞！1.数据库操作创建数据库CREATEDATABASEdbname;CREATEDATABASEdbnameCHARACTERSETutf8mb4COLLATEutf8mb4_unicode_ci;--指定字符集
springBoot+MyBatis分包方式实现多数据源赤橙红的黄数据库 MySQL mybatis spring boot java
将mapper以及mapper的xml形式文件，置于特定的包下，根据包扫描路径来实现数据来源的区分：环境配置：spring.datasource.db1.driverClassName=com.mysql.cj.jdbc.Driverspring.datasource.db1.jdbcUrl=jdbc:mysql://xxxxxx/mybatis?useUnicode=true&character
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

浅谈文字编码和Unicode（中）

3 字符编码模型

3.1 字符的范围（Abstract character repertoire）

3.2 用数字表示字符（Coded character set）

3.3 用基本数据类型表示字符（Character encoding form）

3.4 作为字节流的字符（Character encoding scheme）

3.5 小结

4 再谈Unicode

4.1 浏览Unicode

4.1.1 什么是UCD

4.1.2 Block

你可能感兴趣的:(unicode)