鹅

字符编码（Unicode UTF-16 UTF-8 ANSI）学习总结

1 Unicode简介

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符集。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符集。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112 -- 2048 = 1112064个字符，或者说有1112064个码位（应该是1112064，百度百科说是1114112不太对，有2048个码位为代理区），码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方式。

通用字符集（Universal Character Set，UCS）是由ISO制定的ISO10646（或称ISO/IEC10646）标准所定义的标准字符集。UCS-2用两个字节编码，UCS-4用4个字节编码。Unicode采用了与ISO10646-1相同的字库和字码；ISO也承诺，ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值，以使得两者保持一致。

UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。每个平面有2^16=65536个码位。Unicode计划使用了17个平面，一共有17*65536=1114112个码位。在Unicode5.0.0版本中，已定义的码位只有238605个，分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区（PrivateUse Area），分别是0xF0000-0xFFFFD和0x100000-0x10FFFD。所谓专用区，就是保留给大家放自定义字符的区域，可以简写为PUA。平面0也有一个专用区：0xE000-0xF8FF，有6400个码位。平面0的0xD800-0xDFFF，共2048个码位，是一个被称作代理区（Surrogate）的特殊区域。第一个平面称为基本多文种平面（Basic Multilingual Plane, BMP），或称第零平面（Plane 0）。其他平面称为辅助平面(Supplementary Planes)。

如前所述在Unicode 5.0.0版本中，238605-65534*2-6400-2048=99089。余下的99089个已定义码位分布在平面0、平面1、平面2和平面14上，它们对应着Unicode目前定义的99089个字符，其中包括71226个汉字。平面0、平面1、平面2和平面14上分别定义了52080、3419、43253和337个字符。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。

在表示一个Unicode的字符时，通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在基本多文种平面（英文为 Basic Multilingual Plane，简写 BMP。它又简称为“零号平面”, plane 0）里的所有字符，要用四位十六进制数（例如U+4AE0，共支持六万多个字符）；在零号平面以外的字符则需要使用五位或六位十六进制数了。

2 Unicode实现方式

Unicode的实现方式不同于字符集编码，一个字符的Unicode编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为UTF（"Unicode/UCS Transformation Format"的首字母缩写），即把Unicode字符转换为某种格式之意。通常使用的实现方式为UTF-8编码和UTF-16编码。

2.1UTF-8编码方式

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：

Unicode编码（16进制）	UTF-8 字节流（二进制）
000000 - 00007F	0xxxxxxx
000080 - 0007FF	110xxxxx 10xxxxxx
000800 - 00FFFF	1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出，4字节模板有21个x，即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。

假设要将 U+2A6A5 (16进制，对应汉字‘’) 转成 UTF-8 编码：

Ø 2A6A5在区域010000 -10FFFF内，所以占4字节。

Ø 0x2A6A5 = 000 101010 011010 100101

Ø 0x2A6A5 = 11110000 10101010 10011010 10100101

Ø 即0xF0AA9AA5

2.2 UTF-16编码方式

UTF-16是Unicode字符集的一种转换方式，即把Unicode的码位转换为16比特长的码元串行，以用于数据存储或传递。UTF-16编码规则如下：

2.2.1 从U+D800到U+DFFF的码位（代理区）

因为Unicode字符集的编码值范围为0-0x10FFFF，而大于等于0x10000的辅助平面区的编码值无法用2个字节来表示，所以Unicode标准规定：基本多语言平面内，U+D800..U+DFFF的值不对应于任何字符，为代理区。因此，UTF-16利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。

但是在使用UCS-2的时代，U+D800..U+DFFF内的值被占用，用于某些字符的映射。但只要不构成代理对，许多UTF-16编码解码还是能把这些不符合Unicode标准的字符映射正确的辨识、转换成合规的码元. 按照Unicode标准，这种码元串行本来应算作编码错误.

2.2.2 从U+0000至U+D7FF以及从U+E000至U+FFFF的码位

第一个Unicode平面（BMP），码位从U+0000至U+FFFF（除去代理区），包含了最常用的字符。UTF-16与UCS-2编码在这个范围内的码位为单个16比特长的码元，数值等价于对应的码位。BMP中的这些码位是仅有的码位可以在UCS-2被表示。

2.2.3 从U+10000到U+10FFFF的码位

辅助平面(Supplementary Planes)中的码位，大于等于0x10000，在UTF-16中被编码为一对16比特长的码元（即32bit，4Bytes），称作 code units called a 代理对（surrogatepair），具体方法是：

Ø 码位减去0x10000, 得到的值的范围为20比特长的0..0xFFFFF（因为Unicode的最大码位是0x10ffff，减去0x10000后，得到的最大值是0xfffff，所以肯定可以用20个二进制位表示），写成二进制形式：yyyy yyyy yyxx xxxx xxxx。

Ø 高位的10比特的值（值的范围为0..0x3FF）被加上0xD800得到第一个码元或称作高位代理（highsurrogate）, 值的范围是0xD800..0xDBFF。由于高位代理比低位代理的值要小，所以为了避免混淆使用，Unicode标准现在称高位代理为前导代理(lead surrogates)。

Ø 低位的10比特的值（值的范围也是0..0x3FF）被加上0xDC00得到第二个码元或称作低位代理（lowsurrogate）, 现在值的范围是0xDC00..0xDFFF。由于低位代理比高位代理的值要大，所以为了避免混淆使用，Unicode标准现在称低位代理为后尾代理(trail surrogates)。

Ø 最终的UTF-16（4字节）的编码（二进制）就是：110110yyyyyyyyyy 110111xxxxxxxxxx。

按照上述规则，Unicode编码0x10000-0x10FFFF的UTF-16编码有两个WORD，第一个WORD的高6位是110110，第二个WORD的高6位是110111。可见，第一个WORD的取值范围（二进制）是1101100000000000到1101101111111111，即0xD800-0xDBFF。第二个WORD的取值范围（二进制）是1101110000000000到1101111111111111，即0xDC00-0xDFFF。上面所说的从U+D800到U+DFFF的码位（代理区），就是为了将一个WORD（2字节）的UTF-16编码与两个WORD的UTF-16编码区分开来。

由于高位代理、低位代理、BMP中的有效字符的码位，三者互不重叠，搜索是简单的: 一个字符编码的一部分不可能与另一个字符编码的不同部分相重叠。这意味着UTF-16是自同步（self-synchronizing）：可以通过仅检查一个码元就可以判定给定字符的下一个字符的起始码元。 UTF-8也有类似优点，但许多早期的编码模式就不是这样，必须从头开始分析文本才能确定不同字符的码元的边界。

由于最常有的字符都在基本多文种平面中，许多软件的处理代理对的部分往往得不到充分的测试。这导致了一些长期的bug与潜在安全漏洞，甚至在广为流行得到良好评价的应用软件

2.2.4 示例: UTF-16 编码程序

假设要将 U+2A6A5 (16进制，对应汉字‘’) 转成 UTF-16 编码. 因为它超过 U+FFFF, 所以他必须编码成32位(4个byte)的格式，如下所示:

V = 0x2A6A5

Vx = V - 0x10000

= 0x1A6A5

= 00011010 0110 1010 0101

Vh = 00 0110 1001 // Vx 的高位部份的 10bits

Vl = 10 1010 0101 // Vx 的低位部份的 10bits

w1 = 0xD800 //结果的前16位元初始值

w2 = 0xDC00 //结果的后16位元初始值

w1 = w1 | Vh

=1101 1000 0000 0000

| 000110 1001

=1101 1000 0110 1001

= 0xD869

w2 = w2 | Vl

=1101 1100 0000 0000

| 10 1010 0101

=1101 1110 1010 0101

= 0xDEA5

所以这个字符U+64321最后正确的UTF-16编码应该是:

0xD8690xDEA5

而在小尾序中最后的编码应该是：

0x69D80xA5DE

因为这个字超过了U+FFFF，所以无法用UCS-2的格式编码

16进制编码范围	UTF-16表示方法（二进制）	10进制码范围	字节数量
U+0000---U+FFFF	xxxxxxxx xxxxxxxx	0-65535	2
U+10000---U+10FFFF	110110yyyyyyyyyy 110111xxxxxxxxxx	65536-1114111	4

UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节（2字节）存储，但UTF-16却无法兼容于ASCII编码。

2.2.5 UTF-16与UCS-2的关系

UTF-16可看成是UCS-2的父集。在没有辅助平面字符（surrogatecode points）前，UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后，就称为UTF-16了。现在若有软件声称自己支持UCS-2编码，那其实是暗指它不能支持在UTF-16中超过2bytes的字集。对于小于0x10000的UCS码，UTF-16编码就等于UCS码。

2.2.6 MicrosoftWindows操作系统内核对Unicode的支持

Windows操作系统内核中的字符表示为UTF-16小尾序，可以正确处理、显示以4字节存储的字符。但是Windows API实际上仅能正确处理UCS-2字符，即仅以2字节存储的，码位小于U+FFFF的Unicode字符。其根源是MicrosoftC++语言把wchar_t数据类型定义为16比特的unsignedshort，这就与一个wchar_t型变量对应一个宽字符，可以存储一个Unicode字符的规定相矛盾。相反，Linux平台的GCC编译器规定一个wchar_t是4字节长度，可以存储一个UTF-32字符，宁可浪费了很大的存储空间。下例运行于Windows平台的C++程序可说明此点：

// 此源文件在Windows平台上必须保存为Unicode格式（即UTF-16小尾）

// 因为包含的汉字“”，不能在Windows默认的代码页936（即gbk）中表示。

// 该汉字在UTF-16小尾序中用4个字节表示，

// Windows操作系统能正确显示这样的在UTF-16需用4字节表示的字符

// 但是WindowsAPI不能正确处理这样的在UTF-16需用4字节表示的字符，把它判定为2

// 个UCS-2字符

#include

int main()

{

const wchar_t lwc[]=L"";

MessageBoxW(NULL, lwc, lwc, MB_OK);

int i = wcslen(lwc);

printf("%d\n", i);

int j = lstrlenW(lwc);

printf("%d\n", j);

return 0;

}

2.3UTF-32编码方式

UTF-32编码以32位无符号整数为单位。Unicode的UTF-32编码就是其对应的32位无符号整数。由于UTF-32编码对每个字符都会用4个字节来存储，但大多数字符用2个字节就能表示，所以4个字节就比较浪费空间了，因此UTF-32用得比较少。

2.4 字节序

如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在不同操作系统中，对字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在MacOS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下打开会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了大端序（Big-Endian，简写为UTF-16 BE）、小端序（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的字节顺序记号解决方案。目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16LE。UTF-32也同样会有这样的问题。

根据字节序的不同，UTF-16可以被实现为UTF-16LE或UTF-16BE，UTF-32可以被实现为UTF-32LE或UTF-32BE。例如：

Unicode编码	UTF-16LE	UTF-16BE	UTF32-LE	UTF32-BE
0x006C49	49 6C	6C 49	49 6C 00 00	00 00 6C 49
0x020C30	43 D8 30 DC	D8 43 DC 30	30 0C 02 00	00 02 0C 30

那么，怎么判断字节流的字节序呢？Unicode标准建议用BOM（Byte Order Mark）来区分字节序，即在传输字节流前，先传输被作为BOM的字符“零宽无中断空格”。这个字符的编码是FEFF，而反过来的FFFE（UTF-16）和FFFE0000（UTF-32）在Unicode中都是未定义的码位，不应该出现在实际传输中。下表是各种UTF编码的BOM：

UTF编码	Byte Order Mark
UTF-8	EF BB BF
UTF-16LE	FF FE
UTF-16BE	FE FF
UTF-32LE	FF FE 00 00
UTF-32BE	00 00 FE FF

但是由于BOM只是建议添加的，不是强制的，有些软件和系统就没有这个头；所以在读取字符时，只能从编码范围上来检测当前字符的字节序，但是这保证不了100%正确。

3 ANSI编码

不同的国家和地区制定了不同的标准，由此产生了 GB2312,BIG5, JIS 等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。当然对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符，这一点是ASNI编码与Unicode编码之间最大也最明显的区别。

对于我国常用编码：GB2312有6763个汉字，GBK有21003个汉字，GB18030-2000有27533个汉字，GB18030-2005有70244个汉字。

Unicode5.0中，如果不算兼容区，目前有70217个汉字。让我们比较一下Unicode的70217汉字和GB18030-2005中的70244汉字：

GB18030-2005	Unicode 5.0	对应的Unicode编码
CJK统一汉字的20902汉字	CJK统一汉字的20902汉字	0x4E00-0x9FA5
CJK统一汉字扩充A的6582汉字	CJK统一汉字扩充A的6582汉字	0x3400-0x4DB5
CJK统一汉字扩充B的42711汉字	CJK统一汉字扩充B的42711汉字	0x20000-0x2A6D6
CJK部首补充区的14个部首	未计入	2E81, 2E84, 2E88, 2E8B, 2E8C, 2E97, 2EA7, 2EAA, 2EAE, 2EB3, 2EB6, 2EB7, 2EBB, 2ECA
CJK兼容汉字区的21个汉字	未计入	F92C, F979, F995, F9E7, F9F1, FA0C, FA0D, FA0E, FA0F, FA11, FA13, FA14, FA18, FA1F, FA20, FA21, FA23, FA24, FA27, FA28, FA29
“	CJK统一汉字区新增了这8个字符	0x9FB4-0x9FBB
未计入	CJK统一汉字区新增的14个字符	0x9FA6-0x9FB3

注： CJK 是中文（ Chinese ）、日文（ Japanese ）、韩文（ Korean ）三国文字的缩写；顾名思义，它能够支持这三种文字。

ReactNative 0.69发布 wayne214 前端
ReactNative0.69正式版发布了，主要带来如下几点：1.React18的支持2.默认绑定引擎HermesReact18ReactNative0.69是第一个支持React18的正式版本。React18提供了更多提升，比如新的hookapi，userId等。此外，React18包括新的并发特性，例如useTransition或完整的Suspense支持。React18的更新后全面支持Sus
达梦数据库-dm8的docker部署及其导入导出睡不醒的双眼皮数据库 linux 运维
#部署单节点dockerrun-d-p5236:5236--restart=always--name=dm8--privileged=true-eLD_LIBRARY_PATH=/opt/dmdbms/bin-ePAGE_SIZE=16-eEXTENT_SIZE=32-eLOG_SIZE=1024-eUNICODE_FLAG=1-eINSTANCE_NAME=dm8-v/dm8/data:/opt
Redis实战：第一章-初识Redis案例-文章投票随风而醒 MySQL/数据库 redis
redis全称REmoteDIctionaryServer，即远程字典服务，是一个由SalvatoreSanfilippo写的key-value存储系统。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值（value）可以是字符串(String),哈希(Map),
CSS的content属性妙用指南代码的余温 css 前端
CSS的content属性专门用于::before和::after伪元素，用于动态生成内容并插入到文档流中。其核心作用如下：一、主要功能插入文本内容p::before{content:"提示：";color:red;}→在每个元素前添加红色文字“提示：”插入图标（结合字体图标库）.download::after{content:"\f019";/*FontAwesome下载图标的Unicode*/
swiper js无缝滚动---解决播放总是有间隔、动画一闪一跳的问题 StrongerIrene javascript 开发语言 ecmascript
搜了很多，没找到解决方案，ai也不知道，那个delay=0也不管用后面自己抓css，发现先设置freemode（可以无限滚动滑的那个）然后会发现他有这个css，把这个改成linear就行了:global(.swiper-free-mode>.swiper-wrapper){transition-timing-function:linear!important;}还有就是得设置宽高、必须设置宽高之后
CentOS 7.9上编译安装Nginx 韩公子的Linux大集市 Bash入门 centos nginx linux
文章目录关键优化说明：配置文件模板：部署步骤：后期优化建议：以下是一个基于AnsiblePlaybook在CentOS7.9上编译安装Nginx并进行优化的完整方案：----name:CompileandoptimizeNginxonCentOS7.9hosts:allbecome:yesvars:nginx_version:1.24.0nginx_user:www<
2023年春秋杯网络安全联赛春季赛writup 渗透测试中心数学建模
ReEmojiConnect是Excel的插件，开始玩之后会初始化一个4848的矩阵，每个格子里有一个emoji，然后每次点击两个格子，如果两个格子里的emoji相同，就会消除这两个格子。一开始以为是消星星一类的三个格子的消除，但看game的逻辑每次只替换两个，所以确实是连连看。然后flag的逻辑就是每次消除的时候减去格子的行列，下标是用神奇的方法从unicode转过去的，我这里直接用矩阵里emo
如何excel里面数据格式设置为utf-8 前端组件开发微信小程序前端小程序 html5 css3 数据结构数据库
在Excel中，直接设置数据的编码格式为UTF-8是不直接支持的，因为Excel文件（如.xlsx或.xls）本身并不直接具有一个“编码”属性，像文本文件（如.txt或.csv）那样。然而，你可以通过保存Excel文件为CSV（逗号分隔值）格式并选择UTF-8编码来间接实现这一目的。以下是步骤：打开Excel文件：首先，你需要打开包含要转换的数据的Excel文件。选择“另存为”：点击Excel界面
2019-05-16 海牙kyogre
前端优化动画性能之requestAnimationFrame@(技术分享)在前端做动画很多人第一人的反应是用定时器，比如setInterval、setTimeout，除此之外css3可以使用transition和animation来实现。而编写动画循环的关键是要知道延迟时间多长合适。一方面，循环间隔必须足够短，这样才能让不同的动画效果显得平滑流畅；另一方面，循环间隔还要足够长，这样才能确保浏览器有
【python】图片批量压缩脚本横桥码农 python python
#-*-coding:utf-8-*-'''图片批量压缩脚本将脚本放入待压缩文件夹下，并运行自动生成压缩文件夹compress'''fromPILimportImageimportosimportsysimportiosys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')defcompress_image(input_imag
【50】MFC入门到精通——多字节字符集（MBCS）与宽字节字符集Unicode （统一码或万国码） R-G-B MFC入门到精通宽字节字符集Unicode 宽字节字符集 Unicode Unicode统一码 Unicode万国码宽字节Unicode
文章目录1多字节字符集（MBCS）2宽字节字符集nicode（统一码或万国码）1多字节字符集（MBCS）多字节字符集（MBCS，Multi-ByteChactacterSet）：指用多个字节来表示一个字符的字符编码集合。一般英文字母用1Byte，汉语等用2Byte来表示。兼容ASCII127。在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7bits来表示一个字
编码标准汇总追逐此刻其他 python
1.ASCII（AmericanStandardCodeforInformationInterchange）简介：最早的字符编码标准之一，由美国国家标准协会（ANSI）制定，主要用于英语字符。编码范围：7位编码（共128个字符），包括：控制字符（如换行、回车等）可打印字符（大写字母A-Z、小写字母a-z、数字0-9、标点符号等）缺点：仅支持英语，无法表示其他语言的字符（如中文、日文、阿拉伯文等）。
利用Windows .NET特性和Unicode规范化漏洞攻击DNN (DotNetNuke) sechub windows .net dnn
概述DNN（前身为DotNetNuke）是2003年建立的最古老的开源内容管理系统之一，使用C#（.NET）编写，由活跃的爱好者社区维护。它也被企业广泛使用。漏洞背景CVE-2017-9822历史案例我们熟悉这项技术是因为CVE-2017-9822，该漏洞允许通过DNNPersonalizationcookie的不安全反序列化进行远程代码执行（RCE）。这个CVE一直是反序列化攻击的绝佳案例研究。
BPE（字节对编码）和WordPiece 是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法人工智能 transformer 深度学习
BPE（字节对编码）和WordPiece是什么BPE（字节对编码）和WordPiece是自然语言处理中常用的子词分词算法，它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。BPE（BytePairEncoding，字节对编码）原理初始化：将文本按字符（或Unicode字节）拆分为最小单元，形成初始词汇表。统计合并：迭代合并最频繁出现的相邻字符对，形成新的子词单元，直到达到预设的词汇表大
python爬虫--爬去300个租房信息页朝畫夕拾
爬去300个租房信息页代码如下#--coding:utf-8--importtime,requestsfrombs4importBeautifulSouppage=0limit_count=300crawl_list=[]headers={'Content-type':'text/html;charset=UTF-8','User-Agent':'Mozilla/5.0(Macintosh;Int
Unity_通过鼠标点击屏幕移动屏幕里的一个对象沧海归城 unity 计算机外设游戏引擎
文章目录一、获取到点击物体的Tansform（摁下鼠标左键的瞬间）二、移动点击的物体（摁着鼠标左键不放）三、松开左键清理被移动对象属性总结注：本文章只是学习总结的笔记，视频链接一、获取到点击物体的Tansform（摁下鼠标左键的瞬间）实现思路：通过Camera的ScreenPointToRay方法和Input.mousePosition鼠标坐标生成创建Ray射线，再通过Physics的Raycas
SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
C++ Primer Plus 第6版中文版清晰有书签PDF+源代码
内容提要：C++是在C语言基础上开发的一种集面向对象编程、通用编程和传统的过程化编程于一体的编程语言，是C语言的超集。《C++PrimerPlus中文版》由StehpenPrata著，张海龙、袁国忠译：是根据2003年的ISO/ANSIC++标准编写的。通过大量短小精悍的程序详细而全面地阐述了C++的基本概念和技术。全书分为18章和10个附录，分别介绍了C++程序的运行方式、基本数据类型、复合数据
js 记录七 vscode+iis中文乱码 WMY10001 前端
1.其实就是html没有加2.其他配置的话，iis>.net全球化>文件utf-83.iis的localhost文件夹里的web.config,修改为：4.vscode右下角utf-85.点击vscode右下角utf-8，选择通过编码保存其实试了就第一条有效
VSCode中文显示乱码问题 Mind_lch C++学习笔记 c++学习笔记
1.中文显示乱码这是个很常见的问题，所以帮别人配置的时候一般也会帮忙搞一下首先点击左下角的齿轮按钮，打开Settings（设置）在搜索框中输入ecoding,然后如图把Encoding改成GBK（原来应该是UTF-8）设置完之后编辑有中文的文件就不会显示乱码啦！
python字符串前面加字母_Python基础字符串前加u,r,b,f含义果呀哎呀妈呀哦呀 python字符串前面加字母
1、字符串前加u例：u"我是含有中文字符组成的字符串。"作用：后面字符串以Unicode格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。2、字符串前加r例：r"\n\n\n\n”#表示一个普通生字符串\n\n\n\n，而不表示换行了。作用：去掉反斜杠的转移机制。(特殊字符：即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t
Ansible：强大的自动部署工具
文章目录零、Ansible介绍一、安装ansible二、配置SSH密钥1.检查密钥是否存在2.两边的机器要互相有对方的密钥三、自动部署1.传输文件(1)inventory.ini(2)sync_blt.yml(3)执行命令2.安装软件(1)inventory.ini(2)install_efvs.yml(3)执行命令零、Ansible介绍Ansible是一个开源、易于使用的功能强大的IT自动化工具
SQLite可视化管理工具汇总班力勤程序员 sqlite jvm 数据库
截至2012/9/14最新版本SQLiteSpy1.9.1–28Jul2011单文件，界面设计紧凑，较稳定,功能较少，创建表与添加数据均需sql语句，快捷键教方便，作为数据浏览和修改工具极佳，视图编码为utf-8，对gbk2312显示乱码。能满足一般的应用，但没有导出数据表功能，同时只能打开一个数据库文件不支持二进制字段编辑2、SQLiteStudio（推荐）开源免费单文件http://sqlit
常用的折叠展开过渡动画效果css
如何实现优雅的折叠展开动画效果在现代Web设计中，折叠展开动画是一种常见且实用的交互方式，它可以帮助用户在保持界面简洁的同时，灵活控制内容的显示与隐藏。本文将分享如何使用HTML、CSS和JavaScript实现一个平滑流畅的折叠展开动画效果。基本原理折叠展开动画的核心原理是通过CSS过渡(transition)来控制元素的高度、内边距和其他样式属性的变化。当用户点击触发按钮时，JavaScrip
为什么VS编译UTF-8格式源代码, 代码中字符串却是ANSI编码?如何快速获取字符串的UTF-8或UTF-16编码二进制数据?Java .class文件编码和JVM运行期内存编码？字符串默认编码？
目录为什么VS编译UTF-8格式源代码,代码中字符串却是ANSI编码?如何快速获取字符串的UTF-8或UTF-16编码二进制数据?Java.class文件编码和JVM运行期内存编码字符串默认编码Swift字符串默认编码VS如何编译没有BOM头的UTF-8源代码?为什么中文字符串会报出错误"C2001:常量中有换行符"?为什么VS编译UTF-8格式源代码,代码中字符串却是ANSI编码?说到底，问题的
Vue.js 过渡 & 动画 lsx202406 开发语言
Vue.js过渡&动画引言在Web开发中，过渡与动画是提升用户体验的关键元素。Vue.js作为一款流行的前端框架，提供了强大的过渡与动画功能，使得开发者能够轻松实现丰富的交互效果。本文将深入探讨Vue.js中的过渡与动画，包括其原理、应用场景以及实现方法。一、Vue.js过渡原理Vue.js过渡是利用CSS3的transition属性实现的。当Vue.js侦测到数据变化时，会自动触发过渡效果。过渡
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
C#学习第一天总结
大家好！我是C#编程的初学者，今天开始我的学习之旅。这是我的第一份学习总结，主要涵盖了C#的基础程序结构、数据类型、变量声明以及类型转换。这些内容是C#入门的基石，我会以笔记形式分享我的理解和练习心得。希望这份总结能帮助其他新手快速上手，也欢迎大家一起交流讨论。接下来，我将按主题整理今天的核心知识点。一、程序结构概述C#程序由多个基本元素组成，理解这些结构是编写代码的基础：**using指令**：
从十六进制字节字符串到UTF-8文本：解码原理与JavaScript实现
在Web开发和数据处理中，我们经常需要处理不同编码格式的数据。本文将深入探讨如何将十六进制表示的UTF-8字节字符串转换为可读的文本内容，并提供一个完整的JavaScript实现方案。一、UTF-8编码基础UTF-8（8-bitUnicodeTransformationFormat）是一种针对Unicode的可变长度字符编码，也是互联网上使用最广泛的一种Unicode编码方式。它有以下特点：兼容A
C语言基本概念（下）【C语言入门到精通】
C语言基本结构（下）Everyprogramisapartofsomeotherprogramandrarelyfits.1码字不易，对你有帮助点赞/转发/关注支持一下作者思维导图写在前面如果只是写个人学习总结的博客很容易，简单写一些感悟然后贴上代码走人就可以了，甚至不用校审。但是我命名本系列为【C语言必知必会】帮助你从入门到精通C语言，那势必要“事无巨细”一些：既要考虑到没有基础的初学者，又不能
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

字符编码（Unicode UTF-16 UTF-8 ANSI）学习总结

你可能感兴趣的:(字符编码（Unicode UTF-16 UTF-8 ANSI）学习总结)