实例详细介绍各种字符集编码转换问题

本文背景：

本人在编程时需要匹配字符串，由此想到了如果文件是各种字符编码的话，匹配结果有可能不正确，那么，如何判断不同的字符集？如何在不同字符集之间做转换？对于UNICODE编码逐渐通用的情况下，我们软件人员如何从容应对？本文首先对常用字符集进行总结，然后在字符集的显示及转换上以实例介绍，最后总结了编程中遇到的编码问题。

本文目的：

对字符集编码做详细介绍，关键配以实例讲解，降低问题的复杂度。

本文内容：

1. 常用字符集分类

1.1 简介

· ASCII及其扩展字符集

作用：表语英语及西欧语言。

位数：ASCII是用7位表示的，能表示128个字符；其扩展使用8位表示，表示256个字符。

范围：ASCII从00到7F，扩展从00到FF。

· ISO-8859-1字符集

作用：扩展ASCII，表示西欧、希腊语等。

位数：8位，

范围：从00到FF，兼容ASCII字符集。

· GB2312字符集

作用：国家简体中文字符集，兼容ASCII。

位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。

范围：高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。

· BIG5字符集

作用：统一繁体字编码。

位数：使用2个字节表示，表示13053个汉字。

范围：高字节从A1到F9，低字节从40到7E，A1到FE。

· GBK字符集

作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312。

位数：使用2个字节表示，可表示21886个字符。

范围：高字节从81到FE，低字节从40到FE。

· GB18030字符集

作用：它解决了中文、日文、朝鲜语等的编码，兼容GBK。

位数：它采用变字节表示(1 ASCII，2，4字节)。可表示27484个文字。

范围： 1 字节从00到7F; 2字节高字节从81到FE，低字节从40到7E和80到FE；4字节第一三字节从81到FE，第二四字节从30到39。

· UCS字符集

作用：国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织，UCS-2和UNICODE兼容。

位数：它有UCS-2和UCS-4两种格式，分别是2字节和4字节。

范围：目前，UCS-4只是在UCS-2前面加了0x0000。

· UNICODE字符集

作用：为世界650种语言进行统一编码，兼容ISO-8859-1。

位数：UNICODE字符集有多个编码方式，分别是UTF-8，UTF-16和UTF-32。

UTF-8 ：采用变长字节 (1 ASCII, 2 希腊字母, 3 汉字, 4 平面符号) 表示，网络传输, 即使错了一个字节，不影响其他字节，而双字节只要一个错了，其他也错了，具体如下：

如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8最多可用到6个字节。

UTF-16 ：采用2字节，Unicode中不同部分的字符都同样基于现有的标准。这是为了便于转换。从 0x0000到0x007F是ASCII字符，从0x0080到0x00FF是ISO-8859-1对ASCII的扩展。希腊字母表使用从0x0370到0x03FF 的代码，斯拉夫语使用从0x0400到0x04FF的代码，美国使用从0x0530到0x058F的代码，希伯来语使用从0x0590到0x05FF的代码。中国、日本和韩国的象形文字（总称为CJK）占用了从0x3000到0x9FFF的代码；

由于0x00在c语言及操作系统文件名等中有特殊意义，故很多情况下需要UTF-8编码保存文本，去掉这个0x00。举例如下：

UTF-16: 0x0080 = 0000 0000 1000 0000

UTF-8: 0xC280 = 1100 0010 1000 0000

UTF-32：采用4字节。

优缺点：

· UTF-8、UTF-16和UTF-32都可以表示有效编码空间 (U+000000-U+10FFFF) 内的所有Unicode字符。

· 使用UTF-8编码时ASCII字符只占1个字节，存储效率比较高，适用于拉丁字符较多的场合以节省空间。

· 对于大多数非拉丁字符（如中文和日文）来说，UTF-16所需存储空间最小，每个字符只占2个字节。

· Windows NT内核是Unicode（UTF-16），采用UTF-16编码在调用系统API时无需转换，处理速度也比较快。

· 采用UTF-16和UTF-32会有Big Endian和Little Endian之分，而UTF-8则没有字节顺序问题，所以UTF-8适合传输和通信。

· UTF-32采用4字节编码，一方面处理速度比较快，但另一方面也浪费了大量空间，影响传输速度，因而很少使用。

1.2 按所表示的文字分类

语言	字符集	正式名称
英语、西欧语	ASCII，ISO-8859-1	MBCS 多字节
简体中文	GB2312	MBCS 多字节
繁体中文	BIG5	MBCS 多字节
简繁中文	GBK	MBCS 多字节
中文、日文及朝鲜语	GB18030	MBCS 多字节
各国语言	UNICODE，UCS	DBCS 宽字节

2. 如何判断字符集

2.1 字节序

首先说一下字节序对编码的影响，字节序分为Big Endian字节序和Little Endian字节序。不同的处理器可能不一样。所以，传输时需要告诉处理器当时的编码字节序。对于前者而言，高位字节存在低地址，低字节存于高地址；后者相反。例如，0X03AB,

Big Endian字节序是

0000: 0 3

0001: AB

Little Endian字节序是

0000: AB

0001: 0 3

2.2 编码识别

· UNICODE

根据前几个字节可以判断UNICODE字符集的各种编码，叫做Byte Order Mask方法BOM：

UTF-8: EFBBBF (符合UTF-8格式，请看上面。但没有含义在UCS即UNICODE中)

UTF-16 Big Endian：FEFF (没有含义在UCS-2中)

UTF-16 Little Endian：FFFE (没有含义在UCS-2中)

UTF-32 Big Endian：0000FEFF (没有含义在UCS-4中)

UTF-32 Little Endian：FFFE0000 (没有含义在UCS-4中)

· GB2312

高字节和低字节的第1位都是1。

· BIG5，GBK&GB18030

高字节的第1位为1。操作系统有默认的编码，常为GBK，可以下载别的并升级。通过判断高字节的第1位从而知道是ASCII或者汉字编码。

3. 编程：各字符集编码的读取

注意，下面的例子都会用到这个文件，读取这个文件。在Encodeing 选项中可以选择ASCII编码、UTF-8、UNICODE Big Endian、UNICODE Little Endian。其中，ASCII编码包括：ASCII、ISO-8859-1、GB2312、BIG5、GBK等在ASCII基础上扩展的编码。当选用ASCII编码保存时，系统会调用默认的一种ASCII编码方式，一般的中文系统使用GB2312或GBK。可以通过更改控制面板中的语言选项更改。

3.1 读取 ASCII 编码

选择ASCII编码保存文件，文件内容是：您好, Ye Ming!

C++程序读取并显示如下：

FILE *myfile=fopen("CharsetExample.txt","rb");

char a[100];

fgets(a,100,myfile);

printf("字节数=%d\n",strlen(a));

printf("16进制值=");

for(int i=0;i<strlen(a);i++)

printf("%hhx\t",a[i]);

printf("\n字符串输出=%s\n",a);

结果输出：

字节数=13

16进制值=c4 fa ba c3 2c 59 65 20 4d 69 6e 67 21

字符串输出=您好，Ye Ming！

您=c4fa, 好=bac3，其它只占一个字节。printf函数发现字节的第1位是1时，会继续联合下一个字节按照默认的ASCII编码如GB2312显示汉字。

为了测试一下系统能否显示繁体中文字，将文本更改为： 案與產品

保存为ASCII编码，然后运行程序。结果可以显示出来，说明系统用GBK或BIG5解码了。在控制面板把BIG5去掉，还能正常显示，说明系统默认的是GBK解码。

注解 1 ：文本是按字节读，二进制是按逻辑单位读；这个例子用二进制读和用文本读的结果是一样的，因为逻辑单位char是1个字节的。

3.2 读取 UTF-8 编码

选择UTF-8编码保存文件，文件内容是：您好, Ye Ming!

C++程序读取并显示如下：

FILE *myfile=fopen("CharsetExample.txt","rb");

char a[100];

fgets(a,100,myfile);

printf("字节数=%d\n",strlen(a));

printf("16进制值=");

for(int i=0;i<strlen(a);i++)

printf("%hhx\t",a[i]);

printf("\n字符串输出=%s\n",&a[3]);

结果输出：

字节数=18

16进制值= ef bb bf e6 82 a8 e5 a5 bd 2c 59 65 20 4d 69 6e 67 21

字符串输出=乱码，Beijing！

其中，ef bb bf 是UTF-8的头标识；您=e6 82 a8，好=e5 a5 bd。

其他是单字节的ASCII码。

输出字符串时要去掉前三个字节。但是，还是出现了乱码!

之所以出现乱码，是因为系统按默认的GB2312去解UTF-8的码，所以在库里找不到或找不对对应的汉字，所以出现3个乱码，因为按两两组合所以有3个乱码。

3.3 读取 UTF-16 Big Endian

选择UTF-8编码保存文件，文件内容是：您好, Ye Ming!

C++程序读取并显示如下：

FILE *myfile=fopen("CharsetExample.txt","rb");

char a[100];

fgets(a,100,myfile);

printf("字节数=%d\n",strlen(a));

printf("16进制值=");

for(int i=0;i<strlen(a);i++)

printf("%hhx\t",a[i]);

printf("\n字符串输出=%s\n",&a[2]);

结果输出：

字节数=6

16进制值= fe ff 60 a8 59 7d

字符串输出=三个符号

其中，fe ff 是UTF-16 Big Endian的头标识；60是可以输出的，a859输出乱码，7d是可以输出的。输出字符串时要去掉前两个字节。

理论上字节数应该是2+11*2=24。可是，输出为什么只有6呢？在UTF-16中，每个字符都用两个字节表示，而ASCII符号只用一个字节，高位用0表示，所以，当遇到0后，strlen认为串结束了。这就是UTF-16的缺点，前面提到过。

将程序的一句更改后：

for(int i=0;i<24;i++)

16进制值= fe ff 60 a8 59 7d 0 2c 0 59……

同样，字符串仍然无法显示。

3.4 读取 UTF-16 Little Endian

文本文件用UTF-16 Little Endian编码时，其输出结果是：

16进制值= ff fe a8 60 7d 59 2c 0 59 0 ……

4. 编程：各字符集编码的显示

4.1 直接显示

由于中文系统默认的编码是中文编码，一般是GBK。所以，ASCII编码的显示没有问题。但是，遇到UNICODE编码就会有问题了，如上面的例子，显示会出现乱码。

接下来本文介绍一种读取UNICODE文件并正确显示中文的方法。

4.1.1 文件编码为 UNICODE Big Endian

本件保存为UNICODE Big Endian，文本=您好, Ye Ming!

· 错误：按文本方式读

读文本程序如下：

FILE *myfile;

wchar_t *name=L"CharsetExample.txt";

myfile=_wfopen(name,L"rt");

fseek(myfile,0,0);

wchar_t buffw[100];

fgetws(buffw,100,myfile);

printf("字节数=%d\n",wcslen(buffw));

printf("16进制值=");

for(int i=0;i<wcslen(buffw);i++)

printf("%hhx\t",buffw[i]);

//设置本地化信息，.936是简体中文的Code Page。wcout需要依靠它决定将宽字符按什么编码显示

setlocale(LC_ALL, ".936");

printf("\n字符串输出=");

wcout<<buffw+1<<endl;

结果如下：

字节数=6

16进制值= fe ff 60 a8 59 7d

字符串输出=’”Y}

文本是按UNICODE编码的，每个字符是两字节，ASCII字符高位用0代替。按文本方式打开文件读时，是按字节的读写，一个字节就存进了两个字节大小的结构wchar_t中。遇到0时，它认为文件已经结束，停止操作。

· 正确：按二进制方式读

读文本程序如下：

将myfile=_wfopen(name,L"rt")改为myfile=_wfopen(name,L"rb");

结果如下：

字节数=12

16进制值= fffe a860 7d59 2c00 5900….

字符串输出=乱码

这一次二进制结果是对的，但是，为什么还是乱码呢？问题出在wcout函数上，x86是按照Little Endian字节序处理数据的，它将2c00处理了而不是002c。我们看一下如果文本保存为UNICODE Little Endian, 会怎么样?

4.1.2 文件编码为 UNICODE Little Endian

本件保存为UNICODE Little Endian，文本=您好, Ye Ming!

· 错误：按文本方式读

基本同上，故略。

· 正确：按二进制方式读

将myfile=_wfopen(name,L"rt")改为myfile=_wfopen(name,L"rb");

结果如下：

字节数=12

16进制值= feff 60a8 597d 2c 59….

字符串输出=您好, Ye Ming!

输出正确，^_^。

4.1.3 文件编码为 UTF-8

对于UTF-8而言，UTF-8的编码其实不属于宽字符，它还是MBCS。wcout函数只能显示宽字符，不能够正确显示它的编码，所以输出为乱码或空。

4.2 编码转换后显示

4.2.1 文件编码为 UNICODE Big Endian

由于字节序的问题，需要转换成Little Endian 才能正确显示，因为x86系列用的是Little Endian。转换后，请用下面小节的方法显示。

4.2.2 文件编码为 UNICODE Little Endian

读文件程序如下：

FILE *myfile;

wchar_t *name=L"CharsetExample.txt";

myfile=_wfopen(name,L"rb");

fseek(myfile,0,0);

wchar_t buffw[100];

fgetws(buffw,100,myfile);

printf("字节数=%d\n",wcslen(buffw));

printf("16进制值=");

for(int i=0;i<wcslen(buffw);i++)

printf("%hhx\t",buffw[i]);

//宽字符转换成多字节，第一个参数是Code Page，windows定义了若干Code Page，用来处理不同语言编码的。CP_ACP是ASCII编码，这里主要是求出转换后的字节数。Buffw+1主要是去掉头标记 feff。

UNICODE à ASCII 编码

int len = WideCharToMultiByte( CP_ACP, 0, buffw+1, wcslen(buffw+1), NULL, NULL, NULL, NULL );

LPSTR lpsz = new CHAR[len+1];

//下面才是真正的转换。

WideCharToMultiByte( CP_ACP, 0, buffw+1, wcslen(buffw+1), lpsz, len, NULL,NULL );

printf("%d",len);

lpsz[len]='\0';

printf("\n%s\n",lpsz);

结果如下：

字节数=12

16进制值=feff 60a8 597d 2c 59….

字符串输出=您好, Ye Ming!

转换完后，系统函数printf会按照系统默认编码显示出来。

4.2.3 文件编码为 UTF-8

文件保存为UTF-8，有两种情况：

· 错误：按宽字符存取

程序如下：

FILE *myfile;

wchar_t *name=L"CharsetExample.txt";

myfile=_wfopen(name,L"rb");

fseek(myfile,3,0);

wchar_t buffw[100];

fgetws(buffw,100,myfile);

printf("字节数=%d\n",wcslen(buffw));

printf("16进制值=");

for(int i=0;i<wcslen(buffw);i++)

printf("%hhx\t",buffw[i]);

…………….

结果如下：

字节数=7

16进制值=82e6 e5a8 bda5 592c 2065 694d 676e

可以看出，16进制值缺了21，这就是感叹号的ASCII值。当以fgetws读取文件时，21落单了，所以不能读进wchar_t。

· 正确：按字节存取

程序如下：

FILE *myfile;

wchar_t *name=L"CharsetExample.txt";

myfile=_wfopen(name,L"rb");

fseek(myfile,3,0);

char buff[100];

//取得所有UTF-8字节

fgets(buff,100,myfile);

printf("字节数=%d\n",strlen(buff));

printf("16进制值=");

for(int i=0;i<strlen(buff);i++)

printf("%hhx\t",buff[i]);

第一步， UTF-8 à UNICODE

由于从UTF-8不能直接转换为ASCII编码，必须以UNICODE为跳板；这里用到参数CP_UTF8，因为我们是将UTF-8转换为UNICODE，注意：WideChar在本函数中指的肯定是UNICODE。

int num=MultiByteToWideChar(CP_UTF8,NULL,buff,-1,NULL,NULL);

wchar_t *buffw2=new wchar_t[num];

MultiByteToWideChar(CP_UTF8,NULL,buff,-1,buffw2,num);

第二步， UNICODE à ASCII 编码

这个函数跟之前用过了。

int len = WideCharToMultiByte( CP_ACP, 0, buffw2, num, NULL, NULL, NULL, NULL );

LPSTR lpsz = new CHAR[len+1];

WideCharToMultiByte( CP_ACP, 0, buffw2, num, lpsz, len, NULL, NULL );

lpsz[len]='\0';

printf("\n字符串输出=");

printf("%s\n",lpsz);

结果如下：

字节数=15

16进制值=e6 82 a8 e5 a5 bd 2c 59 65 20 4d 69 6e 67 21

字符串输出=您好, Ye Ming!

结果正确，*_*。

4.3 转换编码的另外一种方法

· mbstowcs

char *ccname="我们";

wchar_t * wwname=new wchar_t[2];

//依赖于Locale而不是Code Page

setlocale(LC_CTYPE,"chs");

mbstowcs(wwname,ccname,2);

wcout<<wwname<<endl;

· wcstombs

wchar_t *wname=L"叶明";

char * cname=new char[4];

setlocale(LC_TIME,"chs");

wcout<<wname<<endl;

wcstombs(cname,wname,4);

printf("%s\n",cname);

5. 思考字符集编码对软件的影响

请参考本人另外一篇文章： UNICODE 编码对软件编程的影响。

6. 常用参数

· ASCII码参照表

Code Page 参数

下面是部分的Code Page:

CP0 ASCII

CP932 Shift-JIS

CP936 GBK

CP950 Big5

CP20936 GB2312

CP65001 UTF-8

CP65000 UTF-7

Locale 参数

由于国家和本地习惯的不同，在处理文字、日期、数字、货币格式等问题都会有所不同，Locale就是用来解决这个问题。

C语言的Locale定义，分为以下几类：

LC_ALL：代表所有的locale

LC_CTYPE：用来处理文字编码

LC_MESSAGES：信息的显示，你可能会在这样一个目录看到大量的mo文件

LC_TIME：时间格式

LC_NUMERIC：数字格式

LC_MONETARY：货币格式

LC_COLLATE：字母顺序和特殊字符的比较

其中比较重要的是：

字符编码LC_CTYPE和本地化的信息显示LC_MESSAGES 。

设置Locale举例如下：

setLocale(LC_ALL, "chs")

值可取下面值：

zh_CN.utf8

chs

Chinese-simplified

ZHI

.936

下载小说时，python字符集编码utf-8和GBK的错误处理(慎！) 小戴测试 python
创作背景今天想找本小说看，但是居然只能在网页上能找到资源，作为一名测试工程师，这能忍？多么严重的体验，这还能一起愉快的玩耍了吗？还能好好摸鱼了吗？果断花点时间，查看页面结构，写个脚本自动请求网页，获取小说内容，并进行储存到本地txt文件中，放在手机里，躺在床上慢慢看。没想到，来回调试了好几次，o(╯□╰)o。好吧，工作都没这么热情，果然爱好才是第一生产力。\(^o^)/~遇见问题大部分的网页都是u
Linux~MySQL数据库具体操作 linuxMinx 数据库
一、数据库的字符集编码设置（一）查看数据库默认的字符集MariaDB[(none)]>showvariableslike'%character%';+--------------------------+----------------------------+|Variable_name|Value|+--------------------------+--------------------
Docker 集群配置 HuaLuLemon docker docker 容器
1、配置MySQLMySQL简单安装docker安装完MySQL并run出容器后，建议请先修改完字符集编码后再新建mysql库-表-插数据dockerrun-d-p2222:3306--privileged=true-eMYSQL_ROOT_PASSWORD=123456\-v/opt/mysql/log:/var/log/mysql\-v/opt/mysql/data:/var/lib/mysq
本地plsql插入中文数据后乱码喜羊羊love红太狼数据库数据库
场景：本地使用plsql插入中文数据出现乱码，而其他同事使用plsql插入中文数据插入正常plsql查询字符集编码：selectuserenv('language')fromdualAMERICAN_AMERICA.ZHS16GBK原因:本机没有配置oracel字符集环境变量解决方法：步骤一：添加变量，鼠标右键我的电脑、选择属性，选择高级系统设置，选择高级选项卡的环境变量，在系统变量里新建两条配置
Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_unicode_ci,IMPLICIT) for operat 许洪昌 mysql mysql
Illegalmixofcollations(utf8mb4_general_ci,IMPLICIT)and(utf8mb4_unicode_ci,IMPLICIT)foroperation'='今天写了一个简单的sql，报了如上错误。一度让我怀疑人生，这么简单的sql都写不好吗？一经查证，原来是进行比较的两个字段的字符集编码不同导致。解决办法：1：修改其中的一个字符集，对于表结构进行更改。2：在
DM8达梦数据库：初始化数据库实例-命令行工具 dminit 祢真伟大数据库数据库
达梦数据库命令行-快速初始化数据库实例1初始化命令2参数解读3注册数据库实例服务4字符集编码与长度单位（字符/字节）5dminithelp查看各参数5.1数据库初始化参数5.2dminit初始化后是否可修改参数6达梦数据库学习使用列表1初始化命令cd数据库bin执行目录./dminitPATH=/home/dmdba/dmdata5236/PAGE_SIZE=32EXTENT_SIZE=32CAS
git bash 中文乱码圼_2514
1.gitbash中输入命令,中文乱码乱码2.控制台右键,选项右键-选项3.文本>本地语言为zh_CN,字符集编码选择GBK中文正常显示
VS+QT编译环境中字符乱码问题详解北冥有鱼丶丶 Qt 计算机网络 qt 开发语言
字符乱码问题详解1编码字符集与字符编码方式2字符乱码原因3字符乱码解决方案在解释字符乱码问题之前，我们需要先理清一些基本概念1编码字符集与字符编码方式编码字符集编码字符集是所有字符以及对应代码值的集合。编码字符集中的每个字符都对应一个唯一的代码值。常见的编码字符集：ASCII字符集、GBXXXX字符集、BIG5字符集、Unicode字符集等。字符编码方式编码字符集中只规定了字符的代码值并未规定具体
ubuntu 16.04 server版安装教程上晴下雪 ubuntu 自动驾驶 linux
下载ubuntuubuntu历史版本该教程演示的版本是：ubuntu-16.04-server-amd64选择系统语言-English3.选择操作-InstallUbuntuServer4.选择安装过程和系统的默认语言-English选择区域-other选择亚洲-Asia选择国家-China选择字符集编码-UnitedStates是否扫描和配置键盘，选择否-No选择键盘类型-English(US)
utf8mb4字符集乐神来了名词解释 oracle 数据库
UTF-8MB4字符集是MySQL数据库中的一种字符集编码，它支持最大的字符集范围，包括了4字节的Unicode字符。与UTF-8字符集相比，UTF-8MB4字符集能够存储更多的字符，包括一些特殊的表情符号、emoji表情、以及一些其他语言中的特殊字符。使用UTF-8MB4字符集可以确保数据库能够存储和处理各种语言的字符，以及包含特殊字符的文本数据。同时，它还可以确保数据库能够正确地存储和显示一些
关于ObjectOutputStream对象输出流与ObjectInputStream对象输入流：写入以及读出没有错误，但是写入的文件出现乱码的问题，该现象与UTF-8，GBK等字符集编码格式无关这孩子叫逆 java java 算法开发语言
1：下面我们创建一个ObjectOutputStream输出流向文件中写入一首诗，再用ObjectInputStream往控制台输出packageday22;importjava.io.*;publicclassObjectStreamTest{publicstaticvoidmain(String[]args){try(ObjectOutputStreamoos=newObjectOutputS
谈谈 UTF-8 标准和解码的实现天色微凉 C++c++
字符集编码的历史ASCII码ASCII码诞生于上世纪60年代的美国，它将英文字符和二进制位之间的关系做了统一规定：将128个英文的字符映射到一个字节的后7位，最前面的一位统一规定为0。因此ASCII码正好使用一个字节存储一个字符，又被称为原始8位值，由于最高位始终为0，也被称为7位ASCII编码。在ASCII编码中，将数字0映射到48，将大写字母A映射到65，将小写字母a映射到97等等。ASCII
SpringMVC+Spring+MyBatis框架搭建黄晶谛 #Spring springMVC MyBatis Spring 框架搭建
配置web.xml文件：在tomcat启动时加载web.xml文件，根据web.xml文件的配置，加载spring-mvc.xml、spring-mybatis.xml、spring-common.xml文件。字符集编码过滤器encodingFilterorg.springframework.web.filter.CharacterEncodingFilter字符集编码encodingUTF-8e
Spring Web框架搭建配置黄晶谛 #Spring
配置web.xml文件：在tomcat启动时加载web.xml文件。spring-web-demo字符集编码过滤器encodingFilterorg.springframework.web.filter.CharacterEncodingFilter字符集编码encodingUTF-8encodingFilter/*配置spring监听contextConfigLocationclasspath:
Java属性文件编码：处理非西欧语言字符的指南 AshCode properties乱码 properties编码原理
Java属性文件是一种轻量级的配置文件格式，用于在Java应用程序中存储键值对数据。在Java中，Properties类提供了一种方便的方式来读取和写入属性文件。在Java中，属性文件通常使用ISO-8859-1字符集编码。这意味着如果您希望在属性文件中使用非西欧语言字符（例如中文或日文），则需要使用Unicode编码将这些字符转换为\uXXXX形式的转义序列。例如，要在属性文件中写入中文字符中文
Springboot——过滤器 H花花少年H
简介过滤器（Filter）是Servlet技术中最实用的技术，它依赖于Servlet容器，在实现上基于函数回调，可以对几乎所有请求进行过滤，其生命周期由Servlet管理。其主要可用于以下方面：1、最常见的字符集编码的过滤。2、对web服务器管理的所有web资源（例如Jsp,Servlet,静态图片文件或静态html文件等）进行拦截，从而实现一些特殊的功能。例如：实现URL级别的权限访问控制、过滤
输入的字与系统编码不符_基于小字符集藏文拉丁转写系统的设计与实现 weixin_39936086 输入的字与系统编码不符
基于小字符集藏文拉丁转写系统的设计与实现陈小莹1，艾金勇2(1.西藏民族大学信息工程学院，陕西咸阳712082；2.西藏民族大学图书馆，陕西咸阳712082)摘要：随着藏语语言信息技术的迅速发展，藏文拉丁转写成为迫切需要解决的重要课题之一。该文在前人有关藏文拉丁转写研究的基础上，设计并实现了基于小字符集方案的藏文拉丁转写系统。文章通过对小字符集编码方案的特征分析，同时根据藏文正字法知识，提出了基于
java.sql.SQLException: Incorrect string value:‘\xF0\x9F\x92\xA9\x0D\x0A...’的解决方法 Trainer2107 数据库 sql
ALTERDATABASE`wechat`CHARACTERSET=utf8mb4COLLATE=utf8mb4_unicode_ci;#修改表字符集编码ALTERTABLE`daily_content`CONVERTTOCHARACTERSETutf8mb4COLLATEutf8mb4_unicode_ci;ALTERTABLE`daily_content`CHANGEdescriptionde
IDEA 快捷键、快捷配置 AimerDaniil Idea 开发工具 idea
IDEA快捷键、快捷配置1、IDEAjava文件自动对齐（快捷键：Ctrl+Alt+L）2、IDEAxml文件自动对齐（快捷键：Ctrl+Alt+L）3、IDEAfor快捷输入4、IDEA滚轮缩放5、IDEA设定自动提示说明：配置该项之后，自动不区分大小写6、IDEA设置参数提示说明：设定之后方法中有参数提示7、IDEA设定字符集编码格式8、IDEA自动编译9、IDEA:将普通文件夹设置为项目mo
浅析字符集&编码 33小宇宙
工作中系统的乱码问题经常让人头疼，看到utf-8，GBK等字样觉得很熟悉，却一直对这些概念一知半解。所以今天简单梳理下字符集编码的内容，方便以后查阅。先来说说为什么要有字符集和编码。在计算机中都只能存储0和1，所以要让计算机能识别某个字符并存储和传输，就必须用二进制来表示。字符集和编码就是为了把字符唯一标识成计算机可以识别和存储的二进制而定义的编码映射集合和编码规则。一、概念1.字符集charse
SpringCloud( H版 & alibaba )框架开发教程(入门) 时间头秃大师 java cloud java cloud 微服务架构
重点:约定>配置>编码注:如果遇到非法字符:‘\ufeff’字符集编码错误,右击报错子项目,移除BOM即可编码五部曲:建module改pom写yml主启动业务类好的环境配置比代码更重要所有源码地址:https://gitee.com/xyy-kk_admin/spring-cloud入门--------------------------------------------------------
Unicode和URL编码 c3e1ce81199b
1url是针对客户端请求地址的一种编码格式,会将url中的敏感信息加密,在传输过程当中起到保护作用2Unicode是世界上的一整套字符集编码,会囊括世界上所有国家的字符集
mysql查看当前编码_怎么查看mysql数据库字符集编码 weixin_39828457 mysql查看当前编码
Mysql字符集(学习笔记十)showcharcaterset;showvariableslike'%character%';1.查看mysql所支持的字符集指令：SHOWCHARACTERSET;很多很多，这里就不全部放上来了，这里的charset代表字符集，就是编码对应字符的集合，后面的collati...文章sktj2018-05-21640浏览量你的php网页乱码了吗一、学习php的童鞋在
数据引擎INNODB以及字符集编码的相关知识清宸~ MySQL sql 数据库
一.关于数据引擎1.INNODB默认使用~2.MYISAM早些年使用的MYISAMINNODB事务支持不支持支持数据行锁定不支持支持外键约束不支持支持全文索引支持不支持表空间的大小较小较大，约为2倍常规使用操作：MYISAM节约空间，速度较快INNODB安全性高，事物的处理，多表多用户操作在物理空间存在的位置：所有数据库文件都存在data目录下，一个文件夹就对应一个数据库，本质还是文件的存储！设置
【ARM 安全系列介绍 3.2 -- Base64 介绍】 CodingCos #【ARM 安全加解密专栏】安全网络 Base64
文章目录Base64介绍Base64字符集编码原理示例在Python中使用Base64编解码Base64介绍Base64是一种基于64个可打印字符来表示二进制数据的编码方法。由于直接处理二进制数据在某些场合可能会出现问题（比如在电子邮件或网页中），因此需要一种方式来将二进制数据编码为纯文本格式。Base64是一种常用的编码方式，它能将二进制数据转换为由ASCII字符组成的字符串。Base64字符集
JMeter下载与安装 QQ1215461468 软件测试 jmeter
文章目录前言一、安装java环境（JDK下载与安装）二、JMeter下载三、JMeter安装1.解压缩2.配置环境变量四、JMeter启动（启动成功则代表JMeter安装成功）五、JMeter汉化（将JMeter修改成中文）1.方法一：暂时修改2.方法二：永久修改六、JMeter修改字符集编码（解决中文乱码）七、JMeter连接数据库jar包存放及配置总结前言ApacheJMeter是Apache
JAVA WEB项目引用JS，JS中文出现乱码解决方法，JSON传递中文字符，request中取值出现中文乱码的问题紫薯馍馍 JAVA
JAVAWEB项目引用JS，JS中文出现乱码解决方法，1、page指令中设置contentType、pageEncoding属性使用后没有解决问题，contentType属性用于设置相应正文的MIME类型和JSP页面中文本内容的字符集编码；pageEncoding属性用于指定JSP页面中文本内容的字符集编码格式，如果指定了pageEncoding属性，则contentType中的charset就不
javamysql L-xykeen java之路数据库 mysql java
文章目录1、初识MySQL1.1、数据库分类2、列类型2.1、数值2.2、字符串2.3、事件日期3、字段属性4、表操作4.1、字符集编码4.2、修改表结构4.3、清除表5、DQL查询数据（最重点）5.1、DQL5.2、查询去重5.3、数据库的表达式5.4、模糊查询5.5、连表查询5.6、分页和排序排序分页6、函数6.1、常用函数6.2、聚合函数6.3、分组和过滤6.4、数据库级别的MD5加密（扩展
字符乱码解决方案 wmxz520 JavaEE
get方式乱码解决方法字符转字节，然后再转字符将乱码字符串按照错误的编码方式转换为原始的字节码序列，然后将原始的字节码序列安装正确的编码转化为正确的文字即可。//这里假设abc是使用ISO8859-1字符集编码的Stringabc="张三";byte[]bs=abc.getBytes("ISO8859-1");abc=newString(bs,"UTF-8");获取请求参数之前设置字符编码requ
mysql中int(10)和char(10)，varchar(10)区别是什么？菜鸟教程*…* mysql 数据库
整体对比表格int(10)char(10)varchar(10)存储方式二进制整数字符集编码的字符串字符集编码的字符串存储空间固定为4字节固定为10字节根据实际使用长度变化，通常更小存储内容整数字符串(用空格填充)字符串(不需要填充)比较大小整数的比较字符串的字典序比较字符串的字典序比较空值处理0或NULL"或NULL"或NULL总体来说，int(10)适合存储整数，char(10)和varcha
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

实例详细介绍各种字符集编码转换问题

你可能感兴趣的:(字符集编码)