[C/C++] 各种C/C++编译器对UTF-8源码文件的兼容性测试（VC、GCC、BCB）

在不同平台上开发C/C++程序时，为了避免源码文件乱码，得采用UTF-8编码来存储源码文件。但是很多编译器对UTF-8源码文件兼容性不佳，于是我做了一些测试，分析了最佳保存方案。

一、测试程序

　　为了测试编译器对UTF-8源码文件兼容性，我编写了这样的一个测试程序——

//#if _MSC_VER >= 1600    // VC2010
//#pragma execution_character_set("utf-8")
//#endif

#include <stdio.h>
#include <locale.h>
#include <string.h>
#include <wchar.h>

char* psa = "\u4e00字A";
wchar_t* pdw = L"\u4e00字W";

int main(int argc, char* argv[])
{
    char* pa;
    wchar_t* pw;

    setlocale(LC_ALL, "");    // 使用系统当前代码页.

    // char
    printf("len<%d>=%d,str=%s\t//", sizeof(char), strlen(psa), psa);
    for(pa=psa; *pa!=0; ++pa)    printf(" %.2X", (unsigned char)*pa);
    printf("\n");
    
    // wchar_t
    printf("len<%d>=%d,str=%ls\t//", sizeof(wchar_t), wcslen(pdw), pdw);
    for(pw=pdw; *pw!=0; ++pw)    printf(" %.4X", (unsigned int)*pw);
    printf("\n");

    return 0;
}

　　如果系统默认编码是GB2312（如中文Windows系统），该程序的输出结果应是——
len<1>=5,str=一字A // D2 BB D7 D6 41
len<2>=3,str=一字W // 4E00 5B57 0057

　　如果系统默认编码是UTF-8（如Linux系统），该程序的输出结果应是——
len<1>=7,str=一字A // E4 B8 80 E5 AD 97 41
len<4>=3,str=一字W // 4E00 5B57 0057

　　注：
1. “len”旁尖括号内的是字符类型的宽度。char类型一般是1字节。而wchar_t类型跟编译器与操作系统有关，Windows平台下一般2字节，Linux平台下一般4字节。
2. “len<?>=”右侧的数字是字符个数。用char类型，一个汉字的GB2312编码是2个字符，一个汉字的UTF-8编码一般是3个字符。而对于wchar_t类型，一个汉字一般是1个字符。
3. “str=”右侧的是所显示的字符串。
4. “//”右侧用于显示每一个字符的值。

二、测试结果

　　需要测试这些方面——
1. 分别测试不同操作系统下的多种编译器。
2. 无签名的UTF-8与带签名的UTF-8。UTF-8存储方案分别有两种，一是无签名的UTF-8，另一是带签名的UTF-8，这两种方案的区别是——是否存在签名字符（BOM）。
3. 执行字符集。VC2010增加了“#pragma execution_character_set("utf-8")”，指示char的执行字符集是UTF-8编码。

　　根据上面的要求，制定好了测试项目，分别有Window平台下的测试与Linux平台下的测试。
　　Window平台下的测试有——
[VC6, noBOM]：VC6.0 sp1，源码使用无签名的UTF-8编码。
[VC6, BOM]：VC6.0 sp1，源码使用带签名的UTF-8编码。
[VC2003, noBOM]：VC2003 sp1，源码使用无签名的UTF-8编码。
[VC2003, BOM]：VC2003 sp1，源码使用带签名的UTF-8编码。
[VC2005, noBOM]：VC2005 sp1，源码使用无签名的UTF-8编码。
[VC2005, BOM]：VC2005 sp1，源码使用带签名的UTF-8编码。
[VC2010, noBOM]：VC2010 sp1，源码使用无签名的UTF-8编码。
[VC2010, BOM]：VC2010 sp1，源码使用带签名的UTF-8编码。
[VC2010, noBOM, execution_character_set]：VC2010 sp1，源码使用无签名的UTF-8编码，并使用“#pragma execution_character_set("utf-8")”。
[VC2010, BOM, execution_character_set]：VC2010 sp1，源码使用带签名的UTF-8编码，并使用“#pragma execution_character_set("utf-8")”。
[BCB6, noBOM]：Borland C++ Builder 6.0，源码使用无签名的UTF-8编码。
[BCB6, BOM]：Borland C++ Builder 6.0，源码使用带签名的UTF-8编码。
[gcc(mingw), noBOM]：MinGW中的GCC 4.6.2，源码使用无签名的UTF-8编码。
[gcc(mingw), BOM]：MinGW中的GCC 4.6.2，源码使用带签名的UTF-8编码。

　　Linux平台下的测试有——
[gcc(fedora), noBOM, chs]：Fedora 17自带的GCC 4.7.0，源码使用无签名的UTF-8编码，系统语言设为“简体中文”。
[gcc(fedora), BOM, chs]：Fedora 17自带的GCC 4.7.0，源码使用带签名的UTF-8编码，系统语言设为“简体中文”。
[gcc(fedora), noBOM, eng]：Fedora 17自带的GCC 4.7.0，源码使用无签名的UTF-8编码，系统语言设为“英语”。
[gcc(fedora), BOM, eng]：Fedora 17自带的GCC 4.7.0，源码使用带签名的UTF-8编码，系统语言设为“英语”。

　　测试结果汇总如下（分号“;”后的是我写的注释）——

[VC6, noBOM]
len<1>=9,str=u4e00瀛桝    // 75 34 65 30 30 E5 AD 97 41    ; VC6无法识别“\u”转义符，直接输出了“u4e00”。
len<2>=7,str=u4e00瀛梂    // 0075 0034 0065 0030 0030 701B 6882

[VC6, BOM]
无法编译！    ; 因BOM字符被编译器当做了错误的语句。

[VC2003, noBOM]
len<1>=0,str=    //    ; 编译器无法识别字符串。
len<2>=3,str=一瀛梂    // 4E00 701B 6882

[VC2003, BOM]
len<1>=0,str=    //
len<2>=3,str=一字W    // 4E00 5B57 0057

[VC2005, noBOM]
len<1>=6,str=一瀛桝    // D2 BB E5 AD 97 41
len<2>=3,str=一瀛梂    // 4E00 701B 6882

[VC2005, BOM]
len<1>=5,str=一字A    // D2 BB D7 D6 41
len<2>=3,str=一字W    // 4E00 5B57 0057

[VC2010, noBOM]
len<1>=6,str=一瀛桝    // D2 BB E5 AD 97 41    ; “字A”的UTF-8编码为“E5 AD 97 41”，编译器将它们识别为GB2312编码的“瀛桝”，并将其存储为GB2312字符串。
len<2>=3,str=一瀛梂    // 4E00 701B 6882    ; “字W”的UTF-8编码为“E5 AD 97 57”，编译器将它们识别为GB2312编码的“瀛梂”，并将其存储为UTF-16字符串。

[VC2010, BOM]
len<1>=5,str=一字A    // D2 BB D7 D6 41    ; 因带有BOM，编译器正确的识别了字符串，并将其存储为GB2312字符串。
len<2>=3,str=一字W    // 4E00 5B57 0057    ; 因带有BOM，编译器正确的识别了字符串，并将其存储为UTF-16字符串。

[VC2010, noBOM, execution_character_set]
len<1>=8,str=一鐎涙    // D2 BB E7 80 9B E6 A1 9D    ; “\u4e00”被识别为“一”，并存储为GB2312编码“D2 BB”。“字A”的UTF-8编码为“E5 AD 97 41”，编译器将它们识别为GB2312编码的“瀛桝”，并存储为UTF-8编码的“E7 80 9B E6 A1 9D”。但显示时系统默认是 GB2312 编码。
len<2>=3,str=一瀛梂    // 4E00 701B 6882

[VC2010, BOM, execution_character_set]
len<1>=6,str=一瀛桝    // D2 BB E5 AD 97 41    ; “\u4e00”被识别为“一”，并存储为GB2312编码“D2 BB”。“字A”的UTF-8编码为“E5 AD 97 41”，编译器正确的将其存储为UTF-8编码。但显示时系统默认是 GB2312 编码。
len<2>=3,str=一字W    // 4E00 5B57 0057

[BCB6, noBOM]
len<1>=6,str=一瀛桝    // D2 BB E5 AD 97 41
len<2>=3,str=一瀛梂    // 4E00 701B 6882

[BCB6, BOM]
无法编译！    ; 因BOM字符被编译器当做了错误的语句。

[gcc(mingw), noBOM]
len<1>=7,str=涓€瀛桝    // E4 B8 80 E5 AD 97 41    ; 存储为UTF-8编码。但显示时系统默认是 GB2312 编码。
len<2>=3,str=一字W    // 4E00 5B57 0057

[gcc(mingw), BOM]
len<1>=7,str=涓€瀛桝    // E4 B8 80 E5 AD 97 41
len<2>=3,str=一字W    // 4E00 5B57 0057


[gcc(fedora), noBOM, chs]
len<1>=7,str=一字A    // E4 B8 80 E5 AD 97 41    ; 存储为UTF-8编码。显示时系统默认是 zh_CN.utf8 编码，正常输出。
len<4>=3,str=一字W    // 4E00 5B57 0057

[gcc(fedora), BOM, chs]
len<1>=7,str=一字A    // E4 B8 80 E5 AD 97 41
len<4>=3,str=一字W    // 4E00 5B57 0057

[gcc(fedora), noBOM, eng]
len<1>=7,str=一字A    // E4 B8 80 E5 AD 97 41    ; 存储为UTF-8编码。显示时系统默认是 en_US.utf8 编码，正常输出。
len<4>=3,str=一字W    // 4E00 5B57 0057

[gcc(fedora), BOM, eng]
len<1>=7,str=一字A    // E4 B8 80 E5 AD 97 41
len<4>=3,str=一字W    // 4E00 5B57 0057

三、结果分析

　　观察测试结果，我们首先可以发现以下几点——　　
VC6和BCB6都无法编译带签名UTF-8编码的代码文件，它们会将签名字符（BOM）当做错误的语句。
VC6无法识别“\u”转义符。
VC2003无法识别UTF-8编码的char。

3.1 原理分析

　　Windows下的测试以VC2010最为典型，以此为例来讲解。

　　在编译过程中，处理字符串时会涉及下面两种字符集——
源码字符集(the source character set)：源码文件是使用何种编码保存的。
执行字符集(the execution character set)：可执行程序内保存的是何种编码。

　　要想使程序不会乱码，必须满足——
1) 编译器准确识别了源码字符集，从而得到正确的字符串数据。
2) 运行环境的编码与执行字符集相同。运行环境的编码可通过setlocale函数来配置，“setlocale(LC_ALL, "")”表示使用系统默认编码。对于简体中文Windows来说一般是GB2312，如果执行字符集相同，那就能正常显示，否则会乱码。

　　VC2010是这样处理的——
源码字符集：如果有签名字符，就按它的编码来解析；否则使用本地Locale字符集。
执行字符集：对于char类型，如果有“#pragma execution_character_set”，就按它的编码来存储字符串；否则使用本地Locale字符集。对于wchar_t类型，总是使用UTF-16编码。

　　当源码使用带签名的UTF-8编码时，VC2010能正确的识别源码字符集是UTF-8。然后因没有“#pragma execution_character_set”，执行字符集是本地Locale字符集——
[VC2010, BOM]
len<1>=5,str=一字A // D2 BB D7 D6 41 ; 因带有BOM，编译器正确的识别了字符串，并将其存储为GB2312字符串。
len<2>=3,str=一字W // 4E00 5B57 0057 ; 因带有BOM，编译器正确的识别了字符串，并将其存储为UTF-16字符串。

　　当源码使用无签名的UTF-8编码时，VS2010因找不到签名字符，源码字符集被误认为是本地Locale字符集。然后因没有“#pragma execution_character_set”，执行字符集是本地Locale字符集——
[VC2010, noBOM]
len<1>=6,str=一瀛桝 // D2 BB E5 AD 97 41 ; “字A”的UTF-8编码为“E5 AD 97 41”，编译器将它们识别为GB2312编码的“瀛桝”，并将其存储为GB2312字符串。
len<2>=3,str=一瀛梂 // 4E00 701B 6882 ; “字W”的UTF-8编码为“E5 AD 97 57”，编译器将它们识别为GB2312编码的“瀛梂”，并将其存储为UTF-16字符串。

　　当使用“#pragma execution_character_set("utf-8")”配置了执行字符集为UTF-8后，情况变得更复杂了。我们先看看VC2010能正确识别源码字符集的带签名文件——
[VC2010, BOM, execution_character_set]
len<1>=6,str=一瀛桝 // D2 BB E5 AD 97 41 ; “\u4e00”被识别为“一”，并存储为GB2312编码“D2 BB”。“字A”的UTF-8编码为“E5 AD 97 41”，编译器正确的将其存储为UTF-8编码。但显示时系统默认是 GB2312 编码。
len<2>=3,str=一字W // 4E00 5B57 0057

　　再看看无签名时的情况。VS2010因找不到签名字符，源码字符集被误认为是本地Locale字符集，即误将UTF-8识别为GB2312。然后根据执行字符集，又转换编码为UTF-8进行存储。最后在运行时因默认编码是GB2312，再次误将UTF-8识别为GB2312——
[VC2010, noBOM, execution_character_set]
len<1>=8,str=一鐎涙 // D2 BB E7 80 9B E6 A1 9D ; “\u4e00”被识别为“一”，并存储为GB2312编码“D2 BB”。“字A”的UTF-8编码为“E5 AD 97 41”，编译器将它们识别为GB2312编码的“瀛桝”，并存储为UTF-8编码的“E7 80 9B E6 A1 9D”。但显示时系统默认是 GB2312 编码。
len<2>=3,str=一瀛梂 // 4E00 701B 6882

　　从上面这2个例子中，发现VC2010存在一个Bug——“#pragma execution_character_set”对“\u”转义字符无效，“\u”转义字符总是使用本地Locale字符集，而不是执行字符集。

3.2 GCC分析

　　GCC的源码字符集与执行字符集默认是UTF-8编码，这是因为现在的Linux系统大多使用UTF-8编码。就算调整了Linux系统语言后，只是区域发生了变化，字符编码依然是UTF-8。所以我们的程序在“简体中文”与“英语”下，均能正确的显示中文字符。

　　MinGW中的GCC也是这样的，源码字符集与执行字符集默认是UTF-8编码。但是简体中文的Windows的默认编码是GB2312，会将printf输出UTF-8字符串误认为是GB2312，造成乱码。

3.2 最佳方案

　　如果字符串常量中没有非ASCII字符，建议源码文件使用无签名的UTF-8编码，这样能支持早期的编译器。
　　如果字符串常量中含有非ASCII字符，建议源码文件使用带签名的UTF-8编码，这样能使大多数编译器正确的处理源码字符集。

　　补充——
1. 注意条件仅是“字符串常量中没有非ASCII字符”。如果是从外部文件或其他途径获得非ASCII字符串，只要选择了合适的字符串函数，无签名UTF-8编码的源码文件也是能行的。
2. VC2010新增的“#pragma execution_character_set”用于明确要求UTF-8字符串的场合。由于Windows没有UTF-8的locale，实用性较小，

参考文献——
《ISO/IEC 9899:1999 (C99)》。ISO/IEC，1999。www.open-std.org/jtc1/sc22/wg14/www/docs/n1124.pdf
《C99标准》。yourtommy。http://blog.csdn.net/yourtommy/article/details/7495033
《QString乱谈(2) 》。dbzhang800。http://blog.csdn.net/dbzhang800/article/details/7540905

源码下载——
http://files.cnblogs.com/zyl910/testwchar.rar

rnn-人名案例实现 Ai玩家hly rnn python 深度学习
模型训练实现:coding:utf-8导入torch工具importjsonimporttorch导入nn准备构建模型importtorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptim导入torch的数据源数据迭代器工具包fromtorch.utils.dataimportDataset,DataLoader用于获得常见字母
JSON数据格式及其在WEB开发中的应用 m0_70273331 Web前端经验分享前端前端框架
json与xml互相转换JSON的格式必须是数组或者对象，其属性支持一下类型：boolean:true,falsenumber:0,1,2,3string:“abc”object:null,{},{“a”:“b”}array:[],[1,2]严格的语法约束不能有ascii之外的字符，汉字应使用”\u6c49”格式；然而在utf-8流行的时代，汉字不编码已不是啥大问题了；不能有注释，行注释与块注释都
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
Python编程基础：从变量到循环我是渣渣辉 python 开发语言
Python1.注释2.变量什么是变量？为什么使用变量（必要性）？定义变量标识符（变量）命名规范两个数交换3.python的数据类型基本数据类型复合数据类型数据类型的转换（input的输入默认是字符串类型）自动类型转换强制类型转换字符串格式化输出常用运算符算术运算符逻辑运算符关系运算符赋值运算符三目运算符位运算符所属运算符程序控制流程顺序选择循环总结1.注释python3.8默认是UTF-8编码#
golang unicode转utf-8 rambo.huang golang go unicode
golangunicode转utf-8Unicode和utf-8的区别具体转换代码Unicode和utf-8的区别参考文章具体转换代码funchandleResponse(resp*http.Response)(string,error){respBytes,err:=ioutil.ReadAll(resp.Body)deferresp.Body.Close()iferr!=nil{fmt.Pri
Python 词法分析知识的宝藏 python
Python程序由解析器读取，输入解析器的是词法分析器生成的形符流。本章介绍词法分析器怎样把文件拆成形符。Python将读取的程序文本转为Unicode代码点；编码声明用于指定源文件的编码，默认为UTF-8，详见PEP3120。源文件不能解码时，触发SyntaxError。2.1.行结构Python程序可以拆分为多个逻辑行。2.1.1.逻辑行NEWLINE形符表示结束逻辑行。语句不能超出逻辑行的边
SSE (Server-Sent Events) 技术简介
一、SSE技术概述Server-SentEvents(SSE)是一种允许服务器向客户端实时推送数据的Web技术，它基于HTTP协议实现服务器到客户端的单向通信。基本特点●单向通信：仅服务器→客户端方向●基于HTTP：使用标准HTTP协议，无需特殊协议●文本格式：默认传输UTF-8编码的文本数据●自动重连：内置连接中断恢复机制●轻量级：相比WebSocket更简单轻量二、技术原理1.通信机制SSE通
从CoNLL-U格式文件读取文本的实战指南 yunwu12777 langchain 交互深度学习
在自然语言处理任务中，使用标准化的文本格式能够显著简化数据处理工作。CoNLL-U格式就是这样一种被广泛应用的文本格式，它是CoNLL-X格式的修订版，主要用于句法分析和词法标注任务。技术背景介绍CoNLL-U格式的文件是纯文本文件，采用UTF-8编码，文本内容包括三类行：词行：每个行代表一个词或标记，包含10个字段，用单个制表符分隔。空行：用于表示句子边界。注释行：以哈希符号(#)开头，用于附加
Linux iconv命令 fengyehongWorld Linux linux 运维
参考资料Linuxiconv指令目录一.简介二.查看支持的编码三.`SHIFT-JIS`转`UTF-8`一.简介⏹iconv是Linux上用于文本编码转换的标准工具，基于GNUlibiconv库，一般Linux操作系统都会内置该命令，无需额外进行安装。主要用于将文件从一种字符集（如GBK、Shift_JIS）转换为另一种（如UTF-8）。短option长option说明-f编码格式--from-c
python(点点点工程师自我代码修养)--小案例--爬取静态网页
小案例–爬取静态网页(猫咪交易网)importrequestsimportparselimportcsv#创建一个用于存储数据的csv文件f=open('猫咪.csv',mode='a',encoding='utf-8',newline='')csv_write=csv.DictWriter(f,fieldnames=['标题','商店','价格','浏览量','卖家承诺','连接','地区'])
python学习记录16 彤银浦学习
字符串总结python程序使用unicode编码，中文字符与英文字符都占一个字符，但英文字符只占一个字节，中文字符若按照utf-8格式编码占3个字节。（1）字符串常用方法1）大小写转化string.upper()#将所有字母转换为大写string.lower()#将所有字母转换为小写2）字符串分割string.split(sep='')#将字符串按照sep进行分割3）字符串的检索string.co
Python（StringIO）模块详解知行流浪 Python Python 编码
#coding=utf-8'''Createdon2017年3月5日@author:zxt'''fromioimportStringIO#StringIO还有一个对应的c语言版的实现，它有更好的性能，但是稍有一点点的区别:#cStringIO没有len和pos属性。（还有，cStringIO不支持Unicode编码）#如果实例化一个带有默认数据的cStringIO.StringIO类。那么该实例是
Windows执行jar包琪丶琪 windows jar java
配置环境变量：命令行测试：java-version将jar包上传至指定目录，在该目录下创建运行脚本：chcp65001java-Dfile.encoding=utf-8-jarjxpaddle-admin.jarchcp65001：将当前cmd编码改为UTF-8，仅对当前cmd有效-Dfile.encoding=utf-8：指定运行jar包编码为UTF-8
Python实现MySQL建表语句转换成Clickhouse SQL weixin_30777913 python mysql clickhouse sql 数据库
主程序：**main_converter.py**importreimportjsonimportargparsedefload_config(config_path:str)->dict:'''配置管理模块:加载JSON格式配置文件'''withopen(config_path,mode="r",encoding="utf-8")asf:returnjson.load(f)classBaseCo
Neo4j：入门基础（二）之导入CSV文件 Dawn_www 知识图谱 neo4j
目录一、CSV文件说明二、Neo4j导入CSV文件的方式方法一：Cypher命令LOADCSV方法二：neo4j-import三、实践操作四、其他1.导入JSON、JDBC和XML2.导入dump文件#CSV文件1️⃣csv文件推荐是utf-8编码，否则会造成中文乱码。2️⃣读取csv文件默认设置（conf/neo4j.conf）：（1）使用loadcsv时，文件路径默认需要放在import目录（
Neo4j导入csv文件风云诀4 图数据库知识图谱人工智能 Neo4j
Neo4j导入csv文件文章目录Neo4j导入csv文件前言文件访问常用参数实际书写参考文章前言Neo4j数据库可以使用loadcsv命令从CSV文件中导入数据。loadcsv命令可以帮助我们导入中小型的数据，理论上大概能处理到一千万条记录。其中，CSV文件推荐是使用UTF-8编码，不然就会造成中文乱码的糟糕情况。文件访问Neo4j的配置文件是conf文件夹下的neo4j.conf文件，里面有一句
以Node.js为例的UTF-8编码占用字节示例 _linyu__ 基础知识
C:\Windows\system32>node>buf=Buffer.from('怎么');>buf2=Buffer.from('怎');>buf3=Buffer.from('爨');>buf4=Buffer.from('庺');>Buffer.from('a');>Buffer.from('6');>Buffer.from(',');>Buffer.from('￥');>
QByteArray，QString 与标准字符串的区别 ILOVECOMPUTING QByteArray QString std string 内存溢出内存指针 const char
QByteArray、QString与标准字符串的区别1.编码处理QByteArray存储原始字节数据（char*），不涉及编码转换。适合处理二进制数据（如图像、网络数据包），或明确知道编码格式的文本（如UTF-8）。示例：QByteArraydata="\x48\x65\x6C\x6C\x6F";//直接存储字节序列QString使用UTF-16编码存储文本，支持国际化字符集。自动处理编码转换，
GBK、UTF-8、ASCLL、url编码博childe linux centos 运维
GBKGBK全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：ChineseInternalCodeSpecification）。GBK向下与GB2312编码兼容，向上支持ISO10646国际标准，是前者向后者过渡过程中的一个承上启下的产物。GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7
ASCII Unicode UTF-8 字符集字符编码土豆Coder 字符及编码前端
ASCIIUnicodeUTF-8字符集字符编码基本概念字符字符集字符编码字符集和字符编码ASCII字符集Unicode字符集UTF-8测试题基本概念字符集为每个字符分配了一个唯一的编号，通过这个编号就能找到对应的字符。在编码过程中我们经常会使用字符，而使用字符的前提就是把字符放入内存中，而放入内存中的仅仅是字符的编号，而不是真正的字符实体。这就引出一个问题，如何将这些字符编号存入内存中，还能让计
ASCII、Unicode、GBK和UTF-8字符编码的区别联系 vivian_wanjin computer ascii unicode gbk
ASCII、Unicode、GBK和UTF-8字符编码的区别联系很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为”字节“。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为”计算机“。开始计算机只在美国用。八位的字节
字符编码：ASCII，GBK，Unicode 和 UTF-8 末日在做什么呢面经编程语言编码学
文章目录前言一、ASCII码二、非ASCII编码三、GBK四、ANSI编码五、UnicodeUnicode的问题六、UTF-8前言大家写程序时肯定有被编码问题困扰过，稍不注意，程序输出就可能是一堆乱码，目前世界上有UTF-8、GBK、Unicode等等编码方式，但你真的了解其中的原理吗？一、ASCII码我们知道，计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有0和1两种状态，因
Java IO流必备：File、递归与字符集详解 EnigmaCoder Java java 开发语言
目录前言File创建File类的对象File类的相关方法方法递归认识递归文件搜索字符集常见字符集⚙️标准ASCII字符集⚙️GBK（汉字内码扩展规范，国标）⚙️Unicode（统一码、万国码）⚙️UTF-8（UnicodeTransformationFormat-8-bit）编码与解码⚙️字符串编码与解码方法总结⚙️示例代码（Java）⚙️核心注意事项前言大家好！我是EnigmaCoder。本文为
UTF-8表情符号、Web表情符号、表情编码、表情代码、emoji表情、emoji翻译表、表情翻译表
文章目录字符十进制十六进制中文名称英文名称⌚8986231A手表Watch⌛8987231B沙漏Hourglass⏩919323E9快进FastForward⏪919423EA快退FastReverse⏫919523EB向上快进FastUpButton⏬919623EC向下快进FastDownButton⏭919723ED下一曲NextTrack⏮919823EE上一曲PreviousTrack⏯
OpenHarmony 5.0读取文件并写入到另一份文件(公共文件夹)，并保持原先的格式以及编码类型龚礼鹏 OpenHarmony 5.0(鸿蒙next)华为 harmonyos
目录1.背景2.流程分析3.完整patch1.背景需求是原先的文本编码类型和编码格式不发生任何变化，需要将原始文件一模一样的复制一份，首先我们平时的写入流程如下：根据官方文档我们不能读取string类型并写入，这样会导致原始的编码格式发生变化，自动转换成utf-8的类型，所以需要使用缓冲区的方式写入2.流程分析首先我们需要在原始文本文件中读取出原始文件的缓冲区，这是一个字节流，读取缓冲区需要使用N
Java 中的 FileInputStream 和 FileOutputStream 是用于文件读写的字节流类，直接操作文件的二进制字节数据光年像素 java 开发语言
一、核心概念：字节流vs字符流字节流：以字节（byte，8位）为单位读写数据，不涉及字符编码，直接操作文件的二进制内容。适合处理所有类型的文件（包括二进制和文本）。字符流：以字符（char，16位）为单位读写数据，依赖字符编码（如UTF-8、GBK），适合处理纯文本文件的高级操作（如自动转换换行符）。FileInputStream（输入流）和FileOutputStream（输出流）是字节流的典型
IDEA21中文乱码解决办法波诺波 java 开发语言
我改了很多，可能也改了一些没用的1.在VMoptions中添加-Dstdout.encoding=UTF-8-Dstderr.encoding=UTF-82.IDEA控制台输出设置为UTF-8打开IDEA→File→Settings（或Ctrl+Alt+S）搜索"Encoding"设置ProjectEncoding和Defaultencodingforpropertiesfiles为UTF-8勾选
TRAE 打开项目，注释乱码，GBK 转换 UTF-8 lijunwei19 #encoding #tr
在使用TRAE打开一个基于Keil开发的STM32无人机项目时，发现项目中的注释内容显示为乱码。经过排查，发现原始代码文件采用的是GBK或GB2312编码格式，而TRAE默认使用的是UTF-8编码显示，导致注释无法正确解析。问题场景：项目原本是在Keil环境中开发的，Keil支持使用GBK编码并在菜单中可设置字体编码（位置：C/C++菜单）。在TRAE中打开后，中文注释显示为乱码，说明编码不兼容。
树莓派5+ubuntu24.04+ros2 jazzy 安装测试小牛牛先生树莓派5开发 ubuntu linux 嵌入式硬件
1.检查当前系统版本确定是否是：Ubuntu24.04，可以通过以下命令进行查看（如果不是则建议使用RaspberryPi工具重新进行烧录）：lsb_release-a温馨提示：如果觉得系统烧录在TF卡中比较卡或者响应慢，可以准备一款固态硬盘将系统烧录在硬盘中启动，会快很多2.设置UTF-8支持ROS2需要UTF-8编码支持，你可以通过以下命令来检查和设置UTF-8编码：locale#查看当前lo
‘str‘ object has no attribute ‘decode‘ qfqf123456 深度学习 python base64
将print(‘张三’.decode(‘utf-8’))//错误改为print(‘张三’.encode(‘utf-8’).decode(‘utf-8’))//正确转载于：https://blog.csdn.net/qq_38890412/article/details/86591294
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc