字符编码

这篇文章是我两年多前写给同事看的，当时不少同事对编码了解甚少，直到现在发现还是很多人对编码了解甚少，所以我就把这篇文章发出来让大家参考一下，希望对一些人有帮助，不过这篇文章是当时花了3个小时左右写的，错误在所难免。

字符编码历史

计算机，发明在20世纪中期西方国家。计算机内部使用二进制作为表示任何东西的基础，为了能够在计算机中使用整数、浮点数等都要对其进行编码，只是这个编码是在硬件层的（CPU指令），而计算机要与人进行交互就要对人所能识别的文字进行编码，ASCII就在那个时候诞生。

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）

美国标准编码，用于编码英文字母的编码方式。它用了0-127的数字之间来表示a-z等可见字符和一些控制字符，而这个字符集的编码就确定了ASCII字符集，而这个字符集要想要在计算机的二进制方式下使用就必须用计算机能够理解的方式来处理，ASCII使用了一个计算机字节来表示这种编码方式，在C/C++语言中一个字节通常我们使用char来表示。

GBK

GBK，大家都知道，汉字内码扩展规范。GBK是怎么来的呢？GBK由GB2312扩展来的，GB2312是最早的中文编码方式。GB2312又是怎么来的呢？

计算机发展到80年代在中国开始慢慢的兴起。为了能够让中国人能够更好的使用计算机，自然要引入中文编码到计算机中。但是引入中文编码遇到了一个问题，就是ASCII使用一个字节（char）来编码字符，但是中国的汉字是肯定不能够在一个字节中表示完全，怎么办？聪明的中国人发现一个字节（char）可表示的最大区间是0-255，而ASCII只使用了0-127,128-255并没有使用，那么我们就可以用多个字节来表示中文编码，比如：

一个字节（char）的值是在0-127之间，我们就还是用这个字节来表示ASCII里面的字符，也就是说兼容ASCII。

一个字节（char）的值是在128-255之间（此处假设是130），则说明它不是在ASCII字符集里面的，那它表示什么字符呢？此种情况下，则要在读取下一个字节（char）的值（此处假设是10），那么就将两个字节的值：130和10按照某种计算规则来计算等到一个值，此处计算得到3290，那么这个值可以在一个字符编码表中去查，它可能得到某个汉字，此处假设为‘字’字，然后就可以在屏幕上显示出来了。

（此处的计算都是假设，我没有详细查，以后有时间再更正，理解原理即可。也可以查看维基百科了解详细。）

GBK中有哪些字符？

GBK是微软利用GB2312未使用的编码空间，收入GB13000.1的全部字符制定而来。GBK是用来编码中文汉字的，并且兼容ASCII字符集。GBK中是不是只有简体中文呢？

因为简体汉字和繁体汉字有很大一部分是相同，把常见的几千个繁体中文里面的汉字编码进来也不会多多少，因此，GBK里面也是有繁体中文汉字的。

除此之外还有什么，因为现在简体和繁体的常见字都编码了，那日文里面的大多数文字也都在其中，只需要将日文的平假名和片假名（也就几十个字符）编码进来。

因此，GBK里面是有常见的简体中文、繁体中文、日文等字符在一起的字符集。

Big5等编码

中国人发明了多字节编码的方式，但是只能编码中国汉字（包括简繁和日文）。其他国家和中国台湾想要编码文字自然就会采用相似的方式来编码，Big5等编码方式就产生了，它们同样按照某种计算方式计算出值，此处假设还是3290，但是他们的编码表和GBK不一样，所以他们代表的文字就不在是‘字’了。

Windows ANSI编码

GBK、Big5等编码就是ANSI编码，也叫本地码。ANSI编码就是本地码的统称，就是在什么国家或地区就是什么编码。比如在中国的大陆地区就是GBK，在中国台湾就是Big5。

乱码

乱码，很常见也很烦的一个Bug，编码Bug。

假设我们在简体中文的机器上，那么本地码是GBK，我们用它编码了一些文字保存在txt文件里面，然后把它拷贝到繁体中文的机器上，此处的本地码是Big5，然后打开这个文件，假设我们使用记事本打开，它打开文件使用的默认编码就是本地码，即Big5，按照Big5的方式计算值，并依次查字符编码表，然后显示出来。乱码来了，本来在GBK中编码的有意义的字句，在Big5下计算查表出来得到的是一些文字字符，而这些文字字符连接在一起没有任何意思，因此乱码。

乱码和字体

乱码是编码引起的，而在文字显示中是要去字体中查询到某个字符的形状，然后显示，有可能出现字体里面没有这个文字，那么就会用一个默认的字符显示，此时给人的感觉也像乱码，通常表现出很多个字符都是一个样子（比如一个白框），但是它不是乱码，只是字体中没有文字的信息，换个字体就能显示。

UNICODE

随着互联网的发展，各个国家基本上都有自己的本地编码ANSI编码。为此，系统要支持多过的本地编码，怎么办？引入代码页code page，根据代码页号去查相应的字符集，GBK的代码页就是CP936（有细微差别，详细可以查看维基百科）。

但是代码页还是不能将不同字符集中的字符在同一系统中显示，比如：汉字和阿拉伯文不能同时显示。UNICODE诞生了。

UNICODE就是要将所有的字符全部编码在一个字符集里面，比如1-10000编码简体中文，10001-20000编码繁体中文，依次类推，这样就构成了UNICODE字符集。但是UNICODE字符集并没说要怎么编码，只是说某个数字代表某个字符，即之规定了数字到字符的的字典，但是没有规定在计算机中怎么编码。

UCS(Universal Character Set)/UTF(Unicode transformation format)

为了在计算机中编码字符，就出现了UCS/UTF编码，常见的有UTF-8，UTF-16（UCS-2），UTF-32（UCS-4）编码。

UTF-8是类似GBK编码的一种编码，就是用多个字节编码计算出值然后查表，它可以是一个字节（也就是兼容ASCII）表示一个字符，可以是两个、三个、四个或者更多个字节根据计算得到某个值，然后去查UNICODE表得到某个字符，这样就将所有字符进行了编码。

UTF-16则至少是需要两个字节来表示，也就是说，可以由两个字节计算得到某个值，也可以是四个字节、六个字节、八个字节计算出值然后查表得到字符。

UTF-32则至少是需要四个字节表示，以此类推。

C/C++中的编码

char在C/C++中表示一个字节，通常也用它来表示编码字符，如果它编码的字符是ASCII编码，则是每个字节都表示一个字符，也就是说每个char表示一个字符。如果编码是ANSI，此处假设是GBK编码，那么可以是一个char表示的字符，也可以是两个char表示一个字符。如果是UTF-8编码，那么可以是一个char、两个char、三个char或者更多来表示一个字符。

wchar_t是C/C++中的宽字符，标准没有规定它占几个字节，只是规定用来编码unicode字符集，一个wchar_t在windows（wchar_t是UTF-16编码）下面占2个字节，在linux（wchar_t是UTF-32编码）下面占4个字节，用wchar_t来编码unicode的话，常见字符都可以用一个wchar_t来表示。但是unicode字符集一直在扩充引入更多的字符，所以很有可能一个wchar_t（windows）不能表示出80001号字符，那么也就出现两个wchar_t表示一个字符，这也就正好符合UTF-16编码的规则。

C/C++中的乱码解决方法

乱码其实是无解的。大多数软件的软件的处理方式就是只处理UNICODE、UTF-8和ANSI编码，因此一段文字的ANSI编码和打开机器的本地码不一样那么就必然出现乱码，当然若人为的告诉软件说这段文字是某个code page编码的，那么还是可以正确显示，但是这是依靠人为操作了。

软件里面处理这个问题处理的最好的有一类软件，就是浏览器。浏览器检测文本编码的方式通常就是猜，猜它是哪种编码，猜完是哪种编码之后就用相应的code page去查字符，然后显示。那么这个猜是不是乱猜呢？不是，是通过逐个字节扫描进行统计，看看这段文本最可能是哪种编码。当然这样做也会有错误，那么也一样会出现乱码，但是已经出现乱码的几率很低了。（想详细了解可以查看firefox和chrome的源码）

看不懂比乱码好

假设一个程序是用的是GBK编码的字符串，那么在一个日文操作系统（Windows）上，软件的字符那将是乱码，这给人一个很不好的感受。即使此软件没有日文版，但是如果能够将简体中文正确的显示出来那还是要好上许多的，说不定使用软件的人还是个懂中文的人。

C++里怎么做？Windows从NT开始就支持宽字符版本的API，对于所有使用API的地方都是用宽字符版本就能够正常的显示出文字了，在C++中就是使用wchar_t。比如：

wchar_t *wstr = L"中文";

然后用对应的宽字符版本的API来显示出来就可以了。那是不是程序内部全部都应该使用wchar_t来表示字符？我个人推荐只在Windows下运行的程序这么做，也就是跟字符显示不相关的东西也使用wchar_t来表示。当然，也可以根据情况在只在显示字符的时候通过调用MultiByteToWideChar将其它编码的字符转换成宽字符来显示，这样显示不相关的字符就可以使用多字节字符集（ANSI、UTF-8）了。

对于跨平台的软件（Windows、Linux），我个人推荐使用UTF-8编码的字符来作为内部处理的字符，这样在只需要在字符显示的地方转换成相应的编码就可以了。当然主要还是在Windows上面做处理，调用MultiByteToWideChar将UTF-8转换成宽字符然后显示。

UTF-8在C++ 98中的表示

在目前的C++标准中，我们通常不能直接在代码里面写出UTF-8编码的字符串常量。

char *str = "中文"; // 对于VS，只有源文件是不带BOM的UTF-8编码时才是UTF-8字符串，对于带BOM的UTF-8编码或者GBK编码的文件都是GBK的字符串；
// 对于GCC，源文件编码是什么那么这个字符串的编码就是什么。

wchar_t *wstr = L"中文"; // 这里使用的是unicode编码

但是，因为ANSI编码和UTF-8编码都是兼容ASCII编码的，所以我们可以在代码里面这样写：

char *str = "abc"; // 此处的编码是ASCII、ANSI、UTF-8

也就是上面这段字符是可以当成ANSI编码也可以当成是UTF-8编码的，那么我们就可以将它当成UTF-8编码来使用。所以在代码里面最好不要出现字母以外的字符。（当然，不考虑多语言版的话除外）

那我们要与用户交互的时候不能是英文字母啊。我们可以从资源文件中读取，即我们可以将要显示的字符放置到ini、XML以及其它文本文件中，这些文件以UTF-8编码。这样我们程序就从资源文件中读取这些UTF-8编码的字符就可以了。这也就可以很好的做多语言版本了，只要将资源文件中的字符改成其它语言的字符就可以了，当然编码还是UTF-8。（Windows下窗口相关的资源.rc也使用UNICODE编码就行）

这样做值得么？值得不值得就看我们的程序是不是需要做多语言版，或者将来要不要做多语言版，如果要，这就是值得的，不要当然就无所谓了。

UTF-8在C++ 11中的表示

C++ 98中不能写出UTF-8、UTF-16、UTF-32的字符串常量，C++ 11加入了新字符类型char16_t和char32_t，其相应的常量表示如下：

u8"中文"; // 表示用UTF-8编码的字符串常量

u"中文"; // 表示用UTF-16编码的字符串常量

U"中文"; // 表示用UTF-32编码的字符串常量

HTTP 请求处理的完整流程到Servlet流程图烟雨国度 http servlet 流程图
HTTP请求处理的完整流程。从TCP三次握手开始，一直到Servlet处理请求并返回响应。首先，让我解释一下response.setContentType("text/html;charset=UTF-8");这行代码：这行代码设置了HTTP响应的Content-Type头。它告诉浏览器：响应的内容类型是HTML(text/html)字符编码是UTF-8(charset=UTF-8)这样浏览器就知
HTML添加文字若无心_. HTML html5
一、创建HTML5文档基本标签//定义文档类型//定义HTML文档//定义关于文档的信息文档标题//定义文档的标题//定义文档的字符编码//定义文档的主体二、文字相关标签1.标题文字-标签可定义标题。定义最大的标题。定义最小的标题。Document这是标题1这是标题2这是标题3这是标题4这是标题5这是标题62.文本段落Document这次会晤的主题是“金砖国家在非洲：在第四次工业革命中共谋包容增长
Unicode字符编码过好每一天的女胖子 Windows c++windows
1、简介Unicode是ASCII（美国信息交换标准码）字符编码的一个扩展。ASCII中每个字符用7位表示，计算机上每个字符8位。Unicode使用全16为字符编码，因此Unicode能表示世界上所有能用于计算机通讯的符号。Unicode最初是作为ASCII的补充。ASCII最终有26个小写/大写字母、10个数字、32个符号、33个控制代码和一个空格，共128个代码。1、优点大小写字符的代码是连续
python字串节对象Bytes 局外人LZ python python
一、简介字节串（bytes）是二进制数据的一种表示形式。它由一系列的字节组成，每个字节都是一个范围为0-255的整数。字节串可以用来表示二进制数据，例如图像、音频、视频、网络数据等。字节串与字符串（str）类型不同，字符串是由Unicode字符组成的文本数据。而字节串是原始的二进制数据，它不具备字符编码的概念，而是将数据以字节的形式进行存储和处理。在处理二进制数据时，字节串是非常有用的数据类型。它
浅谈gbase与oracle 字符集差异 gbase_lmax java 前端开发语言
字符集字符集（CharacterSet）：按照一定的字符编码方案，将特定的符号集编码为计算机能够处理的数值的集合。常见字符集名称：ASCII字符集、Unicode字符集、GB2312字符集、BIG5字符集、GB18030字符集等。字符编码字符编码（CharacterEncoding）：是一套规则，对字符集进行编码的方案。如，Unicode是字符集，UTF-8、UTF-16、UTF-32是三种字符编
字符编码方案：Unicode flying jiang 快速开发 java 前端开发语言
摘要：Unicode（统一码、万国码、单一码）是一种在计算机上广泛使用的字符编码，旨在解决传统字符编码方案的局限，为每种语言中的每个字符设定了统一且唯一的二进制编码，以满足跨语言、跨平台进行文本转换和处理的需求。以下是关于Unicode编码的详细解析：一、历史背景起源与发展：Unicode编码的历史可以追溯到20世纪60年代，当时计算机科学家们意识到不同计算机系统使用不同的字符编码方式，导致文本和
latex学习笔记（三）——中文处理办法 richybai
1.准备工作①，在选项->设置->构建->默认编辑器的下拉菜单中选择XeLaTeX②，在选项->设置->编辑器->默认字体编码的下拉菜单中选择UTF-8③，在软件右下角确定字符编码为UTF-8，如下图所示设置为UTF-82.开始编写中文①，首先导入ctex宏包:\usepackage{ctex}②，将title改为中文内容\title{\heiti学习笔记}%\heiti使中文显示为黑体\auth
MobaXterm设置自动保存日志 Tassel_YUE Linux #Shell 运维
目录需求操作需求想让MobaXterm设置日志自动保存，可以有效追踪过去操作。操作点击Setting按照下图设置：logtype选项卡中三个选项的区别：printableoutput：正常的日志导出outputallsession：类似第一个，不会可能出现字符编码问题printableoutputwithtimestamps：每一行日志都带上时间戳logfilename可以根据自己的需求自定义文件
C语言文件 Qi妙代码 c语言开发语言
1.文件流1.1.文件流概念C语言把文件看作是一个字符的序列，即文件是由一个一个字符组成的字符流，因此c语言将文件也称之为文件流。当读写一个文件时，可以不必关心文件的格式或结构1.2.文件类型1.2.1.文件分类计算机的存储，物理上是二进制的。文本文件是基于字符编码的文件，常见的编码有ASCII编码，二进制文件是基于值编码的文件文本文件：以ASCII码形式存放，一个字节存放一个字符存放每一个ASC
书写HTML的规范恶心_3da6
文章目录1.1通用约定标签Class与ID属性顺序引号嵌套语义嵌套约束严格嵌套约束布尔值属性1.2语义化常见标签语义示例1.3HEAD文档类型语言属性字符编码IE兼容模式SEO优化viewportiOS图标favicon完整的HEAD模板1.1通用约定标签自闭合（self-closing）标签，无需闭合(例如：imginputbrhr等)；可选的闭合标签（closingtag），需闭合(例如：或)
6 字符编码 collman Java基础 android java 跨平台文档编程平台
----------------------android培训、java培训、期待与您交流！----------------------字符编码l计算机里只有数字，计算机软件里的一切都是用数字来表示的，屏幕上显示的一个个字符也不例外。l字符a对应数字97，字符b对应98等，这种字符与数字对应的编码规则被称为ASCII（美国标准信息交换码）。ASCII的最高bit位为0，也就是说这些数字在0到127
Eclipse设置全局UTF-8 小白羊MM
如果要使插件开发应用能有更好的国际化支持，能够最大程度的支持中文输出，则最好使Java文件使用UTF-8编码。然而，Eclipse工作空间(workspace)的缺省字符编码是操作系统缺省的编码。在使用Eclipse时，若要使新建的工程全局都直接使用UTF-8编码而不需要一个个文件去设置，则可以按以下步骤去设置：1、打开“窗口->首选项->常规->工作空间”，将“文本文件编码”设置为UTF-8。那
linux的locale选择小胖_20c7
关于locale的基本概念1名称：对外的接口，用来建立（语系+字符集）的映射关系2语系：决定了该语言包括哪些字符（unicode的字符序号来定义的，字符序号和字符编码不是一回事，字符序号是统一的），以及这些字符的表现格式等3字符集：用于该语系的字符编码4字体用于把字符集的编码转换成屏幕上的字体显示locale涉及到的配置1/etc/sysconfig/i18n：设置默认的语系名称（缺省设置，每个登
换行、回车、字符编码的理解 O-0-O 零散文章
问题描述在20190727当天投产时遇到了一个问题，容器中有字段A及相应的值，但数据入库时该字段为空。对比投产前后的日志情况，发现投产后的SQL多了换行。无其它区别。猜测可能是换行导致的。问题排查（应用采用的入库的方式：1.将SQL配置到数据库中，字段列或条件列以","分隔2.执行INSERT时，将字段或条件以","分隔成列表，进行一一对应。问题即出现在这里）投产之前的sql：a,b,c,d,e,
SpringBoot 笔记 duanmy0687 springboot
时代背景：微服务分布式云原生：docker、kubernetes自动配置原理依赖管理父项目负责依赖管理导入starter场景启动器无需关注版本号，自动版本仲裁自动配置自动配好Tomcat自动配好SpringMVC自动配好Web常见功能，如：字符编码问题组件添加@Configuration@Bean@Component@Controller@Service@Repository@ComponentS
UTF-8 编码简介星河繁开发语言
UTF-8（8位元Unicode转换格式）是一种针对Unicode字符集设计的可变长度字符编码方案。其主要特点如下：可变长度：UTF-8使用1到4个字节来表示Unicode字符，根据字符在Unicode中的位置决定所需的字节数量。ASCII字符集中7位的字符仅用一个字节存储，与ASCII编码完全兼容。编码规则：对于ASCII字符（U+0000至U+007F），UTF-8编码与ASCII编码相同，即
GBK与UTF-8的区别，如何将GBK的文本转UTF-8，将UTF-8编码的文本转GBK kfhj 预编码算法
GBK与UTF-8是两种不同的字符编码方式，它们的主要区别体现在以下几个方面：字符集范围：GBK编码主要支持中文字符和日韩字符，而UTF-8编码则支持全球范围内的字符，包括各种语言和符号。编码方式：GBK编码采用双字节编码，即每个字符都占用两个字节的空间。而UTF-8编码则采用变长编码，根据字符的不同，一个字符的编码长度可以是1到4个字节。这种特性使得UTF-8在编码英文等字符时只需一个字节，从而
Python chardet.detect 字符编码检测 in_tsz python 开发语言
chardet.detect是Python的一个库，用于检测给定字节串的字符编码。其检测原理基于统计学方法。具体来说，chardet.detect使用了一种叫做统计字符n-gram（通常为n=1或n=2）的方法。它会统计字节串中每个字符或字符对出现的频率，并将这些统计结果与预先训练好的字符编码模型进行比较。这些模型包含了不同字符编码所特有的字符频率分布信息。当给定一个字节串时，chardet.de
文件显示命令LS和目录切换命令cd 好名字都被缑取了
ls（选项）（参数）选项-a：显示所有档案及目录（ls内定将档案名或目录名称为“.”的视为影藏，不会列出）；-A：显示除影藏文件“.”和“..”以外的所有文件列表；-C：多列显示输出结果。这是默认选项；-b：将文件中的不可输出的字符以反斜线“”加字符编码的方式输出；-c：与“-lt”选项连用时，按照文件状态时间排序输出目录内容，排序的依据是文件的索引节点中的ctime字段。与“-l”选项连用时，则
文本解码器（TextDecoder）详解爱蹦跶的大A阿 JavaScript保姆级教程前端 javascript
‍个人主页：《爱蹦跶的大A阿》当前正在更新专栏：《VUE》、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》✨前言随着互联网技术的飞速发展，文本数据的传输和处理变得越来越普遍。在不同的计算机系统之间传输文本数据时，需要将文本编码为字节数组，以便在不同的字符编码环境下正确显示。文本解码器（TextDecoder）是JavaScript中一个重要的API，用于将字节数组解
Servlet之乱码问题处理 Gambler_Tu servlet servlet
文章目录乱码问题1.判断字符串的编码格式2.获取GET请求中的数据，打印乱码3.获取POST请求中的数据，打印乱码4.中文字符串，输出到页面显示乱码5.setContentType和setCharacterEncoding乱码问题1.判断字符串的编码格式注意，由于存在重码现象，以下方案并不严谨。//由于字符编码存在重叠区，所以一个字符/字符串有多种编码可能，是完全正常合理的。publicstati
解决Tomcat启动时控制台中文乱码问题马佳乐
代码运行输出正常，下面控制台出现中文乱码：而且明明文本编码格式也都修改为了UTF-8，但依旧解决不了这个问题。该问题产生的原因：因为windows系统中，其命令行窗口在解码字节数组时，默认使用本地字符集（对于我们就是GBK），而Tomcat默认输出的启动信息是通过UTF-8进行编码的，这就导致编码与解码所使用字符集的不一致，从而出现了乱码情况！解决方法:操作：只需要将Tomcat的默认字符编码UT
ascii码，unicode编码集和utf编码方式可爱的小小小狼杂项开发语言
ASCII码ASCII码使用7位二进制数表示一个字符，共定义了128个字符，包括基本的拉丁字母、数字、标点符号和一些控制字符。每个字符都被赋予一个唯一的数值，这个数值在0到127之间。Unicode编码集Unicode是一个字符编码标准，它为世界上几乎所有的字符分配了唯一的标识符。Unicode字符集包括了各种语言、符号、标点符号、数学符号、技术符号、图形符号等，总计超过130,000个字符。un
字符编码肥猫想要飞
为什么写这篇文章字符编码的问题一直以来困然着我，每次遇到相关问题需要解决，都要重新去搜索学习。但是，网上的一些文章往往也是自相矛盾的半成品，再加上windows的奇怪命名，导致我对这些概念似懂非懂，所以想借此机会重新理顺这些概念顺带学习。相关概念字符集(characterset) 为每一个「字符」分配一个唯一的ID（学名为码位/码点/CodePoint）。ASCII，ISO-8859-1：英
HTML5学习（二）学习不止，掉发不停 html html5 学习前端
目录1.字符集characterset2.标题标签3.段落和换行标签4.文本格式化标签5.和标签6.图像标签7.路径8.超链接标签9.锚点链接10.注释标签11.特殊字符1.字符集characterset字符集是多个字符的集合，在标签内，可以通过标签的charset属性来规定HTML文件用那种字符编码。UTF-8是万国码，基本包含所有国家需要用到的字符，这个一定要写，防止乱码情况。2.标题标签一共
html header设置语言,HTML header weixin_39632057 html header设置语言
前言：这一片小文是说明header之中的常用标签以及相关的JS的使用的内容。正文：1、meta标签：定义当前页面的某些解析属性和SEO优化使用的内容。html内容：我们常常看到页面上面有许多的meta标签，他们具体是什么作用的呢。我们先来了解一下meta标签之中的属性。--charset：H5之中会有charset这个属性的设置。这一属性的是H5之后才可单独使用的，表示当前文件内容字符编码格式。一
CC工具箱使用指南：【汉字转为Unicode】规划GIS会 CC工具箱使用帮助 arcgis pro sdk c#二次开发 arcgis arcgis pro
一、简介Unicode又叫统一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。这个工具要实现的功能是将汉字转为Unicode。二、工具参数介绍点击【小工具】组里的【汉字转为Unicode】工具：即可打开下面的工具框界面：1、进
如何在 Python 中处理 Unicode 张无忌打怪兽 Python python 网络开发语言
介绍Unicode是世界上大多数计算机的标准字符编码。它确保文本（包括字母、符号、表情符号，甚至控制字符）在不同设备、平台和数字文档中显示一致，无论使用的操作系统或软件是什么。它是互联网和计算机行业的重要组成部分，没有它，互联网将会更加混乱和难以使用。Unicode本身不是编码，而更像是地球上几乎所有可能字符的数据库。Unicode包含一个代码点，用于标识其数据库中的每个字符，其值范围从0到110
关于html meta标签设置前端_小冲
META标签分两大部分：HTTP标题信息(http-equiv)和页面描述信息(name)。http-equivhttp-equiv类似于HTTP的头部协议，它回应给浏览器一些有用的信息，以帮助正确和精确地显示网页内容。设置页面编码charsetUTF-8是世界性通用编码，也完美的支持中文编码GB2312属于中文编码，针对国内用户使用，国外用户访问GB2312编码的网站就会变乱码。设置字符编码设置
R语言从拍摄照片生成色卡用于统计图 youmigo
ok.pngex_2021-04-29_02-10-25.pngex_2021-04-29_02-13-55.png图片1.jpg微信图片_20210429013555.jpg#ThuApr2901:37:232021-#字符编码：UTF-8#R版本：Rx644.0.5forwindow10#[email protected]#个人笔记不负责任，拎了个梨.rs.restartR()requir
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

字符编码

你可能感兴趣的:(字符编码)