小龙狗

字符集和字符编码的类别与区分详解

1. 字符集和字符编码

编码和解码

计算机用二进制数储存的信息，但二进制不符合人的直观认知，我们通过计算机看到的文字(英文字母、汉字、符号等)都是二进制数转换之后的结果。这里就涉及到编码和解码。

编码 (encode)
例如我有英文字符 'A' ，现在要把它以二进制码 0100 0001 存储于计算机中。这种将字符转换成二进制数字的过程就叫字符编码。
解码 (decode)
与编码相对应，从二进制 0100 0001 转换成字符 'A' 的过程就叫做字符解码。

字节和字符

对于有些许混淆的同学，可以这么理解这两个概念。

字节 (Byte)
是物理存储单元的单位，首先我们先从 位 (b, bit) 说，位是数据存储的最小单位，每个二进制数0或者1就是1个位。8个位构成一个字节 (B, Byte) 。位和字节是实实在在表示数据在计算机中所占用存储空间大小的单位。
字符 (Character)
实际字符是一个注入了文化属性的计算机术语(个人理解)，例如 'A' 就是一个表示英文字母A的字符， '树'是一个表示中文汉字的字符。字符是一个表示事文字、符号等的基本单位，它是不可拆解的。
对于汉字， '木'、 '又'、 '寸' 三个字符拼起来是 '木又寸' ，它不是 '树' 吗，怎么不可拆分？ '木'、 '又'、 '寸' 和 '树' 这是四分别独立的字符，学写字的时候我们都知道，虽然有偏旁组合，但他们每个字都是写在一个“田字格”里的，这里也同理， '木又寸' 占了 3 个“田字格”，它就是 3 个字符嘛。
字符和字节
一个字符占用几个字节？答案是：难说！，但有据可查。比如有如下图这么大的方框空间，打上田字格写汉字，能写下1个；但是打上四线三格写拼音(英文字母)，却可以写下2个；当然你只想写一个，也没得问题。

所以说，这个 t 到底是占 1 个格子还是占 0.5 个格子要看书写方式是怎么规定的。同理，一个字符具体占用几个字节就需要查阅它的字符编码方式。

字符集和字符编码

首先说说字符集和字符编码。

字符编码 (Character Encoding)
一个 t 到底占几个格子？请给出一个说法。
字符编码即对上述问题进行约定，并做出一系列相关规定。它是一套法则。
字符集 (Charset)
上面说到了字符，t 用在计算机里哪个数字表示？那么把包括所有文字、标点符号、图形符号、数字等的字符归拢到一起形成的字典(这里的字典就是《新华字典》的字典的意思，无他)，就是字符集。

接下来我们讨是论的这些哪些是字符集，哪些是字符编码呢？

ASCII 首先是字符集也是字符编码。因为它定义了映射关系 (文字符号对应二进制数字)，也规定了如何表现(用 1 个字节)。
GB2312、GBK、GB18030、Big5 也都既是字符集也是字符编码。
不同的是 Unicode 系列，Unicode 是字符集，而 UCS-4，UCS-2，UTF-32，UTF-16，UTF-8 都是字符编码。因为Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

2. ASCII

最开始计算机只在美国人用，他们的语言只需要52个(算上大小写)英文字母，加上一些数字，标点，符号和控制字符之类的，拢共100多个就够用了。

所谓控制字符就是作为特殊的用途的，一但终端、打印机遇上约定好的这些字节被传过来时，就要做一些约定的动作。例如遇上0×10, 终端就换行，遇上0×07, 终端就向人们嘟嘟叫。控制字符有32个。接下来就是空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直到127 。

后来又发现有了一些非英文的新的字母、符号等被需要，于是从 128~255 派给了拓展打印字符。这就是ASCII (American Standard Code for Information Interchange，美国信息互换标准代码) 字符集，ASCII字符集分为3部分：

ASCII非打印控制字符，0~31，32个
ASCII打印字符，32~127，96个
扩展ASCII打印字符，128~255，128个

这样以后，英语语言国家用起来可就没啥问题了，但是中国和世界其他语言国家还是没法使用自己的语言。

3. GB2312、GBK、GB18030和Big5

面向中文的字符编码主要有GB2312、GBK、GB18030和Big5几种，其发展历程大概如下。

首先先发明了仅支持简体中文汉字的 GB2312 编码；
同一时期港澳台地区也在研究支持繁体汉字的 Big5；
后来 GB2312 增加了繁体字、生僻字的支持，拓展成 GBK；
GBK 又增加了对少数民族文字的支持，拓展成 GB18030。

下面逐一说明。

GB2312

中国有6000多个常用汉字，显然一个字节的宽度是不够表示这么多汉字的，需要两个字节。因此规定：

小于127的字符的意义与原来相同；
两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（高字节）从 0xA1 用到 0xF7 ，后面一个字节（低字节）从 0xA1 到 0xFE 。

这样组合出约7000多个简体汉字。此外还把数学符号、罗马希腊的字母、日文的假名们注入，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符；而原来在127号以下的那些就叫”半角”字符了。这种方案叫做 GB2312 (GB是国家标准的意思)，它是对 ASCII 的中文扩展。

GBK

为解决繁体字、生僻字的问题。不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK (国标-扩)，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

GB18030

为解决少数民族文字问题，再扩展几千个新的少数民族文字字，GBK 扩成了 GB18030 。

这一系列汉字编码的标准通称做双字节字符集 (Double Byte Charecter Set，DBCS)。在DBCS系列标准里，最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里，因此他们写的程序为了支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。

Big5

英文名 Big5 ，中文名叫 五大码，也叫 *大五码 。

GB2312 不支持繁体汉字，在港澳台地区为统一繁体字符集编码，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，就是大五码。其中繁体汉字13053个，808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计，每个字符统一使用两个字节存储表示。第1字节范围 81H~FEH，避开了同ASCII码的冲突，第2字节范围是 40H~7EH和 A1H~FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突，所以在同一正文不能对两种字符集的字符同时支持。

4. Unicode

前世今生

上面说的是中文字符集与编码，那其他国家也都有自己的一套，比如韩国人自己搞的编码叫韩EUC-KR编码。各个国家的字符编码标准一套又一套，互相之间兼容性又不好。不同的语言字符编码值相同却代表不同的符号 (例如韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GBK中的“茄惫绢”)。同一份文档拷贝至不同语言的机器可能成了乱码。咋办？

一种简单粗暴的方法：废除所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码。出现了两种声音：

国际标谁化组织 (International Organization for Standardization, ISO)在1984年创建ISO/IEC JTC1/SC2/WG2工作组，试图制定一份通用多八位编码字符集 (Universal Multiple-Octet Coded Character Set)，也叫通用字符集 (Universal Character Set, UCS) 。并最终制定了 ISO 10646 标准。
由Xerox、Apple等软件制造商于1988年组成的统一码联盟开发了 Unicode 标准(The Unicode Standard)。

1991年前后，两个项目的参与者都认识到，世界不需要两个不兼容的字符集。于是，它们开始合并双方的工作成果。从Unicode 2.0开始，Unicode 采用了与 ISO 10646-1相同的字库和字码。两个项目仍都独立存在，并独立地公布各自的标准。

不过由于 Unicode 这一名字比较好记，因而它使用更为广泛。

Unicode

Unicode 的编码范围为 U+0000 ~ U+10FFFF，整个编码空间划分为17个 Plane (通常翻译为"平面")。每个平面包含 $2^{16}$ 个代码点 (code point)，拢共有 1114112 个。
$2^{16} × 17 = 1114112$
所谓代码点，就是文字符号在Unicode 中对应的那个值，通常写成 U+ABCD 的格式。

平面的概念源于UTF-16编码，其中0号空间叫做基本多文种平面 (Basic Multilingual Plane, BMP)，其他平面叫做补充平面(supplementary planes)。

Plane	范围	名称
Plane 0	U+0000 ~ U+FFFF	基本多文种平面（Basic Multilingual Plane, BMP）
Plane 1	U+10000 ~ U+1FFFF	多文种补充平面（Supplementary Multilingual Plane, SMP）
Plane 2	U+20000 ~ U+2FFFF	表意文字补充平面（Supplementary Ideographic Plane, SIP）
Plane 3	U+30000 ~ U+3FFFF	表意文字第三平面（Tertiary Ideographic Plane, TIP）
Plane 4~13	U+40000 ~ U+4FFFF	未使用（unassigned）
Plane 14	U+E0000 ~ U+EFFFF	特别用途补充平面（Supplementary Special-purpose Plane, SSP）
Plane 15~16	U+F0000 ~ U+10FFFF	保留作为私人使用区（Private Use Area, PUA）

UCS-4和UCS-2

在Unicode与ISO 10646合并之前，ISO 10646 标准为 UCS 定义了一种用四个字节来表示代码点的方式，编码空间为 0x00000000~0x7FFFFFFF ，这就是 UCS-4 (Universal Character Set coded in 4 octets)。

此外，还定义了一种两字节表示的编码形式，即UCS-2。

UTF-32和UTF-16

UCS-4 有20多亿个编码空间，但实际使用范围并不超过0x10FFFF，并且为了兼容Unicode标准，ISO也承诺将不会为超出0x10FFFF的UCS-4编码赋值。由此 UTF-32 (32-bit Unicode Transformation Format) 编码被提出来了，它的编码值与 UCS-4 相同，只不过其编码空间被限定在了 0~0x10FFFF 之间。因此可以说UTF-32是UCS-4的一个子集。

此外由于 UCS-2 的两字节并不够用，于是出现了 UTF-16 ，与UCS-2一样，它使用两个字节为全世界最常用的63K字符编码，不同的是，它使用4个字节对不常用的字符进行编码。UTF-16属于变长编码。

在没有辅助平面字符 (Surrogate Code Points)前，UTF-16与UCS-2所指的是同一的意思。但当引入辅助平面字符后，就称为 UTF-16 了。现在若有软件声称自己支持UCS-2编码，那其实是暗指它不能支持在UTF-16中超过2字节的字集。对于小于0x10000的UCS码，UTF-16编码就等于UCS码。这里 UTF-16 可看成是 UCS-2 的父集。

UTF-8

无论是 UTF-16/32 还是 UCS-2/4，一个字符都需要多个字节来编码，显然有些浪费。由此 UTF-8 产生了。在UTF-8编码中，ASCII码中的字符还是ASCII码的值，只需要一个字节表示，其余的字符需要2字节、3字节或4字节来表示。

对于ASCII码中的符号，使用单字节编码，其编码值与ASCII值相同。其中ASCII值的范围为 0~0x7F，所有编码的二进制值中第一位为 0（这个正好可以用来区分单字节编码和多字节编码）。
其它字符用多个字节来编码（假设用N个字节），多字节编码需满足：第一个字节的前N位都为1，第N+1位为0，后面N-1 个字节的前两位都为10，这N个字节中其余位全部用来存储Unicode中的码位值。

字节数	Unicode	UTF-8
1	000000-00007F	0xxxxxxx
2	000080-0007FF	110xxxxx 10xxxxxx
3	000800-00FFFF	1110xxxx 10xxxxxx 10xxxxxx
4	010000-10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

对比

编码方式	最少字节数	最多字节数	是否依赖字节序
UCS-4	4	4	是
UCS-2	2	2	是
UTF-32	4	4	是
UTF-16	2	4	是
UTF-8	1	4	否

5. ANSI编码

ANSI 编码实际是微软面向全世界的 Windows 用户设置的一种依区域自动匹配编码的方案，实际还是上面我们介绍的编码中的一种。有需要请看我的另一篇。

ANSI编码简述

6. 参考

本文参考了

[1]. GB2312、GBK、GB18030 这几种字符集的主要区别是什么？
https://www.zhihu.com/question/19677619
[2]. 细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4
https://www.cnblogs.com/malecrab/p/5300503.html
[3]. Unicode了解一下：码位分布
https://blog.csdn.net/oyji1992/article/details/80030366
[4]. ASCII、Unicode、GBK和UTF-8字符编码的区别联系
https://www.cnblogs.com/shytong/p/5848640.html
[5]. Standard Encodings
https://docs.python.org/3.6/library/codecs.html#standard-encodings
[6]. Unicode 和 UTF-8 有什么区别？
https://www.zhihu.com/question/23374078
[7]. 字符集和字符编码（Charset & Encoding）
https://www.runoob.com/w3cnote/charset-encoding.html

.
.
.
.
.
.

桃花仙人种桃树，又摘桃花换酒钱_

ROM和RAM的区别羊羊一洋智能路由器
ROM（Read-OnlyMemory，只读存储器）和RAM（RandomAccessMemory，随机存取存储器）是计算机系统中两种不同类型的存储技术，它们在功能、用途和特性上有显著的区别：1.存储数据的持久性：-ROM：通常用于存储固件或系统软件，这些数据在断电后依然可以保留。ROM中的数据是预先写入的，用户通常无法修改或只能在特定条件下修改（如固件升级）。-RAM：用于存储计算机运行时的数据
【详解】PythonUnicodeDecodeError:‘ascii‘codeccan‘tdecodebyte0xe9inposition0解决办法牛肉胡辣汤 java linux 前端
目录PythonUnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe9inposition0解决办法方法一：使用bytes类型方法二：使用unicode_escape编码方法三：确保使用正确的编码方式方法四：使用six库PythonUnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe9inposition0
机器学习第一章绪论太炀机器学习机器学习人工智能
1.1引言什么是机器学习（machinelearning）？机器学习是致力于研究如何通过计算手段，利用经验来改善系统自身的性能的学科。在计算机系统中，“经验”以“数据”的形式表现。通过这些数据产生模型（model）的算法，即“学习算法”（learningalgorithm）。如果说计算机科学是研究“算法”的学问，那机器学习就是研究“学习算法”的学问。ps：本系列所说“模型（model）”泛指数据学
计算机组成原理----计算机系统概述王嘉俊925 计算机组成原理计组计算机组成原理
计算机分类按照输入输出信号的形式可以将电子计算机分为：电子模拟计算机和电子数字计算机。电子模拟计算机定义：采用连续的模拟信号（如电压、电流）进行输入和输出，模拟物理量之间的关系。特点：计算过程基于模拟电路，反映连续变化的物理现象。擅长处理微分方程、动态系统仿真。应用：早期用于科学计算（如飞行模拟、天气预报）和工程设计。局限：精度较低，难以编程和扩展。电子数字计算机定义：使用离散的数字信号（通常为二
HTML学习笔记誓死守护发际线 html 学习笔记
文章目录(一)HTML简介一、网页1.什么是网页2.什么是HTML二、常用的浏览器1.常用的浏览器2.浏览器内核（渲染引擎）3.web标准(二)HTML标签一、HTML语法规范1.基本语法概述2.标签的关系二、HTML基本结构标签三、网页开发工具1.VSCode的使用：2.vsCode工具生成骨架标签新增代码1）标签2）lang语言3）charset字符集四、HTML常用标签1.语义化标签：2.标
前后端分离项目的验证码实现（前端Vue，后端TP）今天练肩感觉爆炸 vue thinkphp
1.TP安装依赖composerrequiretopthink/think-captcha=2.0.*2.生成验证码返回给前端//生成验证码publicfunctiongetCaptcha(){$config=[//验证码字符集合'codeSet'=>'0123456789',//验证码字体大小'fontSize'=>30,//字体'fontttf'=>'5.ttf',//验证码位数'length
《剑指数据库：MySQL表法纵横录》 m0_74825260 面试学习路线阿里巴巴数据库 mysql
一、前言本文将为大家带来MySQL中常见表的操作，希望大家能够从中有所收获！！！二、表的操作1.创建表语法：CREATETABLEtable_name(field1datatype,field2datatype,field3datatype)characterset字符集collate校验规则engine存储引擎;说明：●field表示列名●datatype表示列的类型●characterset字
【Android】Android Studio 中文乱码问题解决方案非晓为骁 Android android android studio ide
问题现象在Java文件编译或运行时，IDE控制台或代码编辑区出现类似以下乱码提示：E:\...\FileHelper.java:92:��:�Ҳ��此类乱码通常由编码配置冲突或文件存储格式异常导致。核心解决步骤1.统一编码配置全局设置进入File→Settings→Editor→FileEncodings，确保以下三项均设置为UTF-8：GlobalEncoding、ProjectE
C 语言中的数组与指针：深入剖析与实践应用 Kurbaneli c语言算法
一、引言在C语言的学习旅程中，数组与指针是两个极为重要且强大的概念。它们不仅是C语言高效操作数据的基础，也是C语言能够广泛应用于系统编程、嵌入式开发等领域的关键因素之一。深入理解并熟练掌握数组与指针的使用，对于编写高质量、高性能的C语言程序至关重要。本文将详细介绍C语言中数组与指针的相关知识，并通过丰富的示例代码进行说明。二、数组的基本概念与使用数组的定义：数组是一种构造数据类型，它可以存储多个相
Kettle 实战面试题及参考答案（完整版）一杯小周 etl 大数据
Kettle实战面试题及参考答案（完整版）以下是几个Kettle（PentahoDataIntegration）项目实战面试题及参考答案的完整Markdown格式整理，包含代码示例和优化方案。目录中文乱码处理增量数据抽取数据去重方案亿级数据同步作业失败排查1.Kettle抽取数据时遇到中文乱码，如何解决？答案：原因：数据库客户端默认编码与Kettle设置不一致（如UTF-8与GBK）。解决方案：在
后端开发面经系列 -- 字节跳动C/C++一面面经阿Q技术站面经字节跳动面经 c++面经字节跳动职场经验
字节跳动C/C++一面面经公众号：阿Q技术站来源：https://www.nowcoder.com/feed/main/detail/74bf25e202ea4fcba09c01dae530ff9b1、虚拟地址是怎么转化到物理地址的？页表的构成？mmu了解过吗？虚拟地址到物理地址的转换是通过操作系统中的内存管理单元（MemoryManagementUnit，MMU）来实现的。MMU是计算机系统中的
每日十个计算机专有名词 (7) 太炀每日十个计算机专有名词杂项
Metasploit词源：Meta（超越，超出）+exploit（漏洞利用）Metasploit是一个安全测试框架，用来帮助安全专家（也叫渗透测试人员）发现和利用计算机系统中的漏洞。你可以把它想象成一个工具箱，里面装满了各种可以测试网络和应用程序安全的工具。它有很多预设的“攻击模块”，这些模块可以模拟黑客的攻击方式，帮助你检查自己的系统是否容易受到攻击。通过这些攻击模拟，你可以发现安全漏洞，并及时
软考程序员各模块知识点对应的分值分布及考试形式总结水瓶丫头站住考试排序算法算法数据结构
软考程序员考试分为基础知识（综合知识）和应用技术两个科目，各科目满分均为75分，合格标准通常为45分。以下是各模块知识点对应的分值分布及考试形式总结：一、综合知识（上午考试）题型：75道客观选择题（含5道专业英语题），每题1分，总分75分。核心模块及分值（基于近10次考试统计）：数据结构和算法（11-13分）重点：顺序表、链表、树、图、排序与查找算法等。计算机系统基础知识（7-11分）包含进制转换
C语言考研机试(自用) 海参的学习小屋 c语言开发语言考研学习方法 visualstudio
一、注意事项%c是一个格式化转换说明符，用于读取或输出一个字符;%s是字符串%f：表示输出一个浮点数；%lf：表示将输入的值解释为双精度浮点数。%.2f：表示输出一个浮点数并保留两位小数，对应的变量是y。A=a-32,A的ASCII是65,a是97scanf_s("%c",&a,1);#includesqrt(x);//求平方根abs(x);//绝对值pow(x,y);//x的y次方最大公约数。欧
Linux 学习必杀技：从菜鸟到高手的蜕变密码羑悻的小杀马特. linux 学习运维服务器 Linux
踏入Linux奇幻世界，借C++利刃，解锁文件、进程、网络等核心编程奥秘。附实用学习法与精选好书，助你从菜鸟一跃成Linux高手。一、本篇介绍：在当今的技术领域，Linux操作系统以其开源、稳定、高效等特性，占据着至关重要的地位。无论是服务器领域、嵌入式系统，还是云计算、大数据等新兴技术，Linux都发挥着核心作用。对于初学者来说，掌握Linux系统不仅能拓宽职业道路，还能深入理解计算机系统的底层
Canvas高级动画：文字瀑布流 DTcode7 HTML网站开发 #canvas绘图 HTML 绘图 canvas JavaScript canvas绘图
Canvas高级动画：文字瀑布流1.基本概念与作用1.1文字瀑布流简介1.2Canvas在动画中的作用2.示例一：基本的文字瀑布流实现代码解释3.示例二：增强版文字瀑布流新增功能4.示例三：互动版文字瀑布流新增功能5.示例四：使用WebWorkers进行优化工作线程文件`worker.js`新增功能6.不同角度的功能使用思路6.1自定义字符集6.2透明度变化6.3响应式设计7.实际工作中的技巧7.
Python--内置模块和开发规范（上）索然无味io Python安全开发 python 开发语言 windows 网络安全 web安全笔记
1.内置模块1.1JSON模块核心功能序列化：Python数据类型→JSON字符串importjsondata=[{"id":1,"name":"武沛齐"},{"id":2,"name":"Alex"}]json_str=json.dumps(data,ensure_ascii=False)#禁用ASCII转义反序列化：JSON字符串→Python数据类型data_list=json.loads(
“计算机组成原理-电子科技大学-学堂在线”———课堂笔记——第一章计算机系统概述日熙！ #学校学习笔记计算机组成原理
第一章计算机系统概述1.1计算机的概念和类型1>计算机的基本概念2>计算机的主要特点3>计算机的常见类型1.2计算机的诞生与发展1.3计算机系统的层次结构1.4计算机的性能评价指标1.1计算机的概念和类型1>计算机的基本概念什么是电子计算机？——————存储程序，执行程序，对数字信息进行各种复杂处理，输出运算结果的智能电子设备一个计算机系统主要包括以下5个逻辑模块：输入设备，存储器，输出设备，运算
mysql 查看-修改-字符集-排序集 Dav_2099 mysql 数据库
mysql修改和查看字符集（数据库全局、schema、表、列）一、查看字符集1.查看MYSQL数据库服务器和数据库字符集mysql>showvariableslike'%character%';+--------------------------+----------------------------+|Variable_name |Value |+-------
Windows逆向工程入门之MASM整数存储机制 0xCC说逆向 windows 汇编逆向安全 C
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、基础数据类型的存储模型二、内存布局的逆向工程实践一、基础数据类型的存储模型1.字节级存储规则无符号BYTE：dbvar4BYTE0FFh;存储值：0xFF（二进制补码，十进制255）内存布局：单字节直接存储逆向特征：取值范围0x00-0xFF，常用于标志位或ASCII字符有符号SBYTE：dbvar5SBYTE80h;存储值：
Rust并发编程实践：10分钟入门系统级编程 m0_74824687 面试学习路线阿里巴巴 rust python 算法
目录学前一问：Rust为何而出现？摘要引言正文解析：一、Rust中的并发编程基础1.1线程1.2协程二、Rust并发编程的高级特性2.1通道2.2原子操作2.3锁三、实例展示：优化并发编程性能1.并行计算2.异步IO3.数据并行四、并发编程的挑战与最佳实践结论：参考文献：学前一问：Rust为何而出现？Rust是一门现代的系统编程语言，它的设计目标是提供安全性、并发性和高性能。Rust的出现是为了解
编码与字符集 HaoChen/ChenHao 服务器前端运维
知识点1图片展示了一段Python代码，该代码演示了如何将一个包含中文字符的字符串使用不同的编码方式转换为字节序列（bytes）。具体来说，代码将字符串"陈浩"分别用GBK和UTF-8编码进行了编码，并打印出了编码后的结果。GBK编码：GBK编码GBK是一种用于简体中文的字符编码，它扩展自GB2312编码，能够支持更多的中文字符。"陈"在GBK编码中的字节表示为\xb3\xc2。"浩"在GBK编码
pytest系列——pytest_collection_modifyitems钩子函数修改测试用例执行顺序测试中二 pytest框架测试用例 pytest
视频学习方式：www.bilibili.com/video/BV14i4y1c7Jowww.bilibili.com/video/BV14i4y1c7Jo前言pytest默认执行用例是根据项目下的文件名称按ascii码去收集运行的；文件中的用例是从上往下按顺序执行的。pytest_collection_modifyitems这个函数顾名思义就是收集测试用例、改变用例的执行顺序的。【严格意义上来说，
IO和NIO 秋意钟 java
IO和NIO在定义、面向对象、模式、选择器等方面存在显著的差异。以下是对IO和NIO的详细对比：一、定义IO（Input/Output）：IO是计算机中的输入/输出（Input/Output）的简称，指的是计算机系统与外部设备之间进行数据交换的过程。在编程中，IO操作通常涉及文件的读写、网络通信等。NIO（Non-blockingI/O或NewI/O）：NIO是Java领域中的一种同步非阻塞的I/
文本数据格式转换备份 @Mr_LiuYang 写过的小程序数据库 csv转db 文本格式转换
概述一些文本格式转换代码，个人做一下备份。ipynb转py格式importnbformatfromnbconvertimportPythonExporter#读取Jupyternotebook文件notebook_filename='Builddata.ipynb'#替换为你的.ipynb文件路径withopen(notebook_filename,'r',encoding='utf-8')asn
基础篇——数据库与表操作暴怒的代码 oracle 数据库
引言在掌握MySQL环境搭建后，数据库与表的操作是开发者必须精通的核心技能。本文系统讲解数据库与表的创建、数据类型选择、约束设计以及表结构修改四大模块，特别标注20+个新手高频踩坑点，帮助读者避开90%的常见错误。一、数据库与表的基础操作1.1创建/删除数据库标准语法：--创建数据库（必须指定字符集）CREATEDATABASEshop_dbDEFAULTCHARACTERSETutf8mb4CO
Linux驱动开发: USB驱动开发 DS小龙哥 Linux系统编程与驱动开发 linux USB驱动嵌入式
一、USB简介1.1什么是USB?USB是连接计算机系统与外部设备的一种串口总线标准，也是一种输入输出接口的技术规范，被广泛地应用于个人电脑和移动设备等信息通讯产品，USB就是简写，中文叫通用串行总线。最早出现在1995年，伴随着奔腾机发展而来。自微软在Windows98中加入对USB接口的支持后，USB接口才推广开来，USB设备也日渐增多，如数码相机、摄像头、扫描仪、游戏杆、打印机、键盘、鼠标等
网络安全尹毅《网络安全》黑客Ash web安全网络安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快一网络安全基本概念1.网络安全定义安全在字典中的定义是为了防范间谍活动或蓄意破坏、犯罪、攻击而采取的措施。网络安全就是为了防范计算机网络硬件、软件、数据被偶然或蓄意破坏、篡改、窃听、假冒、泄露、非法访问以及保护网络系统持续有效工作的措施总和。网络安全保护范围：密码安全、计算机系统安全、网络安全、信息安全。2.网络安全目标可靠性（relia
python 商城性能,python商城项目总结 Yvetzy python 商城性能
importhashlib#实例化md5对象md5=hashlib.md5()#md5.update()方法的参数必须是字节型数据md5.update(bytes(request.POST['password'],encoding="UTF-8"))#以16进制格式存储md5.hexdigest()'''这里有个坑必须注意：md5.update()方法会将每次加密的字符进行拼接，所以每次加密前都要
utf8mb4_general_ci 和 utf8mb4_unicode_ci 是 MySQL 中用于 utf8mb4 字符集的两种常见的排序规则（Collation）小丁学Java 产品资质管理系统 ci/cd mysql android
utf8mb4_general_ci和utf8mb4_unicode_ci是MySQL中用于utf8mb4字符集的两种常见的排序规则（Collation）。它们在字符排序、比较和性能上有一些区别。以下是用表格列出它们的区别：特性utf8mb4_general_ciutf8mb4_unicode_ci字符集支持支持utf8mb4字符集（4字节UTF-8，支持所有Unicode字符，包括表情符号）支持
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #1413161683@qq.com (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默