风雨一肩挑

Unicode、UTF-8、Big Endian、Little Endian、GBK、UCS-2

一、Unicode、UCS、GBK

1、开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。把这些0×20以下的字节状态称为”控制码”。他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。这个方案叫做 ANSI 的”Ascii”编码（American Standard Code for Information Interchange，美国信息互换标准代码）。

2、后来计算机流传到更多西方国家，但是很多国家用的不是英文，他们的字母里有许多是ASCII里没有的，为了可以在计算机保存他们的文字，他们决定采用 127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128 到255这一页的字符集被称”扩展字符集“。

3、等中国人们得到计算机时，已经没有可以利用的字节状态来表示6000多个常用汉字。

我们不客气地把那些127号之后的奇异符号们直接取消掉, 规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。

在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在127号以下的那些就叫”半角”字符了。中国人民看到这样很不错，于是就把这种汉字方案叫做 “GB2312“。GB2312 是对 ASCII 的中文扩展。

但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，于是我们不得不继续把 GB2312 没有用到的码位找出来老实不客气地用上。后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK包括了GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK扩成了 GB18030。从此之后，中华民族的文化就可以在计算机时代中传承了。中国的程序员们看到这一系列汉字编码的标准是好的，于是通称他们叫做 “DBCS“（Double Byte Charecter Set 双字节字符集）。在DBCS系列标准里，最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里，因此他们写的程序为了支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。那时候凡是受过加持，会编程的计算机僧侣们都要每天念下面这个咒语数百遍： “一个汉字算两个英文字符！一个汉字算两个英文字符……”

4、问题再现：因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码，连大陆和台湾这样只相隔了150海里，使用着同一种语言的兄弟地区，也分别采用了不同的 DBCS 编码方案——当时的中国人想让电脑显示汉字，就必须装上一个”汉字系统”，专门用来处理汉字的显示、输入的问题，但是那个台湾的愚昧封建人士写的算命程序就必须加装另一套支持 BIG5 编码的什么”倚天汉字系统”才可以用，装错了字符系统，显示就会乱了套！这怎么办？而且世界民族之林中还有那些一时用不上电脑的穷苦人民，他们的文字又怎么办？

5、一个叫 ISO （国际标谁化组织）的国际组织决定着手解决这个问题。他们采用的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！他们打算叫它”Universal Multiple-Octet Coded Character Set”，简称 UCS, 俗称 “unicode“。那么UCS-2和UCS-4是什么意思？UCS-2是指用两个字节对应一个字符的编码字符集；UCS-4则是指用四个字节对应一个字符的编码字符集。你可以认为，目前为止Unicode有两个具体的编码字符集，UCS-2和UCS-4。

6、问题又来了：unicode同样也不完美，这里就有两个的问题，一个是，如何才能区别unicode和ascii？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储空间来说是极大的浪费，文本文件的大小会因此大出二三倍，这是难以接受的。

7、unicode在很长一段时间内无法推广，直到互联网的出现，为解决unicode如何在网络上传输的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种unicode的实现方式，这是为传输而设计的编码

来说说概念吧：

字符集合（Character set）：是一组形状的集合，例如所有汉字的集合，发明于公元前，发明者是仓颉。它体现了字符的“形状”，它与计算机、编码等无关。
编码字符集（Coded character set）：是一组字符对应的编码（即数字），为字符集合中的每一个字符给予一个数字。例如最早的编码字符集ASCII，和后来的unicode（持续更新中）。由于编码字符集为每一个字符赋予一个数字，因此，字符可以认为就是一个16位的数字，因此以下方式都可以给字符赋值：

char c=‘中’
char c =0x4e2d
char c=20013

字符编码方案（Character-encoding schema）：将字符编码（数字）映射到一个字节数组的方案，因为在磁盘里，所有信息都是以字节的方式存储的。因此16位字符必须转换为一个字节数组才能够存储。例如UTF-8字符编码方案，它可以将一个字符转换为1、2、3或者4个字节。
一般认为，编码字符集和字符编码方案合起来被称之为字符集（Charset），这是一个术语，要和前面的字符集合（Character set）区分开。

二、UTF-8

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。 UTF-8的编码规则很简单，只有二条： 1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。 2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。下表总结了编码规则，字母x表示可用编码的位。 Unicode符号范围 | UTF-8编码方式
(十六进制) | （二进制）
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

三、Little-Endian、Big-Endian

字节序就是数据在内存中存放的顺序，多于一个字节的数据在内存中存放时有两种选择，即Big Endian和Little Endian。
Little-Endian就是低位字节排放在内存的低地址端，高位字节排放在内存的高地址端。
Big-Endian就是高位字节排放在内存的低地址端，低位字节排放在内存的高地址端。
Big Endian和Little Endian和芯片类型以及操作系统都有关系。

四、举例

下面，以汉字“严”为例，演示如何实现UTF-8编码。

已知“严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此“严”的UTF-8编码需要三个字节，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，从“严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，“严”的UTF-8编码是“11100100 10111000 10100101”，这是保存在计算机中的实际数据，转换成十六进制就是E4B8A5，转成十六进制的目的为了便于阅读。 1. Unicode与UTF-8之间的转换通过上一节的例子，可以看到“严”的Unicode码是4E25，UTF-8编码是E4B8A5，两者是不一样的。它们之间的转换可以通过程序实现。在Windows平台下，有一个最简单的转化方法，就是使用内置的记事本小程序Notepad.exe。打开文件后，点击“文件”菜单中的“另存为”命令，会跳出一个对话框，在最底部有一个“编码”的下拉条。 bg2007102801.jpg 里面有四个选项：ANSI，Unicode，Unicode big endian 和 UTF-8。 1）ANSI是默认的编码方式。对于英文文件是ASCII编码，对于简体中文文件是GB2312编码（只针对Windows简体中文版，如果是繁体中文版会采用Big5码）。 2）Unicode编码指的是UCS-2编码方式，即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。 3）Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。 4）UTF-8编码，也就是上一节谈到的编码方法。选择完”编码方式“后，点击”保存“按钮，文件的编码方式就立刻转换好了。三、 Little endian和Big endian 上一节已经提到，Unicode码可以采用UCS-2格式直接存储。以汉字”严“为例，Unicode码是4E25，需要用两个字节存储，一个字节是4E，另一个字节是25。存储的时候，4E在前，25在后，就是Big endian方式；25在前，4E在后，就是Little endian方式。那么很自然的，就会出现一个问题：计算机怎么知道某一个文件到底采用哪一种方式编码？ Unicode规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做”零宽度非换行空格“（ZERO WIDTH NO-BREAK SPACE），用FEFF表示。这正好是两个字节，而且FF比FE大1。如果一个文本文件的头两个字节是FE FF，就表示该文件采用大头方式；如果头两个字节是FF FE，就表示该文件采用小头方式。四、实例下面，举一个实例。打开”记事本“程序Notepad.exe，新建一个文本文件，内容就是一个”严“字，依次采用ANSI，Unicode，Unicode big endian 和 UTF-8编码方式保存。然后，用文本编辑软件UltraEdit中的”十六进制功能“，观察该文件的内部编码方式。 1）ANSI：文件的编码就是两个字节“D1 CF”，这正是“严”的GB2312编码，这也暗示GB2312是采用大头方式存储的。 2）Unicode：编码是四个字节“FF FE 25 4E”，其中“FF FE”表明是小头方式存储，真正的编码是4E25。 3）Unicode big endian：编码是四个字节“FE FF 4E 25”，其中“FE FF”表明是大头方式存储。 4）UTF-8：编码是六个字节“EF BB BF E4 B8 A5”，前三个字节“EF BB BF”表示这是UTF-8编码，后三个“E4B8A5”就是“严”的具体编码，它的存储顺序与编码顺序是一致的。

推荐这篇文章看一下：http://wiki.ubuntu.org.cn/index.php?title=Unicode&variant=zh-cn#.E8.B5.B7.E6.BA.90.E8.88.87.E7.99.BC.E5.B1.95

4.解决的问题：一、如何在中文系统中运行非Unicode编码程序？
有很多意大利文版（除英文版）学习软件、百科全书等软件在中文系统上会出现乱码，解决方法：
WindowsXP内核是Unicode编码，支持多语种，对于Unicode编码的应用程序会正常显示原文（因为windows核心是用unicode代码写的，所以不存在问题），但是，很多程序不是用Unicode编码写的，这时WindowsXP系统可以指定以特定的编码运行非Unicode编码程序，中文版WindowsXP默认的是“简体中文GB2312”。你只需在控制面板--〉区域和语言选项--〉高级--〉为非Unicode程序的语言选择“意大利语”，即可正确运行意大利文版的游戏程序。分析：我理解的流程是这样：程序------>意大利语编码（转换表codepage）------>解释成unicode识别的编码（通过指定的转换表将非 Unicode 的字符编码转换为同一字符对应的系统内部使用的 Unicode 编码）------>被系统翻译成意大利文（因为每个unicode编码对应了相应的意大利文字），便可以正常显示了。二、消除网页乱码？网页乱码是浏览器对HTML网页解释时形成的，如果网页制作时编码为繁体big5，浏览器却以编码gb2312显示该网页，就会出现乱码，因此只要你在浏览器中也以繁体big5显示该网页，就会消除乱码。打个比方有些像字典，繁体字得用繁体字典来查看，简体字得用简体字典来查看，不然你看不懂。　　【解决办法】：在浏览器中选择“编码”菜单，事先为浏览器安装多语言支持包（例如在安装IE时要安装多语言支持包），这样当浏览网页出现乱码时，即可手工更改查看此网页的编码方式，在浏览器中选择菜单栏下的“查看”/“编码”/“自动选择”/简体中文（GB2312），如为繁体中文则选择“查看”/“编码”/“自动选择”/繁体中文（BIG5），其他语言依此类推，便可消除网页乱码现象。分析：因为繁体big5编码后的文件，每个文字对应一个二进制流（假设是1212对应繁这个字），当我们以编码gb2312显示该网页时，gb2312编码会到表里去找1212（二进制流不会变的）对应谁，肯定不再是繁这个字了，当然显示的就不再是那个繁字了，也就会出现乱码了。这样理解简单些，其实中间还要转换成同一字符对应的系统内部使用的 Unicode 编码，然后通过系统底层unicode编码还原成相应字符显示出来。

原文地址：到底utf-8和unicode是什么关系 - - ITeye技术网站

python动物识别系统(仅有识别功能) OnlySecondS
''@Time:2022/03/298:39@Author:11863@File:AIS_main.py@software:PyCharm'''rules={}#以字典形式存储#读取文件defreadRules():rulesFile=open("rules.txt","r",encoding='utf-8')forlineinrulesFile:#按行读取line=line.replace('I
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
HTML中的零宽字符 Jinuss 前端 html 前端
概述零宽字符是一组在文本中没有可见宽度的字符，它们通常用于处理文本的布局、分隔和合成。下面是一些常见的零宽字符及其详细介绍：详细介绍零宽空格(ZeroWidthSpace,ZWSP)Unicode码位:U+200BHTML实体:或用途:用于防止文字自动换行。用于在文本中插入不可见的间隔，以控制排版或进行文本分析。零宽非连字符(ZeroWidthNon-Joiner,ZWNJ)Unicode码位:U
《魔兽争霸-黑潮》游戏秘籍小魚資源大雜燴游戏
DECKMEOUT部队升级EVERYLITTLETHINGSHEDOES魔法升级GLITTERINGPRIZES增加黄金、木材、油量ITISAGOODDAYTODIE无敌MAKEITSO加快建筑、训练、升级的速度ONSCREEN地图全开，包括所有活动SHOWPATH地图全开，不包括所有活动HATCHET加快砍树速度SPYCOB增加油量5000单位TIGERLILY开启跳关模式，再输入“HUMANx
cocos2dx : 解决中文乱码问题 ^随风~~ Cocos2d-x C++乱码
在使用cocos2dx的时候，代码里面使用了中文或者是在cocosstudio编辑器里面使用了中文，显示的时候会出现乱码问题，下面提供几个解决方案：方案一：最前面加上命令:#pragmaexecution_character_set("utf-8")方案二：使用XML文件：问题与解决方法在windows环境下使用visualstudio开发cocos2d-x，由于visualstudio默认编码为
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
BigemapPro 图斑名称自定义修改全攻略 Bigemap软件软件需求信息可视化
在地图制作中，图斑名称的显示和修改是一个常见但重要的任务。今天，我们就来详细讲解如何使用BigemapPro自定义修改图斑名称，并通过字段信息组合显示它的名称，让你的地图更加专业和直观！在完成图斑绘制后，若想让图斑名称即刻显示在地图上，操作非常简便。只需选中图层文件夹，点击鼠标右键，选择【显示图元名称】选项，图斑名称便会迅速出现在地图对应位置，帮助我们快速识别各个图斑。一、单个图斑名称修改手动修改
Bigemap Pro：国产数据要素设计软件(DED)正式发布 Bigemap软件信息可视化
在数字化时代，数据如同新时代的石油，蕴含着巨大的价值。从商业决策到科研探索，从城市规划到环境监测，海量数据的高效处理、精准分析与直观可视化，已成为各行业突破发展瓶颈、实现转型升级的关键所在。历经十年精心打磨与自主研发，BigemapPro这款国产数据要素设计软件犹如一匹黑马，强势闯入数据应用领域。接下来，就让我们一同揭开BigemapPro的神秘面纱，深入探寻其独特魅力，见证它如何重塑基础数据应用
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
Java入门第72课——String字符串基本操作猴子学编程 Java零基础课程 Java字符串 String StringBuilder
1.1String及其常用API1.1.1String是不可变对象·java.lang.String使用了final修饰，不能被继承；·字符串底层封装了字符数组及针对字符数组的操作算法；·字符串一旦创建，对象永远无法改变，但字符串引用可以重新赋值；·Java字符串在内存中采用Unicode编码方式，任何一个字符对应两个字节的定长编码。1.1.2String常量池·Java为了提高性能，静态字符串(
Xshell7连接Debian12系统，中文显示乱码，解决办法一览！ linuxdebian
在使用Xshell7远程连接Debian12时出现中文显示乱码问题，通常是由于字符编码或字体设置不匹配导致的。以下是详细的解决方法：解决方案1：设置Xshell编码为UTF-8打开Xshell会话配置：连接Debian12系统后，点击左侧面板的会话树状结构（如SessionList），右键点击当前会话，选择Properties（属性）。修改字符编码：进入Terminal选项卡。在Character
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
工作流 weixin_34345753 数据库 java 人工智能
工作流谨以此文向从事工作流研究的前辈们致敬目录1工作流介绍12工作流类型12.1按工作流的性质分12.2按照重复性分12.3按照结构化程度分12.4按流程与数据表单的关系分12.5按应用类型分12.6按工作流模式分23工作流的应用场景23.1业务流程辅助办公软件23.2软件内部工作的顺控制23.3自动筛选查询类系统23.4自动化控制中24工作流平台介绍24.1BigbrossBossa34.2Br
Java高级常用类星星不打輰 Java java 开发语言
LocalDateTime，StringBuilder，BigDecimalLocalDateTime使用（通过这个类创建一个日期时间的实例对象）//LocalDate-->日期//LocalTime-->时间//LocalDateTime-->日期和时间对于日期时间进行格式化输出：DateTimeFormatter.ofPattern(“指定的格式”)y表示年份，M表示月份，d表示日期，H表示小
Ultralytics包引起的编码报错问题 Xylokrysen 深度学习深度学习 YOLO
安装完Ultralytics包后，加载YOLO相关模型，执行报错：UnicodeEncodeError:'gbk'codeccan'tencodecharacter'\u0467'inposition3:illegalmultibytesequence这个错误是由于文件编码问题引起的，Ultralytics在初始化时会尝试创建或更新配置文件settings.yaml，而Windows系统默认使用G
Mysql数据库分表实现微笑的曙光（StevenLi）数据库 mysql 分表性能优化 merge
本次主要采用MERGE分表法、对表进行水平拆分；第一步：创建数据库DROPTABLEIFEXISTSstudents;CREATETABLEstudents(idbigint(20)NOTNULLAUTO_INCREMENT,namevarchar(20)DEFAULTNULL,numvarchar(20)DEFAULTNULL,PRIMARYKEY(id))ENGINE=MyISAMAUTO_I
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
【XML】树结构北.岛 xml 存储数据
XML树结构XML文档形成了一种树结构，它从"根部"开始，然后扩展到"枝叶"。一个XML文档实例XML文档使用简单的具有自我描述性的语法：ToveJaniReminderDon'tforgetmethisweekend!第一行是XML声明。它定义XML的版本（1.0）和所使用的编码（UTF-8:万国码,可显示各种语言）。下一行描述文档的根元素（像在说："本文档是一个便签"）：接下来4行描述根的4个
MySQL -- 数据类型 4647的码农历程 MySQL mysql oracle 数据库
1、数据库的基础数据类型TINYINTINTBIGINTFLOATDECIMALCHARVARCHARTEXTBLOBDATEDATETIMETIMESTAMPSETENUM2、不同数据类型区别以及作用1、数值类型1.1整数类型1.1.1TINYINT这里我们以TINYINT这个类型为例，解释一下在mysql中整数类型的一些存储规则首先我们需要知道的是，数据库可以存储各种各样的数据，为了更好地管理
Node7z正确识别中文字符霄铭XiAo nodejs node-7z typescript
importseven7zfrom'node-7z';constlistStream=seven7z.list(filePath,{$bin:path7z(),charset:'UTF-8'});仅需设置charset即可
Pytest教程系列(8)读取Yaml文件爱测试的小浩 pytest pytest python linux
Pytest教程系列(8)读取Yaml文件读取yaml文件代码如下：importyamlyaml_path=r'C:\Users\admin\Documents\pytest-selenium-new\Data\DataYaml\login.yaml'defread_yaml_all():try:#打开文件withopen(yaml_path,"r",encoding="utf-8")asf:da
yaml常见的读取和写入南部余额 python python yaml
allow_unicode=True：遇到中文不转换为unicode编码sort_keys=False：不进行排序，默认按照字母abcd排序importyamldefwrite_yaml_template():"""统一的yaml模板:return:"""yaml_template=[{'feature':None,'story':None,'title':None,'request':{'met
使用python反射，实现pytest读取yaml并发送请求南部余额 python python pytest
pytest+yamlyaml-feature:用户模块story:登录title:添加用户request:method:POSTurl:/system/user/listheaders:nullparams:nullvalidate:nullread_yaml_alldefread_yaml_all(path):withopen(path,'r',encoding='utf-8')asf:val
字符流在处理不同编码文件时的工作原理啊sen丶 java 开发语言
在Java中，字符流是专门用于处理文本数据的IO流，它基于字符（char）操作，能够自动处理字符编码的转换。字符流的核心在于它可以根据指定的字符集（如UTF-8、GBK、ISO-8859-1等）将字节数据解码为字符数据，或者将字符数据编码为字节数据。这种机制使得字符流在处理不同编码的文件时非常灵活，能够有效避免因编码不一致导致的乱码问题。一、字符流的工作原理字符流在内部使用Charset（字符集）
python调用MySql存储过程 weixin_30667649 数据库 python
环境：1.mysql5.0或者以上支持存储过程的版本2.安装MySQL-python，目前支持到2.x步骤：一.数据库准备1.建立表CREATETABLE`Account`(`id`BIGINT(20)NOTNULLAUTO_INCREMENT,`sm_accountName`VARCHAR(100)COLLATEgbk_chinese_ciNOTNULLDEFAULT'',`sm_passwor
vue3 vite打包后页面控制台报错Access to script at ‘file:///E:/vueProject/vue3-project/Vue3-big-event-admin/dist Dinosaur啊呜 vue.js javascript 前端
vue3vite打包后页面白屏控制台报错Accesstoscriptat'file:///E:/vueProject/vue3-project/Vue3-big-event-admin/dist1安装兼容插件@vitejs/plugin-legacynpmi@vitejs/plugin-legacy-D2在vite.config.ts中进行配置//引入@vitejs/plugin-legacyim
在anaconda中创建python环境咕噜oo Python python anaconda
查看所有python虚拟环境condaenvlist星号表示默认环境。创建环境condacreate-npython37python=3.7.0其中python37是环境名称，自定义；python=3.7.0是python版本号。创建成功后可以发现在[anaconda3本地路径]\envs（D:\big_data\Anaconda3\envs）文件夹下会出现python37文件夹：也可以手动指定路
TCP的通信过程姬浩然 python tcp通信过程的实现 python
3.TCP通信过程3.1编码解码ipython3工具安装pip3installipython3s="hellodage"#str类型不能直接在网络中传输如果需要传输需要转换为Bytes二进制字节类型#utf-8编码情况一个汉字3个字节；GBK编码情况下一个汉字2字节s1="hello大哥"#str-编码->bytes二进制数据=字符串数据.encode(encoding='utf-8')In[8]
Unicode码------二个字节编码的系统 Mar.三月 Java基础知识
Unicode码：Unicode码也是一种国际标准编码，采用二个字节编码它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。Unicode编码则是采用双字节16位来进行编号，可编65536字符，基本上包含了世界上所有的语言字符，它也就成为了全世界一种通用的编码，而且用十六进制4位表示一个编码，非常简结直观，为大多数开发者所接受，特别是十六进制编码后
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

Unicode、UTF-8、Big Endian、Little Endian、GBK、UCS-2

一、Unicode、UCS、GBK

二、UTF-8

三、Little-Endian、Big-Endian

四、举例

你可能感兴趣的:(Unicode、UTF-8、Big Endian、Little Endian、GBK、UCS-2)