frog845

GB2312 字符集

GB2312 字符集 GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施，是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率，基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。 powered by 25175.netGB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括6763个汉字，其中一级汉字3755个，二级汉字3008个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。 GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。它是用双字节表示的，两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是：0xB0=0xA0+16, 0xA1=0xA0+1。 GBK字符集 GBK字符集是GB2312的扩展(K)，GBK1.0收录了21886个符号，它分为汉字区和图形符号区，汉字区包括21003个字符。GBK字符集主要扩展了繁体中文字的支持。 BIG5 字符集 BIG5又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、ibm PS55、王安码等，彼此不能兼容；另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312编码亦未有收录繁体中文字。 Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字：“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。 Big5码使用了双字节储存方法，以两个字节来编码一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9，低位字节的编码范围0x40-0x7E及0xA1-0xFE。尽管Big5码内包含一万多个字符，但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字，没有包含日文平假名及片假字母。例如台湾视“着”为“著”的异体字，故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。 GB18030 字符集 GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须符合本标准。GB 18030字符集标准的出台经过广泛参与和论证，来自国内外知名信息技术行业的公司，信息产业部和原国家质量技术监督局联合实施。 GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。编码方法： GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。接着是国际通用的unicode字符集 Unicode字符集（简称为UCS） 1．名称的由来 Unicode字符集编码是（Universal Multiple-Octet Coded Character Set）通用多八位编码字符集的简称，支持世界上超过650种语言的国际字符集。Unicode允许在同一服务器上混合使用不同语言组的不同语言。它是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统，支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发，1994年正式公布，最新版本是2005年3月31日的Unicode 4.1.0。Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。 2．编码方法 Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，例如字母“A”的编码为 004116 。所以“A”的编码书写为“U+0041”。 3．UTF-8 编码 UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format，即把Unicode转做某种格式的意思。 UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字，使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。 UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。 4．UTF-16 和 UTF-32 编码 UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案，UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码；UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数通过一个问题了解unicode编码问题：使用Windows记事本的“另存为”，可以在ANSI、GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？答案： ANSI字符集定义：ASCII字符集，以及由此派生并兼容的字符集，如：GB2312，正式的名称为MBCS(Multi-Byte Chactacter System，多字节字符系统)，通常也称为ANSI字符集。 UNICODE 与 UTF8、UTF16 由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，产生了Unicode字符集，它固定使用16 bits(两个字节)来表示一个字符，共可以表示65536个字符标准的 Unicode 称为UTF-16(UTF:UCS Transformation Format )。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。(Unicode字符集有多种编码形式) 例如"连通"两个字的Unicode标准编码UTF-16 (big endian)为：DE 8F 1A 90 而其UTF-8编码为：E8 BF 9E E9 80 9A 当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码：检测文件头标识，提示用户选择，根据一定的规则猜测最标准的途径是检测文本最开头的几个字节，开头字节 Charset/encoding,如下表： EF BB BF UTF-8 FE FF UTF-16/UCS-2, little endian FF FE UTF-16/UCS-2, big endian FF FE 00 00 UTF-32/UCS-4, little endian. 00 00 FE FF UTF-32/UCS-4, big-endian. 1、big endian和little endian big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。 “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。 2、字符编码、内码，顺带介绍汉字编码字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。这里还有一些细节： GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。在DBCS中，GB内码的存储格式始终是big endian，即高位在前。 GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析：在读取DBCS字符流时，只要遇到高位为1的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。 3、Unicode、UCS和UTF(UCS Transformation Format) 前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。 UCS规定了怎么用多个字节表示各种文字。而怎样传输这些编码，是由UTF(UCS Transformation Format)规范规定的！常见的UTF规范包括UTF-8、UTF-7、UTF-16。 4、UTF的字节序和BOM UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？ Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。 UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。 Windows就是使用BOM来标记文本文件的编码方式的。写到这里对编码有了大致的了解了，就可以理解网上一些文章的话了，比如有一篇很流行的文章《URL编码与SQL注射》里面有一段是这么说的：其实url编码就是一个字符ascii码的十六进制。不过稍微有些变动，需要在前面加上“%”。比如“\”，它的ascii码是92，92的十六进制是5c，所以“\”的url编码就是%5c。那么汉字的url编码呢？很简单，看例子：“胡”的ascii码是-17670，十六进制是BAFA，url编码是“%BA%FA”。呵呵，知道怎么转换的了吧。这得从ASCII说起，扩展的ASCII字符集采用8bit255个字符显然不够用，于是各个国家纷纷制定了自己的文字编码规范，其中中文的文字编码规范叫做“GB2312-80”（就是GB2312)，它是和ASCII兼容的一种编码规范，其实就是用扩展ASCII没有真正标准化这一点，把一个中文字符用两个扩展ASCII字符来表示。文中说的的中文ASCII码实际上就是简体中文的编码2312GB！它把ASCII又扩充了一个字节，由于高位的第一位是0，所以会出现负数的形式，url编码就是将汉字的这个GB2312编码转化成UTF-8的编码并且每8位即一个字节前面加上%符号表示。那为何UTF-8是进行网络的规范传输编码呢？在Unicode里，所有的字符被一视同仁。汉字不再使用“两个扩展ASCII”，而是使用“1个Unicode”，注意，现在的汉字是“一个字符”了，于是，拆字、统计字数这些问题也就自然而然的解决了。但是，这个世界不是理想的，不可能在一夜之间所有的系统都使用Unicode来处理字符，所以Unicode在诞生之日，就必须考虑一个严峻的问题：和ASCII字符集之间的不兼容问题。我们知道，ASCII字符是单个字节的，比如“A”的ASCII是65。而Unicode是双字节的，比如“A”的Unicode是0065，这就造成了一个非常大的问题：以前处理ASCII的那套机制不能被用来处理Unicode了另一个更加严重的问题是，C语言使用'\0'作为字符串结尾，而Unicode里恰恰有很多字符都有一个字节为0，这样一来，C语言的字符串函数将无法正常处理Unicode，除非把世界上所有用C写的程序以及他们所用的函数库全部换掉于是，比Unicode更伟大的东东诞生了，之所以说它更伟大是因为它让Unicode不再存在于纸上，而是真实的存在于我们大家的电脑中。那就是：UTF UTF= UCS Transformation Format UCS转换格式，它是将Unicode编码规则和计算机的实际编码对应起来的一个规则。现在流行的UTF有2种：UTF-8和UTF-16 其中UTF-16和上面提到的Unicode本身的编码规范是一致的，这里不多说了。而UTF-8不同，它定义了一种“区间规则”，这种规则可以和ASCII编码保持最大程度的兼容，这样做的好处是压缩了字符在西欧一些国家的内存消耗，减少了不必要的资源浪费，这在实际应用中是非常有必要的。 UTF-8有点类似于Haffman编码，它将Unicode编码为： 00000000-0000007F的字符，用单个字节来表示； 00000080-000007FF的字符用两个字节表示（中文的编码范围） 00000800-0000FFFF的字符用3字节表示因为目前为止Unicode-16规范没有指定FFFF以上的字符，所以UTF-8最多是使用3个字节来表示一个字符。但理论上来说，UTF-8最多需要用6字节表示一个字符。在UTF-8里，英文字符仍然跟ASCII编码一样，因此原先的函数库可以继续使用。而中文的编码范围是在0080-07FF之间，因此是2个字节表示（但这两个字节和GB编码的两个字节是不同的）。看看编码之多：ANSI,AscII,GB2312,GBK,BIG5,GB18030,Unicode,UCS（就是unicode）Utf-8,utf-16,utf-32 整整10种编码～，算是够复杂了可是这还仅仅是个开始，应用方面变化无穷，不过现在看到这些东西起码再不会头大了！呼呼～哦，漏了一个加密的base64编码。什么是Base64？按照RFC2045的定义，Base64被定义为：Base64内容传送编码被设计用来把任意序列的8位字节描述为一种不易被人直接识别的形式。（The Base64 Content-Transfer-Encoding is designed to represent arbitrary sequences of octets in a form that need not be humanly readable.）为什么要使用Base64？在设计这个编码的时候，我想设计人员最主要考虑了3个问题： 1.是否加密？ 2.加密算法复杂程度和效率 3.如何处理传输？加密是肯定的，但是加密的目的不是让用户发送非常安全的Email。这种加密方式主要就是“防君子不防小人”。即达到一眼望去完全看不出内容即可。基于这个目的加密算法的复杂程度和效率也就不能太大和太低。和上一个理由类似，MIME协议等用于发送Email的协议解决的是如何收发Email，而并不是如何安全的收发Email。因此算法的复杂程度要小，效率要高，否则因为发送Email而大量占用资源，路就有点走歪了。但是，如果是基于以上两点，那么我们使用最简单的恺撒法即可，为什么Base64看起来要比恺撒法复杂呢？这是因为在Email的传送过程中，由于历史原因，Email只被允许传送ASCII字符，即一个8位字节的低7位。因此，如果您发送了一封带有非ASCII字符（即字节的最高位是1）的Email通过有“历史问题”的网关时就可能会出现问题。网关可能会把最高位置为0！很明显，问题就这样产生了！因此，为了能够正常的传送Email，这个问题就必须考虑！所以，单单靠改变字母的位置的恺撒之类的方案也就不行了。关于这一点可以参考RFC2046。基于以上的一些主要原因产生了Base64编码。

【阿里巴巴JAVA开发手册】IDE的text file encoding设置为UTF-8； IDE中文件的换行符使用Unix格式，不要使用Windows格式。 SunTecTec Seatunnel intellij-idea seatunnel
问题：当使用IDEASSH远程开发时，SFTP同步的Windows本地编辑的config/plugin_config文件文本内容中“换行符”与Unix、Linux的文件文本内容换行符字符集不一致，导致docker容器中自定义/opt/seatunnel/bin/install_plugin在执行以Windows下编辑的config/plugin_config时，遍历行读该文件内容格式提供给mvnw
关于ideamaven打包报错小抠的菜鸟之路 #package maven
关于使用idea打包的时候报错,下面记录一下我一个上午遇到的三个问题1.Error:(171,64)java:�Ҳ��Error:(171,64)java:�Ҳ��一般出现这种方框框里带问号的图标或者字体,我们一般判定为乱码行为,java,sql都是这样,vue还不清楚,目前使用的还少,还没有出现这种问题,所以过来记录一下,sql问题可以在数据库连接工具中去设置一下字符集,当然
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
网络相关篇Linux一句话精彩问答--2006/09/08更新--20060908pdf版本下载
----------------------------网络相关篇--------------------------2001让apache的默认字符集变为中文(陈绪)vihttpd.conf，找到AddDefaultCharsetISO-8859-1一行apache版本如果是1.*，改为AddDefaultCharsetGB2312如果是2.0.1-2.0.52，改为AddDefaultChar
23.5.15---在python中读取excel表格数据并可视化多一点灵性 python matplotlib 开发语言机器学习
目录1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）2.在将excel表格文件中的数据读取出来，并将其中的两列数据作为行列坐标用图画出来2.1设置坐标轴显示的刻度及范围3.在PythonConsole清除运行的控制台数据使用：1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）##设置字符集，防止中文乱码importmatplotlibasm
【Qt】QString字符串编码格式与数据转换漫步企鹅 qt QString char
QString提供了多种静态方法用于将不同编码格式的原始数据转换为QString对象。以下是常用方法的全面对比：1.fromLatin1(constchar*str,intsize=-1)功能：将Latin-1（ISO8859-1）编码的C字符串转换为QString。输入类型：单字节字符集（每个字节直接映射到Unicode的前256个码点）。适用场景：ASCII或ISO8859-1编码的文本，如西
c++26新功能—几个细节的完善 fpcc C++11 C++c++
一、C++26标准的完善正如前面在分析其它标准时，它分为语言本身的发展和库的发展。语言的特性是真正的C++标准的演进，而库的发展只是语言特性发展的支持或者原来库的完善。C++26做为一个较大版本的演进，极大的增强了C++语言的灵活性、易用性。极大的提高了C++语言的安全性和运行效率。二、几个具体的细节在本文中主要对几个比较小的细节进行分析说明，语言特性主要包括：1、扩展字符集：主要是提供了对@、$
CTF-bugku-[where is flag 4]-base64和zip压缩包沧海一粟日尽其用安全 python
step1:base64解码为16进制数据Base64解码Base64编码UTF8GB2312UTF16GBK二进制十六进制解密-TheX在线工具支持常见的utf8/gbk/utf16/gb2312编码。本工具可以自动探测识别一些常用的数据，并对他进行优化输出。如自动格式化xml和json数据、检测出图片的尺寸并可另存到文件。https://the-x.cn/base64/16进制的数据5D034
利用人名语言分类案例演示RNN、LSTM和GRU的区别（基于PyTorch） .30-06Springfield rnn lstm gru 分类人工智能 python pytorch
文章目录一、程序结构1.1程序整体结构1.2各模块功能关系流程图二、数据预处理模块详解2.1定义字符集和语言类别2.2读取数据2.3人名转换为one-hot编码张量2.4自定义数据集类2.5数据加载器三、模型定义模块详解3.1RNN模型3.2LSTM模型3.3GRU模型四、模型训练与测试模块详解4.1测试模型基本功能4.2模型训练主函数五、结果可视化与对比模块详解六、模型预测模块详解七、案例结果分
js 允许生成特殊的变量名基于字符集编码混淆的 XSS 绕过漏洞 -- Google 2025 Lost In Transliteration A5rZ 网络安全
题目实现了一个字符转换工具在/file路由用户可以通过ct参数自定义Content-Type//文件路由-提供静态文件服务（JS和CSS），支持内容类型验证app.MapGet("/file",(stringfilename="",string?ct=null,string?q=null)=>{//根据文件名查找对应的模板文件string?template=FindFile(filename);i
Mysql—C语言API接口
Mysql—C语言API接口一、mysql-arp访问数据的操作流程1.初始化mysql操作句柄；2.连接mysql服务器；3.设置mysql客户端字符集（保持与服务器一致）；4.选择要操作的数据库；5.定义sql语句，并且执行语句；6.将查询结果保存到本地；7.获取结果中的条数和列数；8.根据条数和列数遍历结果集；9.释放保存在本地的结果集；10.关闭mysql句柄，释放资源；二、接口认识1.初
Oracle 导入导出 dmp 数据文件实战 dazhong2012 数据库 oracle 数据库
一、DMP文件基础知识1.DMP文件定义DMP（DataPumpDumpFile）是Oracle数据库专用的二进制格式文件，由expdp/impdp或旧版exp/imp工具生成。它包含数据库对象的元数据（表结构、索引等）和实际数据，是数据备份、迁移和恢复的核心载体。2.DMP文件结构文件头：记录Oracle版本、字符集、导出时间等元信息。数据段：存储表数据，按数据块组织，支持并行读写。索引段：加速
STM32 环境监测与控制系统的设计与实现雾削木 STM32 stm32 嵌入式硬件单片机
一个基于STM32微控制器的环境监测与控制系统的设计与实现。该系统能够实时采集温湿度数据，通过OLED屏幕显示环境参数，并提供用户交互界面进行阈值设置。系统还具备PWM电机控制、状态指示和异常报警功能，适合应用于智能家居、温室大棚等环境监测场景。代码下载地址：编译前需要将main.c中中文转位gb2312编码存储，否则会报编码错误https://wwp.lanzoul.com/iGKFS2zhox
Linux iconv命令 fengyehongWorld Linux linux 运维
参考资料Linuxiconv指令目录一.简介二.查看支持的编码三.`SHIFT-JIS`转`UTF-8`一.简介⏹iconv是Linux上用于文本编码转换的标准工具，基于GNUlibiconv库，一般Linux操作系统都会内置该命令，无需额外进行安装。主要用于将文件从一种字符集（如GBK、Shift_JIS）转换为另一种（如UTF-8）。短option长option说明-f编码格式--from-c
Docker 安装 MySQL 详细教程及字符集问题解决李少兄 Java java docker
引言在本教程中，我们将通过Docker快速部署MySQL5.7数据库服务，并深入解决在使用过程中可能遇到的字符集问题。此过程不仅涉及基本的安装步骤，还会详细介绍如何利用Docker数据卷（volume）来持久化数据以及优化配置，确保数据库支持中文字符的正确存储与查询。准备工作确保已安装Docker。确认宿主机的3306端口未被其他服务占用。步骤一：拉取MySQL镜像打开终端或命令行工具，执行以下命
MySQL 数据库操作完整指南 yz123lucky Sql数据库学习使用指南数据库 mysql oracle
MySQL数据库操作完整指南目录创建数据库连接数据库创建表约束详解插入数据查询数据多表联合查询连接查询高级查询更新数据删除数据视图详解存储过程详解函数详解触发器事务处理索引优化安全性管理备份和恢复性能优化删除表和数据库1.创建数据库基本创建数据库--创建基本数据库CREATEDATABASECompanyDB;--创建带字符集的数据库CREATEDATABASECompanyDB_UTF8CHAR
【Python】正则表达式中的`^`和`[]` shengchao0920 python 正则表达式数据库
一、正则表达式：符号^^在正则表达式中有两种常见的含义，具体取决于它的位置：1.在字符集[]的开头时，表示取反（negation）。例如：[^s]：匹配任何非空白字符。[^a-z]：匹配任何不在a-z范围内的字符。2.在字符集之外时，表示字符串的开始（anchor）。例如：^https：匹配以“https”开头的字符串。^\d：匹配以数字开头的字符串。总结：在[]内：取反。在[]外：字符串开始。需
ESP 8266+ TTS 实现对讲机语音播报时间和信息
#include#include#include#include#include"UTF8ToGB2312.h"//需要改造对讲机耳机连接至TTS音响接口#defineSERIAL2_TX12//接TTSRX#defineSERIAL2_RX13//接TTSTX#defineTTS_MAX_DATA_LENGTH1024//最大支持4K字节#defineCONTROL_PIN14//定义控制引脚为
深入了解域名生成算法（DGA）：原理、应用及防御措施 BugHunter666 网络服务器运维 linux 前端
域名生成算法（DGA,DomainGenerationAlgorithm）是一种用于生成大量域名的算法，通常用于恶意软件和网络攻击中。它们的主要目的是通过生成看似合法的域名来逃避检测和阻止。例如，恶意软件可以使用DGA定期生成新的域名，以避免被网络安全系统发现并封锁。DGA的工作原理：生成域名：DGA通过算法生成大量的随机或伪随机的域名。这些域名通常是由一些固定的字符集和算法生成的，这些算法可能涉
【游戏测试】多语言/本地化测试-抽样测试 June bug 游戏测试游戏游戏测试多语言测试本地化测试经验分享
一、从可能出现显示问题的角度，多语言可以大致分为以下6类：字符集/编码支持类别（基础问题）：单字节字符语言：如英语、法语、德语、西班牙语（西欧字符）、意大利语、葡萄牙语等。主要使用ASCII或Latin-1扩展字符集。问题相对较少，但非ASCII字符（特殊符号、带重音字母如é,ñ,ß,ø）如果编码处理不当或字体不支持，可能显示为乱码(�)、方块(□)或问号(?)。双字节字符语言：如中文**（简体G
QByteArray，QString 与标准字符串的区别 ILOVECOMPUTING QByteArray QString std string 内存溢出内存指针 const char
QByteArray、QString与标准字符串的区别1.编码处理QByteArray存储原始字节数据（char*），不涉及编码转换。适合处理二进制数据（如图像、网络数据包），或明确知道编码格式的文本（如UTF-8）。示例：QByteArraydata="\x48\x65\x6C\x6C\x6F";//直接存储字节序列QString使用UTF-16编码存储文本，支持国际化字符集。自动处理编码转换，
GBK、UTF-8、ASCLL、url编码博childe linux centos 运维
GBKGBK全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：ChineseInternalCodeSpecification）。GBK向下与GB2312编码兼容，向上支持ISO10646国际标准，是前者向后者过渡过程中的一个承上启下的产物。GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7
ASCII Unicode UTF-8 字符集字符编码土豆Coder 字符及编码前端
ASCIIUnicodeUTF-8字符集字符编码基本概念字符字符集字符编码字符集和字符编码ASCII字符集Unicode字符集UTF-8测试题基本概念字符集为每个字符分配了一个唯一的编号，通过这个编号就能找到对应的字符。在编码过程中我们经常会使用字符，而使用字符的前提就是把字符放入内存中，而放入内存中的仅仅是字符的编号，而不是真正的字符实体。这就引出一个问题，如何将这些字符编号存入内存中，还能让计
C#操作Oracle数据库中文乱码 US7ASCII字符集（解决方案）彼岸丿丿落笔 C#数据库 Oracle C#数据库乱码数据库字符集
工作时遇到了存中文乱码的问题，存到数据库了都是问号？？？，直接再PLSQL中执行SQL确没有问题，网上查了很多资料并没有解决，最后通过不断尝试终于解决了，分享一下。PLSQL-帮助-支持信息，看到数据库的字符集如下CharacterSets Charactersize:1byte(s) CharSetID:1 NCharSetID:2000 UnicodeSupport:True NLS_LANG
Java IO流必备：File、递归与字符集详解 EnigmaCoder Java java 开发语言
目录前言File创建File类的对象File类的相关方法方法递归认识递归文件搜索字符集常见字符集⚙️标准ASCII字符集⚙️GBK（汉字内码扩展规范，国标）⚙️Unicode（统一码、万国码）⚙️UTF-8（UnicodeTransformationFormat-8-bit）编码与解码⚙️字符串编码与解码方法总结⚙️示例代码（Java）⚙️核心注意事项前言大家好！我是EnigmaCoder。本文为
基于Java的不固定长度字符集在指定宽度和自适应模型下图片绘制生成实战鱼弦开发语言 java
基于Java的不固定长度字符集在指定宽度和自适应模型下图片绘制生成实战引言在现代软件开发中，动态生成包含文本内容的图片是一项常见需求，特别是在验证码生成、报告导出、社交媒体分享等场景。当面对不固定长度的字符集（如多语言文本、用户生成内容等）时，如何在指定宽度下实现美观的自适应文本布局成为技术难点。本文将深入探讨基于Java的实现方案，提供从原理到实战的完整指南。技术背景核心Java图形APIJav
GreatSQL从库报错13146：字符集不一致问题处理数据库mysql
GreatSQL从库报错13146：字符集不一致问题处理1.问题概述需要将数据反向同步到源端，在使用SELECTINTOOUTFILE和LOADDATA的方式进行数据恢复后配置同步，从库发生报错13146数据类型转换失败，导致同步异常；通过对比表结构和列的字符集，发现主从库相关表、列字符集设置不一致，修改为一致后，同步正常。2.问题复现本次测试基于GreatSQL8.0.322.1初始化2个单机实
GreatSQL从库报错13146：字符集不一致问题处理数据库mysql
GreatSQL从库报错13146：字符集不一致问题处理1.问题概述需要将数据反向同步到源端，在使用SELECTINTOOUTFILE和LOADDATA的方式进行数据恢复后配置同步，从库发生报错13146数据类型转换失败，导致同步异常；通过对比表结构和列的字符集，发现主从库相关表、列字符集设置不一致，修改为一致后，同步正常。2.问题复现本次测试基于GreatSQL8.0.322.1初始化2个单机实
完整宋体SimSun字体包下载与使用指南秦道衍
本文还有配套的精品资源，点击获取简介：宋体SimSun.zip包含的字体文件广泛用于中文系统，特别是在Windows中预装，适用于文档编辑、排版及图形设计。该字体源自明朝印刷字体，具有清晰的笔画和适合长篇阅读的特点。SimSun作为宋体的数字化版本，经过优化以适应现代屏幕显示和打印需求，并支持多种语言和字符集。本压缩包提供的TrueType字体文件（.ttf）可用于安装在多种操作系统中，丰富用户字
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

GB2312 字符集

你可能感兴趣的:(GB2312 字符集)