浅谈各种字符集

分类： it其他

1、GB2312、BIG5、GBK、GB18030字集:

GB2312字集是简体字集，全称为GB2312(80)字集，共包括国标简体汉字6763个。
BIG5字集是台湾繁体字集，共包括国标繁体汉字13053个。
GBK字集是简繁字集，包括了GB字集、BIG5字集和一些符号，共包括21003个字符。
GB18030是国家制定的一个强制性大字集标准，全称为GB18030-2000，凡在中国大陆销售的国内外中文电脑，都必须能够处理27533个汉字，否则将不准销售。
它的推出使我国港台地区及其他国家使用的汉字集有了一个"大一统"的标准。

2、big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。如果将49写在前面，就是little endian。 “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little- Endian)敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

3、字符编码、内码，顺带介绍汉字编码

字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1- FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。 GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。 2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。这里还有一些细节： GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。在DBCS中，GB内码的存储格式始终是big endian，即高位在前。 GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是 1。不过这不影响DBCS字符流的解析：在读取DBCS字符流时，只要遇到高位为1的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

4、Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO- 8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。 Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。根据维基百科全书( http://zh.wikipedia.org/wiki/ )的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从 Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003。 UCS只是规定如何编码，并没有规定如何传输、保存这个编码。例如“汉”字的UCS编码是6C49，我可以用4个ascii数字来传输、保存这个编码；也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的方案。UTF-8的一个特别的好处是它与ISO- 8859-1完全兼容。UTF是“UCS Transformation Format”的缩写。 IETF的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF 是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

5、内码和code page

目前Windows的内核已经采用Unicode编码，这样在内核上可以支持全世界所有的语言文字。但是由于现有的大量程序和文档都采用了某种特定语言的编码，例如GBK，Windows不可能不支持现有的编码，而全部改用Unicode。 Windows使用代码页(code page)来适应各个国家和地区。code page可以被理解为前面提到的内码。GBK对应的code page是CP936。微软也为GB18030定义了code page：CP54936。但是由于GB18030有一部分4字节编码，而Windows的代码页只支持单字节和双字节编码，所以这个code page是无法真正使用的。

6、UCS-2、UCS-4、BMP

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上只用了31位，最高位必须为0）编码。下面让我们做一些简单的数学游戏： UCS-2有2^16=65536个码位，UCS-4有2^31=2147483648个码位。 UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为256行(rows)，每行包含256个cells。当然同一行的cells只是最后一个字节不同，其余都相同。 group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节为0的码位被称作BMP。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节，就得到了UCS-4的BMP。而目前的UCS- 4规范中还没有任何字符被分配在BMP之外。

7、UTF编码

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下： UCS-2编码(16进制) UTF-8 字节流(二进制) 0000 - 007F 0xxxxxxx 0080 - 07FF 110xxxxx 10xxxxxx 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx 例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。读者可以用记事本测试一下我们的编码是否正确。需要注意，UltraEdit在打开utf-8编码的文本文件时会自动转换为UTF-16，可能产生混淆。你可以在设置中关掉这个选项。更好的工具是Hex Workshop。 UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于 0x10000的UCS码，定义了一个算法。不过由于实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以认为UTF -16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。

8、UTF的字节序和BOM

UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是 “乙”？ Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符 "ZERO WIDTH NO-BREAK SPACE"又被称作BOM。 UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。 Windows就是使用BOM来标记文本文件的编码方式的。

9、区位码、GB2312、内码和代码页

有的朋友对文章中这句话还有疑问： “GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。” 我再详细解释一下： “GB2312的原文”是指国家1980年的一个标准《中华人民共和国国家标准信息交换用汉字编码字符集基本集 GB 2312-80》。这个标准用两个数来编码汉字和中文符号。第一个数称为“区”，第二个数称为“位”。所以也称为区位码。1-9区是中文符号，16-55 区是一级汉字，56-87区是二级汉字。现在Windows也还有区位输入法，例如输入1601得到“啊”。内码是指操作系统内部的字符编码。早期操作系统的内码是与语言相关的.现在的Windows在内部统一使用Unicode，然后用代码页适应各种语言, “内码”的概念就比较模糊了。微软一般将缺省代码页指定的编码说成是内码，在特殊的场合也会说自己的内码是Unicode，例如在GB18030问题的处理上。所谓代码页(code page)就是针对一种语言文字的字符编码。例如GBK的code page是CP936，BIG5的code page是CP950，GB2312的code page是CP20936。 Windows中有缺省代码页的概念，即缺省用什么编码来解释字符。例如Windows的记事本打开了一个文本文件，里面的内容是字节流：BA、BA、 D7、D6。Windows应该去怎么解释它呢？是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释，还是按照ISO8859-1去解释？如果按GBK去解释，就会得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符，也可能找到错误的字符。所谓“错误”是指与文本作者的本意不符，这时就产生了乱码。答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。缺省代码页可以通过控制面板的区域选项设置。记事本的另存为中有一项ANSI，其实就是按照缺省代码页的编码方法保存。 Windows的内码是Unicode，它在技术上可以同时支持多个代码页。只要文件能说明自己使用什么编码，用户又安装了对应的代码页，Windows 就能正确显示，例如在HTML文件中就可以指定charset。有的HTML文件作者，特别是英文作者，认为世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之间的字符，中文 Windows又按照缺省的GBK去解释，就会出现乱码。这时只要在这个html文件中加上指定charset的语句，例如：如果原作者使用的代码页和ISO8859-1兼容，就不会出现乱码了。再说区位码，啊的区位码是1601，写成16进制是0x10,0x01。这和计算机广泛使用的ASCII编码冲突。为了兼容00-7f的ASCII编码，我们在区位码的高、低字节上分别加上A0。这样“啊”的编码就成为B0A1。我们将加过两个A0的编码也称为GB2312编码，虽然GB2312的原文根本没提到这一点。 http://fmddlmyy.home4u.china.com /text6.html

10、 laser @ yahoo messenger

laser: 关于编码 laser: 我只能告诉你我的理解： laser: 1，UCS系列规范，规定的是具体的字节存储的方案 laser: 2,UTF8是编码方案，也就是，某个字对应的是什么数值 liying_fang: 嗯这个有点点感觉 laser: 类似的，GB2312, GBK, GB18030都是编码方案 liying_fang: 这些在jsp 或者 asp上都是相应的 charset要设的值吧？那么比如系统，或者数据库相关的参数也是 charset么？ liying_fang: codepage又是什么呢？什么关系？ laser: 3，CP(Code Page)xxx那些东西，都是代码页 laser: 代码页是什么意思呢？是指操作系统使用的编码方式 laser: 比如，你的文件“我的文件.doc”，这个文件名本身是需要有编码来存储在操作系统里面的，对吧？ laser: CPxxx就是指这些数据的编码 laser: 它会影响dir等命令的排序输出，（明白吧？） liying_fang: 哦 liying_fang: 就是代码页都是涉及与具体存储和显示有关的对吧 laser: 嗯。。。没看明白 laser: 我的意思是： laser: 操作系统对象 laser: 比如文件名，目录名等 laser: 本身也是包含编码的问题的 laser: windows早期为了解决这个问题，自己制定了一些叫代码页的这样的机制来解决这个问题 liying_fang: 哦～～～～ laser: 这就是代码页（CP，code page）的意思 liying_fang: 那另外数据库中的codepage呢也是这个意思么？是对数据库自己的对象？？？但是只有数据可能包含中文啊，其他的对象名都是英文的？ liying_fang: 比如 sybase ，老师说他们的服务器端字符集是 cp850 liying_fang: code page laser: 对 laser: code page是那些数据库为了解决编码问题 laser: 从微软学的 laser: 要知道 laser: 编码问题是很新的问题 laser: 原来都是ASCII码 laser: 哪有什么编码啊 laser: 呵呵 laser: 实际上应该理解为那些数据库厂商学习了windows，进行了兼容。。。 liying_fang: en 数据库好像也有采用什么字符集采用什么代码页是吧 liying_fang: 他们二者需要配合使用么就是说有一定的对应关系么 liying_fang: 比如是否cp850 和 gb2312对应 laser: 不是 laser: cp936对应的是gb2312 liying_fang: laser: cp850对应的应该是其他的 laser: 我不记得了 laser: 也许是台湾汉字（BIG5） liying_fang: 是不是数据库的服务器端和客户端需要设置成一样的代码页才能显示正常？

进一步的参考资料

本文主要参考的资料是引用" http://fmddlmyy.home4u.china.com "{"Short overview of ISO-IEC 10646 and Unicode" ( http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html )。我还找了两篇看上去不错的资料，不过因为我开始的疑问都找到了答案，所以就没有看： "Understanding Unicode A general introduction to the Unicode Standard" ( http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a ) "Character set encoding basics Understanding character set encodings and legacy encodings" ( http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03 ) }

Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
String方法(JDK9) 凯哥学堂
声明：本栏目所使用的素材都是凯哥学堂VIP学员所写，学员有权匿名，对文章有最终解释权；凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。String方法(JDK9)构造器：String#String()无参数构造器，默认给的是一个””空字符串String#String(java.lang.String)给你一个char数组，它就帮你进行ABCD输出GBK中文简体+繁体字符集GB2312中文简体字
【JAVA入门】Day42 - 转换流 Clown Piece JAVA入门 java python 开发语言
【JAVA入门】Day42-转换流文章目录【JAVA入门】Day42-转换流转换流是字符流和字节流之间的桥梁。转换流中的输入流叫做InputStreamReader，它可以把字节流转换为字符流。转换流的输出流叫做OutputStreamWriter，它可以把字符流转换成字节流。【使用例1】把一个GBK的文件中的中文读取到内存中，不能出现乱码。（作用1：按照指定的字符集读取数据）packageCon
Python——破解rar压缩包密码星和月 python 算法
破解RAR压缩包密码一般是通过穷举法来实现的，即尝试所有可能的密码组合，直到找到正确的密码为止。以下是使用Python编写的一个简单的RAR密码破解程序：importitertoolsimportrarfiledefcrack_rar_password(rar_file,password_length):#创建RAR文件对象rf=rarfile.RarFile(rar_file)#定义密码字符集合
【C语言】词法陷阱与缺陷之二：字符和字符串表示详解 byte轻骑兵编程语言精要 #C语言深度解析坊 c语言开发语言
在C语言中，字符和字符串的表示是编程基础中的关键部分，但同时也是容易引发词法陷阱和缺陷的地方。以下是对字符和字符串表示的详细解析。一、字符的表示1.1.基本概念在C语言中，字符被视为整数，其值对应于字符集中的位置。对于采用ASCII字符集的编译器而言，字符'a'的整数值为97（十进制）或0141（八进制）。字符用单引号'括起来，如'a'、'1'、'\n'等。1.2.多字符常量某些C编译器允许在一个
MySQL 数据库：原理、应用与发展专家大圣数据库数据库 mysql
摘要：本文深入探讨了MySQL数据库相关内容。首先介绍了MySQL作为开源关系型数据库管理系统的显著特点，包括易用性、跨平台性、高性能、可扩展性、开源免费以及数据安全性等方面。接着详细阐述了其安装与配置过程，涵盖在不同操作系统上的安装方式、配置文件参数的含义与设置，以及字符集和校对规则的设定。文中进一步讲解了MySQL的基本概念，如数据库与表的构成、多种数据类型、不同索引类型的特点与应用场景。并对
SQL server 日常运维命令一心只为学 sqlserver 数据库运维
一、基础命令查看当前数据库的版本SELECT@@VERSION;查看服务器部分特殊信息selectSERVERPROPERTY(N'edition')asEdition--数据版本，如企业版、开发版等,SERVERPROPERTY(N'collation')asCollation--数据库字符集,SERVERPROPERTY(N'servername')asServerName--服务名,@@VE
修改Mysql默认字符集 LeslieLiang
使用SHOWVARIABLESLIKE'character%'查看当前字符集Snipaste_2018-10-09_14-21-34.jpg1.进入Mysql的目录下，将my-default.txt复制为my.ini(影响不大)2.修改my.ini，在对应字段下添加以下内容[mysqld]character-set-server=utf8[client]default-character-set=
javase笔记3----正则表达式芝奥小婷笔记
正则表达式简介正则表达式（RegularExpressions），是一个特殊的字符串，可以对普通的字符串进行校验检测等工作，校验一个字符串是否满足预设的规则。基本语法字符集合[]:表示匹配括号里的任意一个字符。[abc]:匹配a或者b或者c[^abc]:匹配任意一个字符，只要不是a,或b,或c就表示匹配成功[a-z]:表示匹配所有的小写字母的任意一个。[A-Za-z]:表示匹配所有的小写字母和大写
MySQL 大小写问题天珩今日所得
场景在做mysql查询的时候，注意到一个问题，mysql默认是不区分大小写的通过简单的查询，发现通过关键字binary可以强制区分大小写参考每日所得--分页查询优化和mysql区分大小写问题那为什么MySQL不区分大小写呢参考文档mysql不区分大小写技术原理文章总结1、是否区分是取决于字符集和校对(Collation)部分所做的工作2、取决于字符集中是否声明了大小写敏感声明之后，开销增加参考ht
浅谈gbase与oracle 字符集差异 gbase_lmax java 前端开发语言
字符集字符集（CharacterSet）：按照一定的字符编码方案，将特定的符号集编码为计算机能够处理的数值的集合。常见字符集名称：ASCII字符集、Unicode字符集、GB2312字符集、BIG5字符集、GB18030字符集等。字符编码字符编码（CharacterEncoding）：是一套规则，对字符集进行编码的方案。如，Unicode是字符集，UTF-8、UTF-16、UTF-32是三种字符编
mysql字符集utf8 unicode_MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci weixin_39830175 mysql字符集utf8 unicode
参考：mysql字符集小结utf8mb4已成为MySQL8.0的默认字符集，在MySQL8.0.1及更高版本中将utf8mb4_0900_ai_ci作为默认排序规则。新项目只考虑utf8mb4UTF-8编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL中的utf8编码并不是真正的UTF-8，而是阉割版的，最长只有3个字节。当遇到占4个字节的UTF-8编码，例如emo
mysql指定字符集utf8mb4_MySQL字符集utf8修改为utf8mb4的方法步骤 weixin_39774219
对于mysql5.5而言，如果不设定字符集，mysql默认的字符集是latin1拉丁文字符集；但随着各种业务的进一步发展，除了各个国家的本身语言字符，经常也会有一些表情符号出现在应用程序中，而在mysql5.5之前，UTF-8编码只支持1-3个字节，支持BMP这部分的Unicode编码区；从MySQL5.5开始，可以支持4个字节UTF编码utf8mb4，一个字符能够支持更多的字符集，也能够支持更多
mysql怎么把utf8mb4_unicode_ci转为utf8mb4_general_ci 我是杨天 mysql ci/cd oracle 数据库
数据库相关学习资料：https://edu.51cto.com/video/655.htmlMySQL字符集转换方案：从utf8mb4_unicode_ci到utf8mb4_general_ci在MySQL数据库中，字符集和排序规则对于数据的存储和检索具有重要影响。utf8mb4_unicode_ci和utf8mb4_general_ci是两种常见的utf8mb4字符集的排序规则。其中，utf8m
mysql utf8mb4_general_ci_MySQL编码utf8与utf8mb4 utf8mb4_unicode_ci与utf8mb4_general_ci字符集小结... 程涛-supertim mysql
本篇文章小编给大家分享一下MySQL编码utf8与utf8mb4utf8mb4_unicode_ci与utf8mb4_general_ci字符集小结，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。utf8mb4已成为MySQL8.0的默认字符集，在MySQL8.0.1及更高版本中将utf8mb4_0900_ai_ci作为默认排序规则。新项目只考虑utf8mb4UTF-8编
PHP批量修改MySQL数据表字符集为utf8mb4/utf8mb4_unicode_ci 小松聊PHP进阶 MySQL PHP php mysql 数据库后端服务器 sql
编码大全可参考我之前的文章：快速理解ASCII、GBK、Unicode、UTF-8、ANSI批量修改注意这是DDL操作，操作过程会锁表（元数据锁），平均1秒能够转码3张表（数据量不大）。亲测操作过后没有数据异常，推荐执行前备份。//接手一些老项目，需要修改编码。$host='';$db='';$user='';$pass='';$charset='utf8mb4';$collate='utf8mb
python 实现第k个字典排列算法 luthane 算法 python 数据结构
第k个字典排列算法介绍"第k个字典排列"算法通常指的是在给定的字符集合（例如，字符串中的字符）中，找到所有可能排列的第k个排列。这个问题可以通过多种方法解决，但一个常见且高效的方法是使用“下一个排列”算法的变种，或称为“第k个排列”的直接算法。方法一：使用“下一个排列”的变种生成所有排列：首先生成所有排列，但显然这种方法对于较大的输入集合是不切实际的，因为它涉及到大量的计算和存储。排序并使用“下一
LeetCode学习之路（C++）——字符串（3） Alex_SCY Leetcode leetcode
Leetcode题解-字符串目录Leetcode题解-字符串242.两个字符串包含的字符是否完全相同409.计算一组字符集合可以组成的回文字符串的最大长度205.字符串同构647.回文子字符串个数9.判断一个整数是否是回文数696.统计二进制字符串中连续1和连续0数量相同的子字符串个数242.两个字符串包含的字符是否完全相同242.ValidAnagram(Easy)Leetcode/力扣思路：可
MySQL库表设计规范 zhangkaixuan456 mysql 设计规范数据库
MySQL库表设计规范本文仅针对MySQL、Oracle表设计1)表必须定义主键，默认为ID，整型自增，如果不采用默认设计必须咨询DBA进行设计评估2)ID字段作为自增主键，禁止在非事务内作为上下文作为条件进行数据传递，禁止非自增非数字类型主键设计出现3)禁止使用外键,触发器,存储过程4)多表中的相同列，必须保证列定义一致5)表默认使用InnoDB，国内表字符集默认使用utf8mb4，国际默认使用
开发新系统时,数据库字符集怎么选择对中文的支持最好? New小青龙数据库 mysql 字符集
在新开发的系统时，如果你希望确保中文按拼音顺序正确排序，同时支持更多的特殊字符与符号，下面是对utf8mb4_zh_cn_ci、utf8mb4_unicode_ci和utf8mb4_unicode_520_ci这几种字符集和校对规则的分析以及推荐方案：校对规则分析utf8mb4_zh_cn_ci：特点：这是专为简体中文设计的校对规则，主要考虑了中文拼音的排序需求。它可以在一定程度上支持中文拼音排序
C语言从头学53——字符集 LaoWaiHang C语言从头学 c语言
在使用VS编程时，在项目设置中有一个关于字符集的选项。一是Unicode字符集（VS默认的字符集），二是多字节字符集。本文围绕这两个字符集做一简单介绍。一、先说一下多字节字符集最早的字符集是ANSI的ASCII字符集，它开始使用7位后来使用8位表示包括英文字母、数字、标点符号、制表符、控制符等共计256个字符。后来，随着各国在ASCII的基础上制定本国的字符集，这些从ANSI标准派生的字符集被习惯
正则表达式详解朱什么凡正则表达式 mysql 数据库
正则表达式（RegularExpression）1.定义与用途正则表达式是一种描述字符串匹配模式的工具，它可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个字符串中取出符合某个条件的子串等。正则表达式由普通字符（如a到z）和特殊字符（称为“元字符”）组成，用于定义搜索文本时要匹配的一个或多个字符串的模式。2.基本语法与规则2.1字符类备选字符集：用[]表示，匹配方括号中的任意字符
Python爬虫01 阿汤哥的程序之路 python python 爬虫 javascript
requests模块文档安装pip/pip3installrequestsresponse.text和response.content的区别1.response.text等价于response.content.decode("推测出的编码字符集")response.text类型：str编码类型：requests模块自动根据Http头部对响应的编码（response.encoding）作出有根据的推
BaseCTF 高校联合新生赛Week1(web) pink鱼 web安全安全 php
目录HTTP是什么呀喵喵喵´•ﻌ•`编辑md5绕过欸ADarkRoomuploadAura酱的礼物HTTP是什么呀url转义：是将URL中的特殊字符转换为有效的ASCII字符格式的过程，以确保URL的正确解析和传输。这个过程涉及到将非ASCII字符替换为“%hh”格式，其中hh为两位十六进制数，对应于该字符在‌ISO-8859-1字符集里的编码值。URL转义的主要目的是为了确保URL中的特殊字符不
Hive3：列注释、表注释等乱码解决方案生产队队长 HIVE hive
--在Hive的MySQL元数据库中执行usehive;1).修改字段注释字符集altertableCOLUMNS_V2modifycolumnCOMMENTvarchar(256)charactersetutf8;2).修改表注释字符集altertableTABLE_PARAMSmodifycolumnPARAM_VALUEvarchar(4000)charactersetutf8;3).修改分
php连接mysql数据库 Daly罗笔记心得 mysql php 数据库 query sql border
php和mysql，比较容易出现的中文乱码，没有办法详说各种编码的异同，简单而实用的处理办法是：在查询之前插入：mysql_query("setnamesgbk");其中gbk也可以改成其他中文字符集。（似乎比较难以在同一的类中调用，大概是和具体的查询前有时候涉及数据库的选择有关？）而且，在数据库导出，导入之前也最好插入这条语句，保持字符的一致性（否则，在数据库中也可能出现乱码）。04级新生名单I
对于IDEA中default encoding for properties file和transparent native-to-ascii conversion的理解不想做实验了 intellij-idea java ide
关于defaultencodingforpropertiesfile对于properties文件有两个设置，一个是左边下拉框选encoding字符集，默认的是iso8859-1编码和解码，先不勾选右边的transparentnative-to-ascii-conversion。如果这时选了别的encoding编码集，那么读取的时候解码仍然是按照iso8859-1（只变编码不管解码，很坑！），就肯定
protobuf cmakelist，msvc utf-8设置 yayapoi~ KBEngine 服务器
源字符集和执行字符集源字符集指的是cpp文件中字符串的编码方式执行字符集指的是exe文件中字符串的编码方式msvc编译器设置的命令行参数/source-charset:utf-8/execution-charset:utf-8cmake中设置add_compile_options(“:/source-charset:utf-8>”)add_compile_options(“:/execution-
VS + Qt环境下解决中文乱码问题卧_听风雨 Qt VS+Qt
中文乱码问题VS+Qt环境下，正常输出中文，会出现乱码问题，这是VS与操作系统的编码字符集的问题。例如：setWindowTitle("中文窗口");出现：解决方法：a,如果，在需要输出的中文的地方比较少，可以使用：setWindowTitle(QString::fromLocal8Bit("中文窗口"));//或者setWindowTitle(QStringLiteral("中文窗口"));b,
oracle查看编码以及修改编码七七仔17 oracle parameters 数据库 database character system
首先查看oracle数据库的编码SQL>select*fromnls_database_parameterswhereparameter='NLS_CHARACTERSET';PARAMETER--------------------VALUE--------------------NLS_CHARACTERSETAL32UTF8这其来源于props$，这是表示数据库的字符集。oracle客户端编
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring