0-1

[转] ASCII，Unicode，UTF-8，GB2312编码之间的关系

从文件编码的方式来看，文件可分为ASCII码文件和二进制码文件两种。
ASCII文件也称为文本文件，这种文件在磁盘中存放时每个字符对应一个字节，用于存放对应的ASCII码。例如，数5678的存储形式为：
ASC码：　00110101 00110110 00110111 00111000
↓ 　　　 ↓　　　 ↓ 　　　 ↓
十进制码： 5　　　　6　　　 7　　　　 8 共占用4个字节。ASCII码文件可在屏幕上按字符显示，例如源程序文件就是ASCII文件，用DOS命令TYPE可显示文件的内容。由于是按字符显示，因此能读懂文件内容。
二进制文件是按二进制的编码方式来存放文件的。例如，数5678的存储形式为： 00010110 00101110只占二个字节。二进制文件虽然也可在屏幕上显示，但其内容无法读懂。C系统在处理这些文件时，并不区分类型，都看成是字符流，按字节进行处理。输入输出字符流的开始和结束只由程序控制而不受物理符号(如回车符)的控制。因此也把这种文件称作“流式文件”。

这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：

问题一：

使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？

我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？

问题二：

最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、 GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。

查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。写成一篇文章，送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。

0、big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

1、字符编码、内码，顺带介绍汉字编码

        字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。
        从ASCII、 GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。
        这里还有一些细节：
GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。
在DBCS中，GB内码的存储格式始终是big endian，即高位在前。

GB2312 的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析：在读取DBCS字符流时，只要遇到高位为1的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

2、Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。Unicode 也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

根据维基百科全书(http: //zh.wikipedia.org/wiki/)的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。

目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码，是由UTF(UCS Transformation Format)规范规定的，常见的UTF规范包括UTF-8、UTF-7、UTF-16。IETF 的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是 Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

3、UCS-2、UCS-4、BMP

UCS有两种格式：UCS-2和UCS-4。顾名思义，UCS-2就是用两个字节编码，UCS-4就是用4个字节（实际上只用了31位，最高位必须为0）编码。下面让我们做一些简单的数学游戏：
UCS-2有2^16=65536个码位，UCS-4有2^31=2147483648个码位。
UCS -4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为 256行 (rows)，每行包含256个cells。当然同一行的cells只是最后一个字节不同，其余都相同。
group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节为0的码位被称作BMP。

将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节，就得到了UCS-4的BMP。而目前的UCS-4规范中还没有任何字符被分配在BMP之外。

4、UTF编码

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：
UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。读者可以用记事本测试一下我们的编码是否正确。UTF -16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于 0x10000的UCS码，定义了一个算法。不过由于实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以认为UTF -16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。

5、UTF的字节序和BOM

UTF -8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是 “乙”？Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：
在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。
这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF -8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。Windows就是使用BOM来标记文本文件的编码方式的。

6、进一步的参考资料

本文主要参考的资料是 "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。
"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
spring mvc @RequestBody String类型参数 zoyation spring-mvc spring mvc
通过如下配置：text/html;charset=UTF-8application/json;charset=UTF-8在springmvc的Controller层使用@RequestBody接收Content-Type为application/json的数据时，默认支持Map方式和对象方式参数@RequestMapping(value="/{code}/saveUser",method=Requ
Python中判断两个字符串的内容是否相同 songyuc 《Python学习笔记》Python
1前言今天在划分数据集的时候，需要判断两个字符串的内容是否相同，这个之前查过，不过好像忘记了，所以想着再记录一下～2Python中判断两个字符串的内容是否相同使用“==”符号进行判断，这个判断是根据字符串中字符的ASCII进行判断的；在判断字符串内容是否相同时，不能使用“is”进行判断，因为is是判断变量的内存ID（即使用函数id(a)获得变量的内存ID）是否相同；
php状态监控源码,PHP服务器状态监控实现程序江子星 php状态监控源码
*/header('Content-type:text/html;charset=utf-8');include'./smtp/class.smtp.php';include'./smtp/class.phpmailer.php';functionsendmail($subject='',$body=''){date_default_timezone_set('Asia/Shanghai');//
CTF-bugku-crypto-[7+1+0]-base64解码之后做偏移沧海一粟日尽其用算法安全 python
CTF-bugku-crypto-[7+1+0]-base64解码之后做偏移1.题目2.解题思路2.1base64编码原理2.2解题思路2.2.1base64解码找规律2.2.2破解思路3.解题脚本4.flag5.附EASCII码表1.题目提示信息：7+1+0？格式bugku{xxxxx}密文：4nXna/V7t2LpdLI44mn0fQ==要求：破解密文获得flag2.解题思路2.1base64
HTTP 请求处理的完整流程到Servlet流程图烟雨国度 http servlet 流程图
HTTP请求处理的完整流程。从TCP三次握手开始，一直到Servlet处理请求并返回响应。首先，让我解释一下response.setContentType("text/html;charset=UTF-8");这行代码：这行代码设置了HTTP响应的Content-Type头。它告诉浏览器：响应的内容类型是HTML(text/html)字符编码是UTF-8(charset=UTF-8)这样浏览器就知
Orange Pi编译脚本的分析点点吃得太多了 linux linux bash
脚本的运行流程/scripts/main.sh变量设置DEST=“${SRC}”/outputREVISION=“2.2.2”DOWNLOAD_MIRROR==“china”NTP_SERVER=“cn.pool.ntp.org”通过网络校准您计算机上的时钟BUILD_ALLCOLUMNS,LINESTTY_X,TTY_YLANGUAGE=“en_US:en”CONSOLE_CHAR=“UTF-8
【python】爬取网站数据进击的C语言网络
编码问题因为涉及到中文，所以必然地涉及到了编码的问题，这一次借这个机会算是彻底搞清楚了。问题要从文字的编码讲起。原本的英文编码只有0~255，刚好是8位1个字节。为了表示各种不同的语言，自然要进行扩充。中文的话有GB系列。可能还听说过Unicode和UTF-8，那么，它们之间是什么关系呢？Unicode是一种编码方案，又称万国码，可见其包含之广。但是具体存储到计算机上，并不用这种编码，可以说它起着
String方法(JDK9) 凯哥学堂
声明：本栏目所使用的素材都是凯哥学堂VIP学员所写，学员有权匿名，对文章有最终解释权；凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。String方法(JDK9)构造器：String#String()无参数构造器，默认给的是一个””空字符串String#String(java.lang.String)给你一个char数组，它就帮你进行ABCD输出GBK中文简体+繁体字符集GB2312中文简体字
Java学习Day12------字符流、字符缓冲流、转换流、对象操作流程挨踢农民工dsh JavaSE学习 java
字符流、字符缓冲流、转换流、对象操作流程字符流FileWriterFileReader字符缓冲流转换流对象操作流字符流（1）概述：采用字节流读取数据的时候，容易出现乱码问题，这个时候就需要使用字节流而不是字符流（字节流一次只能读取一个字节,无法确定码表的情况下,转换的过程当中，就会出现乱码，GBK是两个字节进行转换，UTF-8是三个字节进行转换）（2）常见的编码表 a)ASCII码表 b)GB
小猿圈python学习-内置函数小猿圈IT教育
Python的len为什么你可以直接用？肯定是解释器启动时就定义好了内置参数详解https://docs.python.org/3/library/functions.html?highlight=built#ascii每个函数的作用我都帮你标好了abs#求绝对值all#ReturnTrueifbool(x)isTrueforallvaluesxintheiterable.Iftheiterabl
如何修改二进制文件（使用VIM) 爱吃瓜的猹z 编程工具 Linux vim
使用VIM打开二进制文件，视角如下图所示在没有进入编辑模式的情况下输入命令:%!xxd可得如下视角这里将ELF换成ABC，实际上就是修改对应的ASCII,修改完成如下退出编辑模式，输入命令:%!xxd-r退回到文件视角，可以看到修改成功
hex文件、out文件、bin文件、map文件解析 ChenK21_idea C/C++hex文件 out文件 bin文件 map文件嵌入式硬件 mcu
【1】“hex文件”内容解析hex文件是Intel公司提出的按地址排列的数据信息格式，数据宽度为字节，所有数据使用十六进制数字表示，并且以ASCII码的形式，按行记录数据。（即hex文件是用ASCII来表示二进制的数值）通常用于传输将被存于ROM或这EPROM中的程序和数据。hex文件每一行均以“:”开头，表明记录的开始，“:”之后,每至少2个字符表示一组十六进制数据，格式形如:LLAAAATTD
【Python】微信发送信息 onenote_1 python 微信开发语言
Python微信发送信息cat/opt/shell/weixin.py#!/usr/bin/python#-*-coding:utf-8-*-importsysimporturllib2importtimeimportjsonimportrequestsreload(sys)sys.setdefaultencoding('utf-8')touser=sys.argv[1]title=sys.arg
【C语言】词法陷阱与缺陷之二：字符和字符串表示详解 byte轻骑兵编程语言精要 #C语言深度解析坊 c语言开发语言
在C语言中，字符和字符串的表示是编程基础中的关键部分，但同时也是容易引发词法陷阱和缺陷的地方。以下是对字符和字符串表示的详细解析。一、字符的表示1.1.基本概念在C语言中，字符被视为整数，其值对应于字符集中的位置。对于采用ASCII字符集的编译器而言，字符'a'的整数值为97（十进制）或0141（八进制）。字符用单引号'括起来，如'a'、'1'、'\n'等。1.2.多字符常量某些C编译器允许在一个
python怎么解码成字符串_python字符串怎么解码？ weixin_39619478 python怎么解码成字符串
python字符串解码的方法：python中可以使用decode()方法对字符串进行解码。python中可以使用encode()方法将字符串转换为bytes类型，此过程称为“编码”。decode()方法用于将bytes类型的二进制数据转换为str类型，这个过程也称为“解码”。decode()方法的语法格式如下：bytes.decode([encoding="utf-8"][,errors="str
ASCII码 Zhangci］ C#
ASCII码概念ASCII(AmericanStandardCodeforInformationInterchange)的缩写（美国标准信息交换代码），已被国际标准化组织ISO采纳，作为国际通用的信息交换标准代码。诞生背景计算机对数据的识别、运算和存储都建立在二进制上，数据信息想要在计算机上参与计算都需要被编码。为了方便信息交换，美国国家标准学会ANSI（AmericanNationalStand
C++ Builder 使用 SelectDirectory 打开选择文件夹的对话框玄坴
SelectDirectory可以打开3种不同的打开文件夹对话框。目前比较常用的选择文件夹对话框老式的选择文件夹对话框和选择文件一样的选择文件夹对话框一.目前比较常用的选择文件夹对话框bool__fastcallSelectDirectory(constUnicodeStringCaption,constWideStringRoot,UnicodeString&Directory,TSelectD
Unicode字符编码过好每一天的女胖子 Windows c++windows
1、简介Unicode是ASCII（美国信息交换标准码）字符编码的一个扩展。ASCII中每个字符用7位表示，计算机上每个字符8位。Unicode使用全16为字符编码，因此Unicode能表示世界上所有能用于计算机通讯的符号。Unicode最初是作为ASCII的补充。ASCII最终有26个小写/大写字母、10个数字、32个符号、33个控制代码和一个空格，共128个代码。1、优点大小写字符的代码是连续
Python数据可视化：25年GDP之变_基于d3 2401_84558508 程序员 python 信息可视化开发语言
同时还需要注意一下编码问题，这里的CSV文件需要用gbk编码。下面是从统计局下载下来的CSV数据。我偷了个懒，直接就先在表格里删除了前三行，如下。接下来便是用Python对数据进行规整，代码如下。 importpandasaspd#读取数据df=pd.read_csv(gdp.csv,encoding=utf-8)(names,values,dates)=([],[],[])#记得去除地区这个列名
关键字提取蓝色滑行
关键词提取importpandasaspdimportjieba.analyse#导入关键词库读取文本fn=open('d:/collect.txt',encoding='UTF-8')string_data=fn.read()fn.close()关键词提取"TF-IDF(termfrequency-inversedocumentfrequency)是一种针对关键字的统计分析方法，用来评估关键字或
PHP 在cURL中伪造头信息每天瞎忙的农民工 php Http curl php
在cURL中伪造头信息
java parser乱码_HtmlParser 2.0 中文乱码问题福建低调 java parser乱码
对于HTMLParser2.0工具包我们需要修改其中的Page.java文件使其适用中文的html文件分析。主要是把protectedstaticfinalStringDEFAULT_CHARSET="ISO-8859-1"；修改成protectedstaticfinalStringDEFAULT_CHARSET="gb2312"；主要是兼容charset='GBK'声明的页面。--因为采用默认的
【Python】文件读写（CSV、Excel）素颜清风宛如月 Python python
一、CSV文件1读csv文件1.1以数组方式读文件deflistReader():withopen("user.csv",encoding="UTF-8")ascsvFile:#读文件csvData=csv.reader(csvFile)#数据集合print(list(csvData))#遍历数据对象fordataincsvData:#csvData.line_num：每条数据的行号print("
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
maven工程使用sonar tommyhxh
maven项目配置maven的setting.xml文件Maven插件会自动把所需数据（如单元测试结果、静态检测结果等）上传到Sonar服务器上，Sonar的配置并不在每个工程的pom.xml文件里，而是在Maven的配置文件settings.xml里。在标签添加：sonartruejdbc:mysql://10.16.8.96:3306/sonar?useUnicode=true&cha
python字串节对象Bytes 局外人LZ python python
一、简介字节串（bytes）是二进制数据的一种表示形式。它由一系列的字节组成，每个字节都是一个范围为0-255的整数。字节串可以用来表示二进制数据，例如图像、音频、视频、网络数据等。字节串与字符串（str）类型不同，字符串是由Unicode字符组成的文本数据。而字节串是原始的二进制数据，它不具备字符编码的概念，而是将数据以字节的形式进行存储和处理。在处理二进制数据时，字节串是非常有用的数据类型。它
蒙特卡罗方法——布丰投针实验近似计算圆周率python代码实现潮汐退涨月冷风霜 python 开发语言蒙特卡罗
布丰实验数学原理python代码importrandomasrdimportnumpyasnpimportmathimportmatplotlib.pyplotaspltimportmatplotlibmatplotlib.rcParams['font.family']='SimHei'#或者'MicrosoftYaHei'matplotlib.rcParams['axes.unicode_min
浅谈gbase与oracle 字符集差异 gbase_lmax java 前端开发语言
字符集字符集（CharacterSet）：按照一定的字符编码方案，将特定的符号集编码为计算机能够处理的数值的集合。常见字符集名称：ASCII字符集、Unicode字符集、GB2312字符集、BIG5字符集、GB18030字符集等。字符编码字符编码（CharacterEncoding）：是一套规则，对字符集进行编码的方案。如，Unicode是字符集，UTF-8、UTF-16、UTF-32是三种字符编
MQTT (Message Queuing Telemetry Transport)遥测消息传输协议 weixin_30653097 网络
最近在AIOT和筑联开发平台，其传输方式都是MQTT！它这么重要，一定要做个笔记，以免看过的又忘记了！MQTT是在TCP之上的协议，和HTTP一样，都属于应用层协议！下面的都是边看边记录来源于：MTQQ协议中文手册术语：网络连接、应用消息、客户端、服务端、订阅、主题名、主题过滤器、会话、控制报文数据表示：二进制位、整数数值、UTF-8编码字符串、编辑约定MTT控制报文格式：前8位固定格式7-4位表
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

[转] ASCII，Unicode，UTF-8，GB2312编码之间的关系

你可能感兴趣的:(unicode,utf-8,gb2312,ASCII)