横云断岭

扯谈下UTF-8

前言：

本来想翻译这篇文章的（作者是utf-8编码，golang发明者之一）：

UTF-8: Bits, Bytes, and Benefits，http://research.swtch.com/utf8

一则翻译起来很痛苦，二则觉得这篇文章有些地方可能说得不是太明白，所以结合其它的一些东东扯谈下utf-8。

Unicode：

先扯谈下Unicode。

Unicode就是为每一个字符（各种语言的各种字符）分配一个数字。所以它实际上是一个表，记录了字符和数字的对应关系。

比如汉字“你”，对应的数字是20320，16进制是4F60。

目前Unicode的范围从 U+0000 到 U+10FFFF 。有UTF-8，UTF-16，UTF-32三种编码方式。

其中UTF-8对应1到4个8-bit，UTF-16对应1到2个16-bit，UTF-32对应1个32-bit。

下面这个表，很清晰地总结了各种编码方式（from: http://www.unicode.org/faq/utf_bom.html ）：

Name	UTF-8	UTF-16	UTF-16BE	UTF-16LE	UTF-32	UTF-32BE	UTF-32LE
Smallest code point	0000	0000	0000	0000	0000	0000	0000
Largest code point	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF
Code unit size	8 bits	16 bits	16 bits	16 bits	32 bits	32 bits	32 bits
Byte order	N/A		big-endian	little-endian		big-endian	little-endian
Fewest bytes per character	1	2	2	2	4	4	4
Most bytes per character	4	4	4	4	4	4	4

历史的悲剧：

因为历史原因，曾经人们以为用两个8-bit，可以表示任意一字符，最初的Unicode标准就是16-bit的。所以Java中的char类型，C++中的wchar_t（gcc当作32-bit），QT中的QString，windows的底层Unicode的支持，都是16-bit的，所以造成了很多悲剧。

wchar_t实际上是个过时的东东，所以在C++11中增加了char16_t和char32_t类型，不过因为各家编译器的实现，标准库的实现，及语法等，实际使用还是相当相当的蛋疼。

这些悲剧一是unicode标准本身很比较晚才成熟，二则C/C++一直没有把unicode支持标准化（所以QT自己搞了一套，微软自己也搞了套）。

不过话说回来，这些悲剧不能全怪C++，只能说Unicode标准本身就蛋疼。据我所认识的编程语言中，只有后来比较晚出现的语言才比较好地支持unicode，比如golang，python3。

~~像JavaScript，根本没有Unicode这概念。~~

http://www.ruanyifeng.com/blog/2014/12/unicode.html Unicode与JavaScript详解

UTF-8：

上面扯远了，再回来说下UTF-8。

UTF-8的编码规则：

UTF-8的编码规则可以看阮一锋写的文章：http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

    Unicode符号范围 | UTF-8编码方式
(十六进制) | （二进制）
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
下面，还是以汉字“严”为例，演示如何实现UTF-8编码。
已知“严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此“严”的UTF-8编码需要三个字节，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，从“严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，“严”的UTF-8编码是“11100100 10111000 10100101”，转换成十六进制就是E4B8A5。

要注意的是在UTF-8编码中，非ASCII字符的编码字串中不会出现0X00，即'\0'。这个很重要，是UTF-8有很多特性的重要原因。

UTF-8编码的优点：

UTF-8的编码规则，让它有很多特性：

兼容ASCII。ASCII编码的文件即同时也是UTF-8编码的文件。
可以从二进制数据流中识别出ASCII字符，比如有一个字节是0x7A，那么它肯定是字符'z'，因为它的最高为是0（参见上面的UTF-8的编码规则，所有的非ASCII字符的UTF-8编码的字节的最高位都是1）。
子串搜索可以直接按字节进行搜索，可以使用C语言原有的函数，如strchr，strstr（原因参考上面的UTF-8的编码规则）。
大多数处理8-bit编码文件的程序可以安全地处理utf-8文件（原因参考上一点）。
utf-8编码的顺序和Unicode中码位(code point)的顺序是一致的，所以像unix工具，join，ls，sort等不用显式地指明是utf-8编码。
utf-8编码是没有字节顺序的，UTF-8编码的文件可以不用写BOM头。像UTF-16或者UTF-32编码的文件就要写入BOM头，否则只能猜测了。（其实，文本编辑器都是读入一段数据，再猜测到底是什么编码。mozilla有个开源程序jChardet，可以猜什么编码，但是实测并不是很准确。对于没有指定编码的网页，浏览器只好去猜测所使用的编码，像chrome浏览器有时就会猜错，貌似错误率比IE要高。）

update:2016-05-23

貌似这个库是一直更新的，可以用来检测编码，其它的都比较老了。


    com.ibm.icu
    icu4j
    57.1

http://stackoverflow.com/questions/499010/java-how-to-determine-the-correct-charset-encoding-of-a-stream

utf-8编码的缺点：

1.utf-8编码是好，但是因为它是变长的！所以用一个什么类型来表示一个utf-8字符？

这个在C++中还是无解，其实在其它的编程语言中同样是无解。至于go语言，它采取了一个折中的办法，在历遍字符串时，得到的是一个rune类型（实际即int32）。

另外，假定有一个大文件，你修改了一个字符，那么有可能整一个文件都有重新保存。。

UTF-16编码尽管也有可能要重新保存整个文件，但是概率比较小，因为大部分常用的字符都可以用一个16-bit来表示。

2.不能实现O(1)的随机访问

所以像文本编辑器等要内部再用一个数组来记录每一个字符的位置。

不过，像随机访问，这样的操作是很少的。

对于编程语言来说，问题不大，因为大部分编程语言中string都是不要修改的（貌似只有C++中string是可以修改的）。

所以通常只有历遍操作，而历遍操作，对于UTF-8，UTF-16，UTF-32都是O(n)的时间复杂度（当然，如果较真，UTF-32编码要快一些）。

其实上面的缺点，同样是UTF-16编码的缺点（它也是变长的1个16-bit或者2个16-bit），UTF-16编码还有一个重要的缺点是要指明字节序。

UTF-32编码的缺点是要指明字节序和太浪费空间（如果全是ASCII字符，那么要浪费3倍的空间！），UTF-32编码的优点是可以O(1)实现随机访问。

其它的一些东东：

受Windows API的影响，话说我以前是UTF-16党（wchar_t），但是后来发现它并不是定长的（不能用像s[i]这样的代码来访问一个字符），很伤心，慢慢改为用utf-8编码了，但是utf-8编码不能随机访问，的确也是个问题。

所以现在我是“无-党-派-人-士”:) 。

国外还有人专门做了个网站来推广utf-8编码：http://utf8everywhere.org/

还有专门吐槽UTF-16的：http://programmers.stackexchange.com/questions/102205/should-utf-16-be-considered-harmful

Unicode在线查询的方法：

http://en.wikipedia.org/wiki/List_of_Unicode_characters

http://www.unicode.org/charts/

4个byte的utf-8字符串的一些例子：

http://en.wikibooks.org/wiki/Unicode/Character_reference/1D000-1DFFF

这里还有一个测试utf-8解码是否正确的测试例子：

http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt

这里有一个Unicode编码清单，比较实用：

http://witmax.cn/unicode-list.html

python3中的unicode：

在python3中，字符串就是Unicode字符串。在CPython的代码中可以看到，对UTF-8，UTF-16，UTF-32都实现了支持。在创建一个字符串时（比如，解析“print('abc中国')”语句，在cmd窗口下，'abc中国'的编码通常是cp936，即gbk编码），如果是UTF-16或者UTF-32编码，则直接创建一个对应的字符串对象即可。如果是其它编码，则先转换为UTF-8编码，再创建一个字符串对象。

java里如何处理大于U+FFFF（即4byte的UTF-16编码）的字符：

java里用char来表示一个字符，但是char却不能表示大于U+FFFF的字符，因为char只有两个byte。上面说了java出现时unicode标准还没有成熟，所以这是一个历史遗留问题。

那么如何在java里表示和处理大于U+FFFF的字符？参考这里：

http://stackoverflow.com/questions/9834964/char-to-unicode-more-than-uffff-in-java

// This represents U+10FFFF
String x = "\udbff\udfff";

或者

String y = new StringBuilder().appendCodePoint(0x10ffff).toString();

还提供了一些函数来处理，更多的可以直接参考String类的注释。

		System.out.println(y);
		System.out.println("codePoint:" + y.codePointAt(0));
		System.out.println("codePoint len:" + y.codePointCount(0, y.length()));

update: 2017-4-26

JDK里处理utf8编码的代码：

http://grepcode.com/file/repository.grepcode.com/java/root/jdk/openjdk/8u40-b25/sun/nio/cs/UTF_8.java?av=f#285

JDK里默认的序列化是如何处理编码的：

java.io.ObjectOutputStream.BlockDataOutputStream.writeUTFBody(String)

因为jdk里的String都是utf-16的编码，在这里jdk的序列化做了一点压缩的处理。对于两个char（四个字节）的字符，压缩为3个字节来表示。

hessian里的字符是utf8编码的。参考 http://hessian.caucho.com/doc/hessian-serialization.html

在实现里，可以做一个优化。用unsafe 读出一个long，然后判断是不是全是ansi字符，这样子可以加快速度。

总结：

鉴于UTF-8编码有这么多优点，UTF-8编码会越来越流行。据google的统计数据，超过50%的网页，是utf-8编码。很多工具默认编码都是UTF-8的，比如python3的解析器，GCC。

通常来说UTF-8编码是优先选择，不过，如果是一些特殊应用，要用到O(1)的随机访问字符串，应该使用UTF-32编码。

      // fast path for ASCII
      int numLongs = toRead >> 3;
      for (int i =0; i < numLongs; i++) {
        long currentOffset = baseOffset + _offset;
        long test = unsafe.getLong(_buffer, currentOffset);
        if ((test & 0x8080808080808080L) == 0L) {
          _chunkLength-=8;
          toRead -= 8;
          for (int j = 0; j < 8; j++) {
            _sbuf.append((char)(_buffer[_offset++]));
          }
        } else {
          break;
        }
      }

参考：

UTF-8: Bits, Bytes, and Benefits http://research.swtch.com/utf8

http://www.unicode.org

UTF-8, UTF-16, UTF-32 & BOM http://www.unicode.org/faq/utf_bom.html

字符编码笔记：ASCII，Unicode和UTF-8 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

The Go Programming Language Specification http://golang.org/ref/spec

微软的Unicode的一个文档： http://msdn.microsoft.com/en-us/goglobal/bb688113.aspx

python中判断字符串值是否为数字上趣工作室 python python 开发语言
使用isdigit()方法：这个方法返回一个布尔值，如果字符串只包含数字字符，则返回True，否则返回False。string="12345"ifstring.isdigit():print("是数字")else:print("不是数字")使用isnumeric()方法：这个方法类似于isdigit()方法，但它还可以识别其他数字字符，例如Unicode数字字符。同样，它返回一个布尔值。strin
python读取文件路径中有中文_转 python 读取中文文件名/中文路径 weixin_39845406
原博文2015-03-1322:22−python直接读取中文路径的文件时失败，可做如下处理：inpath='D:/work/yuanxx/在线导航/驾车导航/walk_log/20130619_172355.txt'uipath=unicode(ipath,"utf8")然后用"uipath"经...相关推荐2015-12-1421:45−前言：需要对某目录下的文件进行分类，目录是中文名字就会报
22.C语言Unicode编码与多字节字符处理详解余识- C语言基础 c语言数据库
目录1.Unicode简介2.字符的表示方法3.多字节字符的表示4.宽字符5.多字节字符处理函数5.1mblen5.2wctomb5.3mbtowc()5.4wcstombs5.5mbstowcs本篇原文为：C语言Unicode编码与多字节字符处理详解。更多C++进阶、rust、python、逆向等等教程，可点击此链接查看：酷程网1.Unicode简介C语言诞生时，只考虑了英语字符，使用7位的AS
正则表达式正则表达式
正则表达式语法：1、普通字符：主要包括文字字符、符号（@、%、_等）；直接写。需要转义字符*.\+[]?{}()^$I非打印字符说明\n换行符\r回车符\f换页符\t制表符\v垂直制表符其他字符说明\x0016进制转义值\0008进制转义值\u00000unicode编码值............2、字符集合：**单个关键字**的值范围，包含在[]中例：[a-z]、[abc]、[0-9]、[A-Z
【python】爬取网站数据进击的C语言网络
编码问题因为涉及到中文，所以必然地涉及到了编码的问题，这一次借这个机会算是彻底搞清楚了。问题要从文字的编码讲起。原本的英文编码只有0~255，刚好是8位1个字节。为了表示各种不同的语言，自然要进行扩充。中文的话有GB系列。可能还听说过Unicode和UTF-8，那么，它们之间是什么关系呢？Unicode是一种编码方案，又称万国码，可见其包含之广。但是具体存储到计算机上，并不用这种编码，可以说它起着
C++ Builder 使用 SelectDirectory 打开选择文件夹的对话框玄坴
SelectDirectory可以打开3种不同的打开文件夹对话框。目前比较常用的选择文件夹对话框老式的选择文件夹对话框和选择文件一样的选择文件夹对话框一.目前比较常用的选择文件夹对话框bool__fastcallSelectDirectory(constUnicodeStringCaption,constWideStringRoot,UnicodeString&Directory,TSelectD
Unicode字符编码过好每一天的女胖子 Windows c++windows
1、简介Unicode是ASCII（美国信息交换标准码）字符编码的一个扩展。ASCII中每个字符用7位表示，计算机上每个字符8位。Unicode使用全16为字符编码，因此Unicode能表示世界上所有能用于计算机通讯的符号。Unicode最初是作为ASCII的补充。ASCII最终有26个小写/大写字母、10个数字、32个符号、33个控制代码和一个空格，共128个代码。1、优点大小写字符的代码是连续
maven工程使用sonar tommyhxh
maven项目配置maven的setting.xml文件Maven插件会自动把所需数据（如单元测试结果、静态检测结果等）上传到Sonar服务器上，Sonar的配置并不在每个工程的pom.xml文件里，而是在Maven的配置文件settings.xml里。在标签添加：sonartruejdbc:mysql://10.16.8.96:3306/sonar?useUnicode=true&cha
python字串节对象Bytes 局外人LZ python python
一、简介字节串（bytes）是二进制数据的一种表示形式。它由一系列的字节组成，每个字节都是一个范围为0-255的整数。字节串可以用来表示二进制数据，例如图像、音频、视频、网络数据等。字节串与字符串（str）类型不同，字符串是由Unicode字符组成的文本数据。而字节串是原始的二进制数据，它不具备字符编码的概念，而是将数据以字节的形式进行存储和处理。在处理二进制数据时，字节串是非常有用的数据类型。它
蒙特卡罗方法——布丰投针实验近似计算圆周率python代码实现潮汐退涨月冷风霜 python 开发语言蒙特卡罗
布丰实验数学原理python代码importrandomasrdimportnumpyasnpimportmathimportmatplotlib.pyplotaspltimportmatplotlibmatplotlib.rcParams['font.family']='SimHei'#或者'MicrosoftYaHei'matplotlib.rcParams['axes.unicode_min
浅谈gbase与oracle 字符集差异 gbase_lmax java 前端开发语言
字符集字符集（CharacterSet）：按照一定的字符编码方案，将特定的符号集编码为计算机能够处理的数值的集合。常见字符集名称：ASCII字符集、Unicode字符集、GB2312字符集、BIG5字符集、GB18030字符集等。字符编码字符编码（CharacterEncoding）：是一套规则，对字符集进行编码的方案。如，Unicode是字符集，UTF-8、UTF-16、UTF-32是三种字符编
字符编码方案：Unicode flying jiang 快速开发 java 前端开发语言
摘要：Unicode（统一码、万国码、单一码）是一种在计算机上广泛使用的字符编码，旨在解决传统字符编码方案的局限，为每种语言中的每个字符设定了统一且唯一的二进制编码，以满足跨语言、跨平台进行文本转换和处理的需求。以下是关于Unicode编码的详细解析：一、历史背景起源与发展：Unicode编码的历史可以追溯到20世纪60年代，当时计算机科学家们意识到不同计算机系统使用不同的字符编码方式，导致文本和
出现UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe9 in position 0: ordinal not in range解决方法码农研究僧 BUG python 编码 unicode
目录1.问题所示2.问题分析3.解决方法1.问题所示在传输数据的时候出现这个问题，如下所示：File"./audioadmin/common.py",line331,insend_alarm.format(content,project_name,result))UnicodeDecodeError:'ascii'codeccan'tdecodebyte0xe9inposition0:ordina
mysql字符集utf8 unicode_MySQL 编码utf8 与 utf8mb4 utf8mb4_unicode_ci 与 utf8mb4_general_ci weixin_39830175 mysql字符集utf8 unicode
参考：mysql字符集小结utf8mb4已成为MySQL8.0的默认字符集，在MySQL8.0.1及更高版本中将utf8mb4_0900_ai_ci作为默认排序规则。新项目只考虑utf8mb4UTF-8编码是一种变长的编码机制，可以用1~4个字节存储字符。因为历史遗留问题，MySQL中的utf8编码并不是真正的UTF-8，而是阉割版的，最长只有3个字节。当遇到占4个字节的UTF-8编码，例如emo
mysql指定字符集utf8mb4_MySQL字符集utf8修改为utf8mb4的方法步骤 weixin_39774219
对于mysql5.5而言，如果不设定字符集，mysql默认的字符集是latin1拉丁文字符集；但随着各种业务的进一步发展，除了各个国家的本身语言字符，经常也会有一些表情符号出现在应用程序中，而在mysql5.5之前，UTF-8编码只支持1-3个字节，支持BMP这部分的Unicode编码区；从MySQL5.5开始，可以支持4个字节UTF编码utf8mb4，一个字符能够支持更多的字符集，也能够支持更多
mysql怎么把utf8mb4_unicode_ci转为utf8mb4_general_ci 我是杨天 mysql ci/cd oracle 数据库
数据库相关学习资料：https://edu.51cto.com/video/655.htmlMySQL字符集转换方案：从utf8mb4_unicode_ci到utf8mb4_general_ci在MySQL数据库中，字符集和排序规则对于数据的存储和检索具有重要影响。utf8mb4_unicode_ci和utf8mb4_general_ci是两种常见的utf8mb4字符集的排序规则。其中，utf8m
mysql utf8mb4_general_ci_MySQL编码utf8与utf8mb4 utf8mb4_unicode_ci与utf8mb4_general_ci字符集小结... 程涛-supertim mysql
本篇文章小编给大家分享一下MySQL编码utf8与utf8mb4utf8mb4_unicode_ci与utf8mb4_general_ci字符集小结，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。utf8mb4已成为MySQL8.0的默认字符集，在MySQL8.0.1及更高版本中将utf8mb4_0900_ai_ci作为默认排序规则。新项目只考虑utf8mb4UTF-8编
PHP批量修改MySQL数据表字符集为utf8mb4/utf8mb4_unicode_ci 小松聊PHP进阶 MySQL PHP php mysql 数据库后端服务器 sql
编码大全可参考我之前的文章：快速理解ASCII、GBK、Unicode、UTF-8、ANSI批量修改注意这是DDL操作，操作过程会锁表（元数据锁），平均1秒能够转码3张表（数据量不大）。亲测操作过后没有数据异常，推荐执行前备份。//接手一些老项目，需要修改编码。$host='';$db='';$user='';$pass='';$charset='utf8mb4';$collate='utf8mb
【Python】已解决：UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0x8e in position 0: ordinal not in r 屿小夏 python 数据库前端
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：UnicodeDecodeError:‘ascii’codeccan’tdecodebyte0x8einposition0:ordinalnotinrange(128)一、分析问题背景在Python编程中，处理文本数据时，经常会遇到编码问题。UnicodeDecodeError是其中一个常见的错误，它通常
SQL固定长度字符和可变长度字符王光环数据库 sql 数据库 database
1）定义：char：固定长度，存储ANSI字符，不足的补英文半角空格。nchar：固定长度，存储Unicode字符，不足的补英文半角空格varchar：可变长度，存储ANSI字符，根据数据长度自动变化。nvarchar：可变长度，存储Unicode字符，根据数据长度自动变化。nvarchar(n)：包含n个字符的可变长度Unicode字符数据。n的值必须介于1与4,000之间。字节的存储大小是所输
python安全渗透笔记红云谈安全 python编程学习 python 安全
Python学习python常见错误UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x8cinposition22:illegalmultibytesequence//打开的文件未编码encoding='UTF-8'expectedanindentedblock未缩进，ifforcontinue又进入一次新的循环%将其他变量置入字符串特定位置以生成新字符串
js 常用方法实例阿克兰
sort()数组排序(改变原数组)参数为规定排序的比较函数(非必填){//默认情况下，不传参数的话，默认按字母升序，若为非字符串,则先调用toString()将元素转化为字符串的Unicode,再进行字符串比较letarr=["A","C","B","E","D"];arr.sort();console.log(arr);//["A","B","C","E","D"]}{//数组的升序与降序排序l
python2调用python3模块_python3通过subprocess模块调用脚本并和脚本交互的操作 weixin_39686048
因工作需要，需实现如题所示功能。查阅网上博客，资料，大多都是针对python2的，而且很多地方不明所以，所以自己整理了一下查阅的结果，重新写一篇博客。预备知识1、python3的默认字符串类型Python2.x同时支持ASCII和Unicode字符串，默认情况下是ASCII编码。而Python3中这种支持刚好调换：Unicode现在变成了默认类型，而ASCII字符串现在称为bytes。bytes数
解决UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: weixin_33928467 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。Decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2
mysql连接oceanbase数据库集群+租户 AE_ 数据库 mysql oceanbase
mysql集成的有连接oceanbase数据库的方式，所以只需要对参数进行修改即可。url:jdbc:mysql://[ip地址]:[端口]/[数据库]?useUnicode=true&characterEncoding=UTF-8&serverTimezone=UTC//其他参数根据需求设置username:[用户名]@[租户名]#[集群名]password:*******driver-clas
python 依赖管理 ‍。。。 Python python windows
生成整个Python环境的所有依赖，使用pipfreeze，具体格式如下：pipfreeze>requirements.txt生成单个项目的依赖，可以使用pipreqs，使用之前需要安装:pipinstallpipreqs在项目的根目录下使用:pipreqs./Windows系统下可能会报编码错误(UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0xa8in
python中rsa解密_Python中RSA的加解密蒲牢森 python中rsa解密
#coding:utf-8from__future__importunicode_literalsimportbase64importosimportsixfromCryptoimportRandomfromCrypto.PublicKeyimportRSAclassPublicKeyFileExists(Exception):passclassRSAEncryption(object):PRIV
使用matplotlab绘制多条形图 MADAO_luv 数据分析入门 python
##黑马程序学习这种多个条形图放在一起的图形该怎么画呢？请看以下代码#横着的条形图frommatplotlibimportpyplotaspltimportmatplotlib#设置显示中文和负号matplotlib.rcParams['font.sans-serif']=['SimHei']matplotlib.rcParams['axes.unicode_minus']=Falsea=["猩球
【分布式注册中心】NACOS_2.3.0部署与实战布熬夜了后端开发分布式 java spring boot
部署一准备1依赖：MYSQL2创建数据库CREATEdatabaseifNOTEXISTS`nacos`defaultcharactersetutf8mb4collateutf8mb4_unicode_ci;3导入初始化SQLhttps://raw.githubusercontent.com/alibaba/nacos/develop/distribution/conf/mysql-schema.
DAY28-ES6扩展 qq_42775808 es6 学习 javascript
console.log('\u1f436');console.log('\u{1f436}');这段代码是在控制台中输出表情符号""。第一行代码使用了Unicode编码转义字符"\u"，其后跟着四个十六进制数字"1f436"，它代表""的Unicode编码，这个编码超出了ASCII码表中的范围，所以需要使用Unicode编码转义字符进行表示。第二行代码使用了UnicodeCodePoint表示法，
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开