程序员的自我修养-字符编码

看了阮一峰的Blog（很久之前的），突然就发现这么一个非常常见的问题，常常被我视而不见。而且我相信，有很大一部分同学应该和我一样，对此模棱两可。或许在很久之前在某次面试或考试之前准备过如此“冷门”的知识，现在早已抛之脑后。其实我们经常会遇到“�????????”和类似“烫烫烫烫”的玩意，对于这样经常造访的老朋友背后的技术细节我们有必要了解。

这里我偷懒引用两篇写的非常好的Blog作为内容，因为写的太清楚，太易懂。本着不重复发明轮子的原则，我就借花献佛。

阮一峰和字符编码常识及问题解析阅读完后一定会对编码有了基本的了解，同时对目前最为主流的utf-8，有清晰的认识。这样以后再处理乱码问题，就比起之前更游刃有余。

其中对于utf-8 部分，两篇描述各有侧重，我做个摘要

UTF-8是Unicode的实现方式之一。
UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。
UTF-8的编码规则很简单，只有二条：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。
以汉字"严"为例，演示如何实现UTF-8编码。
已知"严"的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此"严"的UTF-8编码需要三个字节，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，从"严"的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，"严"的UTF-8编码是"11100100 10111000 10100101"，转换成十六进制就是E4B8A5。
摘自阮一峰-字符编码笔记：ASCII，Unicode和UTF-8

其中几个要点，

utf-8是可变长的，目前使用广泛，而且兼容ASCII
注意填写汉字编码时是从低位往高位，保证高位多余位置0

参考blog：
阮一峰-字符编码笔记：ASCII，Unicode和UTF-8
字符编码常识及问题解析

程序员的自我修养-字符编码

你可能感兴趣的:(程序员的自我修养-字符编码)