mysql varchar(255) 浅谈

有没有觉得我们设置varchar长度的时候，很多时候都设置成255，这是为什么呢？
其实是因为在5.5.3版本之前
InnoDB存储引擎的表索引的前缀长度最长是767字节(bytes)，
MyIsam存储引擎的表索引的前缀长度最长是1000字节(bytes)。
所以如果字段要创建索引的话，长度就不能超过对应存储引擎的要求 767 bytes或 1000 bytes，而如果中文按1个字符占用3个字节计算，总字节数刚好为765。

1071 - Specified key was too long; max key length is 767 bytes

要控制字节长度，就要说到字节编码了。

一、位（bit）、字节（byte）、字符

位（bit）：计算机内部数据储存的最小单位，10001000是一个八位二进制数。

字节（byte）：计算机中数据处理的基本单位，习惯上用大写 B 来表示。

 1 B  = 8bit
 1 KB = 1024 B
 1 MB = 1024 KB  (2^10 B)
 1 GB = 1024 MB  (2^20 B)
 1 TB = 1024 GB  (2^30 B)

字符：计算机中使用的字母、数字、字和符号，如 a、A、中、+、*、の......

二、编码

UTF-8：是用以解决国际上字符的一种多字节编码。包含全世界所有国家需要用到的字符，是国际编码，通用性强。一个汉字 = 3个字节，英文是一个字节

UTF-8编码的文字可以在各国支持UTF8字符集额的浏览器上显示。如果是UTF8编码，则在外国人的英文IE也能显示中文，他们无需下载IE的中文语言支持包。

GBK：GB2312基础上扩容后的国家标准，兼容GB2312。

GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。
GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大。

utf8mb4：在MySQL5.5.3之后增加的，专门用来兼容四字节的unicode的utf-8的超集，比utf-8能表示更多的字符。mb4即为most bytes 4。

latin1：ISO-8859-1的别名，单字节编码，在支持Latin1编码的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作Latin1编码看待都没有问题

三、中文与编码

MySql 5.0 以上的版本：

一个汉字占多少长度与编码有关：

UTF-8：一个汉字 = 3个字节，英文 = 1个字节
GBK： 一个汉字 = 2个字节，英文 = 1个字节

varchar(n) 在mysql 5.0.3之前表示n个字节，之后修改为表示n个字符，无论汉字和英文，mySql都能存入n个字符，仅实际字节长度有所区别。
MySQL检查长度，可用一下SQL语言查询

SELECT LENGTH(fieldname) FROM tablename

测试
（1）测试 UTF-8

CREATE TABLE `test_char_length_utf8`  (
  `v1` varchar(9) ,
  `v2` varchar(9) 
)ENGINE=InnoDB CHARSET=utf8;

创建表单(UTF-8)

SELECT LENGTH(v1), LENGTH(v2) FROM test_char_length_utf8

查询长度

（2）测试 GKB

CREATE TABLE `test_char_length_gbk`  (
  `v1` varchar(9) ,
  `v2` varchar(9) 
)ENGINE=InnoDB CHARSET=gbk;

创建表单(GBK)

SELECT LENGTH(v1), LENGTH(v2) FROM test_char_length_gbk