mysql varchar(255) 浅谈

有没有觉得我们设置varchar长度的时候,很多时候都设置成255,这是为什么呢?
其实是因为在5.5.3版本之前
InnoDB存储引擎的表索引的前缀长度最长是767字节(bytes),
MyIsam存储引擎的表索引的前缀长度最长是1000字节(bytes)。

所以如果字段要创建索引的话,长度就不能超过对应存储引擎的要求 767 bytes或 1000 bytes,而如果中文按1个字符占用3个字节计算,总字节数刚好为765。

1071 - Specified key was too long; max key length is 767 bytes

要控制字节长度,就要说到字节编码了。

一、位(bit)、字节(byte)、字符

位(bit):计算机内部数据储存的最小单位,10001000是一个八位二进制数。

字节(byte):计算机中数据处理 的基本单位,习惯上用大写 B 来表示。

 1 B  = 8bit
 1 KB = 1024 B
 1 MB = 1024 KB  (2^10 B)
 1 GB = 1024 MB  (2^20 B)
 1 TB = 1024 GB  (2^30 B)

字符:计算机中使用的字母、数字、字和符号,如 a、A、中、+、*、の......

二、编码

UTF-8:是用以解决国际上字符的一种多字节编码。包含全世界所有国家需要用到的字符,是国际编码,通用性强。一个汉字 = 3个字节,英文是一个字节

UTF-8编码的文字可以在各国支持UTF8字符集额的浏览器上显示。如果是UTF8编码,则在外国人的英文IE也能显示中文,他们无需下载IE的中文语言支持包。

GBK:GB2312基础上扩容后的国家标准,兼容GB2312。

GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。
GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大。

utf8mb4:在MySQL5.5.3之后增加的,专门用来兼容四字节的unicode的utf-8的超集,比utf-8能表示更多的字符。mb4即为most bytes 4。

latin1:ISO-8859-1的别名,单字节编码,在支持Latin1编码的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作Latin1编码看待都没有问题

三、中文与编码

MySql 5.0 以上的版本:

  1. 一个汉字占多少长度与编码有关:
UTF-8:一个汉字 = 3个字节,英文 = 1个字节
GBK: 一个汉字 = 2个字节,英文 = 1个字节
  1. varchar(n) 在mysql 5.0.3之前表示n个字节,之后修改为表示n个字符,无论汉字和英文,mySql都能存入n个字符,仅实际字节长度有所区别。
  2. MySQL检查长度,可用一下SQL语言查询
SELECT LENGTH(fieldname) FROM tablename
  1. 测试
    (1)测试 UTF-8
CREATE TABLE `test_char_length_utf8`  (
  `v1` varchar(9) ,
  `v2` varchar(9) 
)ENGINE=InnoDB CHARSET=utf8;
创建表单(UTF-8)
SELECT LENGTH(v1), LENGTH(v2) FROM test_char_length_utf8  
查询长度

(2)测试 GKB

CREATE TABLE `test_char_length_gbk`  (
  `v1` varchar(9) ,
  `v2` varchar(9) 
)ENGINE=InnoDB CHARSET=gbk;
创建表单(GBK)
SELECT LENGTH(v1), LENGTH(v2) FROM test_char_length_gbk
查询长度

四、总结

  1. varchar(255) 是为了索引而设置,能够存储255个汉字。
  2. varchar(255) 后来成为一些人使用的惯性,其实应根据实际业务场景设置长度。
  3. varchar(n) 中的n在mysql 5.0.3之前表示n个字节,之后表示n个字符,按照实际使用的数据库字符编码集,占用不同字节数量,比如GBK、UTF8MB4等等。

你可能感兴趣的:(mysql varchar(255) 浅谈)