为了测试某些语句或业务代码,需要创建一个文章记录表,然后插入500万条数据。要求数据表里面INT、VARCHAR、TEXT类型都具备,并需要为分类ID和用户ID创建索引。
下面是这个文章记录表的结构:
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for article
-- ----------------------------
DROP TABLE IF EXISTS `article`;
CREATE TABLE `article` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键ID',
`class_id` int(11) NOT NULL COMMENT '文章分类ID',
`author_id` int(11) NOT NULL COMMENT '作者ID',
`up_time` int(11) NOT NULL COMMENT '更新时间',
`title` varchar(60) NOT NULL COMMENT '文章标题',
`subtitle` varchar(100) NOT NULL COMMENT '文章副标题',
`outline` text NOT NULL COMMENT '文章概要',
`content` text NOT NULL COMMENT '文章内容',
PRIMARY KEY (`id`),
KEY `class_id` (`class_id`,`author_id`,`up_time`)
) ENGINE=MyISAM AUTO_INCREMENT=5000001 DEFAULT CHARSET=utf8 COMMENT='文章记录表';
为了插入500万行数据,我们通常的做法是,直接使用MySQL工具写一个存储过程,在存储过程里面使用 insert into 语句循环插入500万次就可以了。
下面是这个存储过程里的代码:
begin
declare num,cla,author,times INT;
declare titles VARCHAR(60);
declare subtitles,outlines,contents VARCHAR(100);
set num=1;
while num <= 5000000 do
set cla=FLOOR(RAND()*19);
set author=FLOOR(RAND()*899);
set times=1578376543+num;
set titles=CONCAT('这是第',num,'篇文章的标题');
set subtitles=CONCAT('这是第',num,'篇文章的副标题,是标题的附属说明');
set outlines=CONCAT('这是第',num,'篇文章的概述内容,是文章完整内容的概括描述,用于快速阅览。');
set contents=CONCAT('这是第',num,'篇文章的详细内容,也就是详情页要展示的主要内容,是多行文本,一般都会比较长。');
insert into article(class_id,author_id,up_time,title,subtitle,outline,content)VALUES(cla,author,times,titles,subtitles,outlines,contents);
set num=num+1;
end while;
end
但是这个文章记录表中有字符串、文本类型的字段,需要插入的字符包含中文。将中文直接写在存储过程里,发现执行后数据表中读出来的文本是乱码。检查一下数据表的结构,是UTF8编码,然后我们更换不同的工具结果一样。先把存储过程的语句写在UTF8格式的编辑器里,再复制出来粘贴到MySQL工具的存储过程编辑器框内,执行结果还是乱码。
经过诸多方法无效后,仔细看了一下MySQL的文档,发现这个问题直接在SQL语句中就可以解决,是我们再插入文本之前没有指定编码,MySQL工具就使用了电脑系统当前的默认编码,就造成了编码不一致的问题,所以就出现了乱码问题。
下面是修改后的存储过程代码:
begin
declare num,cla,author,times INT;
declare titles VARCHAR(60) CHARACTER SET utf8;
declare subtitles,outlines,contents VARCHAR(100) CHARACTER SET utf8;
set num=1;
while num <= 5000000 do
set cla=FLOOR(RAND()*19);
set author=FLOOR(RAND()*899);
set times=1578376543+num;
set titles=CONCAT('这是第',num,'篇文章的标题');
set subtitles=CONCAT('这是第',num,'篇文章的副标题,是标题的附属说明');
set outlines=CONCAT('这是第',num,'篇文章的概述内容,是文章完整内容的概括描述,用于快速阅览。');
set contents=CONCAT('这是第',num,'篇文章的详细内容,也就是详情页要展示的主要内容,是多行文本,一般都会比较长。');
insert into article(class_id,author_id,up_time,title,subtitle,outline,content)VALUES(cla,author,times,titles,subtitles,outlines,contents);
set num=num+1;
end while;
end
在这个修改后的代码中,相比之前的代码只是在第三行和第四行的末尾,为字符串变量增加了指定编码集的语句 CHARACTER SET utf8,这样在执行存储过程的时候,数据库引擎就知道将中文按照什么编码处理了。
这里关键就是使用了 CHARACTER SET 这个语句,其实在很多MySQL数据库出现乱码的场景中,都可以在适当位置使用这个语句来解决问题。因为乱码基本都是编码不对应造成,而 CHARACTER SET 这个语句就是设置你需要使用的编码的。所以请牢记,MySQL数据库遇到乱码问题,请尝试使用 CHARACTER SET,可能会事半功倍。