本篇文章主要是对MySQL学习时的一些总结,作为学习笔记记录。
随着Mysql版本的更新换代,其优化器也在不断的升级,优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序。下面是经常出现的查询顺序:
sql解析的顺序基本与程序读取顺序一致。
其中A与B的交集表示两者的共有,A减去A与B的交集表示A的独有,B减去A与B的交集表示B的独有。
上图说明了join查询的七种模式,这里以实际的sql语句操作对Join查询进行总结。
CREATE DATABASE joinexp;
USE joinexp;
CREATE TABLE `t_dept` (
`id` INT (11) NOT NULL AUTO_INCREMENT,
`deptName` VARCHAR (30) DEFAULT NULL,
`address` VARCHAR (40) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8 ;
CREATE TABLE `t_emp` (
`id` INT(11) NOT NULL AUTO_INCREMENT,
`name` VARCHAR(20) DEFAULT NULL,
`age` INT(3) DEFAULT NULL,
`deptId` INT(11) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `fk_dept_id` (`deptId`)
#CONSTRAINT `fk_dept_id` FOREIGN KEY (`deptId`) REFERENCES `t_dept` (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
INSERT INTO t_dept(deptName,address) VALUES('华山','华山');
INSERT INTO t_dept(deptName,address) VALUES('丐帮','洛阳');
INSERT INTO t_dept(deptName,address) VALUES('峨眉','峨眉山');
INSERT INTO t_dept(deptName,address) VALUES('武当','武当山');
INSERT INTO t_dept(deptName,address) VALUES('明教','光明顶');
INSERT INTO t_dept(deptName,address) VALUES('少林','少林寺');
INSERT INTO t_emp(NAME,age,deptId) VALUES('风清扬',90,1);
INSERT INTO t_emp(NAME,age,deptId) VALUES('岳不群',50,1);
INSERT INTO t_emp(NAME,age,deptId) VALUES('令狐冲',24,1);
INSERT INTO t_emp(NAME,age,deptId) VALUES('洪七公',70,2);
INSERT INTO t_emp(NAME,age,deptId) VALUES('乔峰',35,2);
INSERT INTO t_emp(NAME,age,deptId) VALUES('灭绝师太',70,3);
INSERT INTO t_emp(NAME,age,deptId) VALUES('周芷若',20,3);
INSERT INTO t_emp(NAME,age,deptId) VALUES('张三丰',100,4);
INSERT INTO t_emp(NAME,age,deptId) VALUES('张无忌',25,5);
INSERT INTO t_emp(NAME,age,deptId) VALUES('韦小宝',18,NULL);
A、B两表共有
select * from t_emp a inner join t_dept b on a.deptId = b.id;
A、B两表共有+A的独有
select * from t_emp a left join t_dept b on a.deptId = b.id;
A、B两表共有+B的独有
select * from t_emp a right join t_dept b on a.deptId = b.id;
A的独有
select * from t_emp a left join t_dept b on a.deptId = b.id where b.id is null;
B的独有
select * from t_emp a right join t_dept b on a.deptId = b.id where a.deptId is null;
AB全有
# 为MySQL不支持FULL JOIN,使用left join + union(可去除重复数据)+ right join实现
SELECT * FROM t_emp A LEFT JOIN t_dept B ON A.deptId = B.id
UNION
SELECT * FROM t_emp A RIGHT JOIN t_dept B ON A.deptId = B.id
A的独有+B的独有
SELECT * FROM t_emp A LEFT JOIN t_dept B ON A.deptId = B.id WHERE B.`id` IS NULL
UNION
SELECT * FROM t_emp A RIGHT JOIN t_dept B ON A.deptId = B.id WHERE A.`deptId` IS NULL;
添加字段
ALTER TABLE `t_dept`
ADD CEO INT (11) ;
UPDATE t_dept SET CEO=2 WHERE id=1;
UPDATE t_dept SET CEO=4 WHERE id=2;
UPDATE t_dept SET CEO=6 WHERE id=3;
UPDATE t_dept SET CEO=8 WHERE id=4;
UPDATE t_dept SET CEO=9 WHERE id=5;
子查询
join查询
找出所有任务对应的CEO
# 子查询(不推荐,影响后续使用索引)
# 步骤1:创建子查询,查询出每个门派对应的CEO
# 步骤2:根据t_emp对应的deptId关联子查询表查询出所有人物对应的CEO
SELECT
a.name,
f.deptName,
f.name
FROM
t_emp a
LEFT JOIN
(SELECT
d.`id`,
e.`name`,
d.`deptName`
FROM
t_dept d
LEFT JOIN t_emp e
ON d.`CEO` = e.`id`) f
ON a.deptId = f.id ;
# join查询
# 步骤1:关联每个人物对应的门派
# 步骤2:通过门派的CEO关联对应的CEO
SELECT
e.`name`,
d.`deptName`,
f.`name` ceo
FROM
t_dept d
RIGHT JOIN t_emp e
ON d.`id` = e.`deptId`
LEFT JOIN t_emp f
ON d.`CEO` = f.`id` ;
在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。下图就是一种可能的索引方式示例:
左边是数据表,一共有两列七条记录,最左边的是数据记录的物理地址。为了加快Col2的查找,可以维护一个右边所示的二叉查找树,每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针,这样就可以运用二叉查找在一定的复杂度内获取到相应数据,从而快速的检索出符合条件的记录。
二叉树很可能会发生两边不平衡的情况。B-TREE会自动根据两边的情况自动调节,使两端无限趋近于平衡状态,可以使性能最稳定(myisam使用的方式)。但插入/修改操作多时,B-TREE会不断调整平衡,消耗性能,也从侧面说明了索引不是越多越好。Innodb 所使用的索引一般采用B+TREE构建。
初始化介绍
一颗b树,浅蓝色的块我们称之为一个磁盘块,可以看到每个磁盘块包含几个数据项(深蓝色所示)和指针(黄色所示),如磁盘块1包含数据项17和35,包含指针P1、P2、P3,P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。真实的数据存在于叶子节点即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非叶子节点不存储真实的数据,只存储指引搜索方向的数据项,如17、35并不真实存在于数据表中。
查找过程
如果要查找数据项29,那么首先会把磁盘块1由磁盘加载到内存,此时发生一次IO,在内存中用二分查找确定29在17和35之间,锁定磁盘块1的P2指针,内存时间因为非常短(相比磁盘的IO)可以忽略不计,通过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存,发生第二次IO,29在26和30之间,锁定磁盘块3的P2指针,通过指针加载磁盘块8到内存,发生第三次IO,同时内存中做二分查找找到29,结束查询,总计三次IO。
真实的情况是,3层的b+树可以表示上百万的数据,如果上百万的数据查找只需要三次IO,性能提高将是巨大的,如果没有索引,每个数据项都要发生一次IO,那么总共需要百万次的IO,显然成本非常非常高。
时间复杂度
同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。
BTree和B+Tree的区别
在内存有限的情况下,B+TREE 永远比 B-TREE好。无限内存则后者方便
为什么说B+TREE比B-TREE更适合实际应用中操作系统的文件索引和数据库索引?
B+TREE的内部结点并没有指向关键字具体信息的指针。因此其内部结点相对B-TREE更小。如果把所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了。
由于非终结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。
聚簇索引并不是一种单独的索引类型,而是一种数据存储方式。
术语“聚族”表示数据行和相邻的键值紧凑的存储在一起。
如下图,左侧的索引就是聚簇索引,因为数据行在磁盘的排列和索引排序保持一致。
聚簇索引的好处:
聚簇索引的限制:
这里说明了主键索引为何采用自增的方式:
全文索引(也称全文检索)是目前搜索引擎使用的一种关键技术。它能够利用分词技术等多种算法智能分析出文本文字中关键词的频率和重要性,然后按照一定的算法规则智能地筛选出我们想要的搜索结果。
对于下面的表来说:
CREATE TABLE `article` (
`id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
`title` VARCHAR(200) DEFAULT NULL,
`content` TEXT,
PRIMARY KEY (`id`),
FULLTEXT KEY `title` (`title`,`content`)
) ENGINE=MYISAM DEFAULT CHARSET=utf8;
与使用like方式进行查询不同:
SELECT * FROM article WHERE content LIKE ‘%querychar%’;
全文索引需要使用match+against方式进行查询:
SELECT * FROM article WHERE MATCH(title,content) AGAINST (‘querychar’);
使用这种方式能够明显提高查询效率。
但是全文索引也存在某些限制:
设定为主键后数据库会自动建立索引,innodb为聚簇索引。语法为:
# 随表一起建索引:
CREATE TABLE customer2 (
id INT (10) UNSIGNED,
customer_no VARCHAR (200),
customer_name VARCHAR (200),
PRIMARY KEY (id)
) ;
# 使用AUTO_INCREMENT关键字的列必须有索引 (只要有索引就行) 。
CREATE TABLE customer (
id INT (10) UNSIGNED AUTO_INCREMENT,
customer_no VARCHAR (200),
customer_name VARCHAR (200),
PRIMARY KEY (id)
) ;
# 单独建主键索引:
ALTER TABLE customer ADD PRIMARY KEY customer (customer_no) ;
# 删除建主键索引:
ALTER TABLE customer DROP PRIMARY KEY ;
# 修改建主键索引:
# 必须先删除掉(DROP)原索引,再新建(ADD)索引
语法为:
# 随表一起建索引:
CREATE TABLE customer (
id INT (10) UNSIGNED AUTO_INCREMENT,
customer_no VARCHAR (200),
customer_name VARCHAR (200),
PRIMARY KEY (id),
KEY (customer_name)
) ;
# 单独建单值索引:
CREATE INDEX idx_customer_name ON customer(customer_name);
# 删除索引:
DROP INDEX idx_customer_name ON customer;
索引列的值必须唯一,但允许有空值。语法为:
# 随表一起建索引:
# 建立唯一索引时必须保证所有的值是唯一的(除了NULL),若有重复数据,会报错
CREATE TABLE customer (
id INT (10) UNSIGNED AUTO_INCREMENT,
customer_no VARCHAR (200),
customer_name VARCHAR (200),
PRIMARY KEY (id),
KEY (customer_name),
UNIQUE (customer_no)
) ;
# 单独建唯一索引:
CREATE UNIQUE INDEX idx_customer_no ON customer(customer_no);
# 删除索引:
DROP INDEX idx_customer_no ON customer ;
语法为:
# 随表一起建索引:
CREATE TABLE customer (
id INT (10) UNSIGNED AUTO_INCREMENT,
customer_no VARCHAR (200),
customer_name VARCHAR (200),
PRIMARY KEY (id),
KEY (customer_name),
UNIQUE (customer_name),
KEY (customer_no, customer_name)
) ;
# 单独建索引:
CREATE INDEX idx_no_name ON customer(customer_no,customer_name);
# 删除索引:
DROP INDEX idx_no_name ON customer ;
创建
ALTER TABLE mytable ADD [UNIQUE ] INDEX indexName(columnname)
查看
SHOW INDEX FROM table_name;
各字段的含义为:
删除
DROP INDEX [indexName] ON mytable;
alter
有四种方式来添加数据表的索引: