饭炒菠萝

【转】盘点 MySQL 慢查询的 12 个原因

转：
https://mp.weixin.qq.com/s/gz-wQPsaerf4k7ymG8DiDA
https://mp.weixin.qq.com/s/h9jWeoyiBGnQLvDrtXqVWw
https://mp.weixin.qq.com/s/0qvO6eQAa9dSGoY1LF8_pA
https://mp.weixin.qq.com/s/h_sN67Q2UVL-jbTaFXOZYw

1、SQL 没加索引

很多时候，慢查询都是因为没有加索引导致的。

如果没有加索引，会导致走全表扫描，应考虑在 where 条件列建立索引，尽量避免走全表扫描。

// 添加索引
alter table user_info add index idx_name (name);

2、索引不生效

有时候明明加了索引，但是索引却不生效。

哪些场景会导致索引不生效呢？

隐式的类型转换

// 我们创建一个用户user表
CREATE TABLE user (
  id int(11) NOT NULL AUTO_INCREMENT,
  userId varchar(32) NOT NULL,
  age  varchar(16) NOT NULL,
  name varchar(255) NOT NULL,
  PRIMARY KEY (id),
  KEY idx_userid (userId) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

userId 为字符串类型，同时也是 B+ 树的普通索引，如果查询条件为数字，会导致索引失效。

但如果传的是字符串，则会走索引。

为什么第一条语句未加单引号，SQL 就不走索引了呢？

这是因为不加单引号时，是字符串和数字做比较，由于它们的类型不匹配，MySQL 会做隐式的类型转换，把它们转换为浮点数后再做比较，而隐式的类型转换，会导致索引失效。

查询条件包含 or

CREATE TABLE user (
  id int(11) NOT NULL AUTO_INCREMENT,
  userId varchar(32) NOT NULL,
  age  varchar(16) NOT NULL,
  name varchar(255) NOT NULL,
  PRIMARY KEY (id),
  KEY idx_userid (userId) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

userId 加了索引，但是 age 没有加索引。

这是因为，假设 MySQL 走了 userId 的索引，但是走到 age 查询条件时，还是得走全表扫描，即一共需要三步：全表扫描 + 索引扫描 + 合并。

但如果从一开始就走全表扫描，这样直接扫描一遍就完事了。MySQL 优化器出于效率和成本的考虑，在遇到 or 条件时，会让索引失效。

此外，即使 or 条件的列都加了索引，也不一定会走索引。

平时使用的时候，还是要注意一下 or，学会用 explain 分析。遇到不走索引的情况，考虑拆开两条 SQL。

like 通配符

事实上，并不是使用了 like 通配符，索引就一定会失效，而是当 like 查询是以 % 开头时，才会导致索引失效。

如果把 % 放在后面，此时还是会正常走索引的。

既然 like 查询以 % 开头时，会导致索引失效，那么我们该如何优化呢？

选择使用覆盖索引，或者考虑把 % 放后面。

查询条件不满足联合索引的最左匹配原则

MySQL 建立联合索引时，会遵循最左前缀匹配的原则，即最左优先。

如果建立了一个（a, b, c）的联合索引，就相当于建立了（a）、（a, b）、（a, b, c）这三个索引。

CREATE TABLE user (
  id int(11) NOT NULL AUTO_INCREMENT,
  user_id varchar(32) NOT NULL,
  age  varchar(16) NOT NULL,
  name varchar(255) NOT NULL,
  PRIMARY KEY (id),
  KEY idx_userid_name (user_id,name) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

建立联合索引 idx_userid_name，执行如下 SQL，查询条件是 name，此时索引是无效的。因为查询条件列 name 不是联合索引中的第一列。

在联合索引中，查询条件只有在满足最左匹配原则时，索引才会正常生效。

在索引列上使用了 MySQL 的内置函数

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `userId` varchar(32) NOT NULL,
  `login_time` datetime NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_userId` (`userId`) USING BTREE,
  KEY `idx_login_time` (`login_Time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

虽然 login_time 加了索引，但是因为使用了 MySQL 的内置函数 Date_ADD()，所以也是不会使用索引的。

这种情况该怎么优化呢？

可以考虑把内置函数的逻辑转移到右边。

对索引进行列运算（+、-、*、/）

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `userId` varchar(32) NOT NULL,
  `age` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_age` (`age`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

虽然 age 加了索引，但是它在进行列运算时，也是不会使用索引的。可以改为在代码处理好后，再传参进去。

在索引字段上使用 != 或者 < >

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `userId` int(11) NOT NULL,
  `age` int(11) DEFAULT NULL,
  `name` varchar(255) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_age` (`age`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

虽然 age 加了索引，但是使用了 != 或者 < >、not in 时，索引如同虚设。

这个也是和 MySQL 优化器有关，因为优化器觉得即使走了索引，但还是需要扫描很多行，它觉得不划算，还不如直接不走索引。

在索引字段上使用 is null、is not null

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `card` varchar(255) DEFAULT NULL,
  `name` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_name` (`name`) USING BTREE,
  KEY `idx_card` (`card`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

单个 name 字段加上索引，并查询 name 为非空的语句，其实还是会走索引的。

但如果用 or 连接起来，索引就失效了。

很多时候因为数据量的问题，导致 MySQL 优化器放弃走索引。平时在用 explain 分析 SQL 的时候，如果 type = range，要注意可能会因为数据量的问题，导致索引失效。

左右连接时，关联的字段编码格式不一样

CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL,
  `age` int(11) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_name` (`name`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8;

CREATE TABLE `user_job` (
  `id` int(11) NOT NULL,
  `userId` int(11) NOT NULL,
  `job` varchar(255) DEFAULT NULL,
  `name` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_name` (`name`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

user 表的 name 字段编码是 utf8mb4，而 user_job 表的 name 字段编码为 utf8。

执行左外连接查询时，user_job 表还是走全表扫描。

但如果把它们的 name 字段改为编码一致，相同的 SQL，则此时会走索引。

优化器选错了索引

MySQL 中一张表是可以支持多个索引的。如果 SQL 语句没有主动指定使用哪个索引，那么则由 MySQL 来确定使用哪个索引。

日常开发中，不断地删除历史数据和新增数据的场景，有可能会导致 MySQL 选错索引。

那么有哪些解决方案呢？

使用 force index 强行选择某个索引
修改 SQL，引导它使用我们所期望的索引
优化业务逻辑
优化索引，新建一个更合适的索引，或者删除无用的索引

3、limit 深分页问题

limit 深分页问题，会导致慢查询。

limit 深分页为什么会导致 SQL 变慢呢？

CREATE TABLE account (
  id int(11) NOT NULL AUTO_INCREMENT COMMENT '主键Id',
  name varchar(255) DEFAULT NULL COMMENT '账户名',
  balance int(11) DEFAULT NULL COMMENT '余额',
  create_time datetime NOT NULL COMMENT '创建时间',
  update_time datetime NOT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (id),
  KEY idx_name (name),
  KEY idx_create_time (create_time) // 索引
) ENGINE=InnoDB AUTO_INCREMENT=1570068 DEFAULT CHARSET=utf8 ROW_FORMAT=REDUNDANT COMMENT='账户表';

执行如下 SQL，分析其执行流程。

select id, name, balance from account where create_time > '2020-09-19' limit 100000, 10;

通过普通二级索引树 idx_create_time，过滤 create_time 条件，找到满足条件的主键 id
通过主键 id，回到 id 主键索引树，找到满足记录的行，然后取出需要展示的列（回表过程）
扫描满足条件的 100010 行，然后扔掉前 100000 行，返回

limit 语句会先扫描 offset + n 行，然后再丢弃掉前 offset 行，返回后 n 行数据。即 limit 100000, 10 会扫描 100010 行，而 limit 0, 10 只会扫描 10 行。limit 100000, 10 扫描更多的行数，也就意味着回表的次数更多。

如何优化深分页问题？

可以通过减少回表次数来优化。

一般有标签记录法和延迟关联法。

标签记录法。就是标记一下上次查询到哪一条了，下次再查的时候，直接从该条开始往下扫描。就好像看书一样，上次看到哪里了，就折叠一下或者夹个书签，下次再看的时候，直接就翻到了。

假设上一次记录到 100000，则 SQL 可以进行如下修改。

select  id, name, balance FROM account where id > 100000 limit 10;

这样无论后面翻多少页，性能都会不错，因为命中了 id 索引。但是这种方式有局限性：需要一种类似连续自增的字段。

延迟关联法。就是把条件转移到主键索引树，然后减少回表。

select acct1.id, acct1.name, acct1.balance FROM account acct1 INNER JOIN (SELECT a.id FROM account a WHERE a.create_time > '2020-09-19' limit 100000, 10) AS acct2 on acct1.id = acct2.id;

优化思路是：先通过 idx_create_time 二级索引树查询到满足条件的主键 id，再与原表通过主键 id 内连接，这样后面就直接走主键索引了，同时也减少了回表次数。

4、单表数据量太大

单表数据量太大为什么会导致 SQL 变慢？

当一个表的数据量达到好几千万甚至上亿时，加索引的效果已经没那么明显了。性能之所以会变差，是因为维护索引的 B+ 树的结构层级变得更高了。查询一条数据，需要经历的磁盘 I/O 变多，因此查询性能也就变慢了。

一棵 B+ 树可以存放多少数据量？

InnoDB 存储引擎的最小储存单元是页，一页大小是16k。

B+ 树叶子节点存的是数据，内部节点存的是键值 + 指针。索引组织表通过非叶子节点的二分查找法以及指针确定数据在哪个页中，进而再去数据页中找到所需要的数据。

假设 B+ 树的高度为 2，即有一个根结点和若干个叶子结点。那么这棵 B+ 树的存放总记录数 = 根结点指针数 * 单个叶子节点的记录行数。

如果一行记录的数据大小为 1k，那么单个叶子节点可以存放的记录数 = 16k / 1k = 16。

非叶子节点内可以存放多少指针呢？

我们假设主键 id 为 bigint 类型，长度为 8 字节(int 类型，一个 int 就是 32 位，4 字节)，而指针大小在 InnoDB 源码中设置为 6 字节，所以就是 8 + 6 = 14 字节，16k / 14B = 16 * 1024B / 14B = 1170。

因此，一棵高度为 2 的 B+ 树，能存放 1170 * 16 = 18720 条的数据记录。

同理，一棵高度为 3 的 B+ 树，能存放 1170 * 1170 * 16 = 21902400 条，即两千万左右的记录。

B+ 树的高度一般为 1~3 层，这样已经满足千万级别的数据存储了。

如果 B+ 树想存储更多的数据，那树的结构层级就会更高，查询一条数据时，需要经历的磁盘 I/O 变多，因此查询性能就会变慢。

如何解决因单表数据量太大，导致查询变慢的问题？

一般超过千万级别的数据量，我们就可以考虑分库分表了。

但分库分表可能会导致以下问题。

事务问题
跨库问题
排序问题
分页问题
分布式 id

因此，在评估是否分库分表前，先考虑下是否可以把部分历史数据先归档。如果可以，就先不要急着分库分表。如果真的要分库分表，综合考虑和评估方案后，可以考虑垂直、水平分库分表。水平分库分表策略可以考虑 range 范围、hash 取模、range + hash 取模混合等。

5、join 或者子查询过多

一般来说，不建议使用子查询，可以考虑把子查询改成 join 来优化。

数据库有个规范约定：尽量不要有超过 3 个以上的表连接。

在 MySQL 中，join 的执行算法分别是：Index Nested-Loop Join 和 Block Nested-Loop Join。

Index Nested-Loop Join：和我们写程序时的嵌套查询类似，并且可以用上被驱动表的索引
Block Nested-Loop Join：被驱动表上没有可用的索引时，它会先把驱动表的数据读入线程内存 join_buffer 中，再扫描被驱动表，把被驱动表的每一行取出来，和 join_buffer 中的数据做对比，满足 join 条件的，就作为结果集的一部分返回

join 过多的问题

一方面，过多的表连接，会大大增加 SQL 复杂度
另一方面，如果可以使用被驱动表的索引那还好，并且使用小表来做驱动表，查询效率会更佳。但如果被驱动表没有可用的索引，join 是在 join_buffer 内存中做的，如果匹配的数据量比较小或者 join_buffer 设置的比较大，速度也不会太慢。但是，如果 join 的数据量比较大，MySQL 会采用在硬盘上创建临时表的方式进行多张表的关联匹配，显然这种方式效率极低，因为本来磁盘的 I/O 就不快，现在还要关联

一般情况下，如果业务需要，关联 2~3 个表是可以接受的，但是关联的字段需要加索引。

如果需要关联更多的表，建议从代码层面进行拆分，在业务层先查询一张表的数据，然后以关联字段作为条件查询关联表形成 map，然后在业务层进行数据的拼装。

6、in 元素过多

如果使用了 in，要注意 in 后面的元素不要过多，即使后面的条件加了索引。

select user_id, name from user where user_id in (1, 2, 3...1000000);

in 元素一般建议不要超过 500 个，如果超过了，则建议分组，比如每 500 一组进行。

select user_id, name from user where user_id in (1, 2, 3...500);

如果我们对 in 的条件不做任何限制，该查询语句一次性可能会查询出非常多的数据，很容易导致接口超时。尤其有时候我们是用的子查询，in 后面的子查询，根本不确定数量有多少，更容易踩坑。

select * from user where user_id in (select author_id from artilce where type = 1);

如果传参太多，还可以考虑补充参数校验。

if (userIds.size() > 500) {
    throw new Exception("单次查询的用户id不能超过200");
}

7、数据库在刷脏页

什么是脏页？

当内存数据页和磁盘数据页的内容不一致的时候，我们就称这个内存页为“脏页”。内存数据写入到磁盘后，内存和磁盘上的数据页的内容就一致了，此时称为“干净页”。一般有更新 SQL 时才可能会导致脏页。

一条更新语句是如何执行的？

update t set c = c + 1 where id = 666;

对于这条更新 SQL，执行器会先找存储引擎取 id = 666 这一行。如果这行所在的数据页本身就在内存中，则直接返回给执行器，否则就去磁盘读入内存后再返回
执行器拿到存储引擎给的行数据后，给这一行的字段 c 的值加一，得到新的一行数据，再调用存储引擎接口写入这行新数据
存储引擎将这行新数据更新到内存中，同时将这个更新操作记录到 redo log 里面，此时 redo log 处于 prepare 状态
执行器生成这个操作的 binlog，同时将 binlog 写入磁盘
执行器调用存储引擎的提交事务接口，存储引擎把刚刚写入的 redo log 改成提交（commit）状态，更新完成

InnoDB 在处理更新语句时，只做了写日志这一个磁盘操作。这个日志叫作 redo log（重做日志）。平时之所以更新 SQL 执行得很快，是因为它只是在写内存和 redo log 日志，等到空闲的时候，才把 redo log 日志里的数据同步到磁盘中。

redo log 日志不是在磁盘么？那为什么不慢？

其实是因为写 redo log 的过程是顺序写磁盘的。磁盘顺序写会减少寻道等待时间，速度会比随机写快很多。

为什么会出现脏页呢？

更新 SQL 只是在写内存和 redo log 日志，等到空闲的时候，才把 redo log 日志里的数据同步到磁盘中。这时内存数据页和磁盘数据页的内容不一致，就出现了脏页。

什么时候会刷脏页（flush）？

InnoDB 存储引擎的 redo log 的大小是固定的，并且是环型写入的。

以下几种场景会触发刷脏页。

redo log 写满了，要刷脏页。这种情况要尽量避免。因为出现这种情况时，整个系统就不能再接收更新，即所有的更新都必须堵住
内存不够了，需要新的内存页，就要淘汰一些数据页，这时候会刷脏页。InnoDB 使用缓冲池（buffer pool）来管理内存，当要读入的数据页不在内存时，就必须到缓冲池中申请一个数据页。这时候只能把最久不使用的数据页从内存中淘汰掉，如果要淘汰的是一个干净页，就直接释放出来复用；但如果是脏页，就必须先将脏页刷到磁盘，变成干净页后才能复用
MySQL 认为系统空闲的时候，也会刷一些脏页
MySQL 正常关闭时，会把内存的脏页都 flush 到磁盘上

为什么刷脏页会导致 SQL 变慢呢？

redo log 写满了，要刷脏页，这时候会导致系统所有的更新都堵住，写性能跌为 0。

一个查询要淘汰的脏页个数太多，一样会导致查询的响应时间明显变长。

8、order by 文件排序

order by 一定会导致慢查询吗？

不是的，因为 order by 平时用得多，并且数据量一上来，如果走文件排序，很容易产生慢 SQL。

假设存在一张员工表，表结构如下。

CREATE TABLE `staff` (
`id` BIGINT ( 11 ) AUTO_INCREMENT COMMENT '主键id',
`id_card` VARCHAR ( 20 ) NOT NULL COMMENT '身份证号码',
`name` VARCHAR ( 64 ) NOT NULL COMMENT '姓名',
`age` INT ( 4 ) NOT NULL COMMENT '年龄',
`city` VARCHAR ( 64 ) NOT NULL COMMENT '城市',
PRIMARY KEY ( `id`),
INDEX idx_city ( `city` )
) ENGINE = INNODB COMMENT '员工表';

表数据如下。

现在有这么一个需求：查询前 10 个来自深圳的员工的姓名、年龄、城市，并且按照年龄小到大排序。对应的 SQL 语句如下。

select name, age, city from staff where city = '深圳' order by age limit 10;

使用 explain 查看 SQL 的执行计划。

执行计划里的 key 表示用到了索引 idx_city
Extra 字段里的 Using index condition 表示索引条件
Extra 字段的 Using filesort 表示用到了文件排序
即这条 SQL 使用到了索引，并且也用到了排序

order by 用到文件排序时，为什么查询效率较低？

order by 排序，分为全字段排序和 rowid 排序。它是拿 max_length_for_sort_data 和结果行的数据长度做对比，如果结果行的数据长度超过 max_length_for_sort_data 的值，就会走 rowid 排序，否则走全字段排序。

什么是全字段排序？

MySQL 会给每个查询线程都分配一块小内存用于排序，称为 sort_buffer。通过 idx_city 索引找到对应的数据后，再把数据放进去排序。

idx_city 索引树，叶子节点存储的是主键 id，如下图所示。

同时，还有一棵 id 主键聚族索引树。

SQL 查询语句先通过 idx_city 索引树，找到对应的主键 id，然后再通过拿到的主键 id，搜索 id 主键索引树，找到对应的行数据。

加上 order by 之后，整体的执行流程如下所示。

MySQL 为对应的线程初始化 sort_buffer，放入需要查询的 name、age、city 字段
从索引树 idx_city 中，找到第一个满足 city = “深圳”这一条件的主键 id，即图中的 id = 9
到主键 id 索引树中拿到 id = 9 的这一行数据，取 name、age、city 三个字段的值，存到 sort_buffer 中
从索引树 idx_city 中拿到下一个记录的主键 id，即图中的 id = 13
重复步骤 3、4 直到 city 的值不等于深圳为止
前面 5 步已经查找到了所有 city 为深圳的数据，在 sort_buffer 中将所有的数据根据 age 进行排序
按照排序结果取前 10 行返回给客户端

将查询所需的字段全部读取到 sort_buffer 中，就是全字段排序。

把查询的所有字段都放到 sort_buffer 中，如果数据量太大，sort_buffer 放不下怎么办呢？

答案是：磁盘临时文件辅助排序。

实际上，sort_buffer 的大小是由参数 sort_buffer_size 控制的。如果要排序的数据小于 sort_buffer_size，排序在 sort_buffer 内存中完成，否则借助磁盘文件来进行排序。

如何确定是否使用了磁盘文件来进行排序呢？

// 打开optimizer_trace，开启统计
set optimizer_trace = "enabled=on";
// 执行SQL语句
select name, age, city from staff where city = '深圳' order by age limit 10;
// 查询输出的统计信息
select * from information_schema.optimizer_trace;

可以从 number_of_tmp_files 中看出是否使用了临时文件。

number_of_tmp_files 表示用来排序的磁盘临时文件数。如果 number_of_tmp_files > 0，则表示使用了磁盘文件来进行排序。

如果使用了磁盘临时文件，此时排序过程又是怎样的呢？

从主键 id 索引树中，拿到需要的数据，并放到 sort_buffer 内存块中。当 sort_buffer 快要满时，就对 sort_buffer 中的数据进行排序，排完后，把数据临时放到磁盘的一个小文件中
继续回到主键 id 索引树中取数据，继续放到 sort_buffer 内存中，排序后，也把这些数据写入到磁盘的临时小文件中
继续循环，直到取出所有满足条件的数据
最后把磁盘中临时排好序的小文件，合并成一个有序的大文件。事实上，借助磁盘临时小文件排序，使用的是归并排序算法

什么是 rowid 排序？

rowid 排序就是只把查询所需的用于排序的字段和主键 id，放到 sort_buffer 中。

怎么确定走的是全字段排序还是 rowid 排序呢？

实际上是通过参数 max_length_for_sort_data 控制的，它表示 MySQL 用于排序的行数据的长度，如果单行的长度超过这个值，MySQL 就认为单行太大，就换成 rowid 排序。

可以通过命令来查看参数的取值。

max_length_for_sort_data 的默认值是 1024。示例中 name，age，city 的长度= 64 + 4 + 64 = 132 < 1024，所以走的是全字段排序。

// 修改排序数据的最大单行长度为32
set max_length_for_sort_data = 32;
// 执行查询SQL
select name, age, city from staff where city = '深圳' order by age limit 10;

如果使用 rowid 排序，SQL 执行流程如下所示。

MySQL 为对应的线程初始化 sort_buffer，放入需要排序的 age 字段以及主键 id
从索引树 idx_city 中，找到第一个满足 city = “深圳”这一条件的主键 id，即图中的 id = 9
从主键 id 索引树中拿到 id = 9 的这一行数据，取 age 和主键 id 的值，存到 sort_buffer 中
从索引树 idx_city 中拿到下一个记录的主键 id，即图中的 id = 13
重复步骤 3、4 直到 city 的值不等于深圳为止
前面 5 步已经查找到了所有 city 为深圳的数据，在 sort_buffer 中将所有的数据根据 age 进行排序
遍历排序结果，取前 10 行，并按照 id 的值回到原表中，取出 city、name 和 age 三个字段返回给客户端

对比全字段排序的流程，rowid 排序就是多了一次回表操作。

什么是回表？

拿到主键后再回到主键索引中查询的过程，就叫做“回表”。

通过 optimizer_trace 可以查看是否使用了 rowid 排序。

// 打开optimizer_trace，开启统计
set optimizer_trace = "enabled=on";
// 执行SQL语句
select name, age, city from staff where city = '深圳' order by age limit 10;
// 查询输出的统计信息
select * from information_schema.optimizer_trace

全字段排序与 rowid 排序的对比

全字段排序：sort_buffer 内存如果不够，就需要用到磁盘临时文件，造成磁盘访问
rowid 排序：sort_buffer 可以放更多的数据，但是需要再回到原表去取数据，比全字段排序多一次回表操作
一般情况下，对 InnoDB 存储引擎而言，会优先使用全字段排序。可以发现 max_length_for_sort_data 参数设置为 1024，这个数是比较大的。而一般情况下，排序字段并不会超过这个值，即都会走全字段排序

如何优化 order by？

因为数据是无序的，所以就需要排序。但如果数据本身就是有序的，那就不用排了。索引数据本身是有序的，可以通过建立联合索引的方式，优化 order by 语句
还可以通过调整 max_length_for_sort_data 等参数进行优化

联合索引优化

给查询条件 city 和排序字段 age 加上联合索引 idx_city_age。

alter table staff add index idx_city_age(city, age);

可以发现，加上 idx_city_age 联合索引后，就不需要 Using filesort 文件排序了，因为索引本身就是有序的。

此时 SQL 执行流程如下所示。

从索引 idx_city_age 中找到满足 city = “深圳”的主键 id
从主键 id 索引中取出整行，拿到 name、city、age 三个字段的值，作为结果集的一部分直接返回
从索引 idx_city_age 中取下一个记录的主键 id
重复步骤 2、3 直到查到第 10 条记录或者不满足 city = “深圳”条件时，循环结束

从示意图中可知，还是有一次回表操作。针对本次示例，有没有更高效的方案呢？

有的，可以使用覆盖索引。

在查询的数据列里，不需要再回表查询，直接从索引列就能取到想要的结果。换句话说，SQL 用到的索引列数据，覆盖了查询结果的列，就是覆盖索引。

给 city、name、age 组成一个联合索引，即可用到覆盖索引，这时 SQL 执行连回表操作都可以省去。

调整参数优化

可以通过调整参数，去优化 order by 的执行。比如可以调整 sort_buffer_size 的值。因为如果 sort_buffer 值太小，同时数据量太大，会借助磁盘临时文件排序。如果 MySQL 服务器配置高的话，可以稍微调大一点。

还可以调整 max_length_for_sort_data 的值，如果这个值太小，order by 会走 rowid 排序，会回表查询，降低查询性能。所以max_length_for_sort_data 可以适当调大一点。

当然，很多时候这些 MySQL 的参数值，直接采用默认值就可以了。

使用 order by 的一些注意点

没有 where 条件，order by 字段需要加索引吗？

假设存在如下 SQL，判断 create_time 是否需要加索引。

select * from A order by create_time;

无条件查询，即使 create_time 上有索引，也不会使用到。因为 MySQL 优化器认为走普通二级索引，再去回表查询，这一成本比全表扫描排序更高。所以选择走全表扫描，然后根据全字段排序或者 rowid 排序来进行。

select * from A order by create_time limit m;

无条件查询，如果 m 值较小，是可以走索引的。因为 MySQL 优化器认为，根据索引的有序性去回表查询数据，然后得到 m 条数据，就可以终止循环，那么成本会比全表扫描小，则选择走二级索引。

分页 limit 过大时，导致大量排序怎么办？

select * from A order by a limit 100000, 10;

可以记录上一页最后的 id，下一页查询时，查询条件带上 id，如：where id > 上一页最后的 id limit 10；也可以在业务允许的情况下，限制页数。

索引存储顺序与 order by 不一致，如何优化？

假设存在联合索引 idx_age_name，需要查询前 10 个员工的姓名、年龄，并且按照年龄从小到大排序，如果年龄相同，则按照姓名降序排序。

select name, age from staff order by age, name desc limit 10;

查看执行计划，发现使用到了 Using filesort 文件排序。

这是因为，在 idx_age_name 索引树中，age 从小到大排序，如果 age 相同，再按照 name 从小到大排序。而 order by 中，是按照 age 从小到大排序，如果 age 相同，再按照 name 从大到小排序。即索引存储顺序与 order by 不一致。

此时该怎么优化呢？

MySQL 8.0 版本，支持 Descending Indexes，可以通过修改索引来优化。

CREATE TABLE `staff` (
  `id` bigint(11) NOT NULL AUTO_INCREMENT COMMENT '主键id',
  `id_card` varchar(20) NOT NULL COMMENT '身份证号码',
  `name` varchar(64) NOT NULL COMMENT '姓名',
  `age` int(4) NOT NULL COMMENT '年龄',
  `city` varchar(64) NOT NULL COMMENT '城市',
  PRIMARY KEY (`id`),
  KEY `idx_age_name` (`age`,`name` desc) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=15 DEFAULT CHARSET=utf8 COMMENT='员工表';

使用了 in 条件时，SQL 执行是否有排序过程？

假设存在联合索引 idx_city_name，执行如下 SQL，是不会走排序过程的。

但如果使用了 in 条件，并且有多个条件时，就会有排序过程。

这是因为 in 有两个条件，在满足“深圳”时，age 是排好序的，但是把满足“上海”的 age 也加进来，就不能保证所有的 age 都是排好序的，因此需要 Using filesort 文件排序。

9、拿不到锁

有时候一条很简单的查询 SQL，等待很长时间却不见结果返回。一般这种情况就是表被锁住了，或者要查询的某一行或者某几行被锁住了，只能慢慢等待锁被释放。

这时可以用 show processlist 命令，查看当前语句处于什么状态。

10、delete + in 子查询不走索引

当 delete + in 子查询时，即使有索引，也是不走索引的。而对应的 select + in 子查询，却可以走索引。

// MySQL版本5.7
CREATE TABLE `old_account` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键Id',
  `name` varchar(255) DEFAULT NULL COMMENT '账户名',
  `balance` int(11) DEFAULT NULL COMMENT '余额',
  `create_time` datetime NOT NULL COMMENT '创建时间',
  `update_time` datetime NOT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_name` (`name`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1570068 DEFAULT CHARSET=utf8 ROW_FORMAT=REDUNDANT COMMENT='老的账户表';

CREATE TABLE `account` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键Id',
  `name` varchar(255) DEFAULT NULL COMMENT '账户名',
  `balance` int(11) DEFAULT NULL COMMENT '余额',
  `create_time` datetime NOT NULL COMMENT '创建时间',
  `update_time` datetime NOT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_name` (`name`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1570068 DEFAULT CHARSET=utf8 ROW_FORMAT=REDUNDANT COMMENT='账户表';

从 explain 结果可知，先全表扫描 account，然后逐行执行子查询，判断条件是否满足。显然这个执行计划和预期不符，因为并没有走索引。

但如果把 delete 换成 select，此时就会走索引。

为什么 select + in 子查询会走索引，而 delete + in 子查询却不会走索引呢？

explain select * from account where name in (select name from old_account);
show WARNINGS; // 可以查看优化后最终执行的sql

select `test2`.`account`.`id` AS `id`, `test2`.`account`.`name` AS `name`, `test2`.`account`.`balance` AS `balance`, `test2`.`account`.`create_time` AS `create_time`, `test2`.`account`.`update_time` AS `update_time` from `test2`.`account` semi join (`test2`.`old_account`) where (`test2`.`account`.`name` = `test2`.`old_account`.`name`);

可以发现，在实际执行的时候，MySQL 对 select + in 子查询做了优化，把子查询改成了 join 的方式，所以可以走索引。

但是很遗憾，对于 delete + in 子查询，MySQL 没有对它做这个优化。

那如何优化这个问题呢？

通过上面的分析，显然可以把 delete + in 子查询改为 join 的方式。

可以发现，改用 join 的方式是可以走索引的，完美解决了这个问题。

事实上，对于 update 或者 delete 子查询的语句，MySQL 也是推荐采用 join 的方式优化。

此外，给表加上别名，也可以解决这个问题。

为什么加个别名就可以走索引了呢？

查看 explain 执行计划，可以发现在 Extra 那一栏，有个 LooseScan。

LooseScan，是一种策略，是 semi join 子查询的一种执行策略。

因为子查询改为 join，可以让 delete + in 子查询走索引，加别名会走 LooseScan 策略，而 LooseScan 策略本质上就是 semi join 子查询的一种执行策略。因此，加别名就可以让 delete + in 子查询也走索引。

11、group by 使用临时表

group by 一般用于分组统计，它表达的逻辑就是根据一定的规则，进行分组。在日常开发中，我们使用得比较频繁，如果稍不注意，很容易产生慢 SQL。

CREATE TABLE `staff` (
  `id` bigint(11) NOT NULL AUTO_INCREMENT COMMENT '主键id',
  `id_card` varchar(20) NOT NULL COMMENT '身份证号码',
  `name` varchar(64) NOT NULL COMMENT '姓名',
  `age` int(4) NOT NULL COMMENT '年龄',
  `city` varchar(64) NOT NULL COMMENT '城市',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=15 DEFAULT CHARSET=utf8 COMMENT='员工表';

现在有这么一个需求：统计每个城市的员工数量。对应 SQL 的执行计划如下所示。

Extra 字段的 Using temporary 表示在执行分组的时候使用了临时表
Extra 字段的 Using filesort 表示使用了文件排序

group by 是怎么使用到临时表和排序的呢？

对应 SQL 的执行流程如下。

创建内存临时表，表里有两个字段 city 和 num
全表扫描 staff 的记录，依次取出 city = ‘xx’ 的记录
判断临时表中是否有 city = ‘xx’ 的行，如果没有就插入一个记录 (xx, 1)
如果临时表中有 city = ‘xx’ 的行，就将这一行的 num 值加 1
遍历完成后，再根据字段 city 做排序，得到结果集后返回给客户端

那么临时表的排序是怎样的呢？

就是把需要排序的字段，放到 sort buffer 中，排完就返回。这里需要注意，排序分为全字段排序和 rowid 排序。

如果是全字段排序，需要查询返回的字段，都放入 sort buffer 中，再根据排序字段排完后，直接返回
如果是 rowid 排序，只是需要排序的字段放入 sort buffer 中，然后多一次回表操作，再返回
可以通过数据库参数 max_length_for_sort_data 来确定走的是全字段排序还是 rowid 排序

where 和 having 的区别？

group by + where 的执行流程

select city, count(*) as num from staff where age > 30 group by city;
// 加索引
alter table staff add index idx_age (age);

从 explain 执行计划中，可以发现查询条件命中了 idx_age 的索引，并且使用了临时表和排序。

Using index condition 表示索引下推优化，根据索引尽可能的过滤数据，然后再返回给服务器层去根据 where 的其他条件进行过滤。这里并不代表一定是使用了索引下推，只是代表可以使用，实际上不一定用了。

对应 SQL 执行流程如下。

创建内存临时表，表里有两个字段 city 和 num
扫描索引树 idx_age，找到年龄大于 30 的主键 id
通过主键 id，回表查询找到 city = ‘xx’ 的数据行
判断临时表中是否有为 city = ‘xx’ 的数据行，如果没有就插入一个记录（xx, 1）
如果临时表中有 city = ‘xx’ 的数据行，就将这一行的 num 值加 1
继续重复 2、3 步骤，找到所有满足条件的数据
最后根据字段 city 做排序，得到结果集后返回给客户端

group by + having 的执行流程

如果要查询每个城市的员工数量，获取员工数量不低于 3 的城市，可以用 having 解决。

having 称为分组过滤条件，它对返回的结果集操作。

同时有 where、group by、having 的执行顺序

select city, count(*) as num from staff where age > 19 group by city having num >= 3;

执行 where 子句查找符合年龄大于 19 的员工数据
group by 子句对员工数据根据城市分组
对 group by 子句形成的城市分组，运行聚合函数计算每一组的员工数量值
最后用 having 子句选出员工数量大于等于 3 的城市分组

where + having 区别总结

having 子句用于分组后的筛选，where 子句用于行条件的筛选
having 一般都是配合 group by 和聚合函数一起出现，如：count()、sum()、avg()、max()、min()
where 条件子句中不能使用聚合函数，而 having 子句可以
having 只能用在 group by 之后，而 where 执行在 group by 之前

使用 group by 需要注意的问题

group by 一定要配合聚合函数使用么？

group by 就是分组统计的意思，一般情况下都是配合聚合函数一起使用。

但在 MySQL 5.7 版本中，即使没有配合聚合函数使用也是可以的，不会报错，并且返回的是分组的第一行数据。

当然，平时使用的时候，group by 还是配合聚合函数使用的，除非一些特殊场景，比如想去重，当然去重用 distinct 也是可以的。

group by 后面跟的字段一定要出现在 select 中么？

不一定。

分组字段 city 不在 select 后面，但并不会报错。当然，这个可能和不同的数据库或者不同的版本有关。

group by 导致的慢 SQL 问题

group by 使用不当，很容易产生慢 SQL 问题。因为它既用到了临时表，又默认用到了排序，有时候还可能用到磁盘临时表。

如果在执行过程中，MySQL 发现内存临时表的大小达到了上限（由参数 tmp_table_size 控制），会把内存临时表转成磁盘临时表。如果数据量很大，很可能查询所需的磁盘临时表，会占用大量的磁盘空间。

group by 的优化方案

方向1：既然它默认会排序，那我们不给它排就行了
方向2：既然临时表是影响 group by 性能的重要因素，那么我们不用临时表就行了

至于为什么执行 group by 语句时需要使用临时表，是因为在 group by 的语义逻辑中，就是统计不同的值出现的个数。如果这些值从一开始就是有序的，那我们直接往下扫描统计就好了，就不需要再使用临时表来记录并统计结果了。

给 group by 后面的字段加索引

如果加上联合索引 idx_age_city（age, city），查看对应 SQL 的执行计划，发现既不用排序，也不需要临时表。

可见加合适的索引是优化 group by 最简单最有效的优化方式。

order by null 不用排序

并不是所有的场景都适合加索引，如果碰上不适合创建索引的场景，比如需求并不需要对结果集进行排序，则可以使用 order by null。

尽量只使用内存临时表

如果 group by 需要统计的数据量不多，可以考虑尽量只使用内存临时表。

如果内存临时表放不下数据，从而用到磁盘临时表，此时会比较耗时。因此可以适当调大 tmp_table_size 参数，以此避免用到磁盘临时表。

使用 SQL_BIG_RESULT 优化

如果数据量实在太大，不可能无限制地调大 tmp_table_size，也不能眼睁睁地看着数据先放到内存临时表，随着数据的插入，发现到达上限后，再转成磁盘临时表。

因此，如果预估数据量比较大，可以使用 SQL_BIG_RESULT 这个提示，直接用磁盘临时表。MySQL 优化器发现磁盘临时表是 B+ 树存储，存储效率不如数组，因此会直接采用数组来存储。

从执行计划的 Extra 字段可以看到，执行没有再使用临时表，而是只有排序。

对应的执行流程如下。

初始化 sort_buffer，放入 city 字段
扫描表 staff，依次取出 city 的值，存入 sort_buffer 中
扫描完成后，对 sort_buffer 中的 city 字段做排序
排序完成后，得到一个有序数组
根据有序数组，统计每个值出现的次数

12、系统硬件或者网络资源

如果数据库服务器内存、硬件资源，或者网络资源配置不是很好，就会慢一些，这时候可以考虑升级配置。

如果数据库的压力本身很大，比如在高并发场景下，大量请求打到数据库上，数据库服务器的 CPU 占用很高或者 I/O 利用率很高，这种情况下所有语句的执行都有可能变慢。

此外，如果测试环境下数据库的一些参数配置，和生产环境下的参数配置不一致，也容易产生慢 SQL。

你可能感兴趣的:(MySQL,数据库)

39、Oracle 数据库内存管理：SGA 与 PGA 配置指南 apple5 解读Oracle Oracle数据库 SGA配置 PGA配置
Oracle数据库内存管理：SGA与PGA配置指南1.手动配置SGA参数如果你想对系统全局区（SGA）的内存分配进行更多控制，可以从完全自动内存管理（AMM）切换到自动共享内存管理（ASMM）。启用ASMM很简单，只需将SGA_TARGET设置为所需的值。即使启用了ASMM，你仍然可以控制由SGA_TARGET控制的SGA组件的最小大小。此外，你还需要手动调整一些初始化参数。1.1理解自动共享内存
sqlplus连接Oracle 11g 数据库 zone-- sqlplus oracle
sqlplus连接Oracle11g数据库安装如下Oracle11g安装教程//Anhighlightedblocksqlplus有几种登陆方式比如：sqlplus"/assysdba"--以操作系统权限认证的oraclesys管理员登陆sqlplus/nolog--不在cmd或者terminal当中暴露密码的登陆方式conn/assysdbaconnsys/passwordassysdbasql
Oracle 19C 后台主要进程的功能解析 zone-- 数据库 oracle dba
在Oracle数据库的运行机制中，后台进程是支撑数据库各项功能的“隐形引擎”。这些进程在实例启动时自动创建，负责完成数据读写、故障恢复、资源管理等核心任务。本文基于Oracle19c官方文档，对数据库常见后台进程进行系统梳理，帮助数据库管理员理解进程工作原理，为性能调优和故障诊断提供基础。后台进程的基础特性Oracle后台进程是指在V$PROCESS视图中存在且PNAME列非空的进程，它们独立于用
Oracle 数据泵导出表部分列的实现方案：从 12c 新特性到低版本兼容 zone-- oracle 数据库
在Oracle数据库日常运维中，经常会遇到“只导出表中部分列”的需求——例如某张表包含数十个字段，但业务仅需迁移其中3-5个核心字段的数据。传统的导出工具（如exp或expdp）虽能通过QUERY参数过滤行记录，却无法实现列的筛选。本文基于实践经验，详解不同Oracle版本下导出表部分列的解决方案，包括12c及以上版本的便捷方法和11g及以下版本的兼容方案。12c及以上版本：利用VIEWS_AS_
PostgreSQL 语法详解沐知全栈开发开发语言
PostgreSQL语法详解引言PostgreSQL是一款功能强大的开源对象关系型数据库管理系统（ORDBMS），广泛应用于各种规模的组织中。其丰富的功能和灵活性使得它成为了众多数据库开发者和运维人员的首选。本文将详细介绍PostgreSQL的语法，帮助读者快速掌握其基本操作。1.数据库连接在操作PostgreSQL之前，首先需要连接到数据库。以下是一个使用PostgreSQL客户端连接到本地数据
RxJava 全解析：从原理到 Android 实战 Monkey-旭 java rxjava 响应式编程 android
在Android开发中，异步任务处理是绕不开的核心场景——网络请求、数据库操作、文件读写等都需要在后台执行，而结果需回调到主线程更新UI。传统的“Handler+Thread”或AsyncTask不仅代码冗余，还容易陷入“回调地狱”（嵌套回调导致代码可读性差）。RxJava作为一款基于响应式编程思想的异步框架，通过“链式调用”和“操作符”完美解决了这些问题，成为Android开发者的必备工具。本文
jxORM--编程指南 jxandrew jxWebUI 数据库 python jxWebUI jxORM ORM
jxORM是jxWebUI配套的数据库操作库，可以简化python程序员操作数据库。声明数据类定义数据类之前，先导入ORM修饰符：fromjxORMimportORM,DBDataType,ColType然后就可以用ORM修饰符来修饰一个类，从而定义一个数据类：@ORMclassUser:ID:DBDataType.Long=ColType.PrimaryKeyCreateTime:DBDataT
Oracle 数据库共享池与大池调优指南 zone-- 数据库 oracle
在Oracle数据库的内存管理中，共享池（SharedPool）和大池（LargePool）是SGA（系统全局区）中负责缓存与资源分配的核心组件。合理配置和调优这两个池，能显著提升数据库性能——尤其是在减少解析开销、降低锁竞争、优化内存利用率等方面。本文基于Oracle19c官方文档，系统梳理共享池与大池的调优思路、关键配置及实践方法。共享池：核心缓存与解析优化的关键共享池是SGA中用于缓存SQL
MySQL分布式架构深度实践：从分库分表到云原生集成软考和人工智能学堂 PHP和MySQL MySQL经验与技巧 wpf
1.分布式MySQL架构全景graphTDA[分布式MySQL体系]-->B[数据分片策略]A-->C[分布式事务处理]A-->D[读写分离扩展]A-->E[高可用架构]A-->F[云原生集成]B-->B1(水平分库分表)B-->B2(垂直分库分表)B-->B3(分片路由策略)B-->B4(全局ID方案)C-->C1(XA协议)C-->C2(TCC模式)C-->C3(SAGA模式)C-->C4(本
Redis入门教程（一）：基本数据类型
一、Redis是什么？为什么你需要它？Redis（RemoteDictionaryServer）是一个开源的内存数据结构存储系统，它可以用作数据库、缓存和消息中间件。与传统的关系型数据库不同，Redis将数据存储在内存中，使其读写速度达到惊人的11万次读/秒和8.1万次写/秒。同时支持数据持久化，重启后数据不丢失，完美平衡了速度与可靠性。Redis的五大核心优势：丰富的数据结构：支持字符串（Str
Milvus向量数据库集合操作初尝试麦克阿建 milvus
目录1.集合（Collection)2.字段（Field）3.索引（Index）4.分区（Partition）5.实体（Entity）6.代码示例6.1集合创建6.2向量插入6.3向量查询6.4向量删除1.集合（Collection)集合是Milvus中存储数据的最基本单元。它类似于数据库中的一个表（table）。集合定义了数据的整体结构，包括数据类型、字段、索引等。作用：集合是你数据的容器，用来
高阶知识库搭建实战五、（向量数据库Milvus安装）伯牙碎琴大模型数据库 milvus 大模型 AI
以下是关于在Windows环境下直接搭建Milvus向量数据库的教程：本教程分两部分，第一部分是基于docker安装，在Windows环境下直接安装Milvus向量数据库，目前官方推荐的方式是通过Docker进行部署，因为Milvus的运行环境依赖于Linux系统。如果你希望在Windows上直接运行Milvus，可以考虑使用MilvusLite版本，这是一个轻量级的Python库，适用于快速原型
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
社交应用全栈开发实战：前后端与数据库整合
本文还有配套的精品资源，点击获取简介：本资源包详细介绍了构建一个社交应用程序的全过程，包括前端、后端以及数据库管理的核心组件和关键功能。Uniapp框架用于开发跨平台的移动端用户界面，Java后端负责处理业务逻辑和数据交互，MySQL数据库用于管理用户信息和动态数据。项目还包括前后端通信、身份验证、性能优化和推送通知服务的实现。学习这些代码可以提升开发者的技能，帮助快速构建社交应用。1.社交APP
新版进销存管理系统完整教程：PB9.0与SQL Server 2000的实战应用语嫣凝冰
本文还有配套的精品资源，点击获取简介：本文档提供了一个基于PowerBuilder9.0和SQLServer2000开发的进销存管理系统的全面教程。系统涵盖了企业管理中的采购、销售和库存管理环节，通过强大的数据窗口组件和三层架构设计，实现了业务逻辑和数据库的有效交互。文章详细解释了系统的技术栈、核心功能、系统架构、数据窗口组件、数据库设计、报表分析及权限安全管理等关键点，旨在帮助用户深入理解进销存
python分布式事务_分布式事务系列（2.1）分布式事务的概念
#1系列目录#2X/OpenDTPDTP全称是DistributedTransactionProcess，即分布式事务模型。之前我们接触的事务都是针对单个数据库的操作，如果涉及多个数据库的操作，还想保证原子性，这就需要使用分布式事务了。而X/OpenDTP就是一种分布式事务处理模型。##2.1X/OpenDTP模型X/Open是一个组织，维基百科上这样说明：X/Open是1984年由多个公司联合创
如何构建高效的向量数据库以优化大模型检索能力学习ing1 数据库
1.构建向量数据库的基础架构1.1确定数据存储需求构建高效的向量数据库以优化大模型检索能力，首先要明确数据存储需求。大模型通常涉及海量的参数和数据，例如一个拥有10亿参数的模型，其存储需求可能达到数百GB。根据数据的规模和类型，需要确定存储的容量、速度和可靠性。对于大规模数据，分布式存储是常见的选择，它可以将数据分散存储在多个节点上，提高存储效率和数据访问速度。同时，数据的读写频率也是重要因素，高
向量数据库FAISS/Chromadb/ES/milvus简单概述
FAISSFAISS（FacebookAISimilaritySearch）是一种高性能的向量相似性搜索库，用于在大规模向量数据集中快速搜索最相似的向量。它是由FacebookAIResearch开发的，旨在解决大规模向量搜索的问题，广泛应用于各种领域，如图像搜索、文本搜索、推荐系统等。FAISS的主要特点和优势如下：高效的相似性搜索：FAISS使用了一系列高效的算法和数据结构，如倒排索引、局部敏
LLM初识
从零到一：用Python和LLM构建你的专属本地知识库问答机器人摘要：随着大型语言模型（LLM）的兴起，构建智能问答系统变得前所未有的简单。本文将详细介绍如何使用Python，结合开源的LLM和向量数据库技术，一步步搭建一个基于你本地文档的知识库问答机器人。你将学习到从环境准备、文档加载、文本切分、向量化、索引构建到最终实现问答交互的完整流程。本文包含详细的流程图描述、代码片段思路和关键注意事项，
大模型——TRAE+Milvus MCP 自然语言就能搞定向量数据库不二人生大模型 milvus 数据库 trae 大模型
大模型——TRAE+MilvusMCP自然语言就能搞定向量数据库不久前，继Cursor和ClaudeDesktop在海外市场掀起智能编程浪潮后，字节跳动TRAE海外版也进入了付费模式。相较前两款海外产品，TRAE集成了代码补全、智能问答和Agent模式之外，还可以为中文开发者带来本土化的智能编程体验。恰逢其时，MilvusMCP服务器新增了SSE（Server-SentEvents）支持。相比传统
推荐开源项目：Milvus Lite —— 轻量级向量数据库，助力AI应用快速起飞穆希静
推荐开源项目：MilvusLite——轻量级向量数据库，助力AI应用快速起飞项目介绍MilvusLite是知名开源向量数据库Milvus的轻量级版本，专为需要在小型环境中进行向量嵌入和相似性搜索的AI应用设计。通过将MilvusLite导入您的Python应用，您可以直接使用Milvus的核心向量搜索功能。MilvusLite已集成在PythonSDKofMilvus中，只需通过pipinstal
【速通RAG实战：数据库】6.RAG向量数据库原理无心水速通 RAG 实战！解锁 AI 2.0 高薪密码速通RAG实战 RAG快速开发实战 RAG RAG向量数据库相似度 FAISS Chroma
在RAG（检索增强生成）系统中，向量数据库扮演着至关重要的角色，它负责存储文本经过Embedding处理后的向量表示，并能高效地进行向量检索，以找出与查询向量最相似的文档。1.向量数据库原理1.向量表示在RAG系统里，文本首先会通过Embedding模型（如OpenAIEmbeddings、SentenceTransformers等）转化为固定维度的向量。这些向量能够捕捉文本的语义信息，使得语义相
mybatis/mybatis-plus添加数据,自增id的值为负数雾林小妖 Java开发常见BUG解决方案 mybatis
1、问题概述？使用mybatis-plus的insert方法添加数据的时候，数据虽然添加成功了，但是返回值为false，提示添加失败。当观察数据的时候，发现数据的自增主键id的值尽然为-1，或者无规律的长串负数，如：-109096962。2、解决办法？解决办法总体比较简单【注意点1：@TableId(value="id",type=IdType.AUTO)】AUTO(0,“数据库ID自增”),NO
UML设计系列(9)：开发过程中如何应用UML
传送门UML设计系列(1)：状态机图UML设计系列(2)：类图UML设计系列(3)：时序图UML设计系列(4)：用例图UML设计系列(5)：系统依赖图UML设计系列(6)：活动图UML设计系列(7)：UML设计阶段性总结UML设计系列(8)：数据库关联关系图我眼中的软件开发流程对于软件的开发流程，我们一直没怎么触碰，探讨不多。业界的标准开发模式也很成熟，比如你可能听过传统的瀑布、迭代开发模式，随着
LangChain 源码剖析（二）：LangChain 流程编排的核心骨架——Chain 基类源码剖析 ATM006 人工智能 langchain 大模型 Agent
每一篇文章都短小精悍，不啰嗦。在LangChain框架中，Chain是连接各种组件（模型、工具、数据库等）的核心骨架，负责将多个步骤按逻辑串联成可执行的工作流。无论是简单的「提问-回答」流程，还是复杂的「检索-思考-工具调用」pipeline，都依赖Chain基类提供的基础能力。本文将从架构设计、核心功能到实现细节，全面解析这一基类的设计智慧。一、架构定位：为什么需要Chain基类？Chain基类
微服务链路雪崩防护深度解析：Hystrix与Sentinel熔断降级策略对比梦玄海微服务 hystrix sentinel
一、微服务雪崩效应与熔断机制核心原理1.1雪崩效应形成机制微服务架构中的雪崩效应本质上是服务调用链路的级联故障扩散过程，其形成机制可分为以下阶段：异常传播阶段：当某个下游服务节点因高负载、网络波动或代码缺陷出现响应延迟或异常时，调用方服务会持续积累待处理请求资源耗尽阶段：调用方线程池被持续占满，数据库连接池耗尽，TCP连接数达到上限，导致正常业务请求无法获取计算资源服务瘫痪阶段：故障通过服务依赖关
为什么阿里巴巴Java开发手册禁止使用存储过程？需要重新演唱 SQL java java 开发语言
阿里巴巴Java开发手册中禁止使用存储过程的原因主要基于以下几个方面的考虑：1.可维护性差复杂性：存储过程通常包含复杂的逻辑，随着业务逻辑的增加，存储过程的复杂性也会不断增加，导致维护成本高。调试困难：存储过程的调试通常比应用程序代码更困难，尤其是在分布式系统和微服务架构中。版本控制：存储过程的版本控制和变更管理相对复杂，难以与应用程序的版本控制流程集成。2.可移植性差数据库依赖：存储过程的语法和
2 MySQL配置文件详解笑Skr人啊
Windows图片.png复制配置文件[root@rootmysql]#cp/usr/share/mysql/my-huge.cnf/etc/my.cnfcp：是否覆盖"/etc/my.cnf"？y[client]port=3306#客户端端口号socket=/data/3306/mysql.sock#socket文件是linux/unix系统特有的，用户在该环境下的客户端连接可以不通过tcp/i
不用存储过程怎么处理大批量数据？读取大批量数据 liu_111111 ASP.Net高级
解决方案一：可以从几个方面着手：第一，减少网络的数据传输量第二，减少服务器的计算时间消耗第三、使用存贮过程可以有效的减少指令的数据量。第四、没有更新冲突的需求，那么请去掉检查数据库更新冲突的选项。这样可以减少数据传输量，并能减少服务器的计算时间。解决方案二：1、建立一个临时表2、把数据插入临时表3、写一个存储过程，把对应删除老表数据后，插入临时表数据4、执行上述存储过程
存储过程都有什么替代方案? 瑞信卡券提货系统存储过程
存储过程的替代方案主要有以下几种：ORM（对象关系映射）：ORM框架，如Hibernate、EntityFramework等，在客户端逻辑和数据库之间插入了一个层。这些框架能够生成SQL语句以在数据库上执行，从而避免了直接编写存储过程。使用ORM，开发人员可以在应用层表达复杂的业务逻辑，而无需将逻辑分散到存储过程中。ORM框架允许开发人员使用面向对象的方式操作数据库，提供了更高层次的抽象，使得代码
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts