chapter05_查询处理和查询优化_2_关系数据库系统的查询优化方式

  • 查询优化技术

    (1) 代数优化

    (2) 基于存储路径的优化

    (3) 基于代价估算的优化

    整体过程:

    将查询转换成语法树;

    根据关系的等价变化规则对语法树进行代数优化;

    选择底层的操作算法,对于语法树中的每个操作,根据存储路径、数据存储分布、存储数据的聚簇等信息选择具体的执行算法;

    生成查询计划,查询计划由一系列内部操作组成,这些内部操作按照一定的次序构成不同的执行方案,估算每个执行方案的代价,选择最小的一个。

  • 代数优化策略

    (1) 基本原则

    减少查询处理的中间结果的大小

    (2) 先执行投影、选择等操作,后执行联接、笛卡尔积等操作

    (3) 先做小关系之间的联接,后做与大关系的联接

    (4) 一般系统都采用基于规则的启发式查询优化方法

    一般的规则包括:

    1° 尽可能早的进行选择操作

    2° 投影操作和选择操作尽量同时进行,减少扫描关系的次数

    3° 将投影和其前或其后的联接操作同时进行,避免因为去掉某些属性而重复扫描

    4° 将某些联接操作同在它前面的笛卡尔积结合起来,合并成为一个联接操作(特别是等值连接的情况)

    5° 存储公共子表达式(此时要考虑子表达式结果集的大小、从外存中读入结果集的时间)

    (5) 关系代数表达式的查询优化是由DBMS的DML编译器自动完成的

    (6) 代数优化只改变查询语句中操作的次序和组合,不涉及底层的存取路径

  • 基于存储路径的优化

    (1) 每种操作有多种实现算法,具体选择哪种算法,要根据底层的存储路径的方式

    (2) 选择操作的启发式规则

    1° 小的关系一律顺序扫描,即便选择的列上有索引

    2° 如果选择条件是 <主键=值>,则查询结果最多是一个元组(主键的唯一性),此时使用主键索引(一般的RDBMS会自动创建主键索引,例如MYSQL)

    3° 如果选择条件是 <非主属性=值>,并且选择列上有索引。若估算查询结果元组数目少,则使用索引;若估算查询结果元组数目多,则使用顺序扫描

    4° 如果选择条件是非等值查询,同3°

    5° 对于AND合取条件,如果有涉及这些属性的组合索引,使用组合索引扫描;如果某些属性上有索引,则对其进行索引扫描后验证;没有任何索引,使用顺序扫描

    6° 对于OR析取条件,只要任意一个条件没有索引,就只能用顺序扫描的方式

    7° 如果关系按照条件中的属性进行排序且为关于该属性的等值查询,在使用顺序扫描的地方可以考虑二分查找

    (3) 连接操作的启发式规则

    1° 如果两个表都按照连接属性排序,则使用排序合并

    2° 如果一个表在连接属性上有索引,使用索引连接

    3° 如果1°,2°都不满足,其中一个表较小,则使用散列连接

    4° 嵌套循环时,外循环使用记录数少的表

  • 基于代价估算的因素

    (1) 访问存储器的代价

    (2) 生成中间文件的存储代价

    (3) 计算代价:搜索、排序、合并、计算等的代价

    (4) 内存使用代价:查询执行需要的内存缓冲区数目

    (5) 通信代价:数据在不同数据库结点中传送的代价

  • 为了估算代价,DBMS会在数据字典中存储查询优化器所需的各种统计信息

    例如:元组总数、元组占用的块数、平均元组长度、块因子(一个块中能够存放的元组数量)、连接选择性(???)、索引的层数、索引的选择基数、索引的叶结点数

  • 具体估算代价的计算 P111

  • 解释执行的系统一般包括代数优化 + 基于规则的启发式存储路径优化,全面的优化会延长系统响应时间,所以只能做部分优化;

    编译执行的系统查询优化和查询执行分开,因此可以使用以上的全部优化方法进行比较精细复杂的优化。

你可能感兴趣的:(chapter05_查询处理和查询优化_2_关系数据库系统的查询优化方式)