本篇文章会先介绍数据库的查询处理,然后介绍数据库的查询优化。其中查询优化分为代数优化和物理优化。代数优化是指关系表达式的优化,物理优化是指通过存取路径和底层操作算法的选择进行优化。
对查询语句进行扫描,进行词法分析和语法分析。
对合法的查询语句进行语义检查,即根据数据字典中有关的模式定义检查语句中的数据库对象,如关系名,属性名是否存在和有效。如果是对视图的操作,则要用视图消解方法对视图的操作转换成对基本表的操作。还要根据数据字典中的用户权限和完整性约束定义对用户存取权限进行检查。如果该用户没有相应的访问权限或者违反了完整性约束,就拒绝该查询。
代数优化,物理优化
根据优化器得到的执行策略生成查询执行计划,由代码生成器生成执行这个查询计划的代码,然后加以执行,回送查询结果。
简单的全表扫描算法
假设可以使用的内存为M块,全表扫描的算法思想如下:
全表扫描只需要很少的内存(最少为一块)就可以运行,而且控制简单。对于规模小的表,这种算法比较有效。对于规模大的表进行顺序扫描,当选择率比较低的时候,这个算法效率很低。
索引扫描算法
- 选择率:对于一个查询条件,返回结果中符合条件的记录数占总记录数的比例。
- 检索码:对树中元素进行比较和查找的关键字。
一般情况下,当选择率比较低的时候,基于索引的选择算法要优于全表扫描算法。但是在某些情况下,例如选择率比较高的时候,或者要查找的元组均匀分布在查找的表中,这时基于索引的选择算法性能不如全表扫描。因为除了对表的扫描操作,还要加上B+树索引的扫描操作,对每一个检索码,从B+树根节点到叶子节点路径上的每个节点都要执行一次IO操作。
嵌套循环算法。按照数据块存入内存,而不是按照元组进行I/O。
排序-合并算法:
对于大表,先排序后排序-合并连接算法执行连接,总的时间一般仍会减少。
hash join算法:
连接属性:连接数据库的参数和选项,用于指定数据库连接的相关信息。连接属性包括数据库服务器地址、数据库名称、用户名、密码、端口号、字符集、连接超时时间等。
集中式数据库:查询执行开销主要包括磁盘存取块数(I/O代价),处理机时间(CPU代价)以及查询的内存开销。
分布式数据库:IO+CPU+内存+通信代价
求选修了2号课程的学生姓名。
代数优化策略是通过对关系代数表达式的等价变价变换来提高查询效率。
具体过程略
选择的方法可以是: