MySQL进阶_7.数据库的设计规范

文章目录

  • 第一节、范式
    • 1.1、范式简介
    • 1.2、范式都包括哪些
    • 1.3、键和相关属性的概念
  • 第二节、三大范式
    • 2.1、第一范式
    • 2.2、第二范式
    • 2.3、第三范式
    • 2.4、三大范式总结
  • 第三节、反范式化
    • 3.1、反范式化简介
    • 3.2、反范式的新问题
    • 3.3、反范式适用场景
      • 3.3.1、增加冗余字段的建议
      • 3.3.2、历史快照、历史数据的需要
        • 3.3.2.1 数据库和数据仓库在使用上的区别

第一节、范式

1.1、范式简介

在关系型数据库中,关于数据表设计的基本原则、规则就称为范式

1.2、范式都包括哪些

目前关系型数据库有六种常见范式,按照范式级别,从低到高分别是:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)
MySQL进阶_7.数据库的设计规范_第1张图片
一般来说,在关系型数据库设计中,最高也就遵循到BCNF,普遍还是3NF。但也不绝对,有时候为了提高某些查询性能,我们还需要破坏范式规则,也就是反规范化

1.3、键和相关属性的概念

MySQL进阶_7.数据库的设计规范_第2张图片

这里有两个表:

球员表(player) :球员编号 | 姓名 | 身份证号 | 年龄 | 球队编号 球队表(team) :球队编号 | 主教练 |
球队所在地

  • 超键 :对于球员表来说,超键就是包括球员编号或者身份证号的任意组合,比如(球员编号)(球员编号,姓名)(身份证号,年龄)等。
  • 候选键 :就是最小的超键,对于球员表来说,候选键就是(球员编号)或者(身份证号)。
  • 主键 :我们自己选定,也就是从候选键中选择一个,比如(球员编号)。
  • 外键 :球员表中的球队编号。
  • 主属性 、 非主属性 :在球员表中,主属性是(球员编号)(身份证号),其他的属性(姓名)(年龄)(球队编号)都是非主属性。

第二节、三大范式

2.1、第一范式

第一范式主要是确保数据表中每个字段的值必须具有原子性,也就是说数据表中每个字段的值为不可再次拆分的最小数据单元。|

2.2、第二范式

第二范式要求,在满足第一范式的基础上,还要满足数据表里的每一条数据记录,都是可唯一标识的。而且所有非主键字段,都必须完全依赖主键,不能只依赖主键的一部分。如果知道主键的所有属性的值,就可以检索到任何元组(行)的任何属性的任何值。(要求中的主键,其实可以拓展替换为候选键)。

举例:成绩表(学号,课程号,成绩)关系中,(学号,课程号)可以决定成绩,但是学号不能决定成绩,课程号也不能决定成绩,所以“(学号,课程号)→成绩”就是完全依赖关系。

2.3、第三范式

第三范式是在第二范式的基础上,确保数据表中的每一个非主键字段都和主键字段直接相关,也就是说,要求数据表中的所有非主键字段不能依赖于其他非主键字段。(即,不能存在非主属性A依赖于非主属性B,非主属性B依赖于主键c的情况,即存在“A→B→C"的决定关系)通俗地讲,该规则的意思是所有非主键属性之间不能有依赖关系,必须相互独立。

2.4、三大范式总结

  1. 优点
    数据的标准化有助于消除数据库中的数据冗余,第三范式(3NF)通常被认为在性能、扩展性和数据完整性方面达到了最好的平衡。
  2. 缺点
    范式的使用,可能降低查询的效率。因为范式等级越高,设计出来的数据表就越多、越精细,数据的冗余度就越低,进行数据查询的时候就可能需要关联多张表,这不但代价昂贵,也可能使一些索引策略无效。
  3. 建议
    范式只是提出了设计的标准,实际上设计数据表时,未必一定要符合这些标准。开发中,我们会出现为了性能和读取效率违反范式化的原则,通过增加少量的冗余或重复的数据来提高数据库的读性能,减少关联查询,join表的次数,实现空间换取时间的目的。因此在实际的设计过程中要理论结合实际,灵活运用。

第三节、反范式化

3.1、反范式化简介

有的时候不能简单按照规范要求设计数据表,因为有的数据看似冗余,其实对业务来说十分重要。这个时候,我们就要遵循业务优先的原则,首先满足业务需求,再尽量减少冗余。
如果数据库中的数据量比较大,系统的UV和PV访问频次比较高,则完全按照MySQL的三大范式设计数据表,读数据时会产生大量的关联查询,在一定程度上会影响数据库的读性能。如果我们想对查询效率进行优化,反范式优化也是一种优化思路。此时,可以通过在数据表中增加冗余字段来提高数据库的读性能。

规范化 vs 性能

  1. 为满足某种商业目标,数据库性能比规范化数据库更重要
  2. 在数据规范化的同时,要综合考虑数据库的性能
  3. 通过在给定的表中添加额外的字段,以大量减少需要从中搜索信息所需的时间
  4. 通过在给定的表中插入计算列,以方便查询(比如订单表中有商品价格和数量,我们想要知道每种商品的总价格,需要在查询的时候现去计算;其实可以在表中增加一列“总价格”,用的时候直接查询就好了,这就是所谓的“空间换取时间”)

3.2、反范式的新问题

反范式可以通过空间换时间,提升查询的效率,但是反范式也会带来一些新问题:

  1. 存储空间变大了
  2. 一个表中字段做了修改,另一个表中冗余的字段也需要做同步修改,否则数据不一致
  3. 若采用存储过程来支持数据的更新、删除等额外操作,如果更新频繁,会非常消耗系统资源。
  4. 在数据量小的情况下,反范式不能体现性能的优势,可能还会让数据库的设计更加复杂

3.3、反范式适用场景

3.3.1、增加冗余字段的建议

增加冗余字段一定要符合如下两个条件。只有满足这两个条件,才可以考虑增加冗余字段。

  1. 这个冗余字段不需要经常进行修改;
  2. 这个冗余字段查询的时候不可或缺

3.3.2、历史快照、历史数据的需要

在现实生活中,我们经常需要一些冗余信息,比如订单中的收货人信息,包括姓名、电话和地址等。每次发生的订单收货信息都属于历史快照,需要进行保存,但用户可以随时修改自己的信息,这时保存这些冗余信息是非常有必要的。反范式优化也常用在数据仓库的设计中,因为数据仓库通常存储历史数据,对增删改的实时性要求不强,对历史数据的分析需求强`。这时适当允许数据的冗余度,更方便进行数据分析。

3.3.2.1 数据库和数据仓库在使用上的区别
  1. 数据库设计的目的在于捕获数据,而数据仓库设计的目的在于分析数据;
  2. 数据库对数据的增删改实时性要求强,需要存储在线的用户数据,而数据仓库存储的一般是历史数据;
  3. 数据库设计需要尽量避免冗余,但为了提高查询效率也允许一定的冗余度,而数据仓库在设计上更偏向采用反范式设计。
  • 除了三大范式,后面还有巴斯范式、第四范式、第五范式,以后需要用到的时候再来学习。

你可能感兴趣的:(MySQL,mysql,设计规范,第一范式,第二范式,第三范式,反范式化)