二、6个范式
首先要明白,范式的包含关系。一个数据库设计如果符合第二范式,一定也符合第一范式。如果符合第三范式,一定也符合第二范式…
第一范式(1NF):属性不可分。
在前面我们已经介绍了属性值的概念,我们说,它是“不可分的”。而第一范式要求属性也不可分。那么它和属性值不可分有什么区别呢?给一个例子,这个表中,属性值“分”了:
name | tel | age | |
大宝 | 13612345678 | 22 | |
小明 | 13988776655 | 010-1234567 | 21 |
这个例子,这个表中,属性值“分”了:
name | tel | age | |
手机 | 座机 | ||
大宝 | 13612345678 | 021-9876543 | 22 |
小明 | 13988776655 | 010-1234567 | 21 |
这两种情况都不满足第一范式。不满足第一范式的数据库,不是关系数据库!所以,我们在任何关系数据库管理系统中,做不出这样的“表”来。
第二范式(2NF):符合1NF,并且,非主属性完全依赖于码。
听起来好像很神秘,其实真的没什么。
一个候选码中的主属性也可能是好几个。如果一个主属性,它不能单独做为一个候选码,那么它也不能确定任何一个非主属性。给一个反例:我们考虑一个小学的教务管理系统,学生上课指定一个老师,一本教材,一个教室,一个时间,大家都上课去吧,没有问题。那么数据库怎么设计?(学生上课表)
学生 | 课程 | 老师 | 老师职称 | 教材 | 教室 | 上课时间 |
小明 | 一年级语文(上) | 大宝 | 副教授 | 《小学语文1》 | 101 | 14:30 |
一个学生上一门课,一定在特定某个教室。所以有(学生,课程)->教室
一个学生上一门课,一定是特定某个老师教。所以有(学生,课程)->老师
一个学生上一门课,他老师的职称可以确定。所以有(学生,课程)->老师职称
一个学生上一门课,一定是特定某个教材。所以有(学生,课程)->教材
一个学生上一门课,一定在特定时间。所以有(学生,课程)->上课时间
因此(学生,课程)是一个码。
然而,一个课程,一定指定了某个教材,一年级语文肯定用的是《小学语文1》,那么就有课程->教材。(学生,课程)是个码,课程却决定了教材,这就叫做不完全依赖,或者说部分依赖。出现这样的情况,就不满足第二范式!
有什么不好吗?你可以想想:
1、校长要新增加一门课程叫“微积分”,教材是《大学数学》,怎么办?学生还没选课,而学生又是主属性,主属性不能空,课程怎么记录呢,教材记到哪呢? ……郁闷了吧?(插入异常)
2、下学期没学生学一年级语文(上)了,学一年级语文(下)去了,那么表中将不存在一年级语文(上),也就没了《小学语文1》。这时候,校长问:一年级语文(上)用的什么教材啊?……郁闷了吧?(删除异常)
3、校长说:一年级语文(上)换教材,换成《大学语文》。有10000个学生选了这么课,改动好大啊!改累死了……郁闷了吧?(修改异常)
那应该怎么解决呢?投影分解,将一个表分解成两个或若干个表。
学生上课表新:
学生 | 课程 | 老师 | 老师职称 | 教室 | 上课时间 |
小明 | 一年级语文(上) | 大宝 | 副教授 | 101 | 14:30 |
课程表:
课程 | 教材 |
一年级语文(上) | 《小学语文1》 |
学生 | 课程 | 老师 | 教室 | 上课时间 |
小明 | 一年级语文(上) | 大宝 | 101 | 14:30 |
老师 | 老师职称 |
大宝 | 副教授 |
范式:
数据库规范化(Normalization)所采用的规范模式.
首先来看一张订单(表1-1):
供应商号: 234560
供应商名: XXXXXX
============================================
商品号 商品名 数量 单价(元) 合计(元)
200 A 1000 2.00 2000.00
201 B 600 1.00 600.00
202 C 2000 10.00 20000.00
203 D 5000 20.00 100000.00
204 E 100 5.00 500.00
1. 非关系数据库表
如何通过这个订单来设计一个关系数据库的相关表?
一种最简单的办法就是将所有数据存放在一个表中,并用订单号和商品号做主键(Primary Key),
其中同一商品可以有不同的供应商
如下(表1-2:Order表):
订单号 商品号 商品名 商品描述 单价 供应商号 供应商名 供应商电话
000001 200 A ........ 2.00 234560 XXXXXX ..........
201 B ........ 1.00 234560 XXXXXX ..........
202 C ........ 10.00 234560 XXXXXX ..........
203 D ........ 20.00 234560 XXXXXX ..........
204 E ........ 5.00 234560 XXXXXX ..........
-------------------------------------------------------------------------------
000002 200 A ........ 2.00 234561 YYYYYY ..........
201 B ........ 1.00 234561 YYYYYY ..........
202 C ........ 10.00 234561 YYYYYY ..........
204 E ........ 5.00 234561 YYYYYY ..........
-------------------------------------------------------------------------------
000003 202 C ........ 10.00 234560 XXXXXX ..........
203 D ........ 20.00 234560 XXXXXX ..........
204 E ........ 5.00 234560 XXXXXX ..........
2. 满足1NF的关系数据库表(消除重复组)
但上面的这个表不是一个关系数据库表,因为所有的关系数据库表中的每一行必须有主键,
并且这个主键要满足实体完整性(Entity Integrity),实体完整性就是主键不能包含空值(NULL),
并且主键必须能够惟一地标识任一行.根据实体完整性,上表显然不是一个关系数据库的表,
因为在这个表中有些行的主键中的订单号是空.
另外,上表中的000001订单下的
203 D ........ 20.00 234560 XXXXXX
204 E ........ 5.00 234560 XXXXXX
与000003订单下的
203 D ........ 20.00 234560 XXXXXX
204 E ........ 5.00 234560 XXXXXX
完全一样,这叫重复组(Repeating Groups),关系数据库表中不能含有重复组.
对上表进行修改,使之实现实体完整,即将相应的订单号补上(表1-3:Order表):
订单号 商品号 商品名 商品描述 单价 供应商号 供应商名 供应商电话
000001 200 A ........ 2.00 234560 XXXXXX ..........
000001 201 B ........ 1.00 234560 XXXXXX ..........
000001 202 C ........ 10.00 234560 XXXXXX ..........
000001 203 D ........ 20.00 234560 XXXXXX ..........
000001 204 E ........ 5.00 234560 XXXXXX ..........
-------------------------------------------------------------------------------
000002 200 A ........ 2.00 234561 YYYYYY ..........
000002 201 B ........ 1.00 234561 YYYYYY ..........
000002 202 C ........ 10.00 234561 YYYYYY ..........
000002 204 E ........ 5.00 234561 YYYYYY ..........
-------------------------------------------------------------------------------
000003 202 C ........ 10.00 234560 XXXXXX ..........
000003 203 D ........ 20.00 234560 XXXXXX ..........
000003 204 E ........ 5.00 234560 XXXXXX ..........
上表现在成为一个关系数据库表,这个表满足1NF,即:
(1) 所有的属性(列)都已定义
(2) 没有任何重复组,即每行和每列的交汇处可以而且只能包含一个值,而不能包含一组值.
(3) 所有属性(列)都依赖于主键.
3. 满足2NF的关系数据库表(消除重复组和部分依赖)
但是,上表在实际应用中是存在诸多问题的,比如说供应商XXXXXX的商品A要被分批100次订购,
那么将会在这个表中有100个订单,而关于此商品A的记录会有100行,如:
订单号 商品号 商品名 商品描述 单价 供应商号 供应商名 供应商电话
000001 200 A ........ 2.00 234560 XXXXXX ..........
...... ... . ........ .... ....... ...... ..........
000002 200 A ........ 2.00 234560 XXXXXX ..........
000003 200 A ........ 2.00 234560 XXXXXX ..........
... ... ... ... ... ... ... ...
00000n 200 A ........ 2.00 234560 XXXXXX ..........
这将使得出现输入错误的可能性大为增加,从而产生相同的商品在同一表中不同的行中记录的
相关信息不一样的错误,即所谓有数据不一致.数据不一致性是由于相同数据的重复存放,
即冗余造成的.数据冗余不但会造成数据不一致,还会使系统的维护更加困难,也会对系统的效率产生冲击.
为了减少这种情况下的数据的冗余需要消除部分依赖.
在表(1-3)中可以看出,我们只要知道某一商品的商品号,就能知道该商品的全部信息,
即商品的其他部分信息只依赖于商品号,也就是说在表1-3的:
订单号 商品号 商品名 商品描述 单价 供应商号 供应商名 供应商电话
这些字段中,
商品名 商品描述 单价
这些字段均依赖于
商品号
字段,
因为"商品号"在表(1-3)中是主键的一部分,
所以"商品名 商品描述 单价"对于"商品号"的这种依赖关系,通常称为部分依赖.
即:部分依赖(Partial Dependency)是指只依赖于部分主键的依赖关系.
我们可以将存在部分依赖关系的列拿出来新生成一个新的表Product,
而原来的Order表中去掉了一些列,形成一个新的Order表,
在Product表中,商品号将作为其主键,同时商品号在新的Order表中将作为外键,
以实现对商品的相关信息的关联.
现在最初的(1-3:Order)表被拆分为两个新的表Order和Product,
它们之间通过商品号来进行连接:
Order表:
订单号 商品号 供应商号 供应商名 供应商电话 ...
Product表:
商品号 商品名 商品描述 单价 ...
现在,一个商品的信息只需要在Product表中存放一次,
而Product表中只有商品号在Order表中可重复存放多次,
这比起最初的Order表(1-3:Order)来说,"商品名 商品描述 单价"这些字段的数据冗余已大大减少.
我们可以看到,在1NF的规范下,我们消除了重复组,
在2NF的规范下,我们消除了部分依赖,
原来的Order表已被拆分为两个表:
Order表:
订单号 商品号 供应商号 供应商名 供应商电话 ...
与Product表:
商品号 商品名 商品描述 单价 ...
它们都满足于2NF的条件:
(1) 该表为1NF(无重复组)
(2) 该表不包含部分依赖(存在部分依赖的列已被提出形成另一个表)
4. 满足3NF的关系数据库表
现在我们再来看看满足2NF的Order表:
Order表:
订单号 商品号 供应商号 供应商名 供应商电话 ...
如果供应商的电话现在有了改变,那么在Order的所有有关这个供应商的"供应商电话"的信息将要
被修改,这种工作量是很大的.
再来看看"供应商号 供应商名 供应商电话"之间的依赖关系,
一般来说,我们只要知道了某一供应商的供应商号,就能知道该供应商的全部信息,
即,"供应商名 供应商电话"只依赖于"供应商号",但在这里,"供应商号"并不是主键的组成部分,
所以这种依赖不属于部分依赖,而叫做"传递依赖(Transitive Dependency)",
传递依赖是指一个或多个属性(列)依赖于非主键的属性(列).
现在我们把存在着传递依赖的相关列拿出来,重新生成一个叫Supplier的表,
而把"供应商号"作为Supplier表的主键,同时把供应商号保留在新的Order表中作为外键,
这样,最被的Order表到现在就被拆分为三个表:
Order表:
订单号 商品号 供应商号
Supplier表:
供应商号 供应商名 供应商电话 ...
Product表:
商品号 商品名 商品描述 单价 ...
这样的三个表,都同时满足于关系数据库表的3NF,即:
(1) 该表满足2NF(无重复组,无部分依赖)
(2) 该表不包含传递依赖(存在传递依赖的列已被提出形成另一个表)
5. 满足BCNF的关系数据库表
BCNF是鲍依斯-科得范式Boyce-Codd Normal Form的简写,
在3NF的基础上,要求表中的所有字段只依赖于关键字段.
在关键字段是组合关键字段的情况下,如:
假设仓库管理关系表为StorehouseManage(仓库ID, 存储物品ID, 管理员ID, 数量),
且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品。
这个数据库表中存在如下依赖关系:
(仓库ID, 存储物品ID) → (管理员ID, 数量) ["管理员ID, 数量"依赖于组合关键字段(仓库ID, 存储物品ID)]
(管理员ID, 存储物品ID) → (仓库ID, 数量) ["仓库ID, 数量"依赖于组合关键字段(管理员ID, 存储物品ID)]
所以,(仓库ID, 存储物品ID)和(管理员ID, 存储物品ID)都是StorehouseManage的候选关键字,
表中的唯一非关键字段为数量,这个表是符合第三范式的。
但是,由于存在如下决定关系:
(仓库ID) → (管理员ID) ["管理员ID"依赖于"仓库ID"]
(管理员ID) → (仓库ID) ["仓库ID"依赖于"管理员ID"]
即存在关键字段决定关键字段的情况,所以其不符合BCNF范式。它会出现如下异常情况:
(1) 删除异常:
当仓库被清空后,所有"存储物品ID"和"数量"信息被删除的同时,
"仓库ID"和"管理员ID"信息也被删除了。
(2) 插入异常:
当仓库没有存储任何物品时,无法给仓库分配管理员。
(3) 更新异常:
如果仓库换了管理员,则表中所有行的管理员ID都要修改。
把仓库管理关系表分解为二个关系表:
仓库管理表:
StorehouseManage(仓库ID, 管理员ID);
仓库表:
Storehouse(仓库ID, 存储物品ID, 数量)。
即满足BCNF范式.
总结:
规范化是一个过程,该过程决定把哪些属性(列)放在哪些实体(表)中.
规范化可以帮助我们设计好的表结构,因为规范化减少了数据的冗余,
这使得系统更容易维护而且系统效率也会更高.
所谓的关系型数据库的逻辑设计就是数据库的表结构设计.
在关系数据库中,只有表中存有数据.
规范化只减少了数据的冗余而并没有消除冗余.
为了使相关的表连接起来,在规范化过程中不得不引入控制冗余(外键),
不过这种控制冗余与1NF和2NF表的数据冗余相比,
已经少得微不足道了.