引言
1. 数据是描述现实世界事物的符号记录,是用物理符号记录下来的可以识别的信息。
数据是信息的符号表示,是载体;信息是数据的语义解释,是内涵。
2. 数据模型是对现实世界数据特征的抽象,是数据库系统的形式框架,用来描述数据的一组概念和定义,包括描述数据、数据联系、数据操作、数据语义以及数据一致性的概念工具。
满足三条件:比较真实地模拟现实世界;易于人们理解;易于计算机实现
三个组成要素:数据结构(静态,数据对象本身结构及之间的联系)、数据操作(对数据对象操作及操作规则的集合)和完整性约束(语义约束:数据模型、数据内部及之间联系)
3. 模式是对数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图,也称为逻辑模式或概念模式。
外模式是对数据库用户能够看见和使用的局部数据的逻辑结构和特征的描述,是与某一应用有关的数据的逻辑表示,也称为子模式、用户模式或用户视图。
内模式是对数据库中数据的物理结构和存储方式的描述,也称为物理模式或存储模式。
当数据库模式发生变化时,通过调整外模式 / 模式间的映像关系,使得应用程序不必随之修改,从而保证数据与应用程序间的逻辑独立性,简称数据的逻辑独立性。
当数据库数据的物理存储结构改变时,通过调整模式 / 内模式映像关系,保持数据库模式不变,使数据库系统的外模式和应用程序不随之改变,保证数据与应用程序间的物理独立性,简称数据的物理独立性。
4. 数据库是存储在计算机内的共享数据集合,数据库管理系统是一种数据管理系统软件。数据库系统则是在计算机系统中引入数据库后的软硬件系统构成,包括了数据库、数据库管理系统和数据库应用程序。
5. DBMS 的主要功能有数据定义、数据操纵、数据库运行管理与控制、数据库建立与维护。
DBMS 包括查询处理器和存储管理器。查询处理器实现面向用户的查询分析处理和优化功能。存储管理器为用户和应用程序提供了访问存储在数据库文件中的应用数据的接口。
6. 关系模型 用二维表表示实体及实体之间的联系,现实世界中的每个客观对象对应表中的一行叫做一条记录,表中的每个列(属性)描述对象类的某一特征,列的值(属性的取值)刻画和描述客观对象的某一具体的特征。
优缺点:建立在 “ 集合 ”“ 关系 ” 上,严格成熟的理念基础;用关系表示实体及之间联系,简单易懂;存储路径透明,较好的数据独立性和安全保密性;查询效率低于非关系模型。
数据库应用系统生命周期
2.1 软 件生命周期是指软件产品从考虑其概念开始,到该产品不再使用的整个时期。一般包括概念阶段、需求阶段、设计阶段、实现阶段、测试阶段、安装部署及交付阶 段、运行阶段与维护阶段。数据库应用系统需求是指用户对数据库应用系统在功能、性能、行为、设计约束等方面的期望和要求:数据及数据处理、业务、性能、其 他存储安全备份与恢复等。
2.2 数据库应用系统生命周期模型
1. 瀑布模型原理,项目规划、需求分析、系统设计、实现与部署、运行管理与维护五部分
2. 快速原型模型和增量模型原理,允许渐进、迭代地开发 DBAS 。
3. 根据 DBAS 的软件组成和各自功能,细化 DBAS 需求分析和设计阶段,引入了数据组织与存储设计、数据访问与处理设计、应用设计三条设计主线,分别用于设计 DBAS 中的数据库、数据库事务和应用程序。
4. 设计阶段细分为概念设计、逻辑设计、物理设计三个步骤,每一步涵盖三条设计主线。
需求分析及功能建模方法
3.1 数据元素(列)是数据处理中的最小单位。
3.2 DFD 图:数据流(标有名字的箭头)、处理、数据存储(横圆柱)、数据源 / 终点(棱形)
3.3 IDEF0 图:更好地理解需求; ICOM (输入、控制、输出、机制)码;至少一个控制和输出箭头。 A-0 ; A0 (顶层图); A1 ; A11
3.4 DFD 与 IDEF0 的比较:结构化分析思想:自顶而下逐级细化
1.DFD 图用箭头也叫数据流来描述数据移动的方向、数据处理之间的数据依赖关系, IDEF0 图也用箭头表示数据流,但不强调流或顺序,强调数据约束,箭头语义更丰富。
2.DFD 模型有四种元素, IDEF0 图只有两种:箭头和活动
3.IDEF0 图更加规范。其概念、建模方法、画图规则等均有说明和规定
4.IDEF0 模型结构更清楚,便于理解和沟通
3.5 结构化分析及建模方法的优点:
1 )不过早陷入具体的细节,从整体或宏观入手分析问题,如业务系统的总体结构,系统及子系统的关系。
2 )通过图形化的模型对象直观地表示系统完成什么功能,方便系统分析员理解和描述系统。
3 )模型对象不涉及太多技术术语,便于用户理解模型。
数据库概念设计与数据建模
4.1 概念设计的目的和任务:面向现实世界,理解和描述应用领域中的数据需求,分析确定系统需要存储和处理什么数据。过程:确定实体集;确定联系和联系类型;建立由信息模型表示的业务模型;确定实体集属性;优化信息模型。
4.2 实体集描述具有相同属性特征和性质的事物集合;属性描述实体集具有的某一特征或性质
4.3 IDEF1X :标定型(子依父实例才标定)(确定型);非标定型(确定型);分类;不确定
关系数据库逻辑设计
5.1 关系数据库:按照二维表格组织和存储的相互关联的关系(表)的集合。
关系数据库采用关系模型在计算机中组织、存储、处理和管理数据。
5.2 主码约束:惟一性;最小性,不能取空值,并且取值要唯一
外码约束:如果两个关系 R 和 S , X 是 R 的属性或属性组,且 X 不是 R 的码,但 X 是 S 的码,则称 X 是 R 的外码。或者取空值,或者等于 S 中某个元组的主码的值。
5.3 逻辑设计的内容:定义和描述数据库的全局逻辑结构、数据之间的关系、数据的完整性等
目的:得到实际数据库管理系统可以处理的数据库模式。
步聚: ER 图转化关系模式;优化关系模式;数据完整性设计;外模式设计
5.4 关系模式描述关系的静态结构,由模式名、属性、完整性约束组成,关系是一个表中记录的集合,关注和强调的是值(模式实例)的集合,也是关系模式在某一时刻状态的反映。
5.5 关系的完整性(完整性约束):对关系所满足条件的定义。作用:限定和检查数据库所含实例的合法性和正确性。静态:主码、外码、域(用户定义);动态:基于业务规则
5.6 伪传递规则: X - Y , YW - Z ,则 XW - Z 成立。
5.7 规 范化设计理论的主要内容是范式,即关系模式满足的条件,它是数据库逻辑设计的指南,也是衡量关系模式设计优劣的标准。目的:消除数据冗余及避免操作异常, 基本过程:对关系进行分解。一个低级范式的关系模式通过分解(投影)方法可转换成多个高一级范式的关系模式的集合,这个过程叫规范化。
5.8 1NF : R 的每一属性均不可再分;
2NF :是 1NF 且每个非主属性完全依赖于主码。在 1 上消除非主属性对主码的部分函数依赖;
3NF :是 1NF 且每个非主属性只依赖于主码。在 2 上消除非主属对主码的传递函数依赖。
5.9 ER 模型转换关系模型:实体集转为同名关系;联系转为一个关系,各实体集的码及联系的属性转为关系的属性( 1 : 1 均可、 1 : n 取 n 、 m : n 取集);合并具有相同码的关系。
存储技术与数据库物理设计
6.1 物理设计是在具体的硬件环境、 OS 、 DBMS 约束下,基于逻辑设计,设计具体数据存储结构和存取方式。目的:占用空间少、访问效率高、维护代价低。主要步骤有数据库逻辑模式调整、文件组织与存取设计、数据分布设计、安全模式设计、确定系统配置、物理模式评估。
6.2 索引技术( Indexing )是一种快速文件访问技术,它将文件记录在某个或某些域(或称为属性)上的取值与该记录的物理地址直接联系起来,提供了一种根据记录域的取值快速访问文件记录的机制。索引文件是一种利用索引技术支持快速文件访问的文件组织和存取方法。
索引加快了查询记录却减慢了数据更新速度,本身还占用一定的存储空间。
6.3 文件组织:如何将关系数据库中的关系映射为操作系统中的数据库文件,及管理文件。
文件结构:如何将 DB 文件中的逻辑记录映射到物理文件的中磁盘块。
文件存取:针对某种结构的 DB 文件,如何查、添删改其中的逻辑记录
6.4 数据字典:数据库各类对象的描述信息、数据库管理系统的控制信息。包括关系模式信息、与视图描述有关的信息、关系的存储结构和存取方法信息、完整性约束、安全性有关的信息、数据库运行统计信息。
作用: DBA 用来监视 DBMS 的使用情况并协助完成管理工作;一般用户可用于查阅部分数据库结构信息; DBS 运行时各子系统频繁使用以完成相应的存储和查询处理功能。
6.5 DBMS 的三种完整性控制机制: CHECK 子句、断言、触发器
断言语句: Create assertion 断言约束名 check (…)
6.6 堆文件:数据量少且操作频繁;批量加载数据(先选为堆文件再调整文件结构)
顺序文件:查询条件定义在查找码上;快速的二分查找
散列文件:基于散列域值的等值匹配,特别是访问顺序是随机的。非精确查询;非散列域
B -树和 B+ -树:大数据量基本表;聚焦文件:多表连接操作
6.7 有序索引技术利用索引文件实现查找码取值到记录物理地址间的映射关系。索引文件由索引记录组成,每个记录中的索引项记录了某个特定的查找码值和具有该值的数据文件记录的物理地址。
当需要访问数据文件中某个数据记录时,先根据查找码值查阅索引文件,找到对应的索引项,然后从索引项中找出数据记录在数据文件中的物理地址.根据这个地址访问数据记录。
6.8 散列技术是一种快速文件访问技术,它利用散列函数实现文件记录域取值到记录物理地址间的直接映射关系。当需要访问数据文件中查找码值为 si 的某个或某些文件记录时,将 si 作为散列函数 h 的输入计算得出的散列函数输出值 h(si) 就是文件记录在数据文件中的物理地址。
6.9 权限:允许用户对一给定的数据库对象可执行的操作(查询、添删改、新建、备份等)。
数据库应用系统功能设计
7.1 软件体系结构:软件架构= { 构件,连接件,约束 }
7.2 软件设计包括系统的总体结构设计、系统的过程设计、系统的数据设计三方面内容( + 人机界面设计),从工程管理的角度,分为概要设计、详细设计
7.3 应用软件分为数据库事务和应用程序。后者一方面可以与数据库事务协调合作,另一方面还可实现与数据库访问无关的功能,如通信、人机交互。
7.4 事务:具有逻辑独立功能的一系列操作的集合,实现了某些特定的业务规则。
7.5 事务概要设计的核心是辨识和设计事务自身的事务处理逻辑,采用面向数据流的程序设计方法设计事务内部的数据处理流程和结构。
7.6 C/S 结构特点:数据管理和数据处理被分在客户端和服务器上;服务器可支持多个客户端;客户端也可访问多个服务器;客户端=人机交互 + 数据处理
B/S 结构特点:表示层, WEB 浏览器;功能层, WEB 应用服务器;数据层, DBMS 服务
优点:实现人面交互、应用业务逻辑处理、数据管理三层分离,提高了系统的可维护性;用 WEB 浏览器可访问多个异构应用平台,解决了跨平台数据管理问题。
sql
8.1 sql = structured query language ,结构化查询语言
8.2 二进制字符串是用十六进制表示的, 0x 前缀
8.3 创建表: create table table_card
事务高度与并发控制
9.1 调度:定义在多个事务上的调度是这些事务的所有操作的一个执行序列,代表了这些操作的执行顺序;冲突操作:事务 Ti 的操作 Ii 与事务 Tj 的操作 Ij 是冲突的,当且仅当 Ii 和 Ij 访问数据库中同一个数据项 Q ,并且 Ii 和 Ij 中至少有一个是写操作 write(Q) ;冲突可串行:一个并发调度冲突等价于某个串行调度(判断一个并行调度是否正确)
死锁是指数据库系统中部分或全部事务由于无法获得对需要访问的数据项的控制权而处于等待状态,并且将一直等待下去的一种系统状态。
9.2 ACID : Atomicity 原子性; Consistency 一致性; Isolation 隔离性; Durability 持久性
9.3 1 级加锁协议要求事务 T 在修改数据项 Q 之前必须先对 Q 加 X 锁,直到事务结束才释放该锁。事务结束包括正常结束( commit )和非正常结束( rollback )。但事务如果是只读 Q 而不对其进行修改,是不需要对 Q 加锁的。
2 级加锁协议是在 1 级加锁协议基础上,要求事务 T 在读取数据项 Q 之前必须先对其加 S 锁,读完 Q 后可以立即释放 S 锁。
3 级加锁协议则是在 1 级加锁协议基础上,要求事务 T 在读取数据项 Q 之前必须先对其加 S 锁,但是需要等到事务结束时才释放该 S 锁。
9.4 2 阶 段锁协议将每个事务的执行过程分为加锁阶段和解锁阶段。在加锁阶段,事务可以申请获得数据项上的任何类型的锁,但不允许释放任何锁。在解锁阶段,事务可以 释放任何数据项上的任何类型的锁,但不能再申请任何锁。每个事务开始执行后就进入了加锁阶段。当第一次释放锁后,即转入解锁阶段。
9.5 解决死锁主要采用死锁预防和死锁检测与恢复两类方法。
死锁预防利用死锁预防协议,通过破坏死锁产生的必要条件来避免系统进入死锁状态。
一次性加锁法;顺序加锁法
死锁检测与恢复则是允许系统进入死锁状态,并且定期检查系统是否发生死锁。当发现系统发生死锁后,采取相应的恢复机制使系统摆脱死锁状态。
9.6 活锁产生的原因是在系统非死锁状态下,某些事务由于始终无法获得对所需访问的数据项的控制权而长期等待下去,无法继续执行。
9.7 锁粒度大:被加锁数据项少、事务并发执行度低、系统开销小;锁粒度小则反之
9.8 基于锁的并发控制技术的原理
数据库的实施、运行和维护
10.1 试运行:功能测试;性能测试
10.2 数据库维护:数据库的转储和恢复;数据库的安全性、完整性控制;数据库性能的检测和改善;数据库的重组和重构
10.3 数据库安全:行政手段制定规范;权限管理、口令等;维护多个数据副本;防及除毒
10.4 数据库重组:按照系统设计要求对数据库存储空间进行全面调整;数据库重构:业务小范围变化需对数据库逻辑结构作必要改变。
10.5 数据库监控分析: DBA 借助相应工具监测数据库系统的运行情况,对监测数据进行分析,评估整个系统的运行状态,为系统的安全运行和性能优化提供依据。
10.6 数据库空间管理:数据量增加和碎片使性能降低;空间溢出会带来灾难性停机故障。
包括:创建修改删除数据库空间、新建移动关联数据文件等。
10.7 数据库参数调整:外部调整: CPU 、网络;调整内存分配 ( 改善程度大 ) ;调整磁盘 I/O(I/O 时间是响应时间的最大组成部分 ) ;调整竞争
10.8 数据库查询优化:合理使用索引;避免或简化排序( Order by 、 Group by ,磁盘排序比内存排序开销大速度慢);避免相关子查询、外连接(左右连接比内连接消耗大);存储过程
10.9 属于 Oracle 但不属于 SQL Server 的逻辑和物理空间结构:表空间、段、区
故障管理
11.1 故障种类:事务内部故障(事务回滚撤消修改)、系统故障(影响事务不坏数据)、介质故障(软件容错、硬件容错)、病毒
11.2 系统故障对策:重启,撤消( UNDO )未提交的事务,重做( REDO )已提交的事务
11.3 软件容错:备份、日志文件,利用恢复技术;硬件容错:双物理存储设备
11.4 恢复基本原理:冗余,即所有数据均可通过存储在别处的冗余数据来重建。
11.5 对于经常进行数据操作的数据库:完全转储 + 差异转储
11.6 以记录为单位的日志文件:开始标记( Ti BEGIN TRANSACTION )、结束标记 (Ti COMMIT 或者 Ti ROLLBACK) 、每个事务的所有操作( Ti , A , 50 , 80 )
11.7 以数据块为单位的日志文件:存放更新前和更新后的整个数据块。只有事务标识和被更新的数据块,没有操作类型和操作对象。
11.8 日志的作用:用来进行业务故障和系统故障恢复;协助后备副本进行介质故障恢复(动态转储必用);记录操作监视行为分析问题
登记原则:登记次序严格按并行事务执行次序;必须先写日志文件再写数据库
11.9 检查点:最大限度减少数据库完全恢复时所必须执行的日志部分(针对系统故障)。
11.10 数据库镜像:提高数据库可用性的解决方案(比如介质故障,两台服务器相互备份)
优点:提供完整或几近完整的数据冗余,增强数据保护;发生介质故障时,数据不会丢失且服务不会中断,提高数据库可用性;提高镜像数据库在升级期间的可用性。
双机互备援模式(均为主);双机热备份模式(一主一备份机)。数据库镜像可用于并发操作。
11.11 RAID 廉价冗余磁盘阵列:(镜像冗余、)校验冗余:对成员磁盘上的数据执行异或( XOR )操作得到其校验值并存放在另外的校验磁盘上。当某个磁盘发生故障时,只须计算其他磁盘上的校验数据和数据的异或便可重新得到该磁盘的值。
sql server2000 数据库管理系统
12.1 四个服务: sql server 核心服务;
sql server agent :代理服务,代理定期进行的管理工作;
dtc:distributed transaction coordinator ,分布式事务协调器,