中国大学MOOC同济大学
管理信息系统第四章笔记
数据库与数据仓库
4.1数据库概述
4.2数据模型
4.3数据仓库概述
数据库技术产生于1960s末,在这之前,人们是通过一个一个数据文件的方式来管理数据的数据库的出现极大地促进了计算机应用向各行各业的渗透。
●数据库中存储的是数据(Data)。
●数据对事物属性或其状态的描述。
●这种描述可以有多种不同的形式
数字、文本、图像、音频、视频等。
●数据库( Database,DB):指长期存储在计算机内的有结构、可共享的相关数据的集合。
●数据如何存储?
●数据如何访问?
●解决这两个问题的工具是数据库管理系统DBMS
数据库管理系统
数据库管理系统(DBMS):位于用户与操作系统之间的一层
数据库系统的核心组成部分,数据库的一切操作,如查询更新、插入、删除以及各种控制,都是通过DBMS进行的。
任务:科学地组织和存储数据、高效地获取和维护数据
●数据定义DDL:定义数据库中的数据对象
●数据操纵DML:实现对数据库的基本操作
●数据库运行管理:安全性、完整性、并发控制等
●数据库的建立和维护功能:数据装载、备份/恢复、性能分析等
DBS的组成:
数据库
数据库管理系统
应用系统
用户
1.数据冗余度小
2.数据的独立性
●高度的物理独立性
●定的逻辑独立性
3.数据控制能力:由DBMS统一管理和控制
●数据的安全性( Security)保护
●数据的完整性( (Integrity)检查
●并发( Concurrency)控制
●数据库恢复( Recovery)
1.数据库管理系统能实现对数据库中数据的查询、插入、修改和删除,这类功能称为( )
A.数据定义功能
B.数据管理功能
C.数据操纵功能
D.数据控制功能
正确答案:C你选对了
■外模式,也称子模式或用户模式
■模式,也称逻辑模式
■内模式,也称物理模式或存储模式
■数据库中全体数据的逻辑结构和特征的描述。
■一个数据库只有一个模式
■是所有用户视图的最小并集,是DBA看到和使用的数据库。
■与数据的物理存储细节和硬件环境无关。
■数据库用户(应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述,即数据视图。
■外模式通常是模式的子集
■一个数据库可以有多个外模式。
■用户只能看见和访问所对应的外模式中的数据。
■保证数据库安全性的一个有力措施
■是数据物理结构和存储方式的描述
■是数据在数据库内部的表示方式
■记录的存储方式
■索引的组织方式
■数据存储记录结构的规定
三级模式是对数据的三个抽象级别
二级映像在DBMS内部实现这三个抽象层次的
联系和转换
外模式/模式映像
模式/内模式映像
外模式/模式映像
保证数据的逻辑独立性
■当模式改变时,DBA修改有关的外模式/模式映像,使外模式保持不变。
■应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性。
■模式/内模式映像
定义了数据库全局逻辑结构与存储结构之间的对应关系。
数据库中模式/内模式映像是唯一的
保证数据的物理独立性
当数据库的存储结构改变了(如选用了另一种存储结构),DBA修改
■模式/内模式映像
使模式保持不变,数据与程序之间的独立性,使得数据的定义和描述可以从应用程序中分离出去。
数据的存取由DBMS管理
用户不必考虑存取路径等细节
简化了应用程序的编制
大大减少了应用程序的维护和修改工作量
数据库三级模式两层映射的结构保证了数据的独立性
■通过内模式和模式的分离,保证了物理独立性,底层DBMS的更换不会影响数据库的设计,从而也不会影响用户的应用。
■通过外模式和模式的分离,保证了逻辑独立性,数据库设计的变化不会影响用户的使用。
A.结构独立性
B.逻辑独立性
C.物理独立性
D.业务独立性
正确答案:B、C你选对了
实体-联系模型( Entity-Relationship Model,简称为ER模型)是1976年美籍华人P.S.Chen(陈平山)提出的。E-R模型直接将现实世界中的事物及其之间的联系抽象为实体间联系,然后用实体联系图(ER图)表示数据模型。
1.实体联系模型是描述数据之间关系的概念模型。
A.对
B.错
正确答案:A你选对了
数据模型是对现实世界中的数据及其关系的抽象表示
数据模型的层次:
■概念模型
■逻辑模型
■物理模型
■关系( Relation)
一个关系对应通常说的一张表
■元组( Tuple)
表中的一行即为一个元组
在数据库中称为记录
■属性( Attribute)
表中的一列即为一个属性,每个属性有个属性名
在数据库中称为字段
■域( Domain)
属性的取值范围。
■关系模式( Relation schema):对关系的描述由属性序列及各属性对应域组成关系模式的表示
关系名(属性1,属性2,…,属性n)
■候选键/关键字( Candidate key)
若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选键
如学生(学号,姓名,出生年月,性别,年级)
选课(学号,课号,成绩)
一个关系中可以有多个候选键
■主键( Primary key)
在一个关系的候选键中选定一个为主键。
主键中的属性称为主属性
■外键( Foreign key)
外键用来建立两个关系之间的联系。
如:学生(学号,姓名,出生年月,性别,年级)
选课(学号,课程号,成绩)
■关系的性质
每一列的分量数据类型相同,来自于同一个域
每一个分量都是不可再分的数据项;
每一列要给出不同的属性名
列的次序可以任意交换;
行的次序可以任意交换;
■关系的完整性
实体完整性和参照完整性
关系模型必须满足的完整性约束条件。
应该由关系系统自动支持
■用户定义的完整性
应用领域需要遵循的约束条件,体现了具体领域中的语义约束
■实体完整性
实体完整性规则( Entity tegrity)
主键中的属性即主属性不能取空值
■参照完整性
在关系模型中实体及实体间的联系都是用关系来描述的,因此可能存在着关系与关系间的引用。
■参照完整性规则
外键的值必须选自其所参照的关系中主键的值,或者为空
■用户定义完整性
针对某一具体关系数据库的约束条件,反映某一具体应用所涉及的数据必须满足的
语义要求。
■关系模型的优点
建立在严格的数学概念的基础上(关系代数)
概念单一
实体和各类联系都用关系来表示
对数据的检索结果也是关系
关系模型中数据的逻辑结构是一张二维表,它由行和列组成。
关系模型的存取路径对用户透明
■关系模型的缺点
存取路径对用户透明导致查询效率往往不如非
关系数据模型。
为提高性能,必须对用户的查询请求进行优化
增加了开发DBMS的难度
1.下面的选项不是关系数据库基本特征的是()
A.不同的列应有不同的数据类型
B.不同的列应有不同的列名
C.与行的次序无关
D.与列的次序无关
正确答案:A你选对了
数据仓库
数据仓库( Data Warehouse)是一个面同主题的、集成的相对稳定的、反映历史变化的数据集合,并用于支持企业的分析活动和决大策任务。
数据仓库的特点
1.面向主题:主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,保险公司数据仓库的主题为客户、保险金、索赔等。
2.集成的:数据进入数据仓库之前,必须经过加工与集成,包括对不同来源的数据进行数据结构统一和编码。数据结构的统一涉及原始数据中的所有矛盾之处,如字段同名异义、异名同义、单位不统一、字长不一致等。
来自于各个不同单位的数据库,怎么把它集成起来?
3.相对稳定的:数据仓库包含大量的历史数据。数据经集成进入数据仓库后,短时间内不会变化。
4.反映历史变化:数据仓库内的数据时限为5-10年,需标明数据产生的时间,这有助于进行时间趋势分析。
数据仓库体系结构包含
1数据源
2.数据存储与管理
3OLAP服务器
4.前端工具
ETL(ETL= Extract Transform Load)
数据仓库过程的核心技术是ETL,ETL过程通常要占用以数据为中心的项目的70%的时间,SAS、 Oracle、IBM、MS等提供ETL工具
数据仓库的应用
1.信息处理
基于查询和基本的统计分析,可以发现有用的信息,但通常是反映直接存放在数据库中的信息,无法发现复杂的模式。
2.分析处理
支持基本的OLAP,包括切片与切块、下钻( drill-down)上卷( roll-up)和转轴。OLAP
是数据汇总/聚集工具,帮助简化数据分析。
3.数据挖掘
支持知识发现,自动发现隐藏在大量数据中的隐含模式和有趣知识
1.数据仓库的特征包括( )
A.面向主题的
B.集成的
C.实时的
D.反应历史变化的
正确答案:A、B、D你选对了