参考、常忘知识点总结
1、任务陈述。
2、确定任务目标。
3、确定系统范围和边界。
4、确定用户视图。
1、经济可行性。
2、技术可行性。
3、操作可行性。(各种人员资源,常考选择题)
4、开发方案选择。
1、数据项。
2、数据结构。
3、数据流。
4、数据存储。
5、处理过程。
1、事务名称。
2、事务描述。
3、事务所访问的数据项。
4、事务用户。
注意:事务隔离级别不属于事务规范。(选择题)
1、数据操作响应时间。
2、系统吞吐量。
3、允许并发访问的最大用户数。
4、每TPS代价值。用于衡量系统性价比 的指标。
1、概念设计。(ER图)
2、逻辑设计。(ER图转关系模式)
包括:数据库逻辑结构设计、应用程序概要设计、数据库事务概要设计。
3、物理设计。(具体实现)
1、建立数据库结构。
2、数据加载。
3、事务和应用程序的编码及测试。
4、系统集成、测试与试运行。
5、系统部署。
1、面谈。
2、实地观察。
3、问卷调查。
4、查阅资料。
1、需求概述。
2、功能需求。(常考区分功能需求与非功能需求)
3、信息需求。
4、性能需求。
5、环境需求。(运行环境)
6、其他需求。
DFD建模方法: 过程建模和功能建模方法
都是结构化分析思路。
DFD(自顶向下逐步细化) | IDEF0 | UNM |
---|---|---|
数据流(核心)、处理 、数据存储、外部项。 | 箭头(强调数据约束)、矩形框(活动) | 系统、角色、用例 |
两种数据建模方法: ER建模方法、IDEF1X建模方法
a、实体集:独立实体集(矩形框)、从属实体集(加圆角矩形框)。
b、联系:
①、标定型联系:两个实例确定第三个实例。(实线连接)
②、非标定型联系:唯一实例确定。(虚线连接)
③、分类联系:如学生可以是大学生、高中生、初中生。
④、分确定联系:多对多关系
两大类:有序索引、散列索引
a、有序索引又可以分为:
①、聚集索引与非聚集索引:排列顺序相一致或不一致。
②、稠密索引与稀疏索引:每个查找码都对应一个索引记录 或 只是一部分对应。
③、主索引与辅索引:建立在主键上 或 非主键上。
④、唯一索引:确保索引列不包含重复的值。
⑤、单层索引与多层索引:没刷到过题。
a、数据库逻辑模式描述。(关系模式转换成基本表)
b、文件组织与存取设计。
c、数据分布设计。
d、确定系统配置。
e、物理模式评估。
基本表选择合适的文件结构原则:
①堆文件:数据量少,更新频繁。
②顺序文件:查询条件在查找码上。
③散列文件:访问顺序随机,并且没有以下情况:
a、基于散列域值的非精确查询(模糊查询、范围查询)。
b、基于非散列域进行的查询。
④B-数和B+数文件:大数据量的基本表、等值查询、范围查询、模糊查询、部分查询。
⑤聚集文件:频繁执行且进行多表连接操作的查询。
适合建立索引原则:
①、表的主键。
②、在where查询子句中引用率较高的属性。
③、参与连接的属性。
④、group by 与 order by 子句中的属性。
⑤、对于经常需要进行查询、连接、统计操作,且数据量大的基本表。
表示层:位于客户端。
功能层:位于Web应用服务器。
数据层:位于数据库服务器。
从功能角度划分
1、表示层:进行人机界面设计。
2、数据逻辑层:梳理DBAS的各项业务活动,减去表示为各种系统架构。传输数据的作用。
高内聚,松耦合原则:
a、单一责任原则。
b、各个构件均应具有独立的功能。
c、构件之间的接口应尽量简单明确。
d、构件间关系比较复杂,进一步模块划分。
e、构件间关系过于复杂,细分。
3、数据访问层:设计操作数据库的事务。负责与DBMS系统进行交互。
4、数据持久层:进行应用系统的存储结构设计。保存和管理应用系统数据。
事务设计:
1、事务规范(数据处理需求):事务名称、事务描述、事务所访问的数据项、事务用户等。
2、两个元操作:read、write
3、事务隔离性级别越高,安全性越高,性能越低,同时事务的隔离级别和数据库并发性是对立的。
4数据库的一致性:事务执行成功则全部提交,如果一个事务提交失败,则做过的所有更新则全部撤销。
安全可靠性是应用系统的重要衡量指标。
数据库的安全性保护:
a、用户身份鉴别。
b、权限控制。
c、视图机制。
数据库的完整性保护:
完整性:是指数据库中数据的正确性、一致性、相容性。
方法:设置完整性检查。
检查数据表时(select等)不会检查数据的完整性约束。
两段锁协议: 指所有事务必须分两个阶段对数据项加锁和解锁。
1、在对任何数据进行读、写操作之前,要申请并获得对该数据的封锁。
2、在释放一个封锁之后,事务不再申请和获得其他任何封锁。
可以证明,若并发执行的素有事务均遵守两段锁协议。则对这些事务的任何并发调度策略都是可串行化的。
也可能发生死锁。
加锁协议事务可以申请获得任何数据项的任何类型的锁,但不允许释放任何锁。
一次封锁法: 要求每个事务必须一次将所有要使用的数据全部加锁。一次封锁法遵守两段锁协议,但两段锁协议并不要求一次全加锁。
三级加锁协议:保证数据的一致性。
检测死锁:检测事务等待图 是否出现回路。
数据库并发控制:
封锁技术:排它锁(x锁)、共享锁(s锁)
避免死锁的方法:
a、按同一顺序访问资源。
b、避免事务中的用户交互。
c、采用小事务模式,尽量缩短事务的长度,减少占有锁的时间。
d、尽量使用记录级别的锁(行锁),少用表级别的锁。
e、使用绑定连接,使同一应用程序锁打开的两个或多个连接可以相互合作。
数据库的备份与恢复:
a、双机热备。
b、数据转储。
c、数据加密存储。
数据加密传输:
a、数字安全证书。
b、对称密钥加密。
c、数字签名。
d、数字信封。
漏洞与补丁
计算机病毒保护:
a、安装杀毒软件,定期查杀病毒。
b、计算机实时监控。
网络环境安全:
a、防火墙。
b、入侵检测系统。
c、网络隔离。
物理环境安全
1、创建数据库:
a、初始空间大小。
b、数据库增量大小。
c、访问性能。
2、数据装载:
a、筛选数据。
b、转换数据格式。
c、输入数据。
d、校验数据。
3、编写与调试应用程序
4、数据库系统试运行:
a、功能测试。
b、性能测试。
UML四层建模概念框架
1、元元模型层。
2、元模型层。
3、模型层。
4、用户模型层。
13种图
结构图(静态)6种:类图、对象图、复合结构图、包图、组件图、部署图。
简记:类对复包组部
行为图(动态)7种:用例图、顺序图、通信图、交互概述图、时间图、状态图、活动图。
简记:用顺通交时状活
类图关系:
泛化:——▷ 父类
实现:------▷ 接口(被实现类)
关联:——> 被拥有者
聚合:——◇ 整体
组合:——◆ 整体
依赖:------> 被使用者
系统某个时间的所有对象的快照。
最主要元素:部件。
用于表达系统中不同的包、命名空间或不同的项目间彼此关系的图。
包与包之间不能共享一个相同的模型元素。
表示系统的静态实现视图,展现一组组件之间的组织和依赖。
描述系统运行时的结构,展现硬件的配置及其软件如何部署。只有一个部署图,帮助理解分布式系统。
主要组成: 用例、角色、系统。用例之间的关系:扩展、使用、组合
强调时间。 用于描述系统内部的动态结构,主要用于描述系统内对象之前的消息发送与接收序列。
强调空间。表达对象之前的联系以及对象间发送和接收消息的图。
活动图为基础。
作为状态图的辅助说明工具。
描述一个对象在其生存期内的动态行为。状态间的转移。状态之间的转移是由事件 驱动的。
描述系统、用例、程序模块中逻辑流程的先后执行次序。
【distinct】 TOP n 【percent】【with ties】
distinct :不重复的
percent:使用%显示
whit ties:取并列结果
通常TOP与order by 排序一起使用
简单case函数:
case 测试表达式
when 简单表达式1 then 结果表达式
…
[ else 结果表达式 ]
end
搜索case函数
与简单case函数形式的区别是 case 后面不跟有测试表达式
select 列名 into 新表名 from …
新表可以是永久表,也可以是临时表。
临时表区别: 局部临时表(#table)、全局临时表(##table)
并运算(UNION):将两表进行垂直连接。
交运算 (INTERSECT):取两表相交部分。
差运算 (EXCEPT):表1 - 表2
并交差运算与 join 连接不同的是join是水平合并数据,而并交差则是垂直合并数据。
常考:选择填空题。
运算符 IN 与NOT IN :将表达式与子查询返回的结果集进行比较。
比较运算符:子查询返回的必须是单值。
以上两者都是不相关子查询,即先执行内层查询,在执行外层查询,子查询的查询条件不依赖外层循环。
使用子查询进行存在性测试
关键字:EXISTS 与 NOT EXISTS
子查询返回的结果为 真值或假值。
区别 :
带EXISTS谓词的查询是先执行外层查询,然后在执行内层查询。相关子查询。
聚合函数 :SUM、COUNT、AVG、MIN、MAX
count(*)返回表中的行数,不会过滤null和重复的行,但count(列名)会过滤 null
开窗函数 :OVER(【partition by】,【order by】)
1、聚合开窗函数
聚合函数与开窗函数的结合
如:
SUM OVER (PARTITON BY 列名)
…
2、排序开窗函数
RANK() :有重复,但不连续的排名。
DENSE_RANK():有重复,但连续的排名。
NTILE():不太理解。
ROW_NUMBER():不太理解。
聚合函数与开窗函数都是位于select 【】 from
1、派生表(内联视图)
如:(select * form table) AS 别名
2、公用表
如 WITH 公用表名(列名) AS (select * from table)
需要死记得关键字: distinct(不重复的)、percent(百分比)、with ties (取相同)、UNION(并)、INTERSECT(交)、EXCEPT(差)、EXISTS(存在)。
系统数据库 (自动创建和维护的):
master:最重要的数据库,记录所有系统级信息,主要的信息都是存放在这。
msdb:保存报警、作业、操作员等信息。(考的不多,选择判断题)
model:所有创建数据库的模板。
tempdb:临时数据库,每次启动SQL都会重新创建,因此不需要备份。
用户创建的局部和全局临时表均被自动放置在改数据库中。
Resource:只读数据库。(没见过考)
用户数据库(用户创建和维护)
经常考选择题:系统数据库如何备份?(未完成)
数据文件:
主要数据文件:每个数据库中只有一个,第一个数据文件,推荐扩展名:mdf。
次要数据文件:可以有0~n个,推荐扩展名:ndf.
总结:主要数据文件有且只有一个,而次要数据文件可以有0或多个,可以建立在多个磁盘上。两者对用户来说没有区别,在多个不同的磁盘中建立多个数据文件,有利于利用存储空间,以及提高数据的存取效率。
日志文件
每个数据库至少有一个日志文件(创建数据库时,如果没有创建日志文件,系统自动创建日志文件),推荐扩展名:ldf。
数据库的存储分配单位是数据页,其中一数据页的大小是 8k ,一行数据不能存储在不同的数据页中(行不能跨页存储)。
经常考填空题:一个数据表中 n 行数据,每行 m 字节,则需要多少MB的存储空间,以及空间利用率为多少?
解法:n 行数据需要 a 页数据页,则需要 8a MB的存储空间。空间利用率等于:每页数据页实际使用的空间 除以 一页数据页总共的空间。
主文件组:一个数据库只有一个默认文件组,一般默认为Paimary,存放主要数据文件和未明确分配文件组的次要数据文件。
特别:
1、日志文件不存放在文件组中,日志空间与数据空间是分开管理的。
2、一个文件不可是多个文件组的成员。
经常考点:主要数据文件、次要数据文件、日志文件可以有多少个?可以存放的位置等问题。
create database db_name
on [指定的文件组]
(
name = db_data, //逻辑名
filename = ‘F:\Data\db_data.mdf’, //物理名
size = 2mb, //初始大小
maxsize = 10mb, //最大大小
filegrowth = 2 //自动增长
)
log on
(
…
)
扩大数据库两种方法:
一:add
添加数据文件
alter database db
add file(
…与创建数据库时相同
)
添加日志文件
alter database db
add log file(
…
)
添加文件组
alter database db
add filegroup group_name
二:modify
alter database db
modify file(
name = 逻辑名,
…修改内容
size =
filegrowth =
)
收缩数据库空间的两种方法
文件收缩都是从末尾开始的
一:收缩整个数据库大小
DBCC shrinkdatabase (database_name, 大小 )
二:收缩数据库中某个文件的大小
DBCC shrinkfile (file_name,大小)
删除数据库文件
alter database db
remove file file_name
分离:从SQL server 实例中删除,但不删除数据库中的数据文件和日志文件。
EXEC sp_detach_db ‘db_name’,‘true’
附加:创建一个新的数据库。。。
经常考点选择题:分离数据库是否需要停止数据库。
1、在分离数据库之前,必须先断开所有用户与该数据库的连接。
2、分离数据库会分离数据文件和日志文件。
3、分离和附加的位置可以不同。
4、进行分离数据库操作不能停止SQL server 服务。
架构:逻辑命名空间,他是一个数据库对象的容器。架构相当于文件夹(不能同名,可以有多个),对象相当于文件(不同文件夹下的文件可以同名)。
关键字:
CASCADE:所有架构对象一起全部删除。
RESTRICT:包含架构对象则拒绝。
创建架构:
create schema 【架构名】authorizetion 用户名
删除架构:
DROP schema 架构名
考点:选择题
a、分区表是水平划分的子集。
b、优点:可以快速且有效地管理和访问数据子集。
c、是否创建分区表?(选择题) 主要取决于表当前的数据量大小以及将来的数据量大小,同时还取决于对表中数据进行的操作。
d、物理上将一张大表分成几张小表,逻辑上还是大表。
创建分区函数:告诉数据库管理系统以什么方式对表进行分区。
create partition function PF_name(数据类型)
as range [ left ] for values(分段1,分段2,分段3)
创建分区方案:将分区函数生成的分区映射到文件组中。
create partition scheme PS_name
as partiton PF_name
to(文件组1,文件组2,文件组3,文件组4)
PS:指定的文件组数一定要大于或等于分区函数所划分的分区数
索引的创建:
关键字:
UNIQUE:唯一索引。
CLUSTERED:聚集索引。
NONCLUSTERED:默认选项,非聚集索引。
通常创建唯一聚集索引为:(填空题,加粗字体必背)
CREATE UNIQUE CLUSTERED INDEX index_name ON Table_name(cname)
对索引键值进行升降排序:
ps:系统默认查询结果按升序ASC排序。
CREATE INDEX index_name ON Table_name(cname1 ASC, cname2 DESC)
删除索引:
DROP INDEX index_name
标准视图(虚拟表)结果集并不存储在数据库中,如果频繁使用这类视图会导致开销很多。
因此可以对视图创建唯一聚集索引的方式来提高查询性能。
对视图创建唯一聚集索引后,视图的结果集将存储在数据库中,就像带有聚集索引的表一样。成为索引视图(物化视图)。
做题:
索引视图可以提高查询类型的性能:
1、处理大量行的连接和聚合。
2、查询经常执行连接和聚合。
3、决策支持工作负荷。
总结:连接和聚合使用索引视图。
4、视图可以在视图上再定义视图。
考点:填空题,加粗字体。
需要死记得关键字: primary(主要的)、create(创建)、filegrowth(增长)、modify(修改)、alter(改变)、DBCC、shrinkdatabase(收缩数据库)、shrinkfile(收缩文件)、remove(移除)、EXEC(执行)、 sp_detach_db(分离数据库)、DROP、schema(架构)、scheme(方案)、partition(划分)、
存储过程用于存储和执行T-SQL代码。
好处:
1、允许模块化程序设计。
2、改善性能。
3、减少网络流量。
4、增强应用程序的安全性。
创建存储过程
create procedure proc_name
@parameter data_type , …
@parameter2 type output
AS
T-SQL代码
执行存储过程
declare @x int , @y int
EXEC proc_name ‘输入’ , @x output,@y output
删除存储过程
DROP PROC name
返回值
创建标量函数
create function function_name(@parameter)
returns type
AS
begin
declare @x int
T-SQL语句
return @x
end
调用标量函数
函数拥有者名.函数名
返回表
创建内联表值函数
create function name(@parameter)
returns table
AS
return (T-SQL)
创建多语句表值函数
create function name(@parameter)
returns @table_name table(
列名 type,
…
)
AS
begin
insert into @table_name
T-SQL
return
end
删除用户自定义函数
DROP FUNCTION name
1、存储过程相当于对复杂T-SQL进行预编译封装。
2、用户自定义函数相当于其他编程语言中的函数方法。
区别:
1、声明时,存储过程参数不需要使用括号,并且在输出参数后使用 output 。
2、用户自定义函数必须要有retrun返回值。
3、用户自定义函数一般使用BEGIN和END 将T-SQL语句包围起来。
不同:
1、标量函数返回的是一个值。
2、内联表值函数返回的是select 查询 的一个表,类似于视图。并且一般不使用BEGIN和END。
3、多语句表值函数返回的是新定义的表。
相同:
1、他们的创建语句基本相同,不同的是返回类型。
2、调用方法相同。
一种特殊的存储过程,不需要由用户来直接调用,自动触发执行。
SQL Server 2008中有五种约束类型:主键约束、外键约束、唯一约束、缺省约束、检查约束。
触发器通常用在下列场合:
1、完成比CHECK约束更复杂的数据约束。(check约束只能实现同一个表中列之间的取值约束)
2、为了保证数据库性能而维护的非规范化数据。
3、可实现复杂的商业规则。
4、触发器也可以评估数据修改前后的表状态,并根据其差异采取对策。
三种触发器:
1、DML触发器(只讲)。2、DDL触发器。3、登录触发器。
创建触发器
create trigger trigger_name
on table
for [ after ] [ instead of ]
操作类型(insert ,updata,delete)
AS T-SQL
触发器的区别:
1、后触发型触发器:
使用FOR 或 AFTER 定义的触发器。(即等引发触发器执行的操作都已成功执行才执行触发器操作)
使用ROLLBACK撤销不正确的操作。(实际是回滚到引发触发器执行的操作之前的状态)
后触发型触发器同一个操作可以有多个触发器。
几个用途:
a、维护数据操作完整性的触发器。
b、维护不同列之间的取值完整性的触发器。
c、维护数据的一致性的触发器。
2、前触发型触发器:
使用 INSTEAD OF 选项定义的触发器。(即不执行引发触发器的操作)
前触发型触发器同一个操作只能有一个触发器。
两个特殊的临时工作表:
INSERTED表与 DELETED表。
对于三种操作,insert 、updata、delete 的数据存放。
insert 、delete更新删除的数据存放到对应的表中,而updata操作前的数据存放到DELETED表中,操作后的数据存放到INSERTED表中,updata操作相当于对表数据先进行删除,然后在对表数据进行插入。
声明游标 --> 打开游标 --> 提取数据 --> 关闭游标 -->释放资源
提取数据:
FETCH
需要死记的关键字: procedure(程序)、declare(声明)、execute(执行)、trigger(触发)、ROLLBACK(回滚)、for after (后触发型)、instead of (前触发型)
创建登录账户:
create login log_name [ whit | from ] windows 用户名 | password = ‘ ’
修改登录账户:
alter login log_name enable | disable
删除登录账户:
drop login log_name
建立数据库用户:
create user user_name
删除数据库用户:
drop user user_name
一个特殊的数据库用户。
启用:具有连接权限
grant connect to guest;
禁用:收回连接权限
revoke connect to guest
授权语句:
grant 操作(select、insert、update、delete)on 被授权的对象(表、存储过程等) to 用户
拒绝权限:
deny 操作 on 被被授权对象 to 用户
授权语句:
revoke 操作 on 被授权对象 to 用户
语句级别的权限:
create database
create procedure
create table
create view
create function
backup database
backup log
九大服务器级角色:
bulkadmin:不常见。
dbcreator:具有创建、修改、删除和还原数据库的权限。常考
diskadmin:具有管理磁盘的权限。
processadmin:不常见。
securityadmin:不常见。
serveradmin:具有设置服务器级别的配置选项和关闭服务器的权限。
setupadmin:不常见。
sysadmin:具有在服务器及数据库上执行任何操作的权限。常见
授权与删除:
授权:sp_addsrvrolemember
删除:sp_dropsrvrolemenber
ps:用户和角色语句位置的顺序: 先用户后角色
数据库级角色:
db_accessadmin:具有添加或删除数据库用户的权限。不常见
db_backupoperator:具有备份数据库、备份日志的权限。不常见
db_datareader:具有查询数据库中所有用户数据的权限。
db_datawriter:具有插入、删除、更改数据库中所有用户数据的权限。
db_ddladmin:具有执行数据定义语言(DDL)的权限。
db_denydatareader:不允许,与db_datareader权限相反。
db_denydatawriter:不允许,与db_datawriter权限相反。
db_owner:具有全部操作的权限。
db_securityadmin:具有管理权限。
授权与删除:
授权:sp_addrolemember
删除:sp_denyrolemember
ps:用户和角色语句位置的顺序:先角色后用户
共同点: 固定数据库角色与固定服务器角色都具有一个相同的角色:public
create role name【authorization】用户或角色
需要死记的关键字: enable(启用)、disable(禁用)、grant(允许)、revoke(撤回)
数据库管理员需要定期对转储的数据进行恢复测试工作。
通过行政手段制定规范。
重组:不修改数据库原有设计的逻辑结构和物理结构。
重构:部分修改数据库的模式和内模式。
1、自动监控机制。
2、手动监控机制。
分为对数据库构架体系的监控和对数据库性能的监控。
当CPU在业务空闲时使用率超过90%,说明服务器缺乏CPU资源。
a、增加派生性冗余列。(总价=单价*数量)
b、增加冗余列。
c、重新组表。
d、分割表。
e、新增汇总表。
a、物化视图。
b、聚集。
a、合理使用索引。
b、避免或简化排序。
c、消除对大型表数据的顺序存取。
d、避免复杂的正则表达式。
e、使用临时表加速查询。
f、用排序来取代非顺序磁盘存取。
g、不充分的连接条件。
h、存储过程。
i、不要随意使用游标。
j、事务处理。
1、事务内部故障:大部分是非预期的,由系统自动完成。
2、系统故障(软故障):所有正在运行的事务以非正常方式终止,需要系统重启。
3、介质故障(硬故障):破坏性最大。
4、计算机病毒故障:破坏方式以破坏数据库文件为主(不多见)。
1、静态转储:转储操作和事务是互斥的,保证转储前后的一致性。
2、动态转储:允许转储操作和用户事务并发执行,但不能保证转储数据的一致性。
1、完全转储。
2、增量转储:只复制上次转储后发生变化的文件或数据块(复制部分)。
3、差量转储:对最近一次完全转储以来发生变化的数据进行转储。
4、完全转储加增量转储:其中任何一次转储出现问题都会导致恢复的失败,同时恢复时间较长。
5、完全转储加差量转储:操作简单,恢复时间短。但是需要移动和存储更多数据。
1、以记录为单位的日志文件:
日志文件中有BEGIN TRANSACTION 记录,而没有COMMIT 或 ROLLBACK 执行 UNDO操作。
日志文件中既有BEGIN TRANSACTION 记录,也有 COMMIT 或 ROLLBACK 执行REDO操作。
2、以数据块为单位的日志文件。
什么时候使用日志文件:
1、事务故障恢复和系统故障恢复必须使用日志文件。
2、在动态转储方式中必须建立日志文件。
3、在静态转储方式中,也可以使用日志文件。
检查点技术大幅度减少了数据库恢复时执行的日志恢复操作量。
1、RAID0:优点采用数据分块、并行传送方式,能够提高读写速度。缺点出现介质故障时无法恢复。
2、RAID1:提高了读速度,加强了系统的可靠性。缺点:硬盘的利用率低,冗余度为50%,同时写速度并未提高。
3、RAID5:磁盘空间利用率比RAID1高,存储成本相对较低。
1、双机互备援模式。
2、双机热备份模式。
3、三种实现方式:高可用性、高保护、高性能。
1、存储介质故障。
2、用户的操作错误。
3、服务器故障。
4、由于病毒的侵害而造成的数据丢失或损坏。
5、由于自然灾害而造成的数据丢失或损坏。
1、简单恢复模式: 只用于测试和开发数据库或只读数据库,不备份事务日志、
2、完整恢复模式: 完整记录所有的事务,备份日志文件。
3、大容量日志恢复模式: 完整恢复模式的附加模式。
1、完整数据库备份(完全转储): 备份所有。
**2、差异数据库备份(差异转储):**备份最近一次完整数据库备份之后的数据。
两种备份都备份在备份过程中用户对数据库进行的操作。
1、文件备份。
2、差异文件备份。
只备份日志记录。
1、纯日志备份: 不包含大容量备份模式下执行的任何大容量更改的备份。
2、大容量操作日志备份: 不允许对大容量操作日志备份进行时点恢复。
3、结尾日志备份: 在出现故障时进行,用于防止丢失数据。
ps:结尾日志备份可以防止数据丢失并确保日志链的完整性。
日志文件中包含恢复点或者希望移动或替换(覆盖)数据库,不一定需要结尾日志备份。
1、完整数据库备份
2、完整数据库备份加日志备份
3、完整数据库备份加差异数据库备份加日志备份
备份数据库与文件组:
backup database data_name
to 备份设备
【with differential】 (进行差异备份,默认完全备份)
【disk | tape 】指定磁盘文件或磁带设备
备份日志:
backup log data_name
to 备份设备
norecovrey
实现还原:
restore database data_name
分布式数据库系统与分布式数据库的区别:
分布式数据库系统:物理上分散、逻辑上集中的数据库系统。
分布式数据库:是分布式数据库系统中各场地上数据库的逻辑集合。
分布式数据库的12个目标:
1、本地治理。
2、非集中式管理。
3、高可用性。
4、位置独立性。
5、数据分片独立性。
6、数据复制独立性。
7、分布式查询处理。
8、分布式事务管理。
9、硬件独立性。
10、操作系统独立性。
11、网络独立性。
12、数据库管理系统独立性。
数据分布策略: 先数据分片、后数据分配。
数据分片: 水平分片、垂直分片、导出分片、混合分片。
数据分配: 集中式、分割式、全复制式、混合式。
分布透明性:
1、分片透明性:最高级别、完全透明。
2、位置透明性:指数据分片的分配位置对用户是透明的。
3、局部数据模型透明性:不需要了解数据模型。
分布式数据库查询代价:
由CPU代价和 I/0代价来衡量,要考虑站点间传输数据的通信代价。
导致数据传输量大的主要原因:数据间的连接操作和并操作。
分布式事务管理: 恢复控制和并发控制。
恢复控制:基于二阶段的提交协议。
并发控制:基于封锁协议。
体系结构:
1、共享内存结构:共享一个主存储器,实现简单、容易造成访问内存冲突。
2、共享磁盘结构:共享磁盘,会产生通信代价。
3、无共享结构:不共享任何资源。最好并行结构。缺点:通信代价和非本地磁盘访问的代价高。
4、层次结构:顶层无共享结构、底层共享内存或共享磁盘结构。
数据划分:
1、轮转法:顺序扫描、评价分配、适合于扫描整个关系。缺点:不适于点查询 和 范围查询。
2、散列划分:适合点查询 。缺点:散列函数的选用。
3、范围划分:适合点查询和范围查询。但是会造成数据分布不均匀。
软件即服务(SaaS):软件分配模式。
平台即服务(PaaS):通过网络提供操作系统和相关服务,无需下载或安装。
基础设施即服务(IaaS):将用于支持运作的设备对外提供服务。
公共云: 即用即付的方式提供给公众。
私有云: 不对公众开放的企业或组织内部数据中心的资源。
目前主要的云计算平台: Amazon 的 AWS 、Goodle 的GAE 、开放的云计算平台Hadoop。
云计算的缺点:
1、数据安全问题。
2、对云的管理问题。
3、对因特网的依赖。
Google开发的模型简化的大规模分布式数据库BigTable:
索引: 行关键字、列关键字、时间戳。共同定位。
特点:
1、行关键字可以是任意的字符串。
2、列族是由列关键字组成的集合,是访问控制的基本单位。
3、时间戳记录BigTable中不同版本数据的时间标识。
是一个面向主题的 、集成的 、非易失的 、且随时间变化的数据集合,用来支持管理人员的决策。
体系结构: 操作型数据、操作型数据存储、数据仓库、数据集市、个体层数据(临时数据)。
四个级别:
1、早期细节级:老化以后的细节数据。
2、当前细节级:经过集成后,进入当前细节级。
3、轻度综合级:对当前细节级进行轻度综合。
4、高度综合级:对当前细节级进行高度综合。
粒度:
综合级别称为粒度。
粒度越小,细节程度越高,数据量越大。
元数据: 描述数据的结构、内容、链、索引等内容。
技术型元数据: 描述关于数据仓库技术细节的数据。
业务型元数据: 从业务角度描述了数据仓库中的数据。
ODS:
面向主题的、集成的、可变的、数据是当前或接近当前的。
ODS I: 第一类秒级。
ODS II:第二类小时级。
ODS III:第三类天级。
ODS IV:第四类根据数据来源方法和类型划分。
数据仓库的设计过程:
概念模型设计、技术评估、环境准备工作、 逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护。
数据仓库的更新维护:
维护策略:
实时维护:触发条件:数据源进行数据的更新操作。(软硬件性能要求很高,难以实现)
延时维护:触发条件:数据发生变化后首次进行查询操作。(视图查询时间相对比较长)
快照维护:触发条件:时间。(通常无法提供最新的数据,广泛使用)
多维分析的基本操作:
1、钻取与卷起。
2、切片与切块。
3、旋转。
OLAP的实现方式:
1、基于多维数据库的OLAP(MOLAP)。
2、基于关系数据库的OLAP(ROLAP)。
3、混合型的OLAP(HOLAP)。
三阶段: 数据准备、数据挖掘、结果解释评估。
关联规则挖掘:
1、支持度: 两者都买,占总数据仓库的百分比。
2、置信度: 两者都买,占其中买X的百分比。(买了X中有多少人买了Y的百分比)
分类挖掘:
构造方法:统计方法、机器学习方法、神经网络方法。
聚类挖掘:
使得每一组内的数据尽可能的相似而不同组间的数据尽可能的不同。
包括:统计方法、机器学习方法、神经网络方法、面向数据库的方法。
CREATE DATABASE -----> 创建数据库
CREATE PARTITION FUNCTION -----> 创建分区表
CREATE UNQUE CLUSTERED | NONCLUSTERED -----> 创建索引
CREATE PROC ----->创建存储过程
CREATE FUNCTION -----> 创建标量|内联表值|多语句表值函数
CREATE TRIGGER -----> 创建触发器
1、一致性:
2、完整性:
3、可串行性:两段锁协议保证
1、触发器通常用于保证业务规则和数据完整性。
2、与触发器相关的两张表使用大写(傻逼软件不区分大小写)
逻辑设计阶段: 数据库逻辑结构设计、数据库事务概要设计、应用程序概要设计
概念设计阶段: 系统总体框架设计
物理设计阶段: 数据库逻辑模式调整、文件组织与存取设计、数据分布设计、安全模式设计、确定系统配置、物理模式评估
数据库运行和维护阶段: 日常维护、监控与分析、性能优化与调整、系统进化。
数据库实现和部署阶段: 创建数据库、数据装载、应用程序的编码和调试、数据库的试运行
1、表示层:
2、业务逻辑层:
3、数据访问层:
4、数据持久层: 设计工作属于数据组织与存储等方面的物理设计内容(包括索引设计),属于物理设计阶段
1、把数据、日志、索引放到不同的I/O设备上,增加读取速度,数据量越大,提高I/O越重要。
2、纵向、横向分割表,减少表的尺寸。
3、升级硬件,扩大服务器的内存,增加服务器CPU个数。
4、重建索引,收缩数据和日志,设置自动收缩日志,对于大的数据库不要设置数据库自动增长,它会降低服务器的性能。
5、优化锁结构。
1、对查询进行优化,应尽量避免全表扫描,首先应考虑在where 及 order by 涉及的列上建立索引。
2、应尽量避免在where 子句中使用 != 或 < > 操作符,否则将引擎放弃使用索引而进行全表扫描。
3、任何地方都不要使用select * from 进行全表扫描,用具体的字段列表代替 “ * ” ,不要返回冗余字段。
4、避免频繁创建和删除临时表,以减少系统表只有的消耗。
5、尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该考虑改写。
6、尽量避免大事务操作,提高系统并发能力。
使用 union all 替代 union 进行合并查询,原因是union会自动压缩多个结果集中重复的数据(删除合并后重复的数据),而 union all 则将所有的结果显示出来,减少了操作量。
三种RAID的特点与区别:
RAID 0 : 采用数据分块,并行传输方式,能够提高读写速度。但是由于没有冗余备份,所有数据可靠性低(其中一个硬盘介质出现问题时,则无法恢复)。
RAID 1: 增加了镜像(冗余数据),所以数据 读速度提高(可以同时从原数据和冗余数据中读取),可靠性增加。硬盘利用率低(毕竟冗余数据占用50%)。
RAID 5: 只比RAID 0 增加了一个奇偶校验信息。
总的来说: RAID 0 单纯提高了性能,但是缺少数据可靠性。 RAID 1 提高了数据可靠性和读速度,但是CPU占用率高,磁盘利用率低。 RAID 5则是一种存储性能、数据安全和存储成本兼顾的方法。