数据库系统工程师——第一章 计算机系统知识

文章目录

    • 第一章、计算机系统知识
    • 1.1 计算机硬件基础知识
    • 1.1.1 中央处理单元
    • 1.1.2 存储器
    • 1.1.3 总线
    • 1.1.4 输入输出控制
    • 1.2 计算机体系机构
    • 1.2.1 CISC和RISC
    • 1.2.2 流水线技术
    • 1.2.3 阵列处理机、并行处理机和多处理机
    • 1.3 存储系统
    • 1.3.1 高速缓存
    • 1.3.2 虚拟存储器
    • 1.3.3 相联存储器
    • 1.3.4 磁盘阵列技术
    • 1.3.5 储域网络
    • 1.4 安全性、可靠性与系统性能评测基础知识
    • 1.4.1 算机安全概述
    • 1.4.2 加密技术和认证技术
    • 1.4.3 计算机可靠性
    • 1.4.4 计算机系统的性能评价

第一章、计算机系统知识

数据库系统工程师——第一章 计算机系统知识_第1张图片

1.1 计算机硬件基础知识

数据库系统工程师——第一章 计算机系统知识_第2张图片

a)计算机软件=程序+数据+相关文档。
b)操作数包含在指令中是立即寻址,操作数的地址包含在指令中是直接寻址。
c)计算机硬件的典型结构:单总线结构、双总线结构、采用通道的大型系统结构。

1.1.1 中央处理单元

中央处理单元(CPU)是计算机系统的核心部件,它负责获取程序指令、对指令进行译码并加以执行。

CPU的基本功能:

a)	程序控制
b)	操作控制
c)	时间控制
d)	数据处理——CPU的根本任务
此外,CPU 还需要对系统内部和外部的中断(异常)做出响应,进行相应的处理。

CPU的组成:

CPU由运算器和控制器、寄存器组组成,其中:
运算器由算术辑单元(ALU)、累加寄存器(AC)、数据缓冲寄存器(DR)、状态条件寄存器(PSW)组成。

a)	ALU:处理数据,实现对数据的算术运算和逻辑运算。
b)	AC:为算术逻辑单元提供一个工作区,暂存源操作数和计算结果。
c)	DR:暂存由内存储器读写的一条指令或一个数据字,将不同时间段内读写的数据隔离开来
        作用:作为CPU和内存、外设之间在操作速度上的缓冲,以及数据传送的中转站
d)	PSW:保存根据算术指令和逻辑指令运行或测试的结构建立的各种条件码内容,主要分为状态标志和控制标志。 
        如运算结果进位标志( C )、运算结果溢出标志(V)、运算结果为0标志(Z)、运算结果为负标志(N)、中断标志(I)、方向标志(D)等。

控制器由程序计数器(PC)、指令寄存器(IR)、指令译码器(ID)、地址寄存器(AR)、时序产生器和微操作信号发生器组成。

a)	PC:PC自动增加一个值,指向下一条要执行的指令,当程序转移时将转移地址送入PC。
b)	IR:用于存放当前要执行的指令, 暂存从内存读取的指令(操作码+地址码)。
c)	ID:对现行的指令进行分析,确定指令类型、指令要完成的操作和寻址方式。
d)	AR:AR保存当前CPU所访问的内存单元的地址。

多核 CPU 系统最大的优点(也是开发的最主要目的)是可满足用户同时进行多任务处理等要求。

指令执行的过程:
指令:是对机器进行程序控制的最小单位。 一条指令通常包括两个部份:操作码和操作数。
a) 取指令:控制器首先按程序计数器所指出的指令地址从内存中取出一条指令。
b) 指令译码:将指令的操作码部分送入指令译码器中进行分析,然后根据指令的功能发出控制命令。
c) 按指令操作码执行。
d) 形成下一条指令地址。

1.1.2 存储器

存储器分类:

a)	按存储器的位置:内存(主存)和外存(辅存)。
    内存容量小、速度快,外存容量大、速度慢。
    
b)	按存储器的材料:磁存储器、半导体存储器(静态和动态)和光存储器。
c)	按工作方式:读写存储器和只读存储器。只读存储器(ROM/PROM/EPROM/EEPROM/闪存)
d)	按访问方式:按地址访问的存储器和按内容访问的存储器(相联存储器)。
e)	按寻址方式:随机存储器(RAM)、顺序存储器(SAM)—磁带、直接存储器(DAM)—磁盘就是直接存储器。

随机访问存储器:

a)	静态随机访问存储器(SRAM)。
b)	动态随机访问存储器(DRAM)。

外存储器:

a)	磁盘存储器
 磁盘容量:
① 非格式化容量指一个磁盘所能存储的总位数
  非格式化容量 = 面数 × (磁道数/面 ) × 内圆周长 × 最大位密度
② 格式化容量指各扇区中数据区容量总和
  格式化容量 = 面数 ×(磁道数/面)×(扇区数/道)×(字节数/扇区)
  
b)	光盘存储器

Tips:

存储相关计算问题:

 内存容量=末地址-首地址+1。
 
a)	计算磁道数:磁道数 = (外半径-内半径)×道密度×记录面数。注:硬盘的第一面和最后一面是保护用的要减掉,即有n个双面的盘片记录面数为n×2-2。
b)	非格式化磁盘容量:容量=位密度×π×最内圈直径×总磁道数。注:每道位密度是不通的,但是容量是相同的,其中0道是最外面的磁道位密度最小。
c)	格式化磁盘容量:容量=每道扇区数×扇区容量×总磁道数。
d)	(格式化)平均数据传输率:传输率=每道扇区数×扇区容量×盘片转速。
e)	存取时间=寻道时间﹢等待时间。其中:寻道时间是指磁头移动所需的时间;等待时间为等待读写的扇区转到磁头下方所需的时间。
f)	(非格式化)平均数据传输率:传输率=最内直径×π(3.14)×位密度×盘片转速。注:一般采用非格式化。

1.1.3 总线

所谓总线(Bus),是指计算机设备和设备之间传输信息的公共数据通道。总线是连接计算机硬件系统内多种设备的通信线路,它的一个重要特征是由总线上的所有设备共享,因此可以将计算机系统内的多种设备连接到总线上。

总线分类:

a) 数据总线(Data Bus,DB):用来传送数据信息,是双向的。CPU 既可通过 DB 从内存或输入设备读入数据,也可通过 DB 将内部数据送至内存或输出设备。DB 的宽度决定了 CPU 和计算机其他设备之间每次交换数据的位数。
b) 地址总线(Address Bus,AB) :用于传送CPU 发出的地址信息,是单向的。传送地址信息的目的是指明与 CPU交换信息的内存单元或 I/0 设备存储器是按地址访问的,所以每个存储单元都有一个固定地址,地址总线的宽度决定了CPU 的最大寻址能力
c) 控制总线(Control Bus,CB) :用来传送控制信号、时序信号和状态信息等。其中有的号是 CPU 向内存或外部设备发出的信息,有的是内存或外部设备向 CPU 发出的信息。显然,CB中的每一条线的信息传送方向是单方向且确定的,但 CB 作为一个整体则是双向的。所以,在各种结构框图中,凡涉及控制总线 CB,均是以双向线表示。

Tips:

CPU 与其他部件交换数据时,用数据总线传输数据。数据总线宽度指同时传送的二进制位数,内存容量、指令系统中的指令数量和寄存器的位数与数据总线的宽度无关。 数据总线 宽度越大,单位时间内能进出CPU的数据就越多,系统的运算速度越快。

串行总线将数据一位一位传输,数据线只需要一根(如果支持双向需要2根),并行总线是将数据的多位同时传输(4位,8位,甚至64位,128位),显然,并行总线的传输速度快,在长距离情况下成本高,串行传输的速度慢,但是远距离传输比串行成本低。
单总线结构在一个总线上适应不同种类的设备,通用性强,但是无法达到高的性能要求,而专用总线则可以与连接设备实现最佳匹配。
在计算机系统中采用总线结构,便于实现系统的积木化构造,便于增减外设,同时可以有效减少信息传输线的数量。

单总线结构:

在单总线结构中,CPU与主存之间、CPU与 I/O 设备之间、I/O 设备与主存之间、各种设备之间都通过系统总线交换信息。

优点:控制简单方便、扩充方便。
缺点:由于所有设备部件均挂在单一总线上,使这种结构只能分时工作,即同一时刻只能在两个设备之间传送数据,这就使系统总体数据传输的效率和速度受到限制。

1.1.4 输入输出控制

从硬件角度看,输入/输出(IO)设备是电子芯片、导线、电源、电子控制设备、电机等组成的物理设备,从软件角度只关注输入/输出设备的编程接口。


a) 直接程序控制方式
数据库系统工程师——第一章 计算机系统知识_第3张图片
b) 中断方式
在这里插入图片描述

CPU的中断响应时间: 指从发出中断请求到开始进入中断处理程序

系统具有多个中断源的处理方法:

a) 多中断信号线法
b) 中断软件查询法
c) 菊花链法
d) 总线仲裁法
e) 中断向量表法: 中断向量表用来保存各个中断源的中断服务程序的入口地址。

数据库系统工程师——第一章 计算机系统知识_第4张图片

c) 直接存储器存取(DMA)
数据的传输是在主存和外设之间直接进行,不需要CPU 的干预,实际操作是由DMA 硬件直接执行完成的。

(每传送一个数据都需要占用一个存储周期)

数据库系统工程师——第一章 计算机系统知识_第5张图片
数据库系统工程师——第一章 计算机系统知识_第6张图片
d) 输入输出处理器(IOP)
数据库系统工程师——第一章 计算机系统知识_第7张图片

中断方式、程序查询方式、DMA之间区别:

中断方式、程序查询方式和无条件传送方式都是通过CPU 执行程序指令来传送数据的。
DMA方式下是由DMA 控制器直接控制数据的传送过程,CPU 需要让出对总线的控制权,并不需要CPU 执行程序指令来传送数据。
DMA 控制方式是在主存与 I/O 设备间(主存与外设之间)直接建立数据通路进行数据的交换处理。

Tips:时钟周期、机器周期、指令周期、总线周期、存储周期的区别

a) 时钟周期:计算机中最小的时间单位,等于CPU 主频的倒数。一个时钟周期内,CPU 仅完成一个最基本的动作。
b) 机器周期(CPU 周期):计算机中为了方便管理,常把一条指令 的执行过程划分为若干个阶段(如取指、间址、执行、中断等)
每一阶段完成一个基本操作。注意:每一个基本操作都是由若干CPU最基本的动作组成。这个基本操作所需要的时间称为机器周期,则机器周期由若干个时钟周期组成。
c) 指令周期:从取指开始到执行完成该指令所需要的全部时间。指令周期包含若干机器周期。
d) 总线周期:存储器和I/O端口是挂接在总线上的,CPU对存储器和I/O接口的访问通过总线实现。把CPU通过总线对微处理器外部(存储器或I/O接口)进行一次访问所需时间称为一个总线周期。
e) 存储周期:存储周期包含存取时间和恢复时间。指两次独立访问存储器操作之间的最小间隔。
存取时间指从启动一次存储器操作到完成该操作所经历的时间。恢复时间指读写操作之后,用来恢复内部状态的时间。

各周期时间排序:

指令周期>机器周期>时钟周期
存储周期>总线周期

1.2 计算机体系机构

计算机体系结构(computer architecture)是指计算机的概念性结构、功能和性能特性它从一个更高的层次对计算机的结构和特征等宏观特性进行研究。计算机体系结构分类如下所述:

数据库系统工程师——第一章 计算机系统知识_第8张图片

计算机体系结构和计算机组成的区别:

体系结构要解决的问题是计算机系统在总体上、功能上需要解决的问题,而计算机组成要解决的是逻辑上如何具体实现的问题。

1.2.1 CISC和RISC

(1) CISC(Complex Instruction Set Computer,复杂指令集计算机)的基本思想是进一步增强原有指令的功能,用更为复杂的新指令取代原先由软件子程序完成的功能,实现软件功能的硬化,导致机器的指令系统越来越庞大而复杂。微处理器 x86 的体系结构属于 CISC 类型。

CISC的主要弊病如下:
数据库系统工程师——第一章 计算机系统知识_第9张图片
(2) RISC(Reduced Instruction Set Computer,精简指令集计算机)的基本思想是通过减少指令总数和简化指令功能,降低硬件设计的复杂度,使指令能单周期执行,并通过优化编译,提高指令的执行速度,通用寄存器数量相当多,采用硬线控制逻辑,优化编译程序,导致机器的指令系统进一步精炼而简单。ARM处理器属于RISC。

RISC的关键技术如下:

数据库系统工程师——第一章 计算机系统知识_第10张图片
Tips:
只有20%的指令经常应用频率达80%→RISC(精简指令集计算机)简化了CPU的控制器,提高了处理速度,特点有:
数据库系统工程师——第一章 计算机系统知识_第11张图片

1.2.2 流水线技术

流水线是指将一个较复杂的处理过程分为 m 个复杂程度相当、处理时间大致相等的子过程,每个子过程由一个独立的功能部件来完成,处理对象在各子过程连成的线路上连续流动,在同一时间,m个部件同时进行不同的操作,完成对不同对象的处理。

流水处理技术是在重叠、先行控制方式的基础上发展起来的。

a) 指令控制方式:
    1、指令控制方式有顺序方式。
    优点:控制简单
    缺点:速度慢,各部件利用率低
    
    2、重叠方式。
    优点:速度有所提高,控制也不太复杂
    缺点:会出现冲突、转移和相关等问题
    
    3、流水方式。
    一次重叠只是把一条指令解释分解为两个子过程,而流水则是分解为更多的子过程
    
b) 流水线的种类:
	1、从级别角度可分为部件级、处理机级以及系统级的流水线。
	2、从功能角度可分为单功能流水线和多功能流水线。
	3、从联接方式上可分为静态流水线和动态流水线。
	4、从流水线是否有反馈回路,可分为线性流水线和非线性流水线。
	5、从流水线的流动顺序上,可分为同步流水线和异步流水线。
	6、从流水线的数据表示上,可分为标量流水线和向量流水线。
c)流水线技术:
    1、超流水技术。
    2、超标量技术。
    3、超长指令字(Very Long Instruction Word,VLIW)技术,一种非常长的指令组合,它把许多条指令连在一起,增加了运算的速度。

流水线周期:

各子任务中执行时间最长的(最慢的)子任务的执行时间。

流水线执行完 n 条指令所需要的时间:

Tn = 执行一条指令所需时间 + (n-1) * 流水线周期

吞吐率:

是指单位时间里流水线处理机流出的结果数。对指令而言,就是单位时间里执行的指令数。如果各段流水的操作时间不同,则流水线的吞吐率是最长流水段操作时间。
吞吐率:p=1/max(∆t1,∆t2,…∆tm),即最长子过程所用时间的倒数。

数据库系统工程师——第一章 计算机系统知识_第12张图片

eg1:
数据库系统工程师——第一章 计算机系统知识_第13张图片

eg2:
数据库系统工程师——第一章 计算机系统知识_第14张图片

分析:
① 流水线周期 = 3
② 流水线执行完 n 条指令所需要的时间 = (3+3+2)+(n-1)*3
③ 吞吐率 = n / ((3+3+2) * ∆t+3(n-1) * ∆t)

1.2.3 阵列处理机、并行处理机和多处理机

并行性包括同时性和并发性两个侧面。其中,同时性是指两个或两个以上的事件在同一时刻发生,并发性是指两个或两个以上的事件在同一时间间隔内连续发生。从计算机信息处理的步骤和阶段的角度看,并行处理可分为如下几类:

a) 存储器操作并行。
b) 处理器操作步骤并行(流水线处理机)。
c) 处理器操作并行(阵列处理机)。
d) 指令、任务、作业并行(多处理机、分布处理系统、计算机网络)。

1.3 存储系统

数据库系统工程师——第一章 计算机系统知识_第15张图片
存储器系统的顶层是 CPU 的寄存器,其速度和 CPU 速度相当。第二层是高速缓冲存储器Cache,和CPU速度接近。第三层是主存储器,也称为内部存储器或者 RAM(Random AccessMemory)。第四层是碰盘。存储器体系最后一层是光盘、磁带等。在存储器层次结构中,越靠近上层,速度越快,容量越小,单位存储容量价格越高。

将上述两种或两种以上的存储器经过硬件、软件等组合在一起并对其进行管理,则构成存储器系统。Cache 和主存可构成 Cache 存储系统:主存和磁盘构成虚拟存储系统。

1.3.1 高速缓存

高速缓存 (Cache) 是随着CPU 与主存之间的性能差距不断增大而引入的,其容量较小,但速度较快,一般比主存快5~10倍。
主要作用: 调和CPU 的速度与内存存取速度之间的差异,从而提升系统性能。
存储的内容: CPU 近期可能会需要的信息,使用的是程序的局部性原理,是主存内容的副本,因此CPU 需要访问数据和读取指令时要先访问Cache,若命中则直接访问,若不命中再去访问主存。
Cache性能的关键指标: Cache的命中率,影响命中率的因素有其容量、替换算法、其组织方式等。Cache的命中率随容量的增大而提高 (非线性)
基于成本和性能方面的考虑, Cache是为了解决相对较慢的主存与快速的CPU之间工作速度不匹配问题而引入的存储器
CPU 工作时给出的是主存的地址,要从Cache 存储器中读写信息,就需要将主存地址转换成Cache 存储器的地址,这种地址的转换叫作地址映像。
主存地址与Cache 地址之间的转换工作由 硬件 完成。
例:CPU 的速度要远快于打印机的速度,为解决这个速度不匹配的问题,可以使用缓存技术,释放CPU 的等待。

数据库系统工程师——第一章 计算机系统知识_第16张图片
Cache的地址映像有以下三种方法:

a) 直接映像:直接映像是指主存的块与 Cache 块的对应关系是固定的,主存的每一块只能映像到Cache 的一个特定的块中,整个Cache 地址与主存地址的低位部分完全相同。
   优点:硬件简单,不需要相联存储器,访问速度快(无需地址变换)
   缺点:Cache 块冲突概率高导致Cache 空间利用率很低。

b) 全相联映像:
   优点:块冲突概率低(块冲突次数最少),Cache空间利用率高,主存的块调入 Cache 的位置不受限制,十分灵活
   缺点:相联目录表容量大导致成本高、查表速度慢
c) 组相联映像:这种方式是前面两种方式的折衷。具体做法是将 Cache 中的块再分成组。
特点:较低的块冲突概率、较高的块利用率,同时得到较快的速度和较低的成本。

主存地址位数=区号+组号+主存块号+块内地址
Cache地址位数=组号+组内块号+块内地址

数据库系统工程师——第一章 计算机系统知识_第17张图片

高速缓存的性能分析:

设Hc 为Cache 的命中率,tc 为Cache 的存取时间,tm 为主存的访问时间,则Cache 存储器的等效加权平均访问时间ta为:

ta=Hctc+(1-Hc)tm

1.3.2 虚拟存储器

现代系统提供了一种对主存的抽象,称为虚拟存储(virtualmemory)使用虚拟地址(virtualaddress,由 CPU生成)的概念来访问主存,使用专门的MMU (Memory Management Unit)将虚拟地址转换为物理地址后访问主存。

虚拟存储器实际上是一种逻辑存储器,实质是对物理存储设备进行逻辑化的处理,并将统一的逻辑视图呈现给用户。因此,用户在使用时,操作的是虚拟设备,无需关心底层的物理环境,从而可以充分利用基于异构平台的存储空间,达到最优化的使用效率。

虚拟存储器:

虚拟存储器实际上是一种逻辑存储器,常用的虚拟存储器由主存-辅存两级存储器组成。

a)	页式:页表硬件少,查表速度快,主存零头少;分页无逻辑性,不利于存储保护。
b)	段式:优点是:段的界限分明;支持序的模块化设计;易于对的编译修改和保护;便于多道程序的共享。主要缺点:因段的长度不一,主存利用率不高,产生大内存碎片,造成浪费;段表庞大,查表速度慢。
c)	段页式:地址变换速度比较慢。

1.3.3 相联存储器

相联存储器是一种按内容访问的存储器。其工作原理就是把数据或数据的某一部分作为关键字,将该关键字与存储器中的每一单元进行比较,找出存储器中所有与关键字相同的数据字。

相联存储器部件功能:
数据库系统工程师——第一章 计算机系统知识_第18张图片
相联存储器可用在高速缓冲存储器中;在虚拟存储器中用来作段表、页表或快表存储器用在数据库和知识库中。

1.3.4 磁盘阵列技术

磁盘阵列是由多台磁盘存储器组成的一个快速、大容量、高可靠的外存子系统。现在常见的称为廉价冗余磁盘阵列(Redundant Array ofIndependent Disk,RAID)。

常见的 RAID:
数据库系统工程师——第一章 计算机系统知识_第19张图片数据库系统工程师——第一章 计算机系统知识_第20张图片
Tips:

a) 磁盘存取时间包括寻道时间,定位扇区的时间(也就是旋转延迟的时间)以及读取数据的时间(也就是传输时间),
   如果磁盘转速提高了一倍,则旋转延迟时间减少一倍。

b) 在Windows系统中,磁盘碎片整理程序可以分析本地卷,以及合并卷上的可用空间使其成为连续的空闲区域,
   从而使系统可以更有效地访问文件或文件夹。

1.3.5 储域网络

数据库系统工程师——第一章 计算机系统知识_第21张图片

1.4 安全性、可靠性与系统性能评测基础知识

1.4.1 算机安全概述

计算机安全是一个涵盖非常广的课题,计算机安全可包括安全管理、通信与网络安全、密码学、安全体系及模型、容错与容灾、涉及安全的应用程序及系统开发、法律、犯罪及道德规范等领域。

计算机的安全等级:
美国国防部和国家标准局的《可信计算机系统评测标准》TCSEC/TDI将系统划分为4组7个等级,如表1-3 所示。
数据库系统工程师——第一章 计算机系统知识_第22张图片

信息安全的5个基本要素:

数据库系统工程师——第一章 计算机系统知识_第23张图片

典型的安全威胁:
数据库系统工程师——第一章 计算机系统知识_第24张图片

影响数据安全的因素:

a) 内部因素:可采用多种技术对数据加密;制定数据安全规划;建立安全存储体系,包括容量、容错数据保护和数据备份等;建立事故应急计划和容灾措施;重视安全管理,制定数据安全管理规范。

b) 外部因素: 可将数据分成不同的密级,规定外部使用员的权限。设置身份认证、密码、设置口令、设置指纹和声纹笔迹等多种认证。
   设置防火墙,为计算机建立一道屏障,防止外部入侵破坏数据。建立入侵检测、审计和追踪,对计算机进行防卫。
   同时,也包括计算机物理环境的保障、防辐射、防水和防火等外部防灾措施。

1.4.2 加密技术和认证技术

加密技术:

对称加密技术:加密密钥和解密密钥相同。

a)	DES(数据加密标准算法):采用替换和移位方法加密,用56位进行对64位数据加密(也就是说只有56是有效的),
    每次加密对64位数据进行16次的编码,密钥长度为64位。它加密速度快,密钥容易产生。
    由于DES的密钥较短,不能抵抗对密钥的穷举搜索攻击。
b)  三重DES:用两个56位的密钥。
c)	RC-5算法:适用于大量明文进行加密并传输。
d)	IDEA算法(国际数据加密算法) :明文和密文的长度都为64位,密钥为128位。
e)  AES( 高级加密标准算法) :基于排列和置换运算。

非对称加密技术:运用公钥加密和私钥解密。

a)	RSA算法:RAS技术是指可靠性(R)、可用性(A)、可维性(S)。
    由于密钥对中的私钥只有持有者才拥有,所以私钥是不可能进行交换的。

信息传输加密:

a)	链路加密
b)	节点加密
c)	端到端加密
加密方式 优点 缺点
链路加密 1)所有的信息都加密,包括消息头和路由信息。2)单个密钥泄漏不会危及全网安全;每对网络节点可使用截然不同的密钥。3)加密对用户是透明的 1)消息以明文形式通过每个节点。2)由于所有网络节点都必须获得密钥,密钥分发和密钥管理困难。3)由于每条保密通信链路上都需要两台设备,密码设备费用高
节点加密 1)消息的解密和加密在保密模块内完成,无暴露消息内容之虞。2)加密对用户是透明的 1)某些信息(如消息头和路由信息,必须以明文形式传输。2)由于所有的网络节点都必须获得密钥,密钥分发和密钥管理困难
端到端加密 1)异常灵活;加密可由用户控制,而且并非所有信息都得加密。2)数据经网络从源到目的地都受到保护。3)加密对网络节点是透明的,而且在网络重组期间也可以使用 1)每个系统都必须能够进行相同类型的加密。2)某些信息(如消息头和路由信息)可以明文形式发送。3)要求复杂的密钥分发和密钥管理技术

认证技术:

a)	Hash 函数与信息摘要 (Message Digest):
    Hash(哈希)函数提供了这样一种计算过程:
    输入一个长度不固定的字符串,返回一串固定长度的字符串,又称 Hash 值。
    单向 Hash 函数用于产生信息摘要, 信息摘要是一个单向散列函数,经过散列函数得到一个固定的散列值,
    常用的信息摘要算法有MD5、SHA算法,散列值分别为128和160位。
    利用报文摘要算法生成报文摘要的目的是防止发送的报文被篡改。
    
    Hash 函数主要可以解决以下两个问题:
    在某一特定的时间内,无法查找经 Hash 操作后生成特定 Hash 值的原报文;
    也无法查找两个经 Hash 操作后生成相同 Hash 值的不同报文。
    这样,在数字签名中就可以解决验证签名和用户身份验证、不可抵赖性的问题。
    
b)	数字签名:用私钥进行加密用公钥解密

数字签名主要经过以下几个过程:
    1、信息发送者使用一个单向散列函数(Hash 函数)对信息生成信息摘要
    2、信息发送者使用自己的私钥签名信息摘要。
    3、信息发送者把信息本身和已签名的信息摘要一起发送出去。
    4、信息接收者通过使用与信息发送者使用的同一个单向散列函数(Hash 函数)对接收的信息本身生成新的信息摘要,
       再使用信息发送者的公钥对信息摘要进行验证,以确认信息发送者的身份和信息是否被修改过。

数字加密主要经过以下几个过程:
	1、当信息发送者需要发送信息时,首先生成一个对称密钥,用该对称密钥加密要发送的报文。
	2、信息发送者用信息接收者的公钥加密上述对称密钥。
	3、信息发送者将第 (1)步和第(2)步的结果结合在一起传给信息接收者,称为数字信封。
	4、信息接收者使用自己的私钥解密被加密的对称密钥,再用此对称密钥解密被发送方加密的密文,得到真正的原文。
	
c) SSL协议:主要应用于提高应用程序之间数据的安全系数。提供的服务有:
	1、用户和服务器的合法性认证。
	2、加密数据以隐藏被传送的数据。
	3、保护数据的完整性。
	
d)  数字时间戳技术:电子商务安全服务项目之一,能提供电子文件的日期和时间信息的安全保护。
    它是在数据加密上加上了时间,有摘要、文件的日期和时间及数据签名组成。
    时间戳是一个经加密后形成的凭证文档,包括如下三个部分:
	1、需加时间戳的文件的摘要 (digest)。
	2、DTS收到文件的日期和时间。
	3、DTS 的数字签名。

数据库系统工程师——第一章 计算机系统知识_第25张图片

数据库系统工程师——第一章 计算机系统知识_第26张图片
数字签名和数字加密的区别和联系:

数字签名使用的是 发送方的密钥对 ,任何拥有发送方公开密钥的人都可以验证数字签名的正确性;

数字加密使用的是 接收方的密钥对,是多对一的关系,任何知道接收方公开密钥的人都可以向接收方发送数据,但只有唯一拥有接收方私有密钥的人才能对信息解密。

数字签名 只采用了非对称加密算法,它能保证发送信息的完整性、身份认证和不可否认性,但不能保证发送信息的保密性
数字加密(数字信封)采用了对称密钥算法和非对称密钥算法相结合的方法,它能保证发送信息的保密性

例题1:假定用户A、B 分别从I1、I2两个CA取得了各自的证书,I1、I2互换公钥是A 、B 互信的必要条件。

例题2:用户A从CA获得用户B的数字证书,并利用(CA 的公钥)验证数字证书的真实性。

字典攻击: 在破解密码或密钥时,逐一尝试用户自定义词典中的可能密码(单词或短语)的攻击方式。与暴力破解的区别是,暴力破解会逐一尝试所有可能的组合密码,而字典攻击会使用一个预先定义好的单词列表(可能的密码)。

密码盐: 在密码学中,是指通过在密码任意固定位置插入特定的字符串,让散列后的结果和使用原始密码的散列结果不相符,这种过程称为加盐。

如果密码泄露,黑客可以利用他们数据字典中的密码,加上泄露的密码盐,然后进行散列,然后再匹配,由于密码盐可以加在任意位置,也加大了破解的难度。所以即使密码盐泄露,字典攻击和不加盐时的效果是不一样的

Tips:

1、每一个由 CA 颁发的证书都会有有效期,密钥对生命周期的长短由签发证书的 CA 中心来确定,各 CA 系统的证书有效期限有所不同,一般为2~3年。当用户的私钥被泄露或证书的有效期快到时,用户应该更新私钥。这时用户可以废除证书,产生新的密钥对,申请新的证书。

2、DES与RAS的比较:

在这里插入图片描述

1.4.3 计算机可靠性

a) 计算机系统的可靠性:是指从它开始运行(t=0)到某时刻 t 这段时间内能正常运行的概率,用R(t)表示。
b) 计算机系统的失效率:是指单位时间内失效的元件数与元件总数的比例,用λ表示。
c) 平均无故障时间(MTBF):两次故障之间能正常工作的时间的平均值称为
d) 平均无故障时间MTBF = 1/λ
e) 计算机系统的可维修性:一般平均修复时间(MTRF)表示,指从故障发生到机器修复平均所需的时间。
f) 计算机系统的可用性:指计算机的使用效率,它以系统在执行任务的任意时刻能正常工作的概率A表示。
   A = MTBF/(MTBF+MTRF)

  

计算机可靠性模型:

a) 串联系统:当且仅当所有的子系统都能正常工作时,系统才能正常工作。
b) 并联系统:只要有一个子系统正常工作,系统就能正常工作。
c) N模冗余系统:在N 个系统中,只要有n+1 个或n+1 个以上子系统能正常工作,系统就能正常的工作。

数据库系统工程师——第一章 计算机系统知识_第27张图片
提高计算机的可靠性一般采取如下两项措施:
(1)提高元器件质量,改进加工工艺与工艺结构,完善电路设计
(2)发展容错技术,使得在计算机硬件有故障的情况下,计算机仍能继续运行,得出正确的结果。

1.4.4 计算机系统的性能评价

1、性能测评(时钟频率、指令执行速度、等效指令速度法、数据处理速率 (Processing Data Rate,PDR)法、核心程序法)。
2、基准测试程序(整数测试程序、浮点测试程序、SPEC 基准程序、TPC基准程序。TPC(Transaction Processing Council,事务处理委员会)基准程序)。
  

⛳ 考点知识扩充

计算机病毒的特点:

a)	寄生性
b)	隐蔽性
c)	非法性
d)	传染性
e)	破坏性

计算机病毒的类型:

a)	系统引导型病毒————BOOT型病毒
b)	文件外壳型病毒————攻击command.com文件
c)	混合型病毒————Flip病毒、One Half病毒(幽灵)
d)	目录型病毒————改变目录项不敢变相关文件
e)	宏病毒————用宏的word或是excel文件

计算机病毒、蠕虫、木马的区别:

a)  计算机病毒 ————指“编制或者在计算机程序中插入的破坏计算机功能或者破坏数据,影响计算机使用并且能够自我复制的一组计算机指令或者程序代码”。

    病毒必须满足两个条件:
	1、它必须能自行执行。它通常将自己的代码置于另一个程序的执行路径中。
	2、它必须能自我复制。例如,它可能用受病毒感染的文件副本替换其他可执行文件。病毒既可以感染桌面计算机也可以感染网络服务器。

	典型的病毒有黑色星期五病毒、比特币勒索病毒等。

b)  蠕虫(Worm)————利用网络进行复制和传播,不利用文件寄生(有的只存在于内存中),对网络造成拒绝服务,以及和黑客技术相结合,消耗内存或网络带宽,从而可能导致计算机崩溃。
   
    典型的蠕虫病毒有尼姆达、震荡波、熊猫烧香等。
     
c)  木马(Trojan Horse)————从希腊神话里面的“特洛伊木马”而得名。指表面上是有用的软件,而实际却危害计算机安全、导致严重破坏的计算机程序(具有隐蔽性、非授权性),是一种基于远程控制的黑客工具。

    典型的特洛伊木马有灰鸽子、网银大盗等。

普通病毒与蠕虫病毒的区别:
复制方式:普通病毒需要传播受感染的驻留文件来进行复制,而蠕虫不使用驻留文件即可在系统之间进行自我复制。
传染目标:普通病毒的传染能力主要是针对计算机内的文件系统而言,而蠕虫病毒的传染目标是互联网内的所有计算机。

木马与病毒的区别:
木马不具传染性,它并不能像病毒那样复制自身,也并不“刻意”地去感染其他文件,它主要通过将自身伪装起来,吸引用户下载执行。
木马一般主要以窃取用户相关信息或隐蔽性控制为主要目的,相对病毒而言,可以简单地说,病毒破坏你的信息,而木马窃取你的信息。

多媒体基础知识(现在不考):

媒体的分类:
媒体可分为感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体。

a)	感觉媒体
    直接作用于人的感官,产生感觉(视、听、嗅、味、触觉)的媒体,语言、音乐、音响、图形、动画、数据、文字等都是感觉媒体。
b)	表示媒体
   指用来表示感觉媒体的数据编码。
c)	表现媒体 
   进行信息输入或输出的媒体。如键盘
d)	存储媒体
   用于存储表示媒体的物理实体。如光盘
e)	传输媒体
   传输表示媒体的物理实体。如光缆

多媒体计算机系统(现在不考):
声音是感觉媒体
声音的三个要素:
音强:即音量,是声音的强度,取决于声间的振幅。
音调:由声音的频率决定。
音色:指声音的感觉特性。

声音信号的数字化:
A/D 转换是模拟信号转换为数字信号,比如声音转二进制;
D/A 转换是数字信号转换为模拟信号,比如二进制转声音。

(a) 采样
每隔一个时间间隔就在模拟声音的波形上取一个幅度值,这个间隔时间称为采样频率。
常用的采样频率为8kHZ、11.025kHz、16kHz、22.05kHz(FM广播音质)、44.1kHz(CD音质)、48kHz(DVD音频或专业领域),频率越高音质越好。采样频率不应低于声音信号最高频率的两倍。
(b) 量化
就是把经过采样得到的瞬时值将其幅度离散,即用一组规定的电平,把瞬时抽样用最接近的电平值来表示。
量化的级别通常用位(bit)来表示,位数越高则音质越好。
(c) 编码
将声音数据写成计算机的数据格式。
每秒钟所需的存储量可由下式估算出:
文件的字节数 = 采样频率(Hz) * 采样位数 *声道数/8

Tips:

亚音信号(次音信号):频率范围 < 20Hz
音频信号:频率范围 20Hz~20kHz
超音频信号(超声波):频率范围 > 20kHz

图形和图像:

1.颜色
(a)颜色三要素
	色调:人眼看到一种或多种波长的光时所产生的彩色感觉。
	亮度:表示色所具有的亮度
	饱和度:指某一颜色的深浅程度(或浓度)
2. 图像的属性
(b)分辨率
是指组成一幅图像的像素密度;也是水平和垂直的像素表示;即用每英寸多少点(dpi)表示数字化图像的大小。
水平分辨率表明显示器水平方向上显示出的像素点数目,垂直分辨率表明垂直方向上显示出的像素点数目。显示深度是指显示器t 显示每个像素点颜色的二进制位数。
用300dpi来扫描一幅34英寸的彩色照片,那么得到一幅9001200个像素点的图像
DPI (Dots Per Inch,每英寸点数) 通常用来描述数字图像输入设备(如图像扫描仪)或点阵图像输出设备(点阵打印机)输入或输出点阵图像的分辨率。

eg2:
使用150DPI 的扫描分辨率扫描一幅3×4英寸的彩色照片,得到原始的24位真彩色图像的数据量是()Byte

解:150DPI的扫描分辨率表示每英寸的像素为150个。
	(3×150)×(4×150)×24/8 = 810000

eg2:
只有一个分量的单色图像,假设每个像素有8位,则最大灰度数目为2^8 = 256。

eg3:
一幅彩色图像RGB三通道的像素位数分别为4,4,2,则最大颜色数目为2^(4 + 4 + 2) = 1024,也就是说像素的深度为10位,每个像素可以是1024种颜色中的一种。

注:
图像数据量=图像的总像素数×像素深度/8(Byte)
例如: 一幅640*480的256(2^8=256,即像素深度为8位)色图像,数据量为:640×480×8/8=300Kb。

图像文件格式 : 目前使用最广泛图像压缩的编码标准就是JPEG,图像文件格式BMP、GIF、TIFF、PCX、PNG、JPEG、WMF。

视频文件格式: Flic文件(fli、.flc)、AVI文件(.avi)、Quick Time文件(.mov、.qt)、MPEG文件(.mpeg、.mpg、.dat、.mp4)、RealVideo文件(.rm、.rmvb)。

Tips:

WAV 为微软公司开发的一种声音文件格式,它符合RIFF 文件规范,用于保存Windows 平台及其应用程序所广泛支持。
BMP(全称Bitmap)是Windows 操作系统中的标准图像文件格式,可以分为两类:设备相关位图(DDB)和设备无关位图(DIB),使用非常广。BMP文件所占的空间很大。
MP3 是一种音频压缩技术,其全称是动态影像专家压缩标准音频正面3
MOV 即QuickTime 影片格式,它是Apple 公司开发的一种音频、视频文件格式,用于存储常用数字媒体类型。

PowerPoint 是微软公司的演示文稿软件。
Premiere 是一款常用的视频编辑软件,由Adobe 公司推出,广泛应用于广告制作和电视节目制作中。
Acrobat 是由Adobe 公司开发的一款PDF (Portable Document Format) 编辑软件。
Photoshop 是由Adobe Systems 开发和发行的图像处理软件。

CIF(Common Intermediate Format) 常用的标准化图像格式。CIF 像素=352×288

由ISO制定的MPEG系列标准中,MPEG-7称为“多媒体内容描述接口 "(multimedia content description interface)。该标准是建立对多媒体内容的描述标准,满足包括静止图像、图形、3D模型、音频、话音、视频以及以上元素组合在一起的合成多媒体信息的应用领域的要求,并兼顾标准的通用性和扩展性的要求。

码制:

进制的缩写:

二进制:Binary,简称 B
八进制:Octal,简称 O
十进制:Decimal,简称 D
十六进制:Hexadecimal,简称 H


a)	反码:正数的反码与原码相同,负数反码为原码按位取反(符号位不变)。
b)	补码:正数的补码与原码相同,负数的补码为反码末位加1(即除去符号位按位取反末位加1)。
c)	移码(增码):将补码的符号位求反。
d)	[X + Y ]补= [X]补+ [Y ]补
e)	[X - Y ]补= [X]补- [Y ]补
f)	[ - Y ]补= - [Y ]补

校验码:

a)	循环校验码(CRC):
i.	模二除法:指在除法运算的过程中不计其进位的除法。

b)	海明校验码:
海明码是一种多重(复式)奇偶检错编码。它将信息用逻辑形式编码,以便能够检错和纠错。
用在海明码中的全部传输码字是由原来的信息和附加的奇偶校验位组成的。每一个这种奇偶位被编在传输码字的特定位置上。
在数据位之间插入 k 个校验位,通过扩大码距来实现检错和纠错。
设数据位是 n 位,校验位是 k 位,则 n 和 k 必须满足以下关系:

i.	根据信息位数,确定校验位数,2^k≥k+n+1。求出满足不等式的最小 k 即为校验位数。

c) 奇偶校验码:
通过在编码中增加一位校验位来使编码中1的个数为奇数(奇校验)或者为偶数(偶校验),从而使码距(一个编码系统中任意两个合法编码之间至少有多少个二进制位不同)变为2。奇校验只能发现奇数位出错的编码,不能发现偶数位出错的情况。

在计算机中,各类运算等可以采用补码进行,特别是对于有符号数的运算。

在计算机中涉及补码的目的:

a) 为了使符号位能与有效值部分一起参加运算,从而简化运算规则,使运算部件的设计更简单;
b) 为了使减法运算转换为加法运算,进一步简化计算机中运算器的线路设计。

因此在计算机系统中常采用补码来表示和运算数据,原因是采用补码可以简化计算机运算部件的设计

Tips:

机器字长为n,最高位是符号位,其定点整数的最大值为2^(n-1)-1
机器字长为n,最高位为符号位,则剩余的n-1 位用来表示数值,其最大值是这n-1 位都为1 ,也就是2^(n-1)-1。

常用的寻址方式:

(a)立即寻址: 操作数就包含在指令中。
(b)直接寻址: 操作数存放在内存单元中,指令中直接给出操作数所在存储单元的地址。
(c)寄存器寻址:操作数存放在某一寄存器中,指令中给出存放操作数的寄存器名。
(d)寄存器间接寻址: 操作数存放在内存单元中,操作数所在存储单元的地址在某个寄存器中。
(e)间接寻址: 指令中给出操作数地址的地址。
(f)相对寻址: 指令地址码给出的是一个偏移量(可正可负),操作数地址等于本条指令的地址加上该偏移量。
(g)变址寻址: 操作数地址等于变址寄存器的内容加偏移量。

你可能感兴趣的:(数据库系统工程师,数据库,计算机网络,网络)