考研复试数据库原理面试题(五)——数据库的发展和应用

这一个文章和其它的几个章节有所不同,更倾向于课外扩展。答出来是加分项。因为博主曾经在一家大数据公司工作过,对数据仓库、数据挖掘、大数据什么的还是了解一点的,所以就整理了这一块。导师们应该会把火力集中在大数据、数据挖掘这两个部分,让你描述当前它们的发展然后适当地畅想一下未来。

数据库原理我的参考书是《数据库原理及应用第二版(雷景生)》,因为一些机缘巧合选择了这本书。不过没关系,网上有很多关于数据库原理的面试题,而且答案也很容易搜到。思维导图在我的processon。如果对你有帮助就打赏一下吧。

https://www.processon.com/view/link/5e7e0107e4b027d999d2cb1d

还有其它系列的面试题整理

考研复试计算机组成原理面试题

考研复试操作系统面试题

目录

描述实时数据库

实时数据库的特点和用途

解释什么是数据仓库?

解释名词粒度、聚类、分类、关联规则

什么是雪花模式?

数据仓库的特点

什么是元数据?

数据仓库和数据挖掘的关系

简述大数据的特点

简述你对大数据未来趋势的看法


 

描述实时数据库

实时数据库是采用实时数据模型建立起来的数据库,用于处理不断更新的快速变化的数据及具有时间限制的事务处理。实时数据库技术是实时系统和数据库技术相结合的产物,利用数据库技术来解决实时系统中的数据管理问题,同时利用实时技术为实时数据库提供时间驱动调和资源分配算法。主要应用于工业监控,如:电力、石化、化工、钢铁、冶金、造纸、交通控制和证券金融等工业领域的监控。。

实时数据库的特点和用途

时间约束:实时数据库是其数据和事务都有明确的时间限制的数据库。在实时系统中,具有时间约束的数据主要是来自于外部的动态数据,以及由这些数据求导出的新的数据。数据库中的数据必须如实反映现场设备的运行情况。

事务调度:实时数据库系统的正确性不仅依赖于事务的逻辑结果,而且依赖于该逻辑结果所产生的时间。事务调度既要考虑事务的执行时间,也要考虑事务的截止期、紧迫程度等因素。

数据存储:实时数据库主要承担系统所有实时数据的存储和管理,为相关的功能提供快速、正确的实时信息。为了达到实时性,实时数据库在系统运行过程中,应常驻内存,以保证读取速度。对于实时性要求不高的数据可存放在外存储空间。因此,在实时数据库设计时,要妥善处理时间与存储空间的矛盾,以保证系统的实时性。

数据在线压缩:在实际的数据存储中,实时数据库还要解决如何高效处理海量数据的问题。如果数据被原封不动地存储势必需要大量内存和磁盘空间以及耗费大量的时间,因此必须对实时数据进行在线压缩存储。

解释什么是数据仓库?

从大量的事务型数据库中提取数据,并清洗、转换为新的存储格式,即根据决策目标把数据聚集在一种特殊的格式中,这种支持决策的、特殊的数据存储称为数据仓库。数据仓库的建立决策支持系统的基础。可以采用两层结构,也可以采用三层结构,就是在客户机/服务器模式的基础上,在中间加一个OLAP服务器,这个服务器作为应用服务器,执行数据过滤、聚集。

解释名词粒度、聚类、分类、关联规则

粒度: 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度的主要问题是使其处于一个合适的级别,粒度的级别既不能太高也不能太低。低的粒度级别能提供详尽的数据,但要占用较多的存储空间和需要较长的查询时间。高的粒度级别能快速方便的进行查询,但不能提供过细的数据。在选择合适粒度级别的过程中,要结合业务的特点,分析的类型、依据的总的存储空间的等因素综合考虑。

聚类:把数据按照相似性归纳成若干类别,同一类数据彼此相似。与分类方法不同的是聚类没有预先的分类特征,而是根据一定的规则将对象分类,对分类后的对象显式或隐式地描述特征。

分类:找出一个类别的概念描述,让它代表这类数据的整体信息,并用这种描述构造模型,一般用规则和决策树模式表示。

关联规则:它是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律,就称为关联。

什么是雪花模式?

 

数据仓库的特点

1. 主题性

数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。面向主题的数据组织方式,就是在较高层次对分析对象数据的一个完整、统一并一致的描述,能完整及统一地刻画各个分析对象所涉及的有关企业的各项数据,以及数据之间的联系。

2.集成性

数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。数据集成是数据仓库建设中最重要,也是最为复杂的一步。

3.稳定性

数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。

4.动态性

数据仓库数据会随时间变化而定期更新,不可更新是针对应用而言,即用户分析处理时不更新数据。每隔一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。关于数据仓库的结构和维护信息保存在数据仓库的元数据(Metadata)中,数据仓库维护工作由系统根据其中的定义自动进行或由系统管理员定期维护。

什么是元数据?

元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分成两类,即技术元数据和业务元数据。技术元数据:数据仓库设计和管理人员用于开发和日常管理数据仓库时用的数据,包括数据源信息、数据转换的描述等等。业务元数据是从单位业务的角度描述数据仓库中的数据,包括业务主题的描述、包含的数据、查询、报表等信息。

数据仓库和数据挖掘的关系

区别:

1、目的不同:

数据仓库是为了支持复杂的分析和决策,数据挖掘是为了在海量的数据里面发掘出预测性的、分析性的信息,多用来预测。

2、阶段不同:

数据仓库是数据挖掘的先期步骤,通过数据仓库的构建,提高了数据挖掘的效率和能力,保证了数据挖掘中的数据的宽广性和完整性。

3、处理方式不同:

数据挖掘是基于数据仓库和多维数据库中的数据,找到数据的潜在模式进行预测,它可以对数据进行复杂处理。大多数情况下,数据挖掘是让数据从数据仓库到数据挖掘数据库中。

联系:

1、数据仓库是为了数据挖掘做预准备,数据挖掘可建立在数据仓库之上。

2、最终目的都为了提升企业的信息化竞争能力。

简述大数据的特点

大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

简述你对大数据未来趋势的看法

国家政策方面:放眼世界人类活动的数字化记录不断增多,尤其是我过作为一个人口大国,数据价值的潜力巨大。目前中央大力扶持大数据产业,例如在贵州大力建设数据产业。在新闻上多次听到

“大力扶持大数据和人工智能产业”,2017年,工信部编制印发《大数据产业发展规划(2016-2020年)》。我们要在,历史前进的逻辑中前进,在时代发展的潮流中发展。

理论方面:理论是认知的途径。理论研究的深度决定了应用的高度。今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。在此理论基础上,新的理论也层出。著名的MapReduce计算框架让大数据工具的出现称为可能,hadoop就是其中的最好例子。

技术上:技术是大数据价值体现的手段和前进的基石。随后,众多Hadoop周边产品开始出现,大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop;针对大规模日志进行分布式收集、聚合和传输的Flume;MapReduce工作流调度引擎Oozie等。使大数据的开发更加快捷方便。

实践上:实践是大数据最终价值的体现。大数据目前已经在政府、企业、公共安全、个人领域有了很广泛的应用。很多公司都开始建立了自己的云平台和大数据平台,来开放或吸引数据,让数据创造更多价值。

未来的问题:隐私问题会迫在眉睫,在收集数据时必然会侵犯个人隐私,但如果不收集数据就无法进行分析。我认为可以通过学习区块链技术中的匿名化,在保护隐私的时候,也可以收集数据。在未来,要提出以人为本的大数据方案,如1、阅后即焚;用户自己确认是否被追踪或上传数据

 

 

 

你可能感兴趣的:(计算机考研,数据库)