2021-2022山东大学软件学院数据科学导论期末考试回忆版

前言:

个人而言,数据科学导论这门课,虽然本人上课几乎没有听过,不过只要最后考试前一周左右复习好,那考出不错的成绩也不是很难。这次期末考试总体看来不是很难,试题量不是很大,考试是中文题目,回答用中英文均可,考试日期2021/12/23,考试时间2h。(感觉很惊讶,其实两个小时的考试,自己在开考不到30分钟就把会的写完了,不过还是有一道题完全没有印象,最后胡乱写的。考试后着急对了一下答案,果然!现实还是骨感的!有些印象模糊的题目还是有填错的,呜呜呜……在线哭泣)。下面给给出2021-2022冬季山东大学软件学院数据科学导论期末考试回忆版及个人认为的答案,另外有些题目有备注的分数。另,本人记忆可能有误差,题目有出入,答案可能有错误,欢迎指正!

一、大数据的概念和特性(5’)

1、大数据概念: 大数据是一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具范围的数据集合
2、四大特性: 体量巨大、速度极快、模态多样、价值密度低、(商业价值高)

二、数据处理的一般步骤并且解释ETL(5’)

1、数据处理的一般步骤: 采集、表示与存储、清洗、集成、分析、展现、决策
2、ETL: extract:从源中获取数据;transform:在源、接收器、盘点区接收数据;load:在盘点区接收数据

三、解析XML的语言方法及优缺点

1、DOM: (1)优点: DOM是一个易于使用的对象:对象中的所有数据都可以通过链接访问。(2)缺点: 因为DOM分析器将整个xml文件转换为了树存放在内存中,当文件结构较大或者数据较复 杂的时候 ,这种方式对内存的要求就比较高,且对于结构复杂的树进行遍历也是一种非常耗时的操作。
2、SAX: (1)优点: 加载一点,读取一点,处理一点。对内存要求比较低。(2)缺点: 程序复杂性高,很难同时访问同一文档的不同部分数据

四、SQL语言的类型及如何创建名为Student的图表包含姓名(name),学号(sid),和年龄(age) (15’)

1、SQL语言的类型
类别一:Data Definition Language (DDL) 数据定义语言
类别二:Data Manipulation Language (DML) 数据操作语言(增删改查)
类别三: Data Control Language(DCL):数据控制语言,用来定义访问权限和安全级别
类别四:Data Query Language(DQL):数据查询语言,用来查询记录(数据)。这些语言通过DBMS来操作DB,DBMS是一个系统
2、创建图表:
CREAT TABLE Student{name CHAR(20),sid CHAR(20),age INTEGER}

五、计算图表A,B的关系连接:INNER JOIN (内连接)和 LEFT OUTER JOIN(左向外连接)(15’)

2021-2022山东大学软件学院数据科学导论期末考试回忆版_第1张图片2021-2022山东大学软件学院数据科学导论期末考试回忆版_第2张图片
1、SELECT *
FROM Table A INNER JOIN Table B
ON A.sid=B.sid
画出结果表格

2021-2022山东大学软件学院数据科学导论期末考试回忆版_第3张图片
2、SELECT A.name, B.address
FROM Table A LEFT OUTER JOIN Table B
ON A.sid=B.sid
画出结果表格

2021-2022山东大学软件学院数据科学导论期末考试回忆版_第4张图片

六、画图表示Mapreduce的过程并解释

2021-2022山东大学软件学院数据科学导论期末考试回忆版_第5张图片
2021-2022山东大学软件学院数据科学导论期末考试回忆版_第6张图片

七、探索性数据分析的概念及基本方法

1、探索性数据分析的概念: 对已有的数据,在尽量少的先验假定情况下进行探索,逐步了解数据的特点
2、探索式数据分析的基本方法:(1)汇总统计量的计算:包括计算均值、中位数、众数、切尾均数等,以便让人们了解数据的典型值,还可以通过确定异常值,让人们了解数据的异常情况。(2)制图和制表:展示变量的分布情况,时间序列数据的变化趋势,以及变量之间的关系。

八、简述K-means的步骤(10’)

步骤:
1、预定义k组对象及k个聚类中心;
2、计算各个对象和初始聚类中心的距离,
3、重新计算聚类中心;
4、再次计算每个对象与新的聚类中心的距离;
5、一直重复步骤直至满足终止条件。

九、给出一段语句,写出它的2-grams和3-grams(14’)

#具体的语句忘记了,下面的语句也可以代替,不过操作都一样
Sentence: The cat sat on the mat
2-grams: the-cat, cat-sat, sat-on, on-the, the-mat
3-grams: the-cat-sat, cat-sat-on, sat-on-the, on-the-mat

十、给出图结构化的类型及举例说明生活中常见的数据可视化的工具(10’)

1、类型: 图形、图像、地图、动画
2、工具: R,SAS,SPSS,Stata,Tableau 8,Google Charts,Mathematica 9

注: 个人记忆可能有偏差,另外就算记忆没错,可能本人自己认为的答案也是错的。欢迎各位友人指正!)

你可能感兴趣的:(山东大学软件学院,数据科学导论,期末考试,图像处理,sql,mapreduce,xml,自然语言处理)