阿里云大数据ACA及ACP复习题(61~80)

61.网络爬虫又称为网络机器人、网络蜘蛛,也可以称它是一种(A)工具
A:从互联网自动提取网页中数据的工具
B:一种病毒软件
C:沉迷于网络有网瘾的人的代称
D:以上都不对

解析:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

62.下面哪一个是属于Spark的分布式图处理框架?(A)
A:GraphX
B:Dremel
C:Impala
D:DStream

解析:Spark的GraphX支持图计算的库,支持丰富的图计算的算子,包括属性算子、结构算子、Join算子和邻居聚合等。 https://help.aliyun.com/document_detail/441938.html

63.通过日志规则设置,可以对业务系统中对用户的哪些数据进行采集?(C)
A:图片和评论
B:音频信息和视频信息
C:用户使用业务系统时操作(如浏览)日志数据以及操作过程中业务系统报错数据
D:数据库数据和文件数据

解析:通过日志采集系统,对日志进行详细的埋点采集,能够获取用户的操作日志、操作时间、以及系统失败等诸多数据信息。

64.数据挖掘中的一种算法类型为聚类,数据挖掘中()是最常用的聚类算法。(C)
A:RNN算法
B:CNN算法
C:K-Means算法
D:FP-Growth算法

解析:K-means 算法是一种最基本的基于距离的划分的聚类算法,为十大数据挖掘算法之一。 RNN和CNN算法则主要用于深度学习领域,而FP-Growth算法则主要用于频繁项集挖掘和关联规则挖掘

65.阿里的“淘宝小贷,通过对贷款客户、供应商、经营信用等全方位的评估,就可以在没有见面情况下给客户放款,这需要在海量的数据中判断客户的信用。在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比。体现了大数据的(E)特征。
A:Volume规模性
B:Veracity的准确性
C:velocity高速性
D:Variety多样性
E:Value价值性

解析:在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比,体现了价值性

66.开源大数据开发平台E-MapReduce (简称EMR),是运行在阿里云平台上的一种 ©的系统解决方案。
A:大数据集成
B:大数据采集
C:大数据处理
D:大数据挖掘

解析:开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。 https://help.aliyun.com/document_detail/28068.html?spm=a2c4g.113298.0.i7

67.数据采集全面性是指在根据某一需求分析数据时,需要采集的数据©、数据 (D),才能准确进行分析。
A:简单精确
B:类型相同
C:量足够多
D:面涉及广

解析:采集的全面性:采集的数据量足够大具有分析价值、数据面足够支撑分析需求。

68.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划

解析:Parser:将SQL解析为AST(抽象语法树)

69.在数据可视化的设计步骤中,数据核对及处理,属于数据可视化设计的哪一个步骤?(A)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化

解析:数据核对及处理,属于数据准备阶段

70.在大数据开发的流程中,以下哪个选项符合数据挖掘的概念?(B)
A:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
B:从大量的数据中通过算法搜索隐藏于其中信息的过程
C:将异构数据的数据汇集在一起
D:从大量的数据中别除含噪声的数据

解析:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

71.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划

解析:Parser:将SQL解析为AST(抽象语法树)。

72.数据采集(DAQ)别名是什么?(B)
A:数据存储
B:数据获取
C:数据分析
D:数据库数据

解析:数据采集(DAQ), 又称数据获取。

73.在大数据开发的流程中,数据分析主要是发现隐藏在数据中的价值。下列关于数据分析的概念,描述正确的是?(C)
A:常用的数据分析方法不包括传统的分析算法
B:数据分析主要使用的是机器学习算法
C:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用
D:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思

解析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

74.数据采集中,采集的数据分为离线数据和实时数据,其中属于实时数据的有©
A:数据库数据T+1采集
B:业务数据每小时采集并分析
C:传感器设备数据通过datahub传输
D:网络数据定时爬取

解析:对采集来说实时数据和采集方式有关,和业务系统生产方式有关; 数据库数据如果是通过binlog等方式实时拉取 业务数据通过实时采集方式入湖也属于实时采集,但是定时或T+1是非实时采集 传感器数据通过实时采集手段实时入湖为实时采集 数据爬取可以是实时也可以定时。

75.随看大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确(A)
A:用于分布式应用的高性能协调服务
B:是一种支持Apache Hadoop集昨的安装、部署、配置和管理的工具
C:是一种用于在HDFS和RDMS之问传输数据的工具
D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和Pig Jobs的任务调度与协调
E:是大数据集日志收集的框架

解析:ZooKeeper 是一个用于分布式应用的高性能协调服务。

76.在数据可视化的设计步骤中,明确业务需求属于数据可视化设计的哪一个步骤?(B)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化

解析:确定数据可视化的主题:根据实际业务需求来确定可视化的目的,做可视化之前要先知道为什么要做。

77.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。以下哪一选项是数据可视化的设计步骤?(B)
A:数据准备一主题确认一图表选择一数据可视化
B:主题确认一数据准备一图表选择一数据可视化
C:主题确认一图表选择一数据准备一数据可视化
D:数据准备一图表选择一主题确认一数据可视化

解析:确定数据可视化的主题; 提炼可视化主题的数据; 根据数据关系确定图表; 进行可视化布局及设计;

78.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程?(A)
A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用
B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用
C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用
D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用

解析:https://help.aliyun.com/apsara/enterprise/v_3_16_2_20220708/datav/ase-paas-user-guide/overview-1.html?spm=a2c4g.14484438.10001.12 1、准备工作。 2、创建可视化应用。 3、添加并配置可视化组件。 4、调整组件的图层和位置。 5、预览并发布可视化应用。

79.数据的种类和来源多样化。包活结构化、半结构化和非结构化教据,具休表现为网络日志、音顿.视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。体现了大数据的(D)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性

解析:Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

80.HBase框架是Hadoop生态的一个重要组成部分,主完成海量数据的存储与线上业务的实时查询,HBase框架数据存储依赖以下哪个组件?(B)
A:NTFS
B:HDFS
C:GFS
D:Memory

解析:HBase数据存储依赖于HDFS。

你可能感兴趣的:(阿里云,大数据,云计算)