62.下面哪一个是属于Spark的分布式图处理框架?(A)
A:GraphX
B:Dremel
C:Impala
D:DStream
解析:Spark的GraphX支持图计算的库,支持丰富的图计算的算子,包括属性算子、结构算子、Join算子和邻居聚合等。 https://help.aliyun.com/document_detail/441938.html
63.通过日志规则设置,可以对业务系统中对用户的哪些数据进行采集?(C)
A:图片和评论
B:音频信息和视频信息
C:用户使用业务系统时操作(如浏览)日志数据以及操作过程中业务系统报错数据
D:数据库数据和文件数据
解析:通过日志采集系统,对日志进行详细的埋点采集,能够获取用户的操作日志、操作时间、以及系统失败等诸多数据信息。
64.数据挖掘中的一种算法类型为聚类,数据挖掘中()是最常用的聚类算法。(C)
A:RNN算法
B:CNN算法
C:K-Means算法
D:FP-Growth算法
解析:K-means 算法是一种最基本的基于距离的划分的聚类算法,为十大数据挖掘算法之一。 RNN和CNN算法则主要用于深度学习领域,而FP-Growth算法则主要用于频繁项集挖掘和关联规则挖掘
65.阿里的“淘宝小贷,通过对贷款客户、供应商、经营信用等全方位的评估,就可以在没有见面情况下给客户放款,这需要在海量的数据中判断客户的信用。在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比。体现了大数据的(E)特征。
A:Volume规模性
B:Veracity的准确性
C:velocity高速性
D:Variety多样性
E:Value价值性
解析:在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比,体现了价值性
66.开源大数据开发平台E-MapReduce (简称EMR),是运行在阿里云平台上的一种 (C)的系统解决方案。
A:大数据集成
B:大数据采集
C:大数据处理
D:大数据挖掘
解析:开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。 https://help.aliyun.com/document_detail/28068.html?spm=a2c4g.113298.0.i7
67.数据采集全面性是指在根据某一需求分析数据时,需要采集的数据(C)、数据 (D),才能准确进行分析。
A:简单精确
B:类型相同
C:量足够多
D:面涉及广
解析:采集的全面性:采集的数据量足够大具有分析价值、数据面足够支撑分析需求。
68.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)
69.在数据可视化的设计步骤中,数据核对及处理,属于数据可视化设计的哪一个步骤?(A)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
解析:数据核对及处理,属于数据准备阶段
70.在大数据开发的流程中,以下哪个选项符合数据挖掘的概念?(B)
A:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
B:从大量的数据中通过算法搜索隐藏于其中信息的过程
C:将异构数据的数据汇集在一起
D:从大量的数据中别除含噪声的数据
解析:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
机器学习/深度学习
SQL
算法
大数据
数据挖掘
晚风ꦿ࿐:
阿里云大数据ACA及ACP复习题(71~80)
2023-09-04
358阅读
发布于湖北
周周的奇妙编程
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试。
71.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)。
72.数据采集(DAQ)别名是什么?(B)
A:数据存储
B:数据获取
C:数据分析
D:数据库数据
解析:数据采集(DAQ), 又称数据获取。
73.在大数据开发的流程中,数据分析主要是发现隐藏在数据中的价值。下列关于数据分析的概念,描述正确的是?(C)
A:常用的数据分析方法不包括传统的分析算法
B:数据分析主要使用的是机器学习算法
C:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用
D:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
解析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
74.数据采集中,采集的数据分为离线数据和实时数据,其中属于实时数据的有(C)
A:数据库数据T+1采集
B:业务数据每小时采集并分析
C:传感器设备数据通过datahub传输
D:网络数据定时爬取
解析:对采集来说实时数据和采集方式有关,和业务系统生产方式有关; 数据库数据如果是通过binlog等方式实时拉取 业务数据通过实时采集方式入湖也属于实时采集,但是定时或T+1是非实时采集 传感器数据通过实时采集手段实时入湖为实时采集 数据爬取可以是实时也可以定时。
75.随看大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确(A)
A:用于分布式应用的高性能协调服务
B:是一种支持Apache Hadoop集昨的安装、部署、配置和管理的工具
C:是一种用于在HDFS和RDMS之问传输数据的工具
D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和Pig Jobs的任务调度与协调
E:是大数据集日志收集的框架
解析:ZooKeeper 是一个用于分布式应用的高性能协调服务。
76.在数据可视化的设计步骤中,明确业务需求属于数据可视化设计的哪一个步骤?(B)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
解析:确定数据可视化的主题:根据实际业务需求来确定可视化的目的,做可视化之前要先知道为什么要做。
77.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。以下哪一选项是数据可视化的设计步骤?(B)
A:数据准备一主题确认一图表选择一数据可视化
B:主题确认一数据准备一图表选择一数据可视化
C:主题确认一图表选择一数据准备一数据可视化
D:数据准备一图表选择一主题确认一数据可视化
解析:确定数据可视化的主题; 提炼可视化主题的数据; 根据数据关系确定图表; 进行可视化布局及设计;
78.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程?(A)
A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用
B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用
C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用
D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用
解析:https://help.aliyun.com/apsara/enterprise/v_3_16_2_20220708/datav/ase-paas-user-guide/overview-1.html?spm=a2c4g.14484438.10001.12 1、准备工作。 2、创建可视化应用。 3、添加并配置可视化组件。 4、调整组件的图层和位置。 5、预览并发布可视化应用。
79.数据的种类和来源多样化。包活结构化、半结构化和非结构化教据,具休表现为网络日志、音顿.视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。体现了大数据的(D)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
80.HBase框架是Hadoop生态的一个重要组成部分,主完成海量数据的存储与线上业务的实时查询,HBase框架数据存储依赖以下哪个组件?(B)
A:NTFS
B:HDFS
C:GFS
D:Memory
解析:HBase数据存储依赖于HDFS。
分布式计算
数据可视化
大数据
数据挖掘
Hadoop
评论
写我的评论
相关推荐
阿里云大数据ACA及ACP复习题(181~190)
周周的奇妙编程
27阅读
阿里云大数据ACA及ACP复习题(171~180)
周周的奇妙编程
31阅读
阿里云大数据ACA及ACP复习题(181~190)
周周的奇妙编程
27阅读
阿里云大数据ACA及ACP复习题(171~180)
周周的奇妙编程
31阅读
阿里云大数据ACA及ACP复习题(161~170)
周周的奇妙编程
24阅读
阿里云大数据ACA及ACP复习题(151~160)
周周的奇妙编程
20阅读
阿里云大数据ACA及ACP复习题(141~150)
周周的奇妙编程
150阅读
阿里云大数据ACA及ACP复习题(131~140)
周周的奇妙编程
127阅读
阿里云大数据ACA及ACP复习题(121~130)
周周的奇妙编程
42阅读
阿里云大数据ACA及ACP复习题(111~120)
周周的奇妙编程
131阅读
阿里云大数据ACA及ACP复习题(101~110)
周周的奇妙编程
125阅读
阿里云大数据ACA及ACP复习题(91~100)
周周的奇妙编程
155阅读
2
2
0
晚风ꦿ࿐:
阿里云大数据ACA及ACP复习题(81~90)
2023-09-04
137阅读
发布于湖北
周周的奇妙编程
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试。
81.阿里云大数据体系中,下列哪个服务是属于数据加工和可视化分析工具?(B)
A:大数据计算服务MaxCompute
B:Quick BI数据可视化分析平台
C:实时计算Flink版
D:云原生数据仓库(分析型数据库) AnalyticDB
解析:阿里云实时计算Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。 云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。 Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,您可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户,也可以将报表集成在您的业务流程中,并且通过邮件、钉钉、企业微信等分享给您的同事和合作伙伴。 https://help.aliyun.com/document_detail/33813.html
82.阿里云的云计算提供了多种服务模式,其中平台层使用的是(B)
A:Saas
B:Paas
C:laas
D:全部本地布署
解析:PAAS平台即(Platform-as-a-Service:平台即服务)
83.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、Logical Optimizer。Physical Plan Generator、Physical Plan Optimizer。其中步骤Logical Plan Generator的作用是?(C)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Logical Plan Generator:将查询块转换成逻辑查询计划
84.关于大数据的定义描述错误的是下列哪个选项?(D)
A:从数据大小的角度Mckinsey(麦肯锡公司)认为“大数据是指 大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集 。”
B:从架构的角度NIST(美国国家标准与技术研究院)认为“大数据是指那些传统数据架构无法有效地处理的新数据集。”
C:从多家机构对大数据描述中找出共同点:大数据主要是指具有体量大、来源 多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的 大量数据集的数据。
D:大数据是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学
解析:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。既不是一种技术,也不是一种产品,而是一种现象。而大数据是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学是描述人工智能的。
85.数据可视化大屏是当前可视化领域的一项热门应用,通常可以分为信息展示类、数据分析类及监控预警类,下列关于可视化大屏描述错误的是(B)。
A:可视化大屏是一种非常有效的数据可视化工具
B:利用DATa V制作的可视化大屏不支持多块物理屏拼接显示
C:可视化大屏是以数据可视化的方式在一个或多个LED大屏幕上显示业务的一些关键指标,以大屏幕为主要显示载体的数据可视化设计
D:可视化大屏作为传递信息的有效手段,在各个行业中发挥着重要作用
解析:DataV支持多屏拼接,针对拼接大屏端的展示做了分辨率优化,能够适配非常规拼接情况下的分辨率优化
86.聚类算法与分类算法是数据挖掘算法中极其容易混淆的两种算法,两者之间,存在一定的相似性,同时也存在明显的差异性。下面关于聚类和分类的说法正确的是?(D)
A:聚类有标签,分类无标签
B:聚类有目标,分类无目标
C:聚类有标签,分类有标签
D:聚类无标签,分类有标签
解析:聚类无标签是无监督学习,分类有标签是监督学习,聚类的目标是将数据分组,而分类的目标是将数据分类。
87.以下哪个选项符合属于分布式文件系统,且适合运行在通用硬件上?(B)
A:NFS
B:HDFS
C:GlusterFS
D:Ceph
解析:HDFS(Hadoop Distributed File System) Hadoop分布式文件系统,适合运行在通用硬件上做分布式存储和计算
88.云计算和大数据的关系密不可分,关于云计算和大数据的区别,描述正确的是?(D)
A:大数据处理的对象是互联网资源和应用,云计算处理的对象是数据
B:大数据是一种互联网的虚拟资源存贮,云计算总的来说是一种信息资产
C:大数据的出现在于用户服务需求的增长,及企业处理业务能力的提高,云计算的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长
D:云计算的价值则是能帮助企业等压缩其成本,起到节约效果。在庞大的数据中挖掘其中有效、有价值的信息这就是大数据的价值
解析:大数据和云计算的区别: 1、首先云计算面对的是互联网资源和应用等,而大数据面对的是数据。 2、云计算则是一种互联网的虚拟资源存贮,而大数据总的来说是一种信息资产。 3、云计算的出现在于用户服务需求的增长,及企业处理业务能力的提高,大数据的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长。 4、云计算注重资源分配,可以大量节约成本,是硬件资源的虚拟化,而大数据在于发掘数据的有效信息,海量数据的高效处理。
89.关系数据库(Relational Database)是数据按关系模型来组织数据的数据库。主要用于存储(A)。
A:结构化数据
B:半结构化数据
C:非结构化数据
D:结构化数据和非结构化数据
解析:关系型数据库存储的是结构化数据
90.数据可视化可以通过图表显示多维展示,它能体现出(D)优势?
A:图形表现
B:分析视角
C:数据清晰
D:多维展示
解析:"通过图表更容易对数据进行分类、排序显示"体现了多维展示的特点
数据可视化
大数据
数据挖掘
BI
云计算
评论
写我的评论
相关推荐
阿里云大数据ACA及ACP复习题(181~190)
周周的奇妙编程
27阅读
阿里云大数据ACA及ACP复习题(171~180)
周周的奇妙编程
31阅读
阿里云大数据ACA及ACP复习题(181~190)
周周的奇妙编程
27阅读
阿里云大数据ACA及ACP复习题(171~180)
周周的奇妙编程
31阅读
阿里云大数据ACA及ACP复习题(161~170)
周周的奇妙编程
24阅读
阿里云大数据ACA及ACP复习题(151~160)
周周的奇妙编程
20阅读
阿里云大数据ACA及ACP复习题(141~150)
周周的奇妙编程
150阅读
阿里云大数据ACA及ACP复习题(131~140)
周周的奇妙编程
127阅读
阿里云大数据ACA及ACP复习题(121~130)
周周的奇妙编程
42阅读
阿里云大数据ACA及ACP复习题(111~120)
周周的奇妙编程
131阅读
阿里云大数据ACA及ACP复习题(101~110)
周周的奇妙编程
125阅读
阿里云大数据ACA及ACP复习题(91~100)
周周的奇妙编程
155阅读
1
1
0
晚风ꦿ࿐:
阿里云大数据ACA及ACP复习题(91~100)
2023-09-04
155阅读
发布于湖北
周周的奇妙编程
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试。
91.根据颜色的不同来反映不同区域的降水量,这是数据可视化在什么学科上的应用?(C)
A:区域地理学
B:可视性分析学
C:空间可视化
D:信息学
解析:“根据颜色不同来反映不同区域的降水量”体现了空间可视化
92.下列关于HDFS的描述,正确的有?(A)
A:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)分布式文件系统,完成数据分布式存储,具有高容错性和可扩展性的特点
B:是一种通过网络实现文件在多台主机上进行存储的文件系统,但数据安全性不能得到保证
C:分布式文件系统都是采用“客户机/服务器"一主多从
D:谷歌开发了分布式文件系统HDFS
解析:HDFS(Hadoop Distributed File System) Hadoop分布式文件系统,适合运行在通用硬件上做分布式存储和计算 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。 GFS(Google File System):Google公司为满足公司需求而开发的基于Linux的可扩展的分布式文件系统
93.下列选项中符合数据挖掘概念的是(D)?
A:将异构数据源的数据汇集在一起
B:从大量的数据中剔除含噪声的数据
C:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
D:从大量的数据中通过算法搜索隐藏于其中信息的过程
解析:数据分析和数据挖掘本质上来说其实并不冲突,两者可以说的上是相辅相成的。 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
94.Sqoop是Hadoop生态圈组件中的什么?(C)
A:数据分析工具
B:数据库引擎
C:ETL工具
D:BI工具
解析:Sqoop是一款apache旗下的“hadoop和关系型数据库数据传输”工具。
95.HBase是一个分布式的、面向列的开源数据库,源于( A )的一篇论文《BigTable:一个结构化数据的分布式存储系统》
A:Google
B:Oracle
C:Apache
D:Microsoft
解析:HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》
96.关于网络爬虫爬取网页的步骤,包含如下哪些选项?(ABC)
A:获报网页
B:提取信息
C:保存数据
D:手动提取
解析:获取网页、解析网页以及存储数据
97.Hadoop是当前最流行的大数据分布式基架构,它提供了许多与大数据相关的核心功能,并支持许多核心项目。下列选项中,属于Hadoop核心组件的是?(D)
A:Ambari(安装、部署、配置、管理工具)
B:Oozle(作业流调度系统)
C:Hive数据仓库
D:MapReduce分布式计算框架
解析:Hadoop的核心组件为:HDFS、MapReduce和Yarn。
98.在Spark 架构中,负责SQL解析的组件是?(A)
A:SQL Parser
B:Cache Mgr
C:catalyst
D:Execution
解析:SparkSqlParser: SparkSQL的sqlParser,将SQL解析为LogicalPlan
99.网络爬虫是一种通过既定规则,自动抓取网页信息的程序,它的常见分类有(ABCD)。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫
E:随机型爬虫
解析:网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
100.阿里云实时数仓Hologres属于阿里云大数据产品体系中的哪一类产品?(A)
A:大数据计算与分析
B:大数据工具与服务
C:大数据分析与可视化
D:智能搜索与推荐
解析:链接:https://help.aliyun.com/document_detail/113648.html Hologres。致力于高性能、高可靠、低成本、可扩展的实时计算引擎研发,为用户提供海量数据的实时数据仓库解决方案和亚秒级交互式查询服务,广泛应用在实时数据中台建设、精细化分析、自助式分析、营销画像、人群圈选、实时风控等场景。
数据采集
分布式计算
大数据
Hadoop
数据挖掘
评论