spark基础知识选择、判断、简答题。

**

# spark相关题目

**
1、
持久化RDD的存储级别中,将RDD分区全部存储到磁盘上的存储级别是()。
A、MEMORY_ONLY
B、MEMORY_AND_DISK
C、DISK_ONLY
D、MEMORY_ONLY_SER
参考答案:
C
答案解析:
暂无解析
2、
当MemStore存储的数据达到一个阀值()时,数据就会被进行flush操作,将数据写入到StoreFile文件。
A、64M
B、128M
C、256M
D、512M
参考答案:
B
答案解析:
暂无解析
3、
下列选项中,不是spark 自带服务的端口是()。
A、8080
B、4040
C、8090
D、18080
参考答案:
C
答案解析:
暂无解析
4、
下列选项中,用于提交和监控Task任务的是()。
A、DAG Scheduler
B、Task Scheduler
C、Cluster Manager
D、SparkContext
参考答案:
B
答案解析:
暂无解析
5、
下列选项中,用于获取指定行或列的数据的HBase Shell命令是()。
A、create
B、describe
C、count
D、get
参考答案:
D
答案解析:
暂无解析
6、
spark 1.4版本的最大变化是()。
A、spark sql Release 版本
B、引入 Spark R
C、DataFrame
D、支持动态资源分配
参考答案:
B
答案解析:
spark 1.4 版本的最大变化是引入 Spark R。
7、
下列选项,不属于集群管理器的有()。
A、Hadoop Yarn
B、Apache Mesos
C、Local
D、Spark自带的独立调度器
参考答案:
C
答案解析:
暂无解析
8、
下列选项中,不属于Spark自带的服务端口有()。
A、8080
B、4040
C、8090
D、18080
参考答案:
C
答案解析:
暂无解析
9、
SaveMode属于()类型。
A、整数类型
B、浮点类型
C、枚举类型
D、字符串类型
参考答案:
C
答案解析:
暂无解析
10、
Spark集群的任务是由()进行调度的。
A、驱动器
B、执行器
C、集群管理器
D、应用管理器
参考答案:
A
答案解析:
暂无解析
11、
在RDD的转换算子中,主要用于(Key,Value)键值对的数据集,将具有相同Key的Value进行分组,会返回一个新的(Key,Iterable)形式的数据集的转换算子是()。
A、filter()
B、groupByKey()
C、reduceByKey()
D、map()
参考答案:
B
答案解析:
暂无解析
12、
Spark计算框架在分布式环境下对数据处理后的结果进行随机的、实时的存储归功于()。
A、Hive
B、Oracle
C、Mongodb
D、HBase
参考答案:
D
答案解析:
暂无解析
13、
在RDD的行动算子中,用于用于返回数组的第一个元素的行动算子是()。
A、first()
B、count()
C、take(n)
D、reduce()
参考答案:
A
答案解析:
暂无解析
14、
在Spark2.0版本之前,Spark SQL中创建DataFrame和执行SQL的入口是()。
A、HiveContext
B、SparkSession
C、SQLContext
D、SparkContext
参考答案:
C
答案解析:
暂无解析
15、
在DataFrame的操作中,用于实现对列名进行重命名的操作是()。
A、select()
B、show()
C、filter()
D、map()
参考答案:
A
答案解析:
暂无解析
16、
Scala是一种纯粹的面向对象语言,每一个值都是()。
A、类
B、接口
C、特质
D、对象
参考答案:
D
答案解析:
Scala是一种纯粹的面向对象语言,每一个值都是对象。
17、
在Spark运行过程中,每个Job可以划分为更小的Task集合,每组任务被称为()。
A、DAG
B、Block
C、Application
D、Stage
参考答案:
D
答案解析:
暂无解析
18、
Spark中RDD的计算函数的基本单位是()。
A、分区
B、数据块
C、Task
D、Job
参考答案:
A
答案解析:
暂无解析
19、
RDD在Spark中运行时,将作业的DAG划分成不同的Stage的阶段是()。
A、RDD Objects
B、DAGScheduler
C、TaskScheduler
D、Worker
参考答案:
B
答案解析:
暂无解析
20、
DataFrame的结构类似于传统数据库的()。
A、一维表格
B、二维表格
C、三维表格
D、四维表格
参考答案:
B
答案解析:
DataFrame的结构类似于传统数据库的二维表格。
21、
下列选项中,哪个不是Kafka的优点。
A、解耦
B、高吞吐量
C、高延迟
D、容错性
参考答案:
C
答案解析:
Kafka具有低延迟的特性
22、
启动HBase集群的命令是()。
A、start-dfs.sh
B、zkServer.sh start
C、start-hbase.sh
D、start-yarn.sh
参考答案:
C
答案解析:
暂无解析
23、
Task是运行()中Executor的工作单元。
A、Driver program
B、spark master
C、worker node
D、Cluster manager
参考答案:
C
答案解析:
暂无解析
24、
Scala中,数组的遍历方式不包含()。
A、for循环遍历
B、while循环遍历
C、do...while循环遍历
D、do...for循环遍历
参考答案:
D
答案解析:
数组的遍历有三种方式,分别是for循环遍历、while循环遍历以及do...while循环遍历。
25、
下列选项中,对于机器学习的理解错误的是()。
A、机器学习是一种让计算机利用数据来进行各种工作的方法。
B、机器学习是研究如何使用机器人来模拟人类学习活动的一门学科。
C、机器学习是一种使用计算机指令来进行各种工作的方法。
D、机器学习就是让机器能像人一样的有学习、理解、认识的能力。
参考答案:
C
答案解析:
暂无解析
26、
下列说法中,关于Scala说法正确的是()。
A、Scala是由Martin Odersky(马丁•奥德斯基)创建
B、Scala语言和Java语言的作用是相同的
C、Scala是面向过程编程的语言
D、Scala是由杰弗逊创建
参考答案:
A
答案解析:
Scala于2001年由洛桑联邦理工学院(EPFL)的编程方法实验室研发,它由Martin Odersky(马丁·奥德斯基)创建。
27、
下列选项中,说法正确的是哪个?
A、窗口滑动时间间隔必须是批处理时间间隔的倍数。
B、Kafka是Spark Streaming的基础数据源。
C、DStream不可以通过外部数据源获取。
D、reduce(func)是DStream的输出操作。
参考答案:
B
答案解析:
暂无解析
28、
使用Maven Projects工具,双击()选项,即可自动将项目打成Jar包。
A、clean
B、test
C、deploy
D、package
参考答案:
D
答案解析:
暂无解析
29、
Client与HBase进行通信是通过()。
A、RPC协议
B、TCP协议
C、HTTP协议
D、UDP协议
参考答案:
A
答案解析:
暂无解析
30、
Spark SQL的前身是()。
A、SQL
B、Shark
C、Spark RDD
D、MapReduce
参考答案:
B
答案解析:
Spark SQL的前身是Shark。
31、
如果一个训练好的模型在测试集上有100%的准确率, 这是不是意味着在一个新的数据集上,也会有同样好的表现?
A、是的,这说明这个模型的范化能力已经足以支持新的数据集合了
B、不对,依然后其他因素模型没有考虑到,比如噪音数据。
参考答案:
B
答案解析:
没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。
32、
下列选项中,可以用于退出Spark-Shell客户端的命令是()。
A、:quit
B、:wq
C、:q
D、:exit
参考答案:
A
答案解析:
暂无解析
33、
下列选项中,不属于监督学习的方法的是()。
A、KMeans
B、线性回归
C、SVM
D、朴素贝叶斯
参考答案:
A
答案解析:
Kmeans属于非监督学习。
34、
下列方法中,用于计算数组长度的是()。
A、count()
B、take()
C、tail()
D、length()
参考答案:
D
答案解析:
暂无解析
35、
数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是。
A、单个模型之间有高相关性
B、单个模型之间有低相关性
C、在集成学习中使用“平均权重”而不是“投票”会比较好
D、单个模型都是用的一个算法
参考答案:
B
答案解析:
暂无解析
36、
由于Scala是运行在JVM平台上的,所以安装Scala之前必须配置好JDK环境,其中JDK版本要求()。
A、不高于1.5版本
B、不低于1.5版本
C、等于1.5版本
D、任何版本均可
参考答案:
B
答案解析:
由于Scala是运行在JVM平台上的,所以安装Scala之前必须配置好JDK环境(JDK版本要求不低于1.5版本)。
37、
在Maven工程的pom.xml文件中,用于设置所需依赖的版本号的标签是()。
A、<dependency>
B、<groupId>
C、<properties>
D、<artifactId>
参考答案:
C
答案解析:
暂无解析
38、
在HBase表中,列的限定符为()。
A、冒号
B、逗号
C、斜杠
D、下划线
参考答案:
A
答案解析:
暂无解析
39、
下列选项中,不属于Spark的四大组件的是()。
A、Spark Streaming
B、Mlib
C、Graphx
D、Spark R
参考答案:
D
答案解析:
暂无解析
40、
Spark于2009年诞生于()。
A、美国加州大学伯克利分校的AMP实验室
B、加利福尼亚大学伯克利分校
C、宾夕法尼亚大学
D、普林斯顿大学
参考答案:
A
答案解析:
暂无解析
41、
关于Spark Streaming,下列说法错误的是哪一项?
A、Spark Streaming是Spark的核心子框架之一。
B、Spark Streaming具有可伸缩、高吞吐量、容错能力强等特点。
C、Spark Streaming处理的数据源可以来自Kafka。
D、Spark Streaming不能和Spark SQL、Mllib、GraphX无缝集成。
参考答案:
D
答案解析:
Spark Streaming能和Spark SQL、Mllib、GraphX无缝集成
42、
HBase的底层依赖的是()。
A、Hive
B、HDFS
C、Mongodb
D、MySQL
参考答案:
B
答案解析:
暂无解析
43、
DStream的转换操作方法中,哪个方法可以直接调用RDD上的操作方法?
A、transform(func)
B、updateStateByKey(func)
C、countByKey()
D、cogroup(otherStream,[numTasks])
参考答案:
A
答案解析:
暂无解析
44、
如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是()。
A、有向无环
B、无环图
C、有向图
D、无向有环图
参考答案:
A
答案解析:
如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。
45、
在Spark RDD中,划分Stage的依据是()。
A、窄依赖
B、宽依赖
C、窄依赖和宽依赖
D、以上选项均错误
参考答案:
B
答案解析:
在Spark RDD中,宽依赖是划分Stage的依据。
46、
下列选项中,可以支持Scala和Python编程的交互式解释器是()。
A、HBase-Shell
B、Spark-Shell
C、Hadoop-Shell
D、Hive-Shell
参考答案:
B
答案解析:
暂无解析
47、
在Catalyst优化器中,用于将LogicalPlan转换成PhysicalPlan的组件是()。
A、SqlParse
B、Analyze
C、Optimizer
D、Planner
参考答案:
D
答案解析:
暂无解析
48、
在Spark中,调用RDD的()方法,可以将RDD转换为DataFrame对象。
A、show()
B、map()
C、toDF()
D、printSchema()
参考答案:
C
答案解析:
暂无解析
49、
每个Region存储的数据是有限的,如果当Region增大到一个阀值()时,会被等分切成两个新的Region。
A、64M
B、128M
C、256M
D、512M
参考答案:
B
答案解析:
暂无解析
50、
在Scala工程中,.idea文件夹是用于()。
A、存放该工程的代码
B、存放相关依赖
C、存放该工程的配置信息
D、存放测试代码
参考答案:
C
答案解析:
暂无解析
51、
Spark SQL快速的计算效率得益于()。
A、Catalyst
B、Execution
C、Parser
D、Analyzer
参考答案:
A
答案解析:
Spark SQL快速的计算效率得益于Catalyst优化器。
52、
下列选项中,不属于RDD特点的是()。
A、可分区
B、可序列化
C、可修改
D、可持久化
参考答案:
C
答案解析:
暂无解析
53、
Scala中的类不需要关键字public声明为公共的,并且一个Scala源文件中可以拥有()类。
A、单个
B、多个
C、两个
D、三个
参考答案:
B
答案解析:
Scala中的类不需要关键字public声明为公共的,并且一个Scala源文件中可以拥有多个类。
54、
下列选项中,哪个不属于消息系统。
A、Kafka
B、RabbitMQ
C、ActiveMQ
D、Zookeeper
参考答案:
D
答案解析:
暂无解析
55、
下列选项中,哪个选项是每个分区消息的唯一序列标识。
A、Topic
B、Partition
C、Broker
D、Offset
参考答案:
D
答案解析:
暂无解析
56、
下列选项中,Scala编译后文件的后缀名为()。
A、.class
B.bash
C、.pyc
D、.sc
参考答案:
A
答案解析:
暂无解析
57、
Spark Job默认的调度模式是()。
A、FIFO
B、FAIR
C、无
D、运行时指定
参考答案:
A
答案解析:
Spark Job 默认的调度模式是FIFO。
58、
下列选项中,最常见的评价分类器好坏的指标是()。
A、准确率(auc)
B、精确度(precision)
C、召回率(recall)
D、F值
参考答案:
A
答案解析:
暂无解析
59、
以下说法正确的是 :
1. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的。
2. 如果增加模型复杂度, 那么模型的测试错误率总是会降低。
3. 如果增加模型复杂度, 那么模型的训练错误率总是会降低。
4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习。
A、1
B、2
C、3
D、1 and 3
参考答案:
C
答案解析:
暂无解析
60、
DataFrame和RDD最大的区别是()。
A、科学统计支持
B、schema
C、存储方式不一样
D、外部数据源支持
参考答案:
B
答案解析:
暂无解析
61、
下列说法中,关于Scala数据类型说法错误的是()。
A、Scala中的所有值都有一个类型
B、AnyVal类型是所有类型的超类型
C、AnyRef表示引用类型
D、Nothing所有类型的子类型,也称为底部类型
参考答案:
B
答案解析:
Any是所有类型的超类型,也称为顶级类型。
62、
Scala中,用于创建单例对象的关键字是()。
A、new
B、object
C、super
D、def
参考答案:
B
答案解析:
Scala中提供了object这个关键字用来实现单例模式,使用关键字object创建的对象为单例对象。
63、
变量选择是用来选择最好的判别器子集,如果要考虑模型效率,我们应该做哪些变量选择的考虑?
1. 多个变量其实有相同的用处
2. 变量对于模型的解释有多大作用
3. 特征携带的信息
4. 交叉验证
A、14
B、1, 23
C、1,34
D、以上所有
参考答案:
C
答案解析:
注意, 这题的题眼是考虑模型效率,所以不要考虑选项2
64、
Scala提供了强大的模式匹配机制,最常见的模式匹配就是()。
A、match case语句
B、switch case语句
C、if else语句
D、if语句
参考答案:
A
答案解析:
Scala提供了强大的模式匹配机制,最常见的模式匹配就是match case语句。
65、
在RDD的转换算子中,用于将每个元素传递到函数func中,并将结果返回为一个新的数据集的转换算子是()。
A、filter()
B、groupByKey()
C、reduceByKey()
D、map()
参考答案:
D
答案解析:
map(func)操作将每个元素传递到函数func中,并将结果返回为一个新的数据集。
66、
在Scala中,获取元组中的值是通过()来获取的。
A、get()方法
B、角标
C、下划线加角标
D、下划线
参考答案:
C
答案解析:
暂无解析
67、
Spark与Hadoop在基于内存的运算中,说法正确的是()。
A、Spark的运算效率是Hadoop的10倍
B、Spark的运算效率是Hadoop的100倍
C、Hadoop的运算效率是Spark的100倍
D、Hadoop的运算效率是Spark的10倍
参考答案:
B
答案解析:
根据官方数据统计得出,与Hadoop相比,Spark基于内存的运算效率要快100倍以上。
68、
Catalyst优化器内部包含五大组件,分别是()。
A、SqlParse
B、Analyze
C、Optimizer
D、Planner和CostModel
参考答案:
A,B,C,D
答案解析:
暂无解析
69、
HBase表的列是由()字段组成。
A、列族名
B、限定符
C、列名
D、时间戳
参考答案:
A,B,C
答案解析:
暂无解析
70、
下列说法中,关于HBase集群说法正确的是()。
A、HBase集群中只有一个角色
B、HBase集群中有两个角色
C、HRegionServer是HBase集群的从节点
D、HMaster是HBase的主节点
参考答案:
B,C,D
答案解析:
暂无解析
71、
下列选项中,用于Scala语言开发的工具是()。
A、Eclipse
B、PyCharm
C、Notepad++
D、IDEA
参考答案:
A,D
答案解析:
目前Scala的主流开发工具主要有两种:分别是Eclipse工具和IDEA工具。
72、
如果想要实现自定义分区,就需要定义一个类,使得这个自定义的类继承org.apache.spark.Partitioner类,并实现其中的3个方法,这3个方法为()。
A、RangePartitioner()
B、numPartitions()
C、getPartition()
D、equals()
参考答案:
B,C,D
答案解析:
暂无解析
73、
下列说法中,关于Spark SQL说法正确的是()。
A、Spark SQL架构与Hive底层结构完全不同
B、Spark SQL能够通过DataFrame和Dataset操作多种数据源执行SQL查询
C、Spark SQL可以无缝地将SQL查询与Spark程序进行结合
D、以上说法均正确
参考答案:
B,C
答案解析:
暂无解析
74、
下列选项中,属于Spark生态圈的组件有()。
A、Spark SQL
B、Spark Streaming
C、GraphX
D、MLlib
参考答案:
A,B,C,D
答案解析:
暂无解析
75、
Spark SQL作为分布式SQL查询引擎,让用户可以通过()方式实现对结构化数据的处理。
A、SQL
B、Shark
C、DataFrames API
D、Datasets API
参考答案:
A,C,D
答案解析:
Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。
76、
Dataset之所以可以调用封装的方法以并行方式进行转换等操作,是因为它结合了()的优点。
A、RDD
B、DataFrame
C、Spark SQL
D、Object
参考答案:
A,B
答案解析:
暂无解析
77、
Spark编程支持的语言有()。
A、Java
B、JavaScript
C、R
D、Scala
参考答案:
A,C,D
答案解析:
Spark编程支持Java、Python、Scala或R语言。
78、
下列选项中,属于RDD行动算子的有()。
A、foreach(func)
B、collect()
C、take(n)
D、reduceByKey()
参考答案:
A,B,C
答案解析:
暂无解析
79、
下列选项中,属于Scala的数据结构有()。
A、数组
B、元组
C、集合
D、对象
参考答案:
A,B,C
答案解析:
暂无解析
80、
当join算子操作后,分区数量发生变化则为窄依赖。
对
错
参考答案:
错
答案解析:
当join算子操作后,分区数量发生变化则为宽依赖。
81、
由于Shark不依赖于Hive,因此在版本迭代时很容易添加新的优化策略。
对
错
参考答案:
错
答案解析:
由于Shark过于依赖Hive,因此在版本迭代时很难添加新的优化策略。
82、
创建HBase表需要指定列,因为列是不变的。
对
错
参考答案:
错
答案解析:
暂无解析
83、
Scala中声明变量时,可以不给出变量的类型,因为在初始化的时候,Scala的类型推断机制能够根据变量初始化的值自动推算出来。
对
错
参考答案:
对
答案解析:
Scala中声明变量时,可以不给出变量的类型,因为在初始化的时候,Scala的类型推断机制能够根据变量初始化的值自动推算出来。
84、
在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模。
对
错
参考答案:
对
答案解析:
在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模。
85、
密集矩阵是将所有元素的值存储在一个列优先的双精度数组中,而稀疏矩阵则是将以列优先的非零元素压缩到稀疏列(CSC)格式中。
对
错
参考答案:
对
答案解析:
MLlib支持密集矩阵和稀疏矩阵,密集矩阵将所有元素的值存储在一个列优先的双精度数组中,而稀疏矩阵则将以列优先的非零元素压缩到稀疏列(CSC)格式中。
86、
Scala方法的返回值类型必须写,编译器不能自动推断出来,但是对于递归函数来说,必须要指定返回类型。
对
错
参考答案:
错
答案解析:
Scala方法的返回值类型可以不写,编译器可以自动推断出来,但是对于递归函数来说,必须要指定返回类型。
87、
在Scala中,集合有三大类分别是List、Set以及Map。
对
错
参考答案:
对
答案解析:
暂无解析
88、
DataFrame除了提供比RDD更丰富的算子以外,更重要的特点是提升Spark框架执行效率、减少数据读取时间以及优化执行计划。
对
错
参考答案:
对
答案解析:
DataFrame除了提供比RDD更丰富的算子以外,更重要的特点是提升Spark框架执行效率、减少数据读取时间以及优化执行计划。
89、
Scala提供了样例类,它可以对模式匹配进行优化,提高匹配的速率。
对
错
参考答案:
对
答案解析:
暂无解析
90、
一个进程中只能有一个线程在工作,可以处理多个数据分区(例如运行任务、读取或者存储数据)。
对
错
参考答案:
错
答案解析:
一个进程中可以有多个线程在工作,从而可以处理多个数据分区(例如运行任务、读取或者存储数据)。
91、
离线计算和实时计算指的是数据处理的延迟,批量计算和流式计算指的是数据处理的方式。
对
错
参考答案:
对
答案解析:
离线计算和实时计算指的是数据处理的延迟,批量计算和流式计算指的是数据处理的方式。
92、
Dataset提供了特定域对象中的强类型集合,也就是在RDD的每行数据中添加了类型约束条件,只有约束条件的数据类型才能正常运行。
对
错
参考答案:
对
答案解析:
Dataset提供了特定域对象中的强类型集合,也就是在RDD的每行数据中添加了类型约束条件,只有约束条件的数据类型才能正常运行。
93、
HBase分布式数据库的数据存储在行列式的表格中,它是一个多维度的映射模型。
对
错
参考答案:
对
答案解析:
暂无解析
94、
主题的数据分割为一个或多个分区,每个分区的数据使用多个segment文件存储,分区中的数据是有序的。
对
错
参考答案:
对
答案解析:
暂无解析
95、
truncate命令用于删除整个表,数据和结构都删除。
对
错
参考答案:
错
答案解析:
暂无解析
96、
一个消费者组里它的内部数据是有序的,消费者组与消费者组之间是无序的。
对
错
参考答案:
对
答案解析:
一个消费者组里它的内部数据是有序的,消费者组与消费者组之间是无序的。
97、
Spark Streaming中,不可以通过RDD的转换算子生成新的DStream。
对
错
参考答案:
错
答案解析:
Spark Streaming中,可以通过RDD的转换算子生成新的DStream。
98、
DAG是一种非常重要的图论数据结构。
对
错
参考答案:
对
答案解析:
DAG是一种非常重要的图论数据结构。
99、
由于HBase是Google Bigtable的开源实现,因此它们是相同的。
对
错
参考答案:
错
答案解析:
暂无解析
100、
在Linux系统下执行“nc –lk 9999”命令启动服务端且监听socket服务。
对
错
参考答案:
对
答案解析:
在Linux系统下执行“nc –lk 9999”命令启动服务端且监听socket服务。
101、
部署Spark高可用集群不需要用到Zookeeper服务。
对
错
参考答案:
错
答案解析:
暂无解析
102、
Task Scheduler将Worker发送给Task进程中的Executor运行并提供应用程序代码。
对
错
参考答案:
错
答案解析:
Task Scheduler将Task发送给Worker进程中的Executor运行并提供应用程序代码。
103、
在数据准备阶段,可直接将采集到的数据进行机器学习算法训练。
对
错
参考答案:
错
答案解析:
在数据准备阶段,需要将数据收集系统采集的原始数据进行数据预处理,清洗后的数据便于提取特征字段与标签字段,从而生产机器学习所需的数据格式。
104、
当RDD对象创建后,SparkContext会根据RDD对象构建DAG有向无环图,然后将Task提交给DAGScheduler。
对
错
参考答案:
对
答案解析:
当RDD对象创建后,SparkContext会根据RDD对象构建DAG有向无环图,然后将Task提交给DAGScheduler。
105、
DataFrame提供了两种语法风格,即DSL风格语法和SQL风格语法。
对
错
参考答案:
对
答案解析:
DataFrame提供了两种语法风格,即DSL风格语法和SQL风格语法。
106、
Apache Spark Streaming是Apache公司非开源的实时计算框架。
对
错
参考答案:
错
答案解析:
Apache Spark Streaming是Apache公司开源的实时计算框架。
107、
Scala有两种类型的变量,一种是使用关键字var声明的常量,值是不可变的;另一种是使用关键字val声明的变量,值是可变的。
对
错
参考答案:
错
答案解析:
Scala有两种类型的变量,一种是使用关键字var声明的变量,值是可变的;另一种是使用关键字val声明的变量,也叫常量,值是不可变的。
108、
在Yarn模式下,Spark集群中的资源管理器是Master。
对
错
参考答案:
错
答案解析:
在Yarn模式下,Spark集群中的资源管理器是ResourceManager。
109、
HBase利用Chubby作为协调服务作用。
对
错
参考答案:
错
答案解析:
HBase利用Zookeeper作为协调服务作用。
110、
Null是所有引用类型的子类型,主要用途是与其他JVM语言互操作,几乎不在Scala代码中使用。
对
错
参考答案:
对
答案解析:
Null是所有引用类型的子类型,主要用途是与其他JVM语言互操作,几乎不在Scala代码中使用。
111、
Spark集群可以包含一台Master节点和两台Slave节点。
对
错
参考答案:
对
答案解析:
Spark集群可以包含一台Master节点和两台Slave节点。
112、
Executor会向SparkContext进行反向注册并申请Task。
对
错
参考答案:
对
答案解析:
Executor会向SparkContext进行反向注册并申请Task。
113、
Worker Node为执行器的工作单元。
对
错
参考答案:
错
答案解析:
Task(任务)是执行器的工作单元。
114、
RDD的持久化操作有两种方法,分别是cache()方法和persist()方法。
对
错
参考答案:
对
答案解析:
RDD的持久化操作有两种方法,分别是cache()方法和persist()方法。
115、
点对点消息传递模式结构中,生产者发送一条数据,消息将持久化到一个队列中,数据可以被有序重复处理。
对
错
参考答案:
错
答案解析:
点对点消息传递模式结构中,消息是通过一个虚拟通道进行传输的,生产者发送一条数据,消息将持久化到一个队列中,此时将有一个或者多个消费者会消费队列中的数据,但是一条消息只能被消费一次,并且消费后的消息会从消息队列中删除,因此,即使有多个消费者同时消费数据,数据都可以被有序处理。
116、
Scala用scalac编译器把源文件编译成Java的class文件(即在JVM上运行的字节码)。
对
错
参考答案:
对
答案解析:
暂无解析
117、
Spark SQL使用的数据抽象并非是DataFrame,而是RDD。
对
错
参考答案:
错
答案解析:
Spark SQL使用的数据抽象并非是RDD,而是DataFrame。
118、
Apache Flink仅支持实时处理,并且支持高吞吐、高效率的处理能力。
对
错
参考答案:
错
答案解析:
Apache Flink不仅可以支持离线处理,还可以支持实时处理。由于离线处理和实时处理所提供的SLA(服务等级协议)是完全不相同的,所以离线处理一般需要支持低延迟的保证,而实时处理则需要支持高吞吐、高效率的处理。
119、
Spark计算框架在处理数据时,所有的中间数据都保存在磁盘中。
对
错
参考答案:
错
答案解析:
暂无解析
120、
对于宽依赖来说,RDD分区的转换处理是在一个线程里完成,所以宽依赖会被Spark划分到同一个Stage中。
对
错
参考答案:
错
答案解析:
对于窄依赖来说,RDD分区的转换处理是在一个线程里完成,所以窄依赖会被Spark划分到同一个Stage中。
121、
机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。
对
错
参考答案:
错
答案解析:
暂无解析
122、
在Mac下,执行“scala -version”命令,可以测试scala安装情况。
对
错
参考答案:
对
答案解析:
在Mac下,执行“scala -version”命令,可以测试scala安装情况。
123、
take()主要用于通过函数func(输入两个参数并返回一个值)聚合数据集中的元素。
对
错
参考答案:
错
答案解析:
暂无解析
124、
Kafka采用消费者组统一了点对点消息传递模式和发布订阅消息传递模式,当Kafka使用点对点模式时,它可以将处理工作任务平均分配给消费组中的消费者成员;当使用发布订阅模式时,它可以将消息广播给多个消费组。
对
错
参考答案:
对
答案解析:
Kafka使用消费组(Consumer Group)的概念统一了点对点消息传递模式和发布订阅消息传递模式,当Kafka使用点对点模式时,它可以将处理工作任务平均分配给消费组中的消费者成员;当使用发布订阅模式时,它可以将消息广播给多个消费组。Kafka采用多个消费组结合多个消费者,既可以扩展消息处理的能力,也允许消息被多个消费组订阅。
125、
Partitioner函数不能决定RDD本身的分区数量,也不能决定parent RDD Shuffle输出时的分区数量。
对
错
参考答案:
错
答案解析:
暂无解析
126、
Spark SQL不仅能够查询MySQL数据库中的数据,还可以向表中插入新的数据。
对
错
参考答案:
对
答案解析:
Spark SQL不仅能够查询MySQL数据库中的数据,还可以向表中插入新的数据。
127、
在启动HBase集群之前,必须要保证集群中各个节点的时间是同步的,若不同步会抛出ClockOutOfSyncException异常,导致从节点无法启动。
对
错
参考答案:
对
答案解析:
在启动HBase集群之前,必须要保证集群中各个节点的时间是同步的,若不同步会抛出ClockOutOfSyncException异常,导致从节点无法启动。
128、
Scala中,定义定长数组需要使用new关键字,而定义变长数组时,则需要导包import scala.collection.mutable.ArrayBuffer。
对
错
参考答案:
对
答案解析:
暂无解析
129、
无论是在Scala中还是Java中,对象都是类的抽象,而类都是对象的具体实例;对象不占用内存,而类占用存储空间。
对
错
参考答案:
错
答案解析:
无论是在Scala中还是Java中,类都是对象的抽象,而对象都是类的具体实例;类不占用内存,而对象占用存储空间。
130、
Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。
对
错
参考答案:
对
答案解析:
Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。
131、
join算子操作既可以属于窄依赖,也可以属于宽依赖。
对
错
参考答案:
对
答案解析:
join算子操作既可以属于窄依赖,也可以属于宽依赖。
132、
DataFrame可以从很多数据源中创建,例如结构化文件、外部数据库、Hive表等数据源。
对
错
参考答案:
对
答案解析:
DataFrame可以从很多数据源中创建,例如结构化文件、外部数据库、Hive表等数据源。
133、
在DataFrame的操作中,filter()用于实现对特定字段进行排序操作。
对
错
参考答案:
错
答案解析:
filter()用于实现条件查询,过滤出想要的结果。
134、
Scala提供了重量级的语法用于定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持柯里化。
对
错
参考答案:
错
答案解析:
Scala提供了轻量级的语法用于定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持柯里化。
135、
如果子类要重写一个父类中的非抽象方法,则必须使用override关键字,否则会出现语法错误。
对
错
参考答案:
对
答案解析:
如果子类要重写一个父类中的非抽象方法,则必须使用override关键字,否则会出现语法错误。
136、
Kafka Streams是Apache Kafka开源项目的一个流处理框架,它是基于Kafka的生产者和消费者,为开发者提供了流式处理的能力,具有低延迟性、高扩展性、弹性、容错的特点,易于集成到现有的应用程序中。
对
错
参考答案:
对
答案解析:
Kafka Streams是Apache Kafka开源项目的一个流处理框架,它是基于Kafka的生产者和消费者,为开发者提供了流式处理的能力,具有低延迟性、高扩展性、弹性、容错的特点,易于集成到现有的应用程序中。
137、
Analyze主要完成绑定工作,将不同来源的Unresolved LogicalPlan和元数据进行绑定,生成Resolved LogicalPlan。
对
错
参考答案:
对
答案解析:
Analyze主要完成绑定工作,将不同来源的Unresolved LogicalPlan和元数据进行绑定,生成Resolved LogicalPlan。
138、
Spark SQL支持访问Hive数据仓库,并在Spark引擎中进行统计分析。
对
错
参考答案:
对
答案解析:
Spark SQL支持访问Hive数据仓库,并在Spark引擎中进行统计分析。
139、
Kafka具有故障容错的特性,每个分区都会以副本的方式复制到其它Broker节点上,副本分区数可以自定义设置。
对
错
参考答案:
对
答案解析:
副本分区数量可以在server.properties配置文件中设置
140、
flatMap(func)map(func)相似,应用于(Key,Value)键值对的数据集时,返回一个新的(Key,Iterable <Value>)形式的数据集。
对
错
参考答案:
错
答案解析:
暂无解析
141、
执行“bin/hbase shell”命令进入HBase Shell交互界面。
对
错
参考答案:
对
答案解析:
执行“bin/hbase shell”命令进入HBase Shell交互界面。
142、
HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。
对
错
参考答案:
对
答案解析:
HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。
143、
Kafka是专门为分布式高吞吐量系统而设计开发的。
对
错
参考答案:
对
答案解析:
暂无解析
144、
HBase中写数据的流程其实就是寻址的流程。
对
错
参考答案:
错
答案解析:
HBase中读数据的流程其实就是寻址的流程。
145、
Spark Streaming能够实时接收输入的数据流并立即处理,在底层数据会转换成RDD交由Spark引擎处理。
对
错
参考答案:
错
答案解析:
Spark Streaming先接收实时输入的数据流,并且将数据按照一定的时间间隔分成一批批的数据,每一段数据都转变成Spark中的RDD,接着交由Spark引擎进行处理,最后将处理结果数据输出到外部储存系统。
146、
Scala中,使用关键字var或val声明变量时,后面紧跟的变量名称可以和Scala中的保留字重名,而且变量名不可以以字母或下划线开头,且变量名是不区分大小写的。
对
错
参考答案:
错
答案解析:
使用关键字var或val声明变量时,后面紧跟的变量名称不能和Scala中的保留字重名,而且变量名可以以字母或下划线开头,且变量名是严格区分大小写的。
147、
Spark SQL与Hive相互不兼容。
对
错
参考答案:
错
答案解析:
Spark SQL与Hive相互兼容。
148、
Cluster Manager负责整个集群的统一资源管理,Worker节点中的Executor是应用执行的主要进程,内部含有多个Task线程以及内存空间。
对
错
参考答案:
对
答案解析:
Cluster Manager负责整个集群的统一资源管理,Worker节点中的Executor是应用执行的主要进程,内部含有多个Task线程以及内存空间。
149、
DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间分隔开来的数据集。
对
错
参考答案:
对
答案解析:
DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段时间分隔开来的数据集。
150、
在HBase集群中,Zookeeper用于监控HRegionServer的状态。
对
错
参考答案:
对
答案解析:
在HBase集群中,Zookeeper用于监控HRegionServer的状态。
151、
二元分类的相关算法包含线性支持向量机、逻辑回归、随机森林、朴素贝叶斯等。
对
错
参考答案:
错
答案解析:
随机森林、朴素贝叶斯是多元回归的算法
152、
,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。
对
错
参考答案:
对
答案解析:
,Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。
153、
Apache Hive是Spark上的SQL引擎,也是大数据系统中重要的数据仓库工具。
对
错
参考答案:
错
答案解析:
Apache Hive是Hadoop上的SQL引擎,也是大数据系统中重要的数据仓库工具。
154、
由于Column是HBase表的唯一标识,因此Column的设计非常重要。
对
错
参考答案:
错
答案解析:
由于RowKey是HBase表的唯一标识,因此RowKey的设计非常重要。
155、
HFile负责记录HBase修改。
对
错
参考答案:
错
答案解析:
HLog负责记录HBase修改。
156、
对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在本地磁盘中,若是后面需要中间结果参与计算时,则可以直接从磁盘中读取,从而可以极大地提高计算速度。
对
错
参考答案:
错
答案解析:
对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,若是后面需要中间结果参与计算时,则可以直接从内存中读取,从而可以极大地提高计算速度。
157、
在HBase集群中,不会出现单点故障的问题。
对
错
参考答案:
错
答案解析:
暂无解析
158、
DataFrame可以看作是分布式的Row对象的集合。
对
错
参考答案:
对
答案解析:
DataFrame可以看作是分布式的Row对象的集合。
159、
Consumer是数据的生产者,Producer是数据的消费者。
对
错
参考答案:
错
答案解析:
Consumer是数据的消费者,Producer是数据的生产者。
160、
行动算子主要是将在数据集上运行计算后的数值返回到驱动程序,从而触发真正的计算。
对
错
参考答案:
对
答案解析:
行动算子主要是将在数据集上运行计算后的数值返回到驱动程序,从而触发真正的计算。
161、
flatMap(func)方法与map(func)方法相似,因此可以任意使用。
对
错
参考答案:
错
答案解析:
flatMap与map()相似,但是每个输入的元素都可以映射0或者多个输出结果
162、
“--master”参数用于指定Master节点的地址。
对
错
参考答案:
对
答案解析:--master”参数用于指定Master节点的地址。
163、
Apache Storm可以简单、高效、可靠地实时处理海量数据,处理数据的速度达到毫秒级别,并将处理后的结果数据保存到持久化介质中(如数据库、HDFS)。
对
错
参考答案:
对
答案解析:
Apache Storm可以简单、高效、可靠地实时处理海量数据,处理数据的速度达到毫秒级别,并将处理后的结果数据保存到持久化介质中(如数据库、HDFS)。
164、
Spark不支持在各种集群管理器(Cluster Manager)上运行。
对
错
参考答案:
错
答案解析:
暂无解析
165、
Kafka采用拉取模型,由消费者记录消费状态,根据主题、Zookeeper集群地址和要消费消息的偏移量,每个消费者互相独立地按顺序读取每个分区的消息
对
错
参考答案:
对
答案解析:
Kafka采用拉取模型的消费方式,它可简化消息代理的设计,消费者可自主控制消费消息的速率以及消费方式(批量消费、逐条消费),同时还能选择不同的提交方式从而实现不同的传输语义。
166、
在处理结构化数据时,开发人员无需编写MapReduce程序,直接使用SQL命令就能完成更加复杂的数据查询操作。
对
错
参考答案:
对
答案解析:
在处理结构化数据时,开发人员无需编写MapReduce程序,直接使用SQL命令就能完成更加复杂的数据查询操作。
167、
通过反射机制推断Schema实现RDD转换DataFrame时,不需要定义一个case class样例类。
对
错
参考答案:
错
答案解析:
暂无解析
168、
local[*]表示的是使用一个Worker线程本地化运行Spark。
对
错
参考答案:
错
答案解析:
local表示的是使用一个Worker线程本地化运行Spark。
169、
Spark2.0之后,Spark使用全新的SparkContext接口替代SQLContext及HiveContext接口完成数据的加载、转换、处理等功能。
对
错
参考答案:
错
答案解析:
Spark2.0之后,Spark使用全新的SparkSession接口替代SQLContext及HiveContext接口完成数据的加载、转换、处理等功能。
170、
Application中包含了多个驱动器(Driver)进程和集群上的单个执行器(Executor)进程。
对
错
参考答案:
错
答案解析:
Application中包含了一个驱动器(Driver)进程和集群上的多个执行器(Executor)进程。
171、
HBase就可以随着存储数据的不断增加而实时动态的增加列。
对
错
参考答案:
对
答案解析:
HBase就可以随着存储数据的不断增加而实时动态的增加列。
172、
在Scala中,在一个源文件中有一个类和一个单例对象,若单例对象名与类名相同,则把这个单例对象称作伴生对象(companion object)。
对
错
参考答案:
对
答案解析:
暂无解析
173、
资源文件夹中存放测试的源码文件,测试文件夹中存放开发中项目的源码文件。
对
错
参考答案:
错
答案解析:
资源文件夹中存放项目源码文件,测试文件夹中存放开发中测试的源码文件。
174、
Kafka集群部署依赖于Java环境和Zookeeper服务,因此在安装Kafka集群时,需要首先配置JDK环境和Zookeeper服务。
对
错
参考答案:
对
答案解析:
Kafka集群部署依赖于Java环境和Zookeeper服务
175、
本地向量分为密集向量和稀疏向量,密集向量是两个并列的数组(索引、值)支持,而稀疏向量是由Double类型的数组支持。
对
错
参考答案:
错
答案解析:
本地向量分为密集向量(Dense)和稀疏向量(Sparse),密集向量是由Double类型的数组支持,而稀疏向量是由两个并列的数组(索引、值)支持。
176、
HBase支持使用SQL语法。
对
错
参考答案:
错
答案解析:
HBase不支持使用SQL语法。
177、
发布订阅模式可以有多种不同的订阅者,发布者发布的消息会被持久化到一个主题中,订阅者可以订阅一个或多个主题。
对
错
参考答案:
对
答案解析:
暂无解析
178、
Hive 1.x将与HBase 0.98.x及更低版本保持兼容,而Hive 2.x将与HBase 1.x及更高版本兼容。
对
错
参考答案:
对
答案解析:
Hive 1.x将与HBase 0.98.x及更低版本保持兼容,而Hive 2.x将与HBase 1.x及更高版本兼容。
179、
标注点是一种带有标签的本地向量,通常用于非监督学习算法中。
对
错
参考答案:
错
答案解析:
暂无解析
180、
Scala中的Trait可以对定义的字段和方法进行实现,Java中的接口也可以。
对
错
参考答案:
错
答案解析:
暂无解析
181、
在Kafka中,若想建立生产者和消费者互相通信,就必须提前创建一个“公共频道”,它就是我们所说的主题(Topic)。
对
错
参考答案:
对
答案解析:
暂无解析
182、
Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是由Java语言开发实现的。
对
错
参考答案:
错
答案解析:
Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是由Scala语言开发实现的。
183、
HBase作为Hadoop的子项目来进行开发维护,用于支持非结构化的海量数据存储。
对
错
参考答案:
错
答案解析:
HBase作为Hadoop的子项目来进行开发维护,用于支持结构化的海量数据存储。
184、
Scala的元组是对多个同类型对象的一种简单封装,它将不同的值用小括号括起来,并用逗号作分隔,即表示元组。
对
错
参考答案:
对
答案解析:
Scala的元组是对多个同类型对象的一种简单封装,它将不同的值用小括号括起来,并用逗号作分隔,即表示元组。
185、
启用WAL日志将接收到数据同步地保存到分布式文件系统上(如HDFS),用于将丢失的数据能够及时恢复。
对
错
参考答案:
对
答案解析:
当Driver处理Spark Executors中的job时,默认是会出现数据丢失的情况,此时,如果我们启用WAL日志将接收到数据同步地保存到分布式文件系统上(如HDFS),当数据由于某种原因丢失时,丢失的数据能够及时恢复
186、
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。
对
错
参考答案:
对
答案解析:
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。
187、
启动Kafka服务需要依赖Zookeeper服务,因此启动Kafka服务前首先启动Zookeeper集群。
对
错
参考答案:
对
答案解析:
Kafka服务启动前,需要先启动Zookeeper集群服务
188、
独立调度器是Spark的核心组件,实现了Spark的基本功能。
对
错
参考答案:
错
答案解析:
Spark Core是Spark核心组件,它实现了Spark的基本功能。
189、
逻辑回归又称为逻辑回归分析,是一种狭义的线性回归分析模型。
对
错
参考答案:
错
答案解析:
逻辑回归又称为逻辑回归分析,是一种广义的线性回归分析模型。
190map(func)方法是将源DStream的每个元素,传递到函数func中进行转换操作,得到一个新的DStream。
对
错
参考答案:
对
答案解析:
暂无解析
191、
标注点的实现类是org.apache.spark.mllib.LabeledPoint。
对
错
参考答案:
错
答案解析:
标注点的实现类是org.apache.spark.mllib.regression.LabeledPoint
192、
目前,最为流行的推荐系统所应用的算法是协同过滤,协同过滤通常用于推荐系统,这项技术是为了填补关联矩阵的缺失项,从而实现推荐效果。
对
错
参考答案:
对
答案解析:
协同过滤通常用于推荐系统,这项技术是为了填补关联矩阵的缺失项,从而实现推荐效果
193、
注解@Before,用于Junit单元测试中控制程序最先执行的注解。
对
错
参考答案:
对
答案解析:
注解@Before,用于Junit单元测试中控制程序最先执行的注解。
194、
“--class”参数用于指定运行主类的全路径名称。
对
错
参考答案:
对
答案解析:--class”参数用于指定运行主类的全路径名称。
195、
Leader负责所有客户端的读写操作,Follower负责从它的Leader中同步数据,当Leader发生故障时,Follower就会从该副本分区的Follower角色中选取新的Leader。
对
错
参考答案:
对
答案解析:
Leader负责所有客户端的读写操作,Follower负责从它的Leader中同步数据,当Leader发生故障时,Follower就会从该副本分区的Follower角色中选取新的Leader。
196、
设置检查点(checkPoint)方式,本质上是将RDD写入内存进行存储。
对
错
参考答案:
错
答案解析:
设置检查点(checkPoint)方式,本质上是将RDD写入磁盘进行存储。
197、
一个HRegion Server上只能存储一个Region。
对
错
参考答案:
错
答案解析:
暂无解析
198、
Hadoop的MapReduce进行计算时,每次产生的中间结果都是存储在内存中;而Spark在计算时产生的中间结果存储在本地磁盘中。
对
错
参考答案:
错
答案解析:
Hadoop的MapReduce进行计算时,每次产生的中间结果都是存储在本地磁盘中;而Spark在计算时产生的中间结果存储在内存中。
199、
Kafka是由Twitter软件基金会开发的一个开源流处理平台。
对
错
参考答案:
错
答案解析:
Kafka是由Apache软件基金会开发的一个开源流处理平台
200、
updateStateByKey()返回一个新状态的DStream,其中通过在键的前一个状态和键的新值应用指定函数来更新每一个键的状态。
对
错
参考答案:
对
答案解析:
暂无解析
201、
在Spark Streaming中,DStream的输出操作是真正触发DStream上所有转换操作进行计算。
对
错
参考答案:
对
答案解析:
在Spark Streaming中,DStream的输出操作是真正触发DStream上所有转换操作进行计算。
202、
MLlib支持读取LIBSVM的格式数据,LIBSVM格式是一种每一行表示一个标签稀疏向量的文本格式。
对
错
参考答案:
对
答案解析:
暂无解析
203、
Kafka Streams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据不可以重新写回Kafka,但可以发送给外部存储系统。
对
错
参考答案:
错
答案解析:
Kafka Streams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据可以重新写回Kafka,也可以发送给外部存储系统。
204、
Spark SQL提供了一个编程抽象结构叫做DataFrame的数据模型。
对
错
参考答案:
对
答案解析:
Spark SQL提供了一个编程抽象结构叫做DataFrame的数据模型。
205、
从HiveQL被解析成语法抽象树起,执行计划生成和优化的工作全部交给Spark SQL的Analyzer分析器进行负责和管理。
对
错
参考答案:
错
答案解析:
暂无解析
206、
Zookeeper中存储的是ROOT表的数据。
对
错
参考答案:
对
答案解析:
Zookeeper中存储的是ROOT表的数据。
207、
优先位置列表会存储每个 Partition的优先位置,对于一个HDFS文件来说,就是每个Partition块的位置。
对
错
参考答案:
对
答案解析:
优先位置列表会存储每个 Partition的优先位置,对于一个HDFS文件来说,就是每个Partition块的位置。
208、
DataFrame可以通过“as[ElementType]”方法转换为Dataset。
对
错
参考答案:
对
答案解析:
DataFrame可以通过“as[ElementType]”方法转换为Dataset。
209、
Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中。
对
错
参考答案:
对
答案解析:
Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中。
210、
Scala中可以使用def语句和val语句定义函数,而定义方法只能使用def语句。
对
错
参考答案:
对
答案解析:
Scala中可以使用def语句和val语句定义函数,而定义方法只能使用def语句。
211、
RDD采用了惰性调用。
对
错
参考答案:
对
答案解析:
暂无解析
212、
send()方法中有三个参数,第一个参数是指定发送主题,第二个参数是设置消息的Key,第三个参数是消息的Value
对
错
参考答案:
对
答案解析:
暂无解析
213、
Scala语言和Java语言类似,只允许继承【】父类。
参考答案:
【一个】
答案解析:
暂无解析
214、
在集群中提交Spark作业时,用于指定每个Executor使用的CPU核心数为1个的参数是【】。
参考答案:--total-executor-cores 1】
答案解析:
暂无解析
215、
在Spark的TaskScheduler阶段,是通过【】管理Task。
参考答案:
【TaskSetManager】
答案解析:
在Spark的TaskScheduler阶段,是通过TaskSetManager管理Task。
216、
通常,机器学习的学习形式分类有【】和无监督学习。
参考答案:
【有监督学习】
答案解析:
暂无解析
217、
在Scala中,使用【】关键字来定义的类被称为样例类。
参考答案:
【case】
答案解析:
在Scala中,使用case关键字来定义的类被称为样例类。
218、
【】表示行键,每个HBase表中只能有一个行键,它在HBase中以字典序的方式存储。
参考答案:
【RowKey】
答案解析:
RowKey表示行键,每个HBase表中只能有一个行键,它在HBase中以字典序的方式存储。
219、
使用drop命令时,需要先使用【】将数据表变为禁用状态。
参考答案:
【disable】
答案解析:
使用drop命令时,需要先使用disable将数据表变为禁用状态。
220、
Spark兼容【】、Hive,可以很好地与Hadoop系统融合,从而弥补MapReduce高延迟的性能缺点。
参考答案:
【HDFS】
答案解析:
Spark还兼容HDFS、Hive,可以很好地与Hadoop系统融合,从而弥补MapReduce高延迟的性能缺点。
221、
SaveMode的参数分别有【】、“Overwrite”、【】、“Ignore”四个值。
参考答案:
【Append】【ErrorIfExists】
答案解析:
暂无解析
222、
操作HBase常用的方式有两种,一种是【】,另一种是Java API。
参考答案:
【Shell命令行】
答案解析:
操作HBase常用的方式有两种,一种是Shell命令行,另一种是Java API。
223、
Scala语言可以运行在Windows、【】、Mac OS等系统上。
参考答案:
【Linux】
答案解析:
Scala语言可以运行在Windows、Linux、Mac OS等系统上。
224、
在Spark的DAGScheduler阶段,每个【】都是TaskSet任务集合。
参考答案:
【Stage】
答案解析:
暂无解析
225、
KafkaUtils里面提供了两个创建DStream的方式,一种是【】方式,另一种为KafkaUtils.createDirectStream方式。
参考答案:
【KafkaUtils.createDstream】
答案解析:
KafkaUtils里面提供了两个创建DStream的方式,一种是KafkaUtils.createDstream方式,另一种为KafkaUtils.createDirectStream方式。
226、
创建Scala一共有三种类型,分别是Class、【】和Trait。
参考答案:
【Object】
答案解析:
创建Scala一共有三种类型,分别是Class、Object和Trait。
227、
在Spark-Shell中,执行【】命令提交任务。
参考答案:
【spark-submit】
答案解析:
暂无解析
228、
HBase和Hive进行整合,不能将数据直接插入到与HBase关联的Hive表中,需要创建【】。
参考答案:
【中间表】
答案解析:
暂无解析
229、
【】是一种不代表任何意义的值类型,它的作用类似Java中的void。
参考答案:
【Unit】
答案解析:
暂无解析
230、
只有对于(Key,Value)的RDD,才会有Partitioner(分区),非(Key,Value)的RDD的Parititioner的值是【】。
参考答案:None】
答案解析:
只有对于(Key,Value)的RDD,才会有Partitioner(分区),非(Key,Value)的RDD的Parititioner的值是None231、
当HBase表查询数据遵循的是【】。
参考答案:
【寻址机制】
答案解析:
当HBase表查询数据遵循的是寻址机制。
232、
【】是Spark用来处理结构化数据的一个模块。
参考答案:
【Spark SQL】
答案解析:
Spark SQL是Spark用来处理结构化数据的一个模块。
233、
通过【】或SQL处理数据,Spark 优化器(Catalyst)会自动优化,即使我们写的程序或SQL不高效,程序也可以高效的执行。
参考答案:
【DataFrame API】
答案解析:
通过DataFrame API或SQL处理数据,Spark 优化器(Catalyst)会自动优化,即使我们写的程序或SQL不高效,程序也可以高效的执行。
234、
Mllib库的主要数据类型包括【】、标注点、【】。
参考答案:
【本地向量】【本地矩阵】
答案解析:
MLlib的主要数据类型包括本地向量、标注点、本地矩阵。本地向量与本地矩阵是提供公共接口的简单数据模型,Breeze和Jblas提供了底层的线性代数运算。在监督学习中使用标注点类型表示训练样本。
235、
当前Spark中实现了两种类型的分区函数,一个是基于哈希的【】,另外一个是基于范围的RangePartitioner。
参考答案:
【HashPartitioner】
答案解析:
当前Spark中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangePartitioner。
236、
若需要停止HBase集群,则执行【】命令。
参考答案:
【stop-hbase.sh】
答案解析:
若需要停止HBase集群,则执行stop-hbase.sh命令。
237、
在数据准备阶段,通常将数据随机分为3个模块,即训练数据模块、【】和测试数据模块。
参考答案:
【验证数据模块】
答案解析:
在数据准备阶段,通常将数据随机分为3个部分,即训练数据模块、验证数据模块和测试数据模块。
238、
Yarn模式又分为【】和Yarn Client模式。
参考答案:
【Yarn Cluster模式】
答案解析:
暂无解析
239、
在创建DataFrame之前,为了支持RDD转换成DataFrame及后续的SQL操作,需要导入spark.implicits._包启用【】。
参考答案:
【隐式转换】
答案解析:
暂无解析
240、
在流式计算框架的模型中,通常需要构建数据流的拓扑结构,Kafka流处理框架同样是将输入主题->【】->输出主题抽象成一个DAG拓扑图。
参考答案:
【自定义处理器】
答案解析:
暂无解析
241、
在数据处理应用中,大数据工程师将Spark技术应用于广告、【】、推荐系统等业务中。
参考答案:
【报表】
答案解析:
暂无解析
242、
【】对Executor进行状态监控,如果监控到Executor失败,则会立刻重新创建。
参考答案:
【Cluster Manager】
答案解析:
Cluster Manager对Executor进行状态监控,如果监控到Executor失败,则会立刻重新创建。
243、
Spark SQL复用了Hive提供的【】、HiveQL、【】以及序列化和反序列工具(SerDes)。
参考答案:
【元数据仓库(Metastore)】【用户自定义函数(UDF)】
答案解析:
Spark SQL复用了Hive提供的元数据仓库(Metastore)、HiveQL、用户自定义函数(UDF)以及序列化和反序列工具(SerDes)。
244、
Scala类抽象机制的扩展通过两种途径实现,一种是【】,另一种是混入机制,这两种途径都能够避免多重继承的问题。
参考答案:
【子类继承】
答案解析:
暂无解析
245、
根据RDD之间依赖关系的不同可以将DAG划分成不同的【】。
参考答案:
【Stage(调度阶段)】
答案解析:
根据RDD之间依赖关系的不同可以将DAG划分成不同的Stage(调度阶段)246、
当Case类不能提前定义的时候,就需要采用【】来实现RDD转换成DataFrame。
参考答案:
【编程方式定义Schema信息】
答案解析:
当Case类不能提前定义的时候,就需要采用编程方式定义Schema信息来实现RDD转换成DataFrame。
247、
Scala旨在与流行的【】进行良好的交互操作。
参考答案:
【Java Runtime Environment(JRE)】
答案解析:
暂无解析
248、
在Spark 1.3.0版本之前,DataFrame被称为【】。
参考答案:
【SchemaRDD】
答案解析:
在Spark 1.3.0版本之前,DataFrame被称为SchemaRDD。
249、
按照【】的理念,Spark在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。
参考答案:
【移动数据不如移动计算】
答案解析:
按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。
250、
Spark为RDD提供了两个重要的机制,分别是持久化机制(即缓存机制)和【】。
参考答案:
【容错机制】
答案解析:
暂无解析
251、
在Scala中,Map是一种可迭代的【】结构,并且键是唯一的,值不一定是唯一的,所有的值都是通过键来获取的。
参考答案:
【键值对(key/value)】
答案解析:
暂无解析
252、
在Spark安装目录下,执行【】命令可以启动Spark集群。
参考答案:
【sbin/start-all.sh】
答案解析:
暂无解析
253、
【】是指将Spark程序提交至Spark集群中执行任务,由Spark集群负责资源的调度,程序会被框架分发到集群中的节点上并发地执行。
参考答案:
【集群模式】
答案解析:
集群模式是指将Spark程序提交至Spark集群中执行任务,由Spark集群负责资源的调度,程序会被框架分发到集群中的节点上并发地执行。
254、
MLlib支持的本地矩阵包含【】、稀疏矩阵两种类型。
参考答案:
【密集矩阵】
答案解析:
暂无解析
255、
Hadoop的MapReduce在计算数据时,计算过程必须要转化为【】和Reduce两个过程。
参考答案:
【Map】
答案解析:
Hadoop的MapReduce在计算数据时,计算过程必须要转化为Map和Reduce两个过程。
256、
测试数据集是为了验证最佳模型,避免【】问题。
参考答案:
【过拟合】
答案解析:
暂无解析
257、
RDD提供了两种故障恢复的方式,分别是【】和设置检查点(checkpoint)方式。
参考答案:
【血统(Lineage)方式】
答案解析:
RDD提供了两种故障恢复的方式,分别是血统(Lineage)方式和设置检查点(checkpoint)方式。
258、
Hive采用MySQL数据库存放Hive元数据,为了能够让Spark访问Hive,就需要将【】拷贝到Spark安装路径下的Jars目录。
参考答案:
【MySQL驱动包】
答案解析:
Hive采用MySQL数据库存放Hive元数据,为了能够让Spark访问Hive,就需要将MySQL驱动包拷贝到Spark安装路径下的Jars目录。
259、
Scala中的变量在声明时,必须进行【】。
参考答案:
【初始化】
答案解析:
暂无解析
260、
在Scala中,【】可以是简写成a.+(b)。
参考答案:
【a+b】
答案解析:
暂无解析
261、
Spark Streaming支持多种数据源,例如【】、Flume以及TCP套接字等数据源。
参考答案:
【Kafka】
答案解析:
Spark Streaming支持多种数据源,例如Kafka、Flume以及TCP套接字等数据源。
262、
Spark SQL可以通过【】从关系型数据库中读取数据的方式创建DataFrame。
参考答案:
【JDBC】
答案解析:
Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame。
263、
Spark SQL支持多种数据源的查询和加载,兼容【】,并可以使用JDBC/ODBC的连接方式来执行SQL语句。
参考答案:
【HQL】
答案解析:
Spark SQL支持多种数据源的查询和加载,兼容HQL,并可以使用JDBC/ODBC的连接方式来执行SQL语句。
264、
在DataFrame的操作中,【】用于对记录进行分组。
参考答案:
【groupBy()】
答案解析:
在DataFrame的操作中,groupBy()用于对记录进行分组。
265、
Spark在2013年加入【】,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。
参考答案:
【Apache孵化器项目】
答案解析:
Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。
266、
【】是Apache Kafka开源项目的一个流处理框架。
参考答案:
【Kafka Streams】
答案解析:
暂无解析
267、
一个TaskScheduler只能服务一个【】对象。
参考答案:
【SparkContext】
答案解析:
一个TaskScheduler只能服务一个SparkContext对象。
268、
查看所有主题的命令参数是【】。
参考答案:--list】
答案解析:
Kafka常用命令行操作中还可以使用“--list”参数可以查看所有的主题
269、
在Scala中,没有静态方法或静态字段,所以不能用类名直接访问类中的方法和字段,而是创建类的【】去访问类中的方法和字段。
参考答案:
【实例对象】
答案解析:
暂无解析
270、
Mesos模式下的默认的分区数是【】。
参考答案:8】
答案解析:
Mesos模式下的默认的分区数是8271、
在Scala中,控制结构语句包括【】和循环语句。
参考答案:
【条件分支语句】
答案解析:
暂无解析
272、
DataFrame提供了一个【】以方便操作结构化数据。
参考答案:
【领域特定语言(DSL)】
答案解析:
DataFrame提供了一个领域特定语言(DSL)以方便操作结构化数据。
273、
【】表示时间戳,记录每次操作数据的时间,通常记作数据的版本号。
参考答案:
【Timestamp】
答案解析:
Timestamp表示时间戳,记录每次操作数据的时间,通常记作数据的版本号。
274、
Spark Streaming的特点有易用性、【】、易整合性。
参考答案:
【容错性】
答案解析:
Spark Streaming的特点有易用性、容错性、易整合性。
275、
Spark SQL可以无缝地将【】查询与Spark程序进行结合。
参考答案:
【SQL】
答案解析:
暂无解析
276、
【】是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构,最终在Spark2.0版本被定义成Spark新特性。
参考答案:
【Dataset】
答案解析:
Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构,最终在Spark2.0版本被定义成Spark新特性。
277、
进入Windows的命令行,输入【】命令可以测试Scala环境是否安装成功。
参考答案:
【scala】
答案解析:
暂无解析
278、
Catalyst优化器是一个新的可扩展的查询优化器,它是基于【】函数式编程结构。
参考答案:
【Scala】
答案解析:
Catalyst优化器是一个新的可扩展的查询优化器,它是基于Scala函数式编程结构。
279、
Spark生态系统主要包含【】、Spark SQL、【】、MLlib、GraphX以及独立调度器。
参考答案:
【Spark Core】【Spark Streaming】
答案解析:
暂无解析
280、
DAG(Directed Acyclic Graph)叫做有向无环图,Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个【】。
参考答案:
【DAG】
答案解析:
暂无解析
281、
在Spark中,不同的RDD之间具有依赖的关系。RDD与它所依赖的RDD的依赖关系有两种类型,分别是【】和宽依赖(wide dependency)。
参考答案:
【窄依赖(narrow dependency)】
答案解析:
暂无解析
282、
【】命令用于扫描表并返回表的所有数据。
参考答案:
【scan】
答案解析:
scan命令用于扫描表并返回表的所有数据。
283、
Scala中的Trait可以被类和对象(Objects)使用关键字【】来继承。
参考答案:
【extends】
答案解析:
Scala中的Trait可以被类和对象(Objects)使用关键字extends来继承。
284、
Spark运行架构主要是由SparkContext、【】和Worker。
参考答案:
【ClusterManager】
答案解析:
暂无解析
285、
在HBase集群中,【】负责为HRegion Server分配HRegion。
参考答案:
【HMaster】
答案解析:
在HBase集群中,HMaster负责为HRegion Server分配HRegion。
286、
Kafka集群是由【】、消息代理服务器(Broker Server)、【】组成。
参考答案:
【生产者(Producer)】【消费者(Consumer)】
答案解析:
暂无解析
287、
Spark Streaming提供了一个高级抽象的流,即【】。
参考答案:
【DStream(离散流)】
答案解析:
Spark Streaming提供了一个高级抽象的流,即DStream(离散流)
288、
【】主要用于返回数据集中的元素个数。
参考答案:
【count()】
答案解析:
count()算子操作主要用于返回数据集中的元素个数。
289、
通过浏览器访问【】,查看HBase集群状态。
参考答案:
【http://hadoop01:16010】
答案解析:
通过浏览器访问http://hadoop01:16010,查看HBase集群状态。
290、
【】主要用于以数组的形式返回数据集中的所有元素。
参考答案:
【collect()】
答案解析:
collect()主要用于以数组的形式返回数据集中的所有元素。
291、
MLlib库中包含了一些通用的机器学习算法和工具类,包括分类、【】、聚类、【】等。
参考答案:
【回归】【降维】
答案解析:
MLlib库中包含了一些通用的机器学习算法和工具类,包括分类、回归、聚类、降维等。
292、
MLlib提供了两个分层抽样方法,分别为sampleByKey()、【】。
参考答案:
【sampleByKeyExtra()】
答案解析:
暂无解析
293、
Spark Streaming支持从多种数据源获取数据,包括【】、Flume、Twitter、ZeroMQ、【】、TCP Sockets数据源。
参考答案:
【Kafka】【Kinesis】
答案解析:
暂无解析
294、
Spark框架对大数据的支持从【】、实时处理到交互式查询,进而发展到图计算和【】。
参考答案:
【内存计算】【机器学习模块】
答案解析:
Spark框架对大数据的支持从内存计算、实时处理到交互式查询,进而发展到图计算和机器学习模块。
295、
本地矩阵具有整型的【】以及Double类型的元素值,它存储在单个机器上。
参考答案:
【行和列索引值】
答案解析:
本地矩阵具有整型的行和列索引值以及Double类型的元素值,它存储在单个机器上。
296、
Spark要想很好地支持SQL,就需要完成解析(Parser)、【】、执行(Execution)三大过程。
参考答案:
【优化(Optimizer)】
答案解析:
Spark要想很好地支持SQL,就需要完成解析(Parser)、优化(Optimizer)、执行(Execution)三大过程。
297、
Kafka核心API主要有Producer API、【】、Streams API、【】、AdminClient API五种。
参考答案:
【Consumer API】【Connect API】
答案解析:
Kafka核心API主要有【Producer API】、【Consumer API】、【Streams API】、【Connect API】、【AdminClient API】五种。
298、
每个【】中保存的是HBase表中某段连续的数据。
参考答案:
【Region】
答案解析:
每个Region中保存的是HBase表中某段连续的数据。
299、
【】是一种以RDD为基础的分布式数据集,因此它可以完成RDD的绝大多数功能。
参考答案:
【DataFrame】
答案解析:
暂无解析
300、
【】是Spark提供的可扩展的机器学习库,其特点是采用较为先进的迭代式、内存存储的分析计算,使得数据的计算处理速度大大高于普通的数据处理引擎。
参考答案:
【MLlib】
答案解析:
MLlib是Spark提供的可扩展的机器学习库,其特点是采用较为先进的迭代式、内存存储的分析计算,使得数据的计算处理速度大大高于普通的数据处理引擎。
301、
在协同过滤算法中有着两个分支,分别是基于群体用户的协同过滤(UserCF)、【】。
参考答案:
【基于物品的协同过滤(ItemCF)】
答案解析:
在协同过滤算法中有着两个分支:基于群体用户的协同过滤(UserCF)和基于物品的协同过滤(ItemCF)。
302、
Kafka的设计初衷是为实时数据提供一个【】、高通量、【】的消息传递平台。
参考答案:
【统一】【低等待】
答案解析:
暂无解析
303、
Spark SQL的重要特点是能够统一处理【】和RDD。
参考答案:
【关系表】
答案解析:
暂无解析
304、
【】操作会筛选出满足函数func的元素,并返回一个新的数据集。
参考答案:filter(func)】
答案解析:
filter(func)操作会筛选出满足函数func的元素,并返回一个新的数据集。
305、
Scala中的数组分为【】和变长数组。
参考答案:
【定长数组】
答案解析:
Scala中的数组分为定长数组和变长数组。
306、
Spark的任务调度流程分为RDD Objects、【】、【】以及Worker四个部分。
参考答案:
【DAGScheduler】【TaskScheduler】
答案解析:
暂无解析
307、
Spark可以访问各种数据源,包括本地文件系统、【】、Cassandra、【】和Hive等。
参考答案:
【HDFS】【HBase】
答案解析:
暂无解析
308、
Spark Streaming具有很好的【】,在没有额外代码和配置的情况下,可以恢复丢失的数据。
参考答案:
【容错性】
答案解析:
Spark Streaming在没有额外代码和配置的情况下,可以恢复丢失的数据。对于实时计算来说,容错性至关重要。首先我们要明确一下Spark中RDD的容错机制,即每一个RDD都是一个不可变的分布式可重算的数据集,其记录着确定性的操作继承关系(lineage),所以只要输入数据是可容错的,那么任意一个RDD的分区(Partition)出错或不可用,都是可以使用原始输入数据经过转换操作重新计算得出。
309、
Kafka的消息传递模式有【】、发布订阅消息传递模式。
参考答案:
【点对点消息传递模式】
答案解析:
Kafka的消息传递模式有点对点消息传递模式、发布订阅消息传递模式。
310、
当join算子操作后,分区数量【】则为窄依赖。
参考答案:
【没有变化】
答案解析:
当join算子操作后,分区数量没有变化则为窄依赖。
311、
Kafka集群中消息的消费模型有两种,分别是【】和【】。
参考答案:
【推送模型(push)】【拉取模型(pull)】
答案解析:
Kafka集群中消息的消费模型有两种,分别是推送模型(push)和拉取模型(pull)。
312、
本地矩阵的基类是【】,DenseMatrix和【】均是它的继承类。
参考答案:
【Matrix】【SparseMatrix】
答案解析:
本地矩阵的基类是Matrix,DenseMatrix和SparseMatrix均是Matrix的继承类。
313、
Client通过请求【】地址来查询目标数据。
参考答案:
【RegionServer】
答案解析:
Client通过请求RegionServer地址来查询目标数据。
314、
HBase同样利用Hadoop的【】来处理HBase中的海量数据。
参考答案:
【MapReduce】
答案解析:
HBase同样利用Hadoop的MapReduce来处理HBase中的海量数据。
315、
HBase中表的每一个列的数据存储都有多个【】。
参考答案:
【Version(版本)】
答案解析:
HBase中表的每一个列的数据存储都有多个Version(版本)。
316、
【】表中存储的是META表的Region信息,也就是所有RegionServer的地址。
参考答案:
【ROOT】
答案解析:
ROOT表中存储的是META表的Region信息,也就是所有RegionServer的地址。
317、
目前,Mllib库默认采用【】计算方法,计算多个序列之间相关统计的方法。
参考答案:
【皮尔森相关系数】
答案解析:
暂无解析
318、
【】用于在集群上申请资源的外部服务。
参考答案:
【Cluster Manager(集群管理器)】
答案解析:
暂无解析
319、
向Kafka集群发送消息数据时,只需要调用【】类的send()方法
参考答案:
【KafkaProducer】
答案解析:
暂无解析
320、
通过【】和“--total-executor-cores”参数指定执行器的资源分配。
参考答案:--executor-memory】
答案解析:
暂无解析
321、
由于HBase中表的列允许为【】,并且空列不会占用存储空间,因此,表可以设计的非常稀疏。
参考答案:
【空】
答案解析:
由于HBase中表的列允许为空,并且空列不会占用存储空间,因此,表可以设计的非常稀疏。
322、
机器学习是一门多领域交叉学科,涉及【】、统计学、逼近论、凸分析、【】、等多门学科。
参考答案:
【概率论】【算法复杂度理论】
答案解析:
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能
323、
在RDD的处理过程中,真正的计算发生在RDD的【】操作。
参考答案:
【行动】
答案解析:
暂无解析
324、
在HBase中,数据的存储规则是【】的数据存储到一起。
参考答案:
【相近】
答案解析:
在HBase中,数据的存储规则是相近的数据存储到一起。
325、
Spark Streaming中对DStream的转换操作会转变成对【】的转换操作。
参考答案:
【RDD】
答案解析:
暂无解析
326、
机器学习在电商领域的应用主要涉及搜索、【】、推荐三个方面,在机器学习的参与下,搜索引擎能够更好的理解语义,为用户推荐商品。
参考答案:
【广告】
答案解析:
暂无解析
327、
Scala中,数组转换就是通过【】关键字将原始的数组进行转换,会产生一个新的数组,然而原始的数组保持不变。
参考答案:yield】
答案解析:
Scala中,数组转换就是通过yield关键字将原始的数组进行转换,会产生一个新的数组,然而原始的数组保持不变。
328、
Scala是Scalable Language的简称,它是一门【】的编程语言,其设计初衷是实现可伸缩的语言、并集成【】和函数式编程的各种特性。
参考答案:
【多范式】【面向对象编程】
答案解析:
Scala是Scalable Language的简称,它是一门多范式的编程语言,其设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
329、
目前,市场上常用的实时计算框架有【】、Apache Storm、【】、Yahoo!S4。
参考答案:
【Apache Spark Streaming】【Apache Flink】
答案解析:
暂无解析
330、
本地向量分为密集向量(Dense)和【】。
参考答案:
【稀疏向量(Sparse)】
答案解析:
本地向量分为密集向量(Dense)和稀疏向量(Sparse),密集向量是由Double类型的数组支持,而稀疏向量是由两个并列的数组(索引、值)支持。
331、
MLlib采用【】语言编写,借助了函数式编程设计思想,开发人员在开发的过程中只需要关注数据,而不需要关注算法本身,所有要做的就是传递参数和调试参数。
参考答案:
【Scala】
答案解析:
暂无解析
332、
在Scala的元组中,可以通过使用【】命令将多个值绑定在一起。
参考答案:zip】
答案解析:
在Scala的元组中,可以通过使用zip命令将多个值绑定在一起。
333、
Shark将SQL语句的转换从MapReduce作业替换成了【】作业。
参考答案:
【Spark】
答案解析:
暂无解析
334、
HBase则是基于【】进行数据的存储。
参考答案:
【列】
答案解析:
HBase则是基于列进行数据的存储。
335、
RDD是Spark提供的最重要的【】。
参考答案:
【抽象概念】
答案解析:
RDD是Spark提供的最重要的抽象概念。
336、
DataFrame与Hive类似,支持【】(例如Struct、Array、Map)。
参考答案:
【嵌套数据类型】
答案解析:
DataFrame与Hive类似,支持嵌套数据类型(例如Struct、Array、Map)。
337、
开发Kafka Stream程序需要实现【】接口,并重写父类中的【】方法,它是业务计算的核心方法,最后调用【】方法,将消息数据转发到拓扑下游处理节点。
参考答案:
【Processor】【process()】【forward()】
答案解析:
暂无解析
338、
Spark-Shell本身就是一个【】,它会初始化一个SparkContext对象为“sc”,用户可以直接调用。
参考答案:
【Driver】
答案解析:
Spark-Shell本身就是一个Driver,它会初始化一个SparkContext对象为“sc”,用户可以直接调用。
339、
Spark中的机器学习流程大致分为三个阶段,即数据准备阶段、【】以及部署预测阶段。
参考答案:
【训练模型评估阶段】
答案解析:
Spark中的机器学习流程大致分为三个阶段,即数据准备阶段、训练模型评估阶段以及部署预测阶段。
340、
reduceByKeyAndWindow()方法需要三个参数,分别是函数、窗口长度及【】。
参考答案:
【时间间隔】
答案解析:
暂无解析
341、
StoreFile底层是以【】文件的格式保存在HDFS上。
参考答案:
【HFile】
答案解析:
StoreFile底层是以HFile文件的格式保存在HDFS上。
342、
IDEA工具可以【】和进行简单的修复、以及IDEA工具内置了很多优秀的插件。
参考答案:
【自动识别代码错误】
答案解析:
IDEA工具可以自动识别代码错误和进行简单的修复、以及IDEA工具内置了很多优秀的插件。
343、
Dataset也可以使用【】方法转换为DataFrame。
参考答案:
【toDF()】
答案解析:
Dataset也可以使用toDF()方法转换为DataFrame。
345、
简述Spark SQL提供的三个功能。
参考答案:1)Spark SQL可以从各种结构化数据源(例如JSON、Hive、Parquet等)中读取数据,进行数据分析。
(2)Spark SQL包含行业标准的JDBC和ODBC连接方式,因此它不局限于在Spark程序内使用SQL语句进行查询。
(3)Spark SQL可以无缝地将SQL查询与Spark程序进行结合,它能够将结构化数据作为Spark中的分布式数据集(RDD)进行查询,在Python、Scala和Java中均集成了相关API,这种紧密的集成方式能够轻松地运行SQL查询以及复杂的分析算法。
357、
简述RDD的依赖关系。
参考答案:
窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用,即OneToOneDependencies。窄依赖的表现一般分为两类,第一类表现为一个父RDD的分区对应于一个子RDD的分区;第二类表现为多个父RDD的分区对应于一个子RDD的分区。也就是说,一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解,我们通常把窄依赖形象的比喻为独生子女。当RDD执行mapfilter及union和join操作时,都会产生窄依赖。
宽依赖是指子RDD的每一个分区都会使用所有父RDD的所有分区或多个分区,即OneToManyDependecies。为了便于理解,我们通常把宽依赖形象的比喻为超生。当RDD做groupByKey和join操作时,会产生宽依赖。
365、
简述RDD的创建方式。
参考答案:
Spark提供了两种创建RDD的方式,分别是从文件系统(本地和HDFS)中加载数据创建RDD和通过并行集合创建RDD。
答案解析:
Spark提供了两种创建RDD的方式,分别是从文件系统(本地和HDFS)中加载数据创建RDD和通过并行集合创建RDD。
372、
简述什么是Kafka的分区。
参考答案:
在物理意义上可以把主题看作是分区的日志文件,每个分区都是有序的,不可变的记录序列,新的消息会不断地追加到日志中,分区中的每条消息都会按照时间顺序分配一个递增的顺序编号
答案解析:
暂无解析
373、
解释说明Kafka的Zookeeper是什么,是否可以在没有Zookeeper的情况下使用Kafka。
参考答案:
Zookeeper是一个开放源码的、高性能的协调服务,它用于Kafka的分布式应用,Zookeeper主要用于在集群中不同节点之间进行通信,使用Kafka集群时,必须部署Zookeeper服务。
答案解析:
暂无解析
375、
简述Spark SQL的工作流程。
参考答案:
1.在解析SQL语句之前,会创建SparkSession,涉及到表名、字段名称和字段类型的元数据都将保存在SessionCatalog中;
2.当调用SparkSession的sql()方法时就会使用SparkSqlParser进行解析SQL语句,解析过程中使用的ANTLR进行词法解析和语法解析;
3.接着使用Analyzer分析器绑定逻辑计划,在该阶段,Analyzer会使用Analyzer Rules,并结合SessionCatalog,对未绑定的逻辑计划进行解析,生成已绑定的逻辑计划;
4.然后使用Optimizer优化器优化逻辑计划,该优化器同样定义了一套规则(Rules),利用这些规则对逻辑计划和语句进行迭代处理;
5.接着使用SparkPlanner对优化后的逻辑计划进行转换,生成可以执行的物理计划SparkPlan;
6.最终使用QueryExecution执行物理计划,此时则调用SparkPlan的execute()方法,返回RDDs。
378、
简述RDD分区的作用。
参考答案:
在分布式程序中,网络通信的开销是很大的,因此控制数据分布以获得最少的网络传输可以极大的提升整体性能,Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区,系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上,但是可以确保相同的键出现在同一个分区上。
答案解析:
在分布式程序中,网络通信的开销是很大的,因此控制数据分布以获得最少的网络传输可以极大的提升整体性能,Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区,系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上,但是可以确保相同的键出现在同一个分区上。
379、
简述设置检查点方式进行故障恢复。
参考答案:
设置检查点(checkPoint)方式,本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时,只需要在中间阶段设置一个检查点进行容错,即通过Spark中的sparkContext对象调用setCheckpoint()方法,设置一个容错文件系统目录(如HDFS)作为检查点checkpoint,将checkpoint的数据写入之前设置的容错文件系统中进行高可用的持久化存储,若是后面有节点出现宕机导致分区数据丢失,则可以从做检查点的RDD开始重新计算即可,不需要进行从头到尾的计算,这样就会减少开销。
答案解析:
设置检查点(checkPoint)方式,本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时,只需要在中间阶段设置一个检查点进行容错,即通过Spark中的sparkContext对象调用setCheckpoint()方法,设置一个容错文件系统目录(如HDFS)作为检查点checkpoint,将checkpoint的数据写入之前设置的容错文件系统中进行高可用的持久化存储,若是后面有节点出现宕机导致分区数据丢失,则可以从做检查点的RDD开始重新计算即可,不需要进行从头到尾的计算,这样就会减少开销。
387、
简述利用Spark Streaming完成实时计算的工作流程。
参考答案:
当Spark Streaming从数据源获取数据之后,则可以使用诸如mapreduce、join和window等高级函数进行复杂的计算处理,最后将处理的结果存储到分布式文件系统、数据库中,最终利用实时Web仪表板进行展示。
389、
简述RDD转换DataFrame的两种方法。
参考答案:
Spark官方提供了两种方法实现从RDD转换得到DataFrame,第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知数据结构的RDD转换;第二种方法通过编程接口构造一个Schema,并将其应用在已知的RDD数据中。
答案解析:
Spark官方提供了两种方法实现从RDD转换得到DataFrame,第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知数据结构的RDD转换;第二种方法通过编程接口构造一个Schema,并将其应用在已知的RDD数据中。
394、
什么是DStream窗口操作。
参考答案:
在DStream流上,将一个可配置的长度设置为窗口,以一个可配置的速率向前移动窗口。根据窗口操作,对窗口内的数据进行计算,每次落在窗口内的RDD数据会被聚合起来计算,生成的RDD会作为Window DStream的一个RDD。
答案解析:
在DStream流上,将一个可配置的长度设置为窗口,以一个可配置的速率向前移动窗口。根据窗口操作,对窗口内的数据进行计算,每次落在窗口内的RDD数据会被聚合起来计算,生成的RDD会作为Window DStream的一个RDD。
407、
简述说明什么是DStream流。
参考答案:
DStream是Spark Streaming提供的一个高级抽象流,表示连续的数据流,其内部结构是由一系列连续的RDD组成。
答案解析:
暂无解析
411、
请说明什么是Apache Kafka。
参考答案:
Kafka是一个高吞吐量的分布式发布订阅消息系统,能够将消息从一个端点传递到另外一个端点。
答案解析:
Kafka是一个高吞吐量的分布式发布订阅消息系统,能够将消息从一个端点传递到另外一个端点。
414、
简述Spark的部署方式。
参考答案:
Spark部署模式分为Local模式(本地单机模式)和集群模式,在Local模式下,常用于本地开发程序与测试,而集群模式又分为Standalone模式(集群单机模式)、Yarn模式和Mesos模式。
416、
简述Scala语言的显著特性。
参考答案:
Scala语言具有面向对象的、函数式编程的、静态类型的、可扩展的、可以交互操作的。

你可能感兴趣的:(spark,hadoop,Python,spark,hadoop)