你好呀，汪同学！

spark基础知识选择、判断、简答题。

**

# spark相关题目

**
1、
持久化RDD的存储级别中，将RDD分区全部存储到磁盘上的存储级别是（）。
A、MEMORY_ONLY
B、MEMORY_AND_DISK
C、DISK_ONLY
D、MEMORY_ONLY_SER
参考答案:
C
答案解析:
暂无解析
2、
当MemStore存储的数据达到一个阀值（）时，数据就会被进行flush操作，将数据写入到StoreFile文件。
A、64M
B、128M
C、256M
D、512M
参考答案:
B
答案解析:
暂无解析
3、
下列选项中，不是spark 自带服务的端口是（）。
A、8080
B、4040
C、8090
D、18080
参考答案:
C
答案解析:
暂无解析
4、
下列选项中，用于提交和监控Task任务的是（）。
A、DAG Scheduler
B、Task Scheduler
C、Cluster Manager
D、SparkContext
参考答案:
B
答案解析:
暂无解析
5、
下列选项中，用于获取指定行或列的数据的HBase Shell命令是（）。
A、create
B、describe
C、count
D、get
参考答案:
D
答案解析:
暂无解析
6、
spark 1.4版本的最大变化是（）。
A、spark sql Release 版本
B、引入 Spark R
C、DataFrame
D、支持动态资源分配
参考答案:
B
答案解析:
spark 1.4 版本的最大变化是引入 Spark R。
7、
下列选项，不属于集群管理器的有（）。
A、Hadoop Yarn
B、Apache Mesos
C、Local
D、Spark自带的独立调度器
参考答案:
C
答案解析:
暂无解析
8、
下列选项中，不属于Spark自带的服务端口有（）。
A、8080
B、4040
C、8090
D、18080
参考答案:
C
答案解析:
暂无解析
9、
SaveMode属于（）类型。
A、整数类型
B、浮点类型
C、枚举类型
D、字符串类型
参考答案:
C
答案解析:
暂无解析
10、
Spark集群的任务是由（）进行调度的。
A、驱动器
B、执行器
C、集群管理器
D、应用管理器
参考答案:
A
答案解析:
暂无解析
11、
在RDD的转换算子中，主要用于（Key，Value）键值对的数据集，将具有相同Key的Value进行分组，会返回一个新的（Key，Iterable）形式的数据集的转换算子是（）。
A、filter()
B、groupByKey()
C、reduceByKey()
D、map()
参考答案:
B
答案解析:
暂无解析
12、
Spark计算框架在分布式环境下对数据处理后的结果进行随机的、实时的存储归功于（）。
A、Hive
B、Oracle
C、Mongodb
D、HBase
参考答案:
D
答案解析:
暂无解析
13、
在RDD的行动算子中，用于用于返回数组的第一个元素的行动算子是（）。
A、first()
B、count()
C、take(n)
D、reduce()
参考答案:
A
答案解析:
暂无解析
14、
在Spark2.0版本之前，Spark SQL中创建DataFrame和执行SQL的入口是（）。
A、HiveContext
B、SparkSession
C、SQLContext
D、SparkContext
参考答案:
C
答案解析:
暂无解析
15、
在DataFrame的操作中，用于实现对列名进行重命名的操作是（）。
A、select()
B、show()
C、filter()
D、map()
参考答案:
A
答案解析:
暂无解析
16、
Scala是一种纯粹的面向对象语言，每一个值都是（）。
A、类
B、接口
C、特质
D、对象
参考答案:
D
答案解析:
Scala是一种纯粹的面向对象语言，每一个值都是对象。
17、
在Spark运行过程中，每个Job可以划分为更小的Task集合，每组任务被称为（）。
A、DAG
B、Block
C、Application
D、Stage
参考答案:
D
答案解析:
暂无解析
18、
Spark中RDD的计算函数的基本单位是（）。
A、分区
B、数据块
C、Task
D、Job
参考答案:
A
答案解析:
暂无解析
19、
RDD在Spark中运行时，将作业的DAG划分成不同的Stage的阶段是（）。
A、RDD Objects
B、DAGScheduler
C、TaskScheduler
D、Worker
参考答案:
B
答案解析:
暂无解析
20、
DataFrame的结构类似于传统数据库的（）。
A、一维表格
B、二维表格
C、三维表格
D、四维表格
参考答案:
B
答案解析:
DataFrame的结构类似于传统数据库的二维表格。
21、
下列选项中，哪个不是Kafka的优点。
A、解耦
B、高吞吐量
C、高延迟
D、容错性
参考答案:
C
答案解析:
Kafka具有低延迟的特性
22、
启动HBase集群的命令是（）。
A、start-dfs.sh
B、zkServer.sh start
C、start-hbase.sh
D、start-yarn.sh
参考答案:
C
答案解析:
暂无解析
23、
Task是运行（）中Executor的工作单元。
A、Driver program
B、spark master
C、worker node
D、Cluster manager
参考答案:
C
答案解析:
暂无解析
24、
Scala中，数组的遍历方式不包含（）。
A、for循环遍历
B、while循环遍历
C、do...while循环遍历
D、do...for循环遍历
参考答案:
D
答案解析:
数组的遍历有三种方式，分别是for循环遍历、while循环遍历以及do...while循环遍历。
25、
下列选项中，对于机器学习的理解错误的是（）。
A、机器学习是一种让计算机利用数据来进行各种工作的方法。
B、机器学习是研究如何使用机器人来模拟人类学习活动的一门学科。
C、机器学习是一种使用计算机指令来进行各种工作的方法。
D、机器学习就是让机器能像人一样的有学习、理解、认识的能力。
参考答案:
C
答案解析:
暂无解析
26、
下列说法中，关于Scala说法正确的是（）。
A、Scala是由Martin Odersky（马丁•奥德斯基）创建
B、Scala语言和Java语言的作用是相同的
C、Scala是面向过程编程的语言
D、Scala是由杰弗逊创建
参考答案:
A
答案解析:
Scala于2001年由洛桑联邦理工学院（EPFL）的编程方法实验室研发，它由Martin Odersky（马丁·奥德斯基）创建。
27、
下列选项中，说法正确的是哪个？
A、窗口滑动时间间隔必须是批处理时间间隔的倍数。
B、Kafka是Spark Streaming的基础数据源。
C、DStream不可以通过外部数据源获取。
D、reduce(func)是DStream的输出操作。
参考答案:
B
答案解析:
暂无解析
28、
使用Maven Projects工具，双击（）选项，即可自动将项目打成Jar包。
A、clean
B、test
C、deploy
D、package
参考答案:
D
答案解析:
暂无解析
29、
Client与HBase进行通信是通过（）。
A、RPC协议
B、TCP协议
C、HTTP协议
D、UDP协议
参考答案:
A
答案解析:
暂无解析
30、
Spark SQL的前身是（）。
A、SQL
B、Shark
C、Spark RDD
D、MapReduce
参考答案:
B
答案解析:
Spark SQL的前身是Shark。
31、
如果一个训练好的模型在测试集上有100%的准确率， 这是不是意味着在一个新的数据集上，也会有同样好的表现？
A、是的，这说明这个模型的范化能力已经足以支持新的数据集合了
B、不对，依然后其他因素模型没有考虑到，比如噪音数据。
参考答案:
B
答案解析:
没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。
32、
下列选项中，可以用于退出Spark-Shell客户端的命令是（）。
A、:quit
B、:wq
C、:q
D、:exit
参考答案:
A
答案解析:
暂无解析
33、
下列选项中，不属于监督学习的方法的是（）。
A、KMeans
B、线性回归
C、SVM
D、朴素贝叶斯
参考答案:
A
答案解析:
Kmeans属于非监督学习。
34、
下列方法中，用于计算数组长度的是（）。
A、count()
B、take()
C、tail()
D、length()
参考答案:
D
答案解析:
暂无解析
35、
数据科学家可能会同时使用多个算法（模型）进行预测， 并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是。
A、单个模型之间有高相关性
B、单个模型之间有低相关性
C、在集成学习中使用“平均权重”而不是“投票”会比较好
D、单个模型都是用的一个算法
参考答案:
B
答案解析:
暂无解析
36、
由于Scala是运行在JVM平台上的，所以安装Scala之前必须配置好JDK环境，其中JDK版本要求（）。
A、不高于1.5版本
B、不低于1.5版本
C、等于1.5版本
D、任何版本均可
参考答案:
B
答案解析:
由于Scala是运行在JVM平台上的，所以安装Scala之前必须配置好JDK环境（JDK版本要求不低于1.5版本）。
37、
在Maven工程的pom.xml文件中，用于设置所需依赖的版本号的标签是（）。
A、<dependency>
B、<groupId>
C、<properties>
D、<artifactId>
参考答案:
C
答案解析:
暂无解析
38、
在HBase表中，列的限定符为（）。
A、冒号
B、逗号
C、斜杠
D、下划线
参考答案:
A
答案解析:
暂无解析
39、
下列选项中，不属于Spark的四大组件的是（）。
A、Spark Streaming
B、Mlib
C、Graphx
D、Spark R
参考答案:
D
答案解析:
暂无解析
40、
Spark于2009年诞生于（）。
A、美国加州大学伯克利分校的AMP实验室
B、加利福尼亚大学伯克利分校
C、宾夕法尼亚大学
D、普林斯顿大学
参考答案:
A
答案解析:
暂无解析
41、
关于Spark Streaming，下列说法错误的是哪一项？
A、Spark Streaming是Spark的核心子框架之一。
B、Spark Streaming具有可伸缩、高吞吐量、容错能力强等特点。
C、Spark Streaming处理的数据源可以来自Kafka。
D、Spark Streaming不能和Spark SQL、Mllib、GraphX无缝集成。
参考答案:
D
答案解析:
Spark Streaming能和Spark SQL、Mllib、GraphX无缝集成
42、
HBase的底层依赖的是（）。
A、Hive
B、HDFS
C、Mongodb
D、MySQL
参考答案:
B
答案解析:
暂无解析
43、
DStream的转换操作方法中，哪个方法可以直接调用RDD上的操作方法？
A、transform(func)
B、updateStateByKey(func)
C、countByKey()
D、cogroup(otherStream，[numTasks])
参考答案:
A
答案解析:
暂无解析
44、
如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是（）。
A、有向无环
B、无环图
C、有向图
D、无向有环图
参考答案:
A
答案解析:
如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。
45、
在Spark RDD中，划分Stage的依据是（）。
A、窄依赖
B、宽依赖
C、窄依赖和宽依赖
D、以上选项均错误
参考答案:
B
答案解析:
在Spark RDD中，宽依赖是划分Stage的依据。
46、
下列选项中，可以支持Scala和Python编程的交互式解释器是（）。
A、HBase-Shell
B、Spark-Shell
C、Hadoop-Shell
D、Hive-Shell
参考答案:
B
答案解析:
暂无解析
47、
在Catalyst优化器中，用于将LogicalPlan转换成PhysicalPlan的组件是（）。
A、SqlParse
B、Analyze
C、Optimizer
D、Planner
参考答案:
D
答案解析:
暂无解析
48、
在Spark中，调用RDD的（）方法，可以将RDD转换为DataFrame对象。
A、show()
B、map()
C、toDF()
D、printSchema()
参考答案:
C
答案解析:
暂无解析
49、
每个Region存储的数据是有限的，如果当Region增大到一个阀值（）时，会被等分切成两个新的Region。
A、64M
B、128M
C、256M
D、512M
参考答案:
B
答案解析:
暂无解析
50、
在Scala工程中，.idea文件夹是用于（）。
A、存放该工程的代码
B、存放相关依赖
C、存放该工程的配置信息
D、存放测试代码
参考答案:
C
答案解析:
暂无解析
51、
Spark SQL快速的计算效率得益于（）。
A、Catalyst
B、Execution
C、Parser
D、Analyzer
参考答案:
A
答案解析:
Spark SQL快速的计算效率得益于Catalyst优化器。
52、
下列选项中，不属于RDD特点的是（）。
A、可分区
B、可序列化
C、可修改
D、可持久化
参考答案:
C
答案解析:
暂无解析
53、
Scala中的类不需要关键字public声明为公共的，并且一个Scala源文件中可以拥有（）类。
A、单个
B、多个
C、两个
D、三个
参考答案:
B
答案解析:
Scala中的类不需要关键字public声明为公共的，并且一个Scala源文件中可以拥有多个类。
54、
下列选项中，哪个不属于消息系统。
A、Kafka
B、RabbitMQ
C、ActiveMQ
D、Zookeeper
参考答案:
D
答案解析:
暂无解析
55、
下列选项中，哪个选项是每个分区消息的唯一序列标识。
A、Topic
B、Partition
C、Broker
D、Offset
参考答案:
D
答案解析:
暂无解析
56、
下列选项中，Scala编译后文件的后缀名为（）。
A、.class
B、.bash
C、.pyc
D、.sc
参考答案:
A
答案解析:
暂无解析
57、
Spark Job默认的调度模式是（）。
A、FIFO
B、FAIR
C、无
D、运行时指定
参考答案:
A
答案解析:
Spark Job 默认的调度模式是FIFO。
58、
下列选项中，最常见的评价分类器好坏的指标是（）。
A、准确率（auc）
B、精确度（precision）
C、召回率（recall）
D、F值
参考答案:
A
答案解析:
暂无解析
59、
以下说法正确的是 :
1. 一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的。
2. 如果增加模型复杂度， 那么模型的测试错误率总是会降低。
3. 如果增加模型复杂度， 那么模型的训练错误率总是会降低。
4. 我们不可以使用聚类“类别id”作为一个新的特征项， 然后再用监督学习分别进行学习。
A、1
B、2
C、3
D、1 and 3
参考答案:
C
答案解析:
暂无解析
60、
DataFrame和RDD最大的区别是（）。
A、科学统计支持
B、schema
C、存储方式不一样
D、外部数据源支持
参考答案:
B
答案解析:
暂无解析
61、
下列说法中，关于Scala数据类型说法错误的是（）。
A、Scala中的所有值都有一个类型
B、AnyVal类型是所有类型的超类型
C、AnyRef表示引用类型
D、Nothing所有类型的子类型，也称为底部类型
参考答案:
B
答案解析:
Any是所有类型的超类型，也称为顶级类型。
62、
Scala中，用于创建单例对象的关键字是（）。
A、new
B、object
C、super
D、def
参考答案:
B
答案解析:
Scala中提供了object这个关键字用来实现单例模式，使用关键字object创建的对象为单例对象。
63、
变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？
1. 多个变量其实有相同的用处
2. 变量对于模型的解释有多大作用
3. 特征携带的信息
4. 交叉验证
A、1 和 4
B、1, 2 和 3
C、1,3 和 4
D、以上所有
参考答案:
C
答案解析:
注意， 这题的题眼是考虑模型效率，所以不要考虑选项2
64、
Scala提供了强大的模式匹配机制，最常见的模式匹配就是（）。
A、match case语句
B、switch case语句
C、if else语句
D、if语句
参考答案:
A
答案解析:
Scala提供了强大的模式匹配机制，最常见的模式匹配就是match case语句。
65、
在RDD的转换算子中，用于将每个元素传递到函数func中，并将结果返回为一个新的数据集的转换算子是（）。
A、filter()
B、groupByKey()
C、reduceByKey()
D、map()
参考答案:
D
答案解析:
map(func)操作将每个元素传递到函数func中，并将结果返回为一个新的数据集。
66、
在Scala中，获取元组中的值是通过（）来获取的。
A、get（）方法
B、角标
C、下划线加角标
D、下划线
参考答案:
C
答案解析:
暂无解析
67、
Spark与Hadoop在基于内存的运算中，说法正确的是（）。
A、Spark的运算效率是Hadoop的10倍
B、Spark的运算效率是Hadoop的100倍
C、Hadoop的运算效率是Spark的100倍
D、Hadoop的运算效率是Spark的10倍
参考答案:
B
答案解析:
根据官方数据统计得出，与Hadoop相比，Spark基于内存的运算效率要快100倍以上。
68、
Catalyst优化器内部包含五大组件，分别是（）。
A、SqlParse
B、Analyze
C、Optimizer
D、Planner和CostModel
参考答案:
A,B,C,D
答案解析:
暂无解析
69、
HBase表的列是由（）字段组成。
A、列族名
B、限定符
C、列名
D、时间戳
参考答案:
A,B,C
答案解析:
暂无解析
70、
下列说法中，关于HBase集群说法正确的是（）。
A、HBase集群中只有一个角色
B、HBase集群中有两个角色
C、HRegionServer是HBase集群的从节点
D、HMaster是HBase的主节点
参考答案:
B,C,D
答案解析:
暂无解析
71、
下列选项中，用于Scala语言开发的工具是（）。
A、Eclipse
B、PyCharm
C、Notepad++
D、IDEA
参考答案:
A,D
答案解析:
目前Scala的主流开发工具主要有两种：分别是Eclipse工具和IDEA工具。
72、
如果想要实现自定义分区，就需要定义一个类，使得这个自定义的类继承org.apache.spark.Partitioner类，并实现其中的3个方法，这3个方法为（）。
A、RangePartitioner()
B、numPartitions()
C、getPartition()
D、equals()
参考答案:
B,C,D
答案解析:
暂无解析
73、
下列说法中，关于Spark SQL说法正确的是（）。
A、Spark SQL架构与Hive底层结构完全不同
B、Spark SQL能够通过DataFrame和Dataset操作多种数据源执行SQL查询
C、Spark SQL可以无缝地将SQL查询与Spark程序进行结合
D、以上说法均正确
参考答案:
B,C
答案解析:
暂无解析
74、
下列选项中，属于Spark生态圈的组件有（）。
A、Spark SQL
B、Spark Streaming
C、GraphX
D、MLlib
参考答案:
A,B,C,D
答案解析:
暂无解析
75、
Spark SQL作为分布式SQL查询引擎，让用户可以通过（）方式实现对结构化数据的处理。
A、SQL
B、Shark
C、DataFrames API
D、Datasets API
参考答案:
A,C,D
答案解析:
Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。
76、
Dataset之所以可以调用封装的方法以并行方式进行转换等操作，是因为它结合了（）的优点。
A、RDD
B、DataFrame
C、Spark SQL
D、Object
参考答案:
A,B
答案解析:
暂无解析
77、
Spark编程支持的语言有（）。
A、Java
B、JavaScript
C、R
D、Scala
参考答案:
A,C,D
答案解析:
Spark编程支持Java、Python、Scala或R语言。
78、
下列选项中，属于RDD行动算子的有（）。
A、foreach(func)
B、collect()
C、take(n)
D、reduceByKey()
参考答案:
A,B,C
答案解析:
暂无解析
79、
下列选项中，属于Scala的数据结构有（）。
A、数组
B、元组
C、集合
D、对象
参考答案:
A,B,C
答案解析:
暂无解析
80、
当join算子操作后，分区数量发生变化则为窄依赖。
对
错
参考答案:
错
答案解析:
当join算子操作后，分区数量发生变化则为宽依赖。
81、
由于Shark不依赖于Hive，因此在版本迭代时很容易添加新的优化策略。
对
错
参考答案:
错
答案解析:
由于Shark过于依赖Hive，因此在版本迭代时很难添加新的优化策略。
82、
创建HBase表需要指定列，因为列是不变的。
对
错
参考答案:
错
答案解析:
暂无解析
83、
Scala中声明变量时，可以不给出变量的类型，因为在初始化的时候，Scala的类型推断机制能够根据变量初始化的值自动推算出来。
对
错
参考答案:
对
答案解析:
Scala中声明变量时，可以不给出变量的类型，因为在初始化的时候，Scala的类型推断机制能够根据变量初始化的值自动推算出来。
84、
在数据科学应用中，数据工程师可以利用Spark进行数据分析与建模。
对
错
参考答案:
对
答案解析:
在数据科学应用中，数据工程师可以利用Spark进行数据分析与建模。
85、
密集矩阵是将所有元素的值存储在一个列优先的双精度数组中，而稀疏矩阵则是将以列优先的非零元素压缩到稀疏列（CSC）格式中。
对
错
参考答案:
对
答案解析:
MLlib支持密集矩阵和稀疏矩阵，密集矩阵将所有元素的值存储在一个列优先的双精度数组中，而稀疏矩阵则将以列优先的非零元素压缩到稀疏列（CSC）格式中。
86、
Scala方法的返回值类型必须写，编译器不能自动推断出来，但是对于递归函数来说，必须要指定返回类型。
对
错
参考答案:
错
答案解析:
Scala方法的返回值类型可以不写，编译器可以自动推断出来，但是对于递归函数来说，必须要指定返回类型。
87、
在Scala中，集合有三大类分别是List、Set以及Map。
对
错
参考答案:
对
答案解析:
暂无解析
88、
DataFrame除了提供比RDD更丰富的算子以外，更重要的特点是提升Spark框架执行效率、减少数据读取时间以及优化执行计划。
对
错
参考答案:
对
答案解析:
DataFrame除了提供比RDD更丰富的算子以外，更重要的特点是提升Spark框架执行效率、减少数据读取时间以及优化执行计划。
89、
Scala提供了样例类，它可以对模式匹配进行优化，提高匹配的速率。
对
错
参考答案:
对
答案解析:
暂无解析
90、
一个进程中只能有一个线程在工作，可以处理多个数据分区（例如运行任务、读取或者存储数据）。
对
错
参考答案:
错
答案解析:
一个进程中可以有多个线程在工作，从而可以处理多个数据分区（例如运行任务、读取或者存储数据）。
91、
离线计算和实时计算指的是数据处理的延迟，批量计算和流式计算指的是数据处理的方式。
对
错
参考答案:
对
答案解析:
离线计算和实时计算指的是数据处理的延迟，批量计算和流式计算指的是数据处理的方式。
92、
Dataset提供了特定域对象中的强类型集合，也就是在RDD的每行数据中添加了类型约束条件，只有约束条件的数据类型才能正常运行。
对
错
参考答案:
对
答案解析:
Dataset提供了特定域对象中的强类型集合，也就是在RDD的每行数据中添加了类型约束条件，只有约束条件的数据类型才能正常运行。
93、
HBase分布式数据库的数据存储在行列式的表格中，它是一个多维度的映射模型。
对
错
参考答案:
对
答案解析:
暂无解析
94、
主题的数据分割为一个或多个分区，每个分区的数据使用多个segment文件存储，分区中的数据是有序的。
对
错
参考答案:
对
答案解析:
暂无解析
95、
truncate命令用于删除整个表，数据和结构都删除。
对
错
参考答案:
错
答案解析:
暂无解析
96、
一个消费者组里它的内部数据是有序的，消费者组与消费者组之间是无序的。
对
错
参考答案:
对
答案解析:
一个消费者组里它的内部数据是有序的，消费者组与消费者组之间是无序的。
97、
Spark Streaming中，不可以通过RDD的转换算子生成新的DStream。
对
错
参考答案:
错
答案解析:
Spark Streaming中，可以通过RDD的转换算子生成新的DStream。
98、
DAG是一种非常重要的图论数据结构。
对
错
参考答案:
对
答案解析:
DAG是一种非常重要的图论数据结构。
99、
由于HBase是Google Bigtable的开源实现，因此它们是相同的。
对
错
参考答案:
错
答案解析:
暂无解析
100、
在Linux系统下执行“nc –lk 9999”命令启动服务端且监听socket服务。
对
错
参考答案:
对
答案解析:
在Linux系统下执行“nc –lk 9999”命令启动服务端且监听socket服务。
101、
部署Spark高可用集群不需要用到Zookeeper服务。
对
错
参考答案:
错
答案解析:
暂无解析
102、
Task Scheduler将Worker发送给Task进程中的Executor运行并提供应用程序代码。
对
错
参考答案:
错
答案解析:
Task Scheduler将Task发送给Worker进程中的Executor运行并提供应用程序代码。
103、
在数据准备阶段，可直接将采集到的数据进行机器学习算法训练。
对
错
参考答案:
错
答案解析:
在数据准备阶段，需要将数据收集系统采集的原始数据进行数据预处理，清洗后的数据便于提取特征字段与标签字段，从而生产机器学习所需的数据格式。
104、
当RDD对象创建后，SparkContext会根据RDD对象构建DAG有向无环图，然后将Task提交给DAGScheduler。
对
错
参考答案:
对
答案解析:
当RDD对象创建后，SparkContext会根据RDD对象构建DAG有向无环图，然后将Task提交给DAGScheduler。
105、
DataFrame提供了两种语法风格，即DSL风格语法和SQL风格语法。
对
错
参考答案:
对
答案解析:
DataFrame提供了两种语法风格，即DSL风格语法和SQL风格语法。
106、
Apache Spark Streaming是Apache公司非开源的实时计算框架。
对
错
参考答案:
错
答案解析:
Apache Spark Streaming是Apache公司开源的实时计算框架。
107、
Scala有两种类型的变量，一种是使用关键字var声明的常量，值是不可变的；另一种是使用关键字val声明的变量，值是可变的。
对
错
参考答案:
错
答案解析:
Scala有两种类型的变量，一种是使用关键字var声明的变量，值是可变的；另一种是使用关键字val声明的变量，也叫常量，值是不可变的。
108、
在Yarn模式下，Spark集群中的资源管理器是Master。
对
错
参考答案:
错
答案解析:
在Yarn模式下，Spark集群中的资源管理器是ResourceManager。
109、
HBase利用Chubby作为协调服务作用。
对
错
参考答案:
错
答案解析:
HBase利用Zookeeper作为协调服务作用。
110、
Null是所有引用类型的子类型，主要用途是与其他JVM语言互操作，几乎不在Scala代码中使用。
对
错
参考答案:
对
答案解析:
Null是所有引用类型的子类型，主要用途是与其他JVM语言互操作，几乎不在Scala代码中使用。
111、
Spark集群可以包含一台Master节点和两台Slave节点。
对
错
参考答案:
对
答案解析:
Spark集群可以包含一台Master节点和两台Slave节点。
112、
Executor会向SparkContext进行反向注册并申请Task。
对
错
参考答案:
对
答案解析:
Executor会向SparkContext进行反向注册并申请Task。
113、
Worker Node为执行器的工作单元。
对
错
参考答案:
错
答案解析:
Task（任务）是执行器的工作单元。
114、
RDD的持久化操作有两种方法，分别是cache()方法和persist()方法。
对
错
参考答案:
对
答案解析:
RDD的持久化操作有两种方法，分别是cache()方法和persist()方法。
115、
点对点消息传递模式结构中，生产者发送一条数据，消息将持久化到一个队列中，数据可以被有序重复处理。
对
错
参考答案:
错
答案解析:
点对点消息传递模式结构中，消息是通过一个虚拟通道进行传输的，生产者发送一条数据，消息将持久化到一个队列中，此时将有一个或者多个消费者会消费队列中的数据，但是一条消息只能被消费一次，并且消费后的消息会从消息队列中删除，因此，即使有多个消费者同时消费数据，数据都可以被有序处理。
116、
Scala用scalac编译器把源文件编译成Java的class文件（即在JVM上运行的字节码）。
对
错
参考答案:
对
答案解析:
暂无解析
117、
Spark SQL使用的数据抽象并非是DataFrame，而是RDD。
对
错
参考答案:
错
答案解析:
Spark SQL使用的数据抽象并非是RDD，而是DataFrame。
118、
Apache Flink仅支持实时处理，并且支持高吞吐、高效率的处理能力。
对
错
参考答案:
错
答案解析:
Apache Flink不仅可以支持离线处理，还可以支持实时处理。由于离线处理和实时处理所提供的SLA（服务等级协议）是完全不相同的，所以离线处理一般需要支持低延迟的保证，而实时处理则需要支持高吞吐、高效率的处理。
119、
Spark计算框架在处理数据时，所有的中间数据都保存在磁盘中。
对
错
参考答案:
错
答案解析:
暂无解析
120、
对于宽依赖来说，RDD分区的转换处理是在一个线程里完成，所以宽依赖会被Spark划分到同一个Stage中。
对
错
参考答案:
错
答案解析:
对于窄依赖来说，RDD分区的转换处理是在一个线程里完成，所以窄依赖会被Spark划分到同一个Stage中。
121、
机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。
对
错
参考答案:
错
答案解析:
暂无解析
122、
在Mac下，执行“scala -version”命令，可以测试scala安装情况。
对
错
参考答案:
对
答案解析:
在Mac下，执行“scala -version”命令，可以测试scala安装情况。
123、
take()主要用于通过函数func（输入两个参数并返回一个值）聚合数据集中的元素。
对
错
参考答案:
错
答案解析:
暂无解析
124、
Kafka采用消费者组统一了点对点消息传递模式和发布订阅消息传递模式，当Kafka使用点对点模式时，它可以将处理工作任务平均分配给消费组中的消费者成员；当使用发布订阅模式时，它可以将消息广播给多个消费组。
对
错
参考答案:
对
答案解析:
Kafka使用消费组（Consumer Group）的概念统一了点对点消息传递模式和发布订阅消息传递模式，当Kafka使用点对点模式时，它可以将处理工作任务平均分配给消费组中的消费者成员；当使用发布订阅模式时，它可以将消息广播给多个消费组。Kafka采用多个消费组结合多个消费者，既可以扩展消息处理的能力，也允许消息被多个消费组订阅。
125、
Partitioner函数不能决定RDD本身的分区数量，也不能决定parent RDD Shuffle输出时的分区数量。
对
错
参考答案:
错
答案解析:
暂无解析
126、
Spark SQL不仅能够查询MySQL数据库中的数据，还可以向表中插入新的数据。
对
错
参考答案:
对
答案解析:
Spark SQL不仅能够查询MySQL数据库中的数据，还可以向表中插入新的数据。
127、
在启动HBase集群之前，必须要保证集群中各个节点的时间是同步的，若不同步会抛出ClockOutOfSyncException异常，导致从节点无法启动。
对
错
参考答案:
对
答案解析:
在启动HBase集群之前，必须要保证集群中各个节点的时间是同步的，若不同步会抛出ClockOutOfSyncException异常，导致从节点无法启动。
128、
Scala中，定义定长数组需要使用new关键字，而定义变长数组时，则需要导包import scala.collection.mutable.ArrayBuffer。
对
错
参考答案:
对
答案解析:
暂无解析
129、
无论是在Scala中还是Java中，对象都是类的抽象，而类都是对象的具体实例；对象不占用内存，而类占用存储空间。
对
错
参考答案:
错
答案解析:
无论是在Scala中还是Java中，类都是对象的抽象，而对象都是类的具体实例；类不占用内存，而对象占用存储空间。
130、
Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。
对
错
参考答案:
对
答案解析:
Spark SQL为Spark框架在结构化数据分析方面提供重要技术支持。
131、
join算子操作既可以属于窄依赖，也可以属于宽依赖。
对
错
参考答案:
对
答案解析:
join算子操作既可以属于窄依赖，也可以属于宽依赖。
132、
DataFrame可以从很多数据源中创建，例如结构化文件、外部数据库、Hive表等数据源。
对
错
参考答案:
对
答案解析:
DataFrame可以从很多数据源中创建，例如结构化文件、外部数据库、Hive表等数据源。
133、
在DataFrame的操作中，filter()用于实现对特定字段进行排序操作。
对
错
参考答案:
错
答案解析:
filter()用于实现条件查询，过滤出想要的结果。
134、
Scala提供了重量级的语法用于定义匿名函数，支持高阶函数，允许嵌套多层函数，并支持柯里化。
对
错
参考答案:
错
答案解析:
Scala提供了轻量级的语法用于定义匿名函数，支持高阶函数，允许嵌套多层函数，并支持柯里化。
135、
如果子类要重写一个父类中的非抽象方法，则必须使用override关键字，否则会出现语法错误。
对
错
参考答案:
对
答案解析:
如果子类要重写一个父类中的非抽象方法，则必须使用override关键字，否则会出现语法错误。
136、
Kafka Streams是Apache Kafka开源项目的一个流处理框架，它是基于Kafka的生产者和消费者，为开发者提供了流式处理的能力，具有低延迟性、高扩展性、弹性、容错的特点，易于集成到现有的应用程序中。
对
错
参考答案:
对
答案解析:
Kafka Streams是Apache Kafka开源项目的一个流处理框架，它是基于Kafka的生产者和消费者，为开发者提供了流式处理的能力，具有低延迟性、高扩展性、弹性、容错的特点，易于集成到现有的应用程序中。
137、
Analyze主要完成绑定工作，将不同来源的Unresolved LogicalPlan和元数据进行绑定，生成Resolved LogicalPlan。
对
错
参考答案:
对
答案解析:
Analyze主要完成绑定工作，将不同来源的Unresolved LogicalPlan和元数据进行绑定，生成Resolved LogicalPlan。
138、
Spark SQL支持访问Hive数据仓库，并在Spark引擎中进行统计分析。
对
错
参考答案:
对
答案解析:
Spark SQL支持访问Hive数据仓库，并在Spark引擎中进行统计分析。
139、
Kafka具有故障容错的特性，每个分区都会以副本的方式复制到其它Broker节点上，副本分区数可以自定义设置。
对
错
参考答案:
对
答案解析:
副本分区数量可以在server.properties配置文件中设置
140、
flatMap(func)与map(func)相似，应用于（Key，Value）键值对的数据集时，返回一个新的（Key，Iterable <Value>）形式的数据集。
对
错
参考答案:
错
答案解析:
暂无解析
141、
执行“bin/hbase shell”命令进入HBase Shell交互界面。
对
错
参考答案:
对
答案解析:
执行“bin/hbase shell”命令进入HBase Shell交互界面。
142、
HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。
对
错
参考答案:
对
答案解析:
HBase分布式数据库中的表可以存储成千上万的行和列组成的数据。
143、
Kafka是专门为分布式高吞吐量系统而设计开发的。
对
错
参考答案:
对
答案解析:
暂无解析
144、
HBase中写数据的流程其实就是寻址的流程。
对
错
参考答案:
错
答案解析:
HBase中读数据的流程其实就是寻址的流程。
145、
Spark Streaming能够实时接收输入的数据流并立即处理，在底层数据会转换成RDD交由Spark引擎处理。
对
错
参考答案:
错
答案解析:
Spark Streaming先接收实时输入的数据流，并且将数据按照一定的时间间隔分成一批批的数据，每一段数据都转变成Spark中的RDD，接着交由Spark引擎进行处理，最后将处理结果数据输出到外部储存系统。
146、
Scala中，使用关键字var或val声明变量时，后面紧跟的变量名称可以和Scala中的保留字重名，而且变量名不可以以字母或下划线开头，且变量名是不区分大小写的。
对
错
参考答案:
错
答案解析:
使用关键字var或val声明变量时，后面紧跟的变量名称不能和Scala中的保留字重名，而且变量名可以以字母或下划线开头，且变量名是严格区分大小写的。
147、
Spark SQL与Hive相互不兼容。
对
错
参考答案:
错
答案解析:
Spark SQL与Hive相互兼容。
148、
Cluster Manager负责整个集群的统一资源管理，Worker节点中的Executor是应用执行的主要进程，内部含有多个Task线程以及内存空间。
对
错
参考答案:
对
答案解析:
Cluster Manager负责整个集群的统一资源管理，Worker节点中的Executor是应用执行的主要进程，内部含有多个Task线程以及内存空间。
149、
DStream的内部结构是由一系列连续的RDD组成，每个RDD都是一小段时间分隔开来的数据集。
对
错
参考答案:
对
答案解析:
DStream的内部结构是由一系列连续的RDD组成，每个RDD都是一小段时间分隔开来的数据集。
150、
在HBase集群中，Zookeeper用于监控HRegionServer的状态。
对
错
参考答案:
对
答案解析:
在HBase集群中，Zookeeper用于监控HRegionServer的状态。
151、
二元分类的相关算法包含线性支持向量机、逻辑回归、随机森林、朴素贝叶斯等。
对
错
参考答案:
错
答案解析:
随机森林、朴素贝叶斯是多元回归的算法
152、
，Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。
对
错
参考答案:
对
答案解析:
，Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。
153、
Apache Hive是Spark上的SQL引擎，也是大数据系统中重要的数据仓库工具。
对
错
参考答案:
错
答案解析:
Apache Hive是Hadoop上的SQL引擎，也是大数据系统中重要的数据仓库工具。
154、
由于Column是HBase表的唯一标识，因此Column的设计非常重要。
对
错
参考答案:
错
答案解析:
由于RowKey是HBase表的唯一标识，因此RowKey的设计非常重要。
155、
HFile负责记录HBase修改。
对
错
参考答案:
错
答案解析:
HLog负责记录HBase修改。
156、
对于迭代式计算和交互式数据挖掘，RDD可以将中间计算的数据结果保存在本地磁盘中，若是后面需要中间结果参与计算时，则可以直接从磁盘中读取，从而可以极大地提高计算速度。
对
错
参考答案:
错
答案解析:
对于迭代式计算和交互式数据挖掘，RDD可以将中间计算的数据结果保存在内存中，若是后面需要中间结果参与计算时，则可以直接从内存中读取，从而可以极大地提高计算速度。
157、
在HBase集群中，不会出现单点故障的问题。
对
错
参考答案:
错
答案解析:
暂无解析
158、
DataFrame可以看作是分布式的Row对象的集合。
对
错
参考答案:
对
答案解析:
DataFrame可以看作是分布式的Row对象的集合。
159、
Consumer是数据的生产者，Producer是数据的消费者。
对
错
参考答案:
错
答案解析:
Consumer是数据的消费者，Producer是数据的生产者。
160、
行动算子主要是将在数据集上运行计算后的数值返回到驱动程序，从而触发真正的计算。
对
错
参考答案:
对
答案解析:
行动算子主要是将在数据集上运行计算后的数值返回到驱动程序，从而触发真正的计算。
161、
flatMap(func)方法与map(func)方法相似，因此可以任意使用。
对
错
参考答案:
错
答案解析:
flatMap与map()相似，但是每个输入的元素都可以映射0或者多个输出结果
162、
“--master”参数用于指定Master节点的地址。
对
错
参考答案:
对
答案解析:
“--master”参数用于指定Master节点的地址。
163、
Apache Storm可以简单、高效、可靠地实时处理海量数据，处理数据的速度达到毫秒级别，并将处理后的结果数据保存到持久化介质中（如数据库、HDFS）。
对
错
参考答案:
对
答案解析:
Apache Storm可以简单、高效、可靠地实时处理海量数据，处理数据的速度达到毫秒级别，并将处理后的结果数据保存到持久化介质中（如数据库、HDFS）。
164、
Spark不支持在各种集群管理器（Cluster Manager）上运行。
对
错
参考答案:
错
答案解析:
暂无解析
165、
Kafka采用拉取模型，由消费者记录消费状态，根据主题、Zookeeper集群地址和要消费消息的偏移量，每个消费者互相独立地按顺序读取每个分区的消息
对
错
参考答案:
对
答案解析:
Kafka采用拉取模型的消费方式，它可简化消息代理的设计，消费者可自主控制消费消息的速率以及消费方式（批量消费、逐条消费），同时还能选择不同的提交方式从而实现不同的传输语义。
166、
在处理结构化数据时，开发人员无需编写MapReduce程序，直接使用SQL命令就能完成更加复杂的数据查询操作。
对
错
参考答案:
对
答案解析:
在处理结构化数据时，开发人员无需编写MapReduce程序，直接使用SQL命令就能完成更加复杂的数据查询操作。
167、
通过反射机制推断Schema实现RDD转换DataFrame时，不需要定义一个case class样例类。
对
错
参考答案:
错
答案解析:
暂无解析
168、
local[*]表示的是使用一个Worker线程本地化运行Spark。
对
错
参考答案:
错
答案解析:
local表示的是使用一个Worker线程本地化运行Spark。
169、
Spark2.0之后，Spark使用全新的SparkContext接口替代SQLContext及HiveContext接口完成数据的加载、转换、处理等功能。
对
错
参考答案:
错
答案解析:
Spark2.0之后，Spark使用全新的SparkSession接口替代SQLContext及HiveContext接口完成数据的加载、转换、处理等功能。
170、
Application中包含了多个驱动器（Driver）进程和集群上的单个执行器（Executor）进程。
对
错
参考答案:
错
答案解析:
Application中包含了一个驱动器（Driver）进程和集群上的多个执行器（Executor）进程。
171、
HBase就可以随着存储数据的不断增加而实时动态的增加列。
对
错
参考答案:
对
答案解析:
HBase就可以随着存储数据的不断增加而实时动态的增加列。
172、
在Scala中，在一个源文件中有一个类和一个单例对象，若单例对象名与类名相同，则把这个单例对象称作伴生对象（companion object）。
对
错
参考答案:
对
答案解析:
暂无解析
173、
资源文件夹中存放测试的源码文件，测试文件夹中存放开发中项目的源码文件。
对
错
参考答案:
错
答案解析:
资源文件夹中存放项目源码文件，测试文件夹中存放开发中测试的源码文件。
174、
Kafka集群部署依赖于Java环境和Zookeeper服务，因此在安装Kafka集群时，需要首先配置JDK环境和Zookeeper服务。
对
错
参考答案:
对
答案解析:
Kafka集群部署依赖于Java环境和Zookeeper服务
175、
本地向量分为密集向量和稀疏向量，密集向量是两个并列的数组（索引、值）支持，而稀疏向量是由Double类型的数组支持。
对
错
参考答案:
错
答案解析:
本地向量分为密集向量（Dense）和稀疏向量（Sparse），密集向量是由Double类型的数组支持，而稀疏向量是由两个并列的数组（索引、值）支持。
176、
HBase支持使用SQL语法。
对
错
参考答案:
错
答案解析:
HBase不支持使用SQL语法。
177、
发布订阅模式可以有多种不同的订阅者，发布者发布的消息会被持久化到一个主题中，订阅者可以订阅一个或多个主题。
对
错
参考答案:
对
答案解析:
暂无解析
178、
Hive 1.x将与HBase 0.98.x及更低版本保持兼容，而Hive 2.x将与HBase 1.x及更高版本兼容。
对
错
参考答案:
对
答案解析:
Hive 1.x将与HBase 0.98.x及更低版本保持兼容，而Hive 2.x将与HBase 1.x及更高版本兼容。
179、
标注点是一种带有标签的本地向量，通常用于非监督学习算法中。
对
错
参考答案:
错
答案解析:
暂无解析
180、
Scala中的Trait可以对定义的字段和方法进行实现，Java中的接口也可以。
对
错
参考答案:
错
答案解析:
暂无解析
181、
在Kafka中，若想建立生产者和消费者互相通信，就必须提前创建一个“公共频道”，它就是我们所说的主题（Topic）。
对
错
参考答案:
对
答案解析:
暂无解析
182、
Spark是专为大规模数据处理而设计的快速通用的计算引擎，它是由Java语言开发实现的。
对
错
参考答案:
错
答案解析:
Spark是专为大规模数据处理而设计的快速通用的计算引擎，它是由Scala语言开发实现的。
183、
HBase作为Hadoop的子项目来进行开发维护，用于支持非结构化的海量数据存储。
对
错
参考答案:
错
答案解析:
HBase作为Hadoop的子项目来进行开发维护，用于支持结构化的海量数据存储。
184、
Scala的元组是对多个同类型对象的一种简单封装，它将不同的值用小括号括起来，并用逗号作分隔，即表示元组。
对
错
参考答案:
对
答案解析:
Scala的元组是对多个同类型对象的一种简单封装，它将不同的值用小括号括起来，并用逗号作分隔，即表示元组。
185、
启用WAL日志将接收到数据同步地保存到分布式文件系统上（如HDFS），用于将丢失的数据能够及时恢复。
对
错
参考答案:
对
答案解析:
当Driver处理Spark Executors中的job时，默认是会出现数据丢失的情况，此时，如果我们启用WAL日志将接收到数据同步地保存到分布式文件系统上（如HDFS），当数据由于某种原因丢失时，丢失的数据能够及时恢复
186、
RDD的分区原则是分区的个数尽量等于集群中的CPU核心（Core）数目。
对
错
参考答案:
对
答案解析:
RDD的分区原则是分区的个数尽量等于集群中的CPU核心（Core）数目。
187、
启动Kafka服务需要依赖Zookeeper服务，因此启动Kafka服务前首先启动Zookeeper集群。
对
错
参考答案:
对
答案解析:
Kafka服务启动前，需要先启动Zookeeper集群服务
188、
独立调度器是Spark的核心组件，实现了Spark的基本功能。
对
错
参考答案:
错
答案解析:
Spark Core是Spark核心组件，它实现了Spark的基本功能。
189、
逻辑回归又称为逻辑回归分析，是一种狭义的线性回归分析模型。
对
错
参考答案:
错
答案解析:
逻辑回归又称为逻辑回归分析，是一种广义的线性回归分析模型。
190、
map(func)方法是将源DStream的每个元素，传递到函数func中进行转换操作，得到一个新的DStream。
对
错
参考答案:
对
答案解析:
暂无解析
191、
标注点的实现类是org.apache.spark.mllib.LabeledPoint。
对
错
参考答案:
错
答案解析:
标注点的实现类是org.apache.spark.mllib.regression.LabeledPoint
192、
目前，最为流行的推荐系统所应用的算法是协同过滤，协同过滤通常用于推荐系统，这项技术是为了填补关联矩阵的缺失项，从而实现推荐效果。
对
错
参考答案:
对
答案解析:
协同过滤通常用于推荐系统，这项技术是为了填补关联矩阵的缺失项，从而实现推荐效果
193、
注解@Before，用于Junit单元测试中控制程序最先执行的注解。
对
错
参考答案:
对
答案解析:
注解@Before，用于Junit单元测试中控制程序最先执行的注解。
194、
“--class”参数用于指定运行主类的全路径名称。
对
错
参考答案:
对
答案解析:
“--class”参数用于指定运行主类的全路径名称。
195、
Leader负责所有客户端的读写操作，Follower负责从它的Leader中同步数据，当Leader发生故障时，Follower就会从该副本分区的Follower角色中选取新的Leader。
对
错
参考答案:
对
答案解析:
Leader负责所有客户端的读写操作，Follower负责从它的Leader中同步数据，当Leader发生故障时，Follower就会从该副本分区的Follower角色中选取新的Leader。
196、
设置检查点（checkPoint）方式，本质上是将RDD写入内存进行存储。
对
错
参考答案:
错
答案解析:
设置检查点（checkPoint）方式，本质上是将RDD写入磁盘进行存储。
197、
一个HRegion Server上只能存储一个Region。
对
错
参考答案:
错
答案解析:
暂无解析
198、
Hadoop的MapReduce进行计算时，每次产生的中间结果都是存储在内存中；而Spark在计算时产生的中间结果存储在本地磁盘中。
对
错
参考答案:
错
答案解析:
Hadoop的MapReduce进行计算时，每次产生的中间结果都是存储在本地磁盘中；而Spark在计算时产生的中间结果存储在内存中。
199、
Kafka是由Twitter软件基金会开发的一个开源流处理平台。
对
错
参考答案:
错
答案解析:
Kafka是由Apache软件基金会开发的一个开源流处理平台
200、
updateStateByKey()返回一个新状态的DStream，其中通过在键的前一个状态和键的新值应用指定函数来更新每一个键的状态。
对
错
参考答案:
对
答案解析:
暂无解析
201、
在Spark Streaming中，DStream的输出操作是真正触发DStream上所有转换操作进行计算。
对
错
参考答案:
对
答案解析:
在Spark Streaming中，DStream的输出操作是真正触发DStream上所有转换操作进行计算。
202、
MLlib支持读取LIBSVM的格式数据，LIBSVM格式是一种每一行表示一个标签稀疏向量的文本格式。
对
错
参考答案:
对
答案解析:
暂无解析
203、
Kafka Streams是一套处理分析Kafka中存储数据的客户端类库，处理完的数据不可以重新写回Kafka，但可以发送给外部存储系统。
对
错
参考答案:
错
答案解析:
Kafka Streams是一套处理分析Kafka中存储数据的客户端类库，处理完的数据可以重新写回Kafka，也可以发送给外部存储系统。
204、
Spark SQL提供了一个编程抽象结构叫做DataFrame的数据模型。
对
错
参考答案:
对
答案解析:
Spark SQL提供了一个编程抽象结构叫做DataFrame的数据模型。
205、
从HiveQL被解析成语法抽象树起，执行计划生成和优化的工作全部交给Spark SQL的Analyzer分析器进行负责和管理。
对
错
参考答案:
错
答案解析:
暂无解析
206、
Zookeeper中存储的是ROOT表的数据。
对
错
参考答案:
对
答案解析:
Zookeeper中存储的是ROOT表的数据。
207、
优先位置列表会存储每个 Partition的优先位置，对于一个HDFS文件来说，就是每个Partition块的位置。
对
错
参考答案:
对
答案解析:
优先位置列表会存储每个 Partition的优先位置，对于一个HDFS文件来说，就是每个Partition块的位置。
208、
DataFrame可以通过“as[ElementType]”方法转换为Dataset。
对
错
参考答案:
对
答案解析:
DataFrame可以通过“as[ElementType]”方法转换为Dataset。
209、
Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中。
对
错
参考答案:
对
答案解析:
Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中。
210、
Scala中可以使用def语句和val语句定义函数，而定义方法只能使用def语句。
对
错
参考答案:
对
答案解析:
Scala中可以使用def语句和val语句定义函数，而定义方法只能使用def语句。
211、
RDD采用了惰性调用。
对
错
参考答案:
对
答案解析:
暂无解析
212、
send()方法中有三个参数，第一个参数是指定发送主题，第二个参数是设置消息的Key，第三个参数是消息的Value
对
错
参考答案:
对
答案解析:
暂无解析
213、
Scala语言和Java语言类似，只允许继承【】父类。
参考答案:
【一个】
答案解析:
暂无解析
214、
在集群中提交Spark作业时，用于指定每个Executor使用的CPU核心数为1个的参数是【】。
参考答案:
【--total-executor-cores 1】
答案解析:
暂无解析
215、
在Spark的TaskScheduler阶段，是通过【】管理Task。
参考答案:
【TaskSetManager】
答案解析:
在Spark的TaskScheduler阶段，是通过TaskSetManager管理Task。
216、
通常，机器学习的学习形式分类有【】和无监督学习。
参考答案:
【有监督学习】
答案解析:
暂无解析
217、
在Scala中，使用【】关键字来定义的类被称为样例类。
参考答案:
【case】
答案解析:
在Scala中，使用case关键字来定义的类被称为样例类。
218、
【】表示行键，每个HBase表中只能有一个行键，它在HBase中以字典序的方式存储。
参考答案:
【RowKey】
答案解析:
RowKey表示行键，每个HBase表中只能有一个行键，它在HBase中以字典序的方式存储。
219、
使用drop命令时，需要先使用【】将数据表变为禁用状态。
参考答案:
【disable】
答案解析:
使用drop命令时，需要先使用disable将数据表变为禁用状态。
220、
Spark兼容【】、Hive，可以很好地与Hadoop系统融合，从而弥补MapReduce高延迟的性能缺点。
参考答案:
【HDFS】
答案解析:
Spark还兼容HDFS、Hive，可以很好地与Hadoop系统融合，从而弥补MapReduce高延迟的性能缺点。
221、
SaveMode的参数分别有【】、“Overwrite”、【】、“Ignore”四个值。
参考答案:
【Append】【ErrorIfExists】
答案解析:
暂无解析
222、
操作HBase常用的方式有两种，一种是【】，另一种是Java API。
参考答案:
【Shell命令行】
答案解析:
操作HBase常用的方式有两种，一种是Shell命令行，另一种是Java API。
223、
Scala语言可以运行在Windows、【】、Mac OS等系统上。
参考答案:
【Linux】
答案解析:
Scala语言可以运行在Windows、Linux、Mac OS等系统上。
224、
在Spark的DAGScheduler阶段，每个【】都是TaskSet任务集合。
参考答案:
【Stage】
答案解析:
暂无解析
225、
KafkaUtils里面提供了两个创建DStream的方式，一种是【】方式，另一种为KafkaUtils.createDirectStream方式。
参考答案:
【KafkaUtils.createDstream】
答案解析:
KafkaUtils里面提供了两个创建DStream的方式，一种是KafkaUtils.createDstream方式，另一种为KafkaUtils.createDirectStream方式。
226、
创建Scala一共有三种类型，分别是Class、【】和Trait。
参考答案:
【Object】
答案解析:
创建Scala一共有三种类型，分别是Class、Object和Trait。
227、
在Spark-Shell中，执行【】命令提交任务。
参考答案:
【spark-submit】
答案解析:
暂无解析
228、
HBase和Hive进行整合，不能将数据直接插入到与HBase关联的Hive表中，需要创建【】。
参考答案:
【中间表】
答案解析:
暂无解析
229、
【】是一种不代表任何意义的值类型，它的作用类似Java中的void。
参考答案:
【Unit】
答案解析:
暂无解析
230、
只有对于（Key，Value）的RDD，才会有Partitioner（分区），非（Key，Value）的RDD的Parititioner的值是【】。
参考答案:
【None】
答案解析:
只有对于（Key，Value）的RDD，才会有Partitioner（分区），非（Key，Value）的RDD的Parititioner的值是None。
231、
当HBase表查询数据遵循的是【】。
参考答案:
【寻址机制】
答案解析:
当HBase表查询数据遵循的是寻址机制。
232、
【】是Spark用来处理结构化数据的一个模块。
参考答案:
【Spark SQL】
答案解析:
Spark SQL是Spark用来处理结构化数据的一个模块。
233、
通过【】或SQL处理数据，Spark 优化器（Catalyst）会自动优化，即使我们写的程序或SQL不高效，程序也可以高效的执行。
参考答案:
【DataFrame API】
答案解析:
通过DataFrame API或SQL处理数据，Spark 优化器（Catalyst）会自动优化，即使我们写的程序或SQL不高效，程序也可以高效的执行。
234、
Mllib库的主要数据类型包括【】、标注点、【】。
参考答案:
【本地向量】【本地矩阵】
答案解析:
MLlib的主要数据类型包括本地向量、标注点、本地矩阵。本地向量与本地矩阵是提供公共接口的简单数据模型，Breeze和Jblas提供了底层的线性代数运算。在监督学习中使用标注点类型表示训练样本。
235、
当前Spark中实现了两种类型的分区函数，一个是基于哈希的【】，另外一个是基于范围的RangePartitioner。
参考答案:
【HashPartitioner】
答案解析:
当前Spark中实现了两种类型的分区函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。
236、
若需要停止HBase集群，则执行【】命令。
参考答案:
【stop-hbase.sh】
答案解析:
若需要停止HBase集群，则执行stop-hbase.sh命令。
237、
在数据准备阶段，通常将数据随机分为3个模块，即训练数据模块、【】和测试数据模块。
参考答案:
【验证数据模块】
答案解析:
在数据准备阶段，通常将数据随机分为3个部分，即训练数据模块、验证数据模块和测试数据模块。
238、
Yarn模式又分为【】和Yarn Client模式。
参考答案:
【Yarn Cluster模式】
答案解析:
暂无解析
239、
在创建DataFrame之前，为了支持RDD转换成DataFrame及后续的SQL操作，需要导入spark.implicits._包启用【】。
参考答案:
【隐式转换】
答案解析:
暂无解析
240、
在流式计算框架的模型中，通常需要构建数据流的拓扑结构，Kafka流处理框架同样是将输入主题->【】->输出主题抽象成一个DAG拓扑图。
参考答案:
【自定义处理器】
答案解析:
暂无解析
241、
在数据处理应用中，大数据工程师将Spark技术应用于广告、【】、推荐系统等业务中。
参考答案:
【报表】
答案解析:
暂无解析
242、
【】对Executor进行状态监控，如果监控到Executor失败，则会立刻重新创建。
参考答案:
【Cluster Manager】
答案解析:
Cluster Manager对Executor进行状态监控，如果监控到Executor失败，则会立刻重新创建。
243、
Spark SQL复用了Hive提供的【】、HiveQL、【】以及序列化和反序列工具（SerDes）。
参考答案:
【元数据仓库（Metastore）】【用户自定义函数（UDF）】
答案解析:
Spark SQL复用了Hive提供的元数据仓库（Metastore）、HiveQL、用户自定义函数（UDF）以及序列化和反序列工具（SerDes）。
244、
Scala类抽象机制的扩展通过两种途径实现，一种是【】，另一种是混入机制，这两种途径都能够避免多重继承的问题。
参考答案:
【子类继承】
答案解析:
暂无解析
245、
根据RDD之间依赖关系的不同可以将DAG划分成不同的【】。
参考答案:
【Stage(调度阶段)】
答案解析:
根据RDD之间依赖关系的不同可以将DAG划分成不同的Stage(调度阶段)。
246、
当Case类不能提前定义的时候，就需要采用【】来实现RDD转换成DataFrame。
参考答案:
【编程方式定义Schema信息】
答案解析:
当Case类不能提前定义的时候，就需要采用编程方式定义Schema信息来实现RDD转换成DataFrame。
247、
Scala旨在与流行的【】进行良好的交互操作。
参考答案:
【Java Runtime Environment（JRE）】
答案解析:
暂无解析
248、
在Spark 1.3.0版本之前，DataFrame被称为【】。
参考答案:
【SchemaRDD】
答案解析:
在Spark 1.3.0版本之前，DataFrame被称为SchemaRDD。
249、
按照【】的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。
参考答案:
【移动数据不如移动计算】
答案解析:
按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。
250、
Spark为RDD提供了两个重要的机制，分别是持久化机制（即缓存机制）和【】。
参考答案:
【容错机制】
答案解析:
暂无解析
251、
在Scala中，Map是一种可迭代的【】结构，并且键是唯一的，值不一定是唯一的，所有的值都是通过键来获取的。
参考答案:
【键值对（key/value）】
答案解析:
暂无解析
252、
在Spark安装目录下，执行【】命令可以启动Spark集群。
参考答案:
【sbin/start-all.sh】
答案解析:
暂无解析
253、
【】是指将Spark程序提交至Spark集群中执行任务，由Spark集群负责资源的调度，程序会被框架分发到集群中的节点上并发地执行。
参考答案:
【集群模式】
答案解析:
集群模式是指将Spark程序提交至Spark集群中执行任务，由Spark集群负责资源的调度，程序会被框架分发到集群中的节点上并发地执行。
254、
MLlib支持的本地矩阵包含【】、稀疏矩阵两种类型。
参考答案:
【密集矩阵】
答案解析:
暂无解析
255、
Hadoop的MapReduce在计算数据时，计算过程必须要转化为【】和Reduce两个过程。
参考答案:
【Map】
答案解析:
Hadoop的MapReduce在计算数据时，计算过程必须要转化为Map和Reduce两个过程。
256、
测试数据集是为了验证最佳模型，避免【】问题。
参考答案:
【过拟合】
答案解析:
暂无解析
257、
RDD提供了两种故障恢复的方式，分别是【】和设置检查点（checkpoint）方式。
参考答案:
【血统（Lineage）方式】
答案解析:
RDD提供了两种故障恢复的方式，分别是血统（Lineage）方式和设置检查点（checkpoint）方式。
258、
Hive采用MySQL数据库存放Hive元数据，为了能够让Spark访问Hive，就需要将【】拷贝到Spark安装路径下的Jars目录。
参考答案:
【MySQL驱动包】
答案解析:
Hive采用MySQL数据库存放Hive元数据，为了能够让Spark访问Hive，就需要将MySQL驱动包拷贝到Spark安装路径下的Jars目录。
259、
Scala中的变量在声明时，必须进行【】。
参考答案:
【初始化】
答案解析:
暂无解析
260、
在Scala中，【】可以是简写成a.+(b)。
参考答案:
【a+b】
答案解析:
暂无解析
261、
Spark Streaming支持多种数据源，例如【】、Flume以及TCP套接字等数据源。
参考答案:
【Kafka】
答案解析:
Spark Streaming支持多种数据源，例如Kafka、Flume以及TCP套接字等数据源。
262、
Spark SQL可以通过【】从关系型数据库中读取数据的方式创建DataFrame。
参考答案:
【JDBC】
答案解析:
Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame。
263、
Spark SQL支持多种数据源的查询和加载，兼容【】，并可以使用JDBC/ODBC的连接方式来执行SQL语句。
参考答案:
【HQL】
答案解析:
Spark SQL支持多种数据源的查询和加载，兼容HQL，并可以使用JDBC/ODBC的连接方式来执行SQL语句。
264、
在DataFrame的操作中，【】用于对记录进行分组。
参考答案:
【groupBy()】
答案解析:
在DataFrame的操作中，groupBy()用于对记录进行分组。
265、
Spark在2013年加入【】，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。
参考答案:
【Apache孵化器项目】
答案解析:
Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。
266、
【】是Apache Kafka开源项目的一个流处理框架。
参考答案:
【Kafka Streams】
答案解析:
暂无解析
267、
一个TaskScheduler只能服务一个【】对象。
参考答案:
【SparkContext】
答案解析:
一个TaskScheduler只能服务一个SparkContext对象。
268、
查看所有主题的命令参数是【】。
参考答案:
【--list】
答案解析:
Kafka常用命令行操作中还可以使用“--list”参数可以查看所有的主题
269、
在Scala中，没有静态方法或静态字段，所以不能用类名直接访问类中的方法和字段，而是创建类的【】去访问类中的方法和字段。
参考答案:
【实例对象】
答案解析:
暂无解析
270、
Mesos模式下的默认的分区数是【】。
参考答案:
【8】
答案解析:
Mesos模式下的默认的分区数是8。
271、
在Scala中，控制结构语句包括【】和循环语句。
参考答案:
【条件分支语句】
答案解析:
暂无解析
272、
DataFrame提供了一个【】以方便操作结构化数据。
参考答案:
【领域特定语言（DSL）】
答案解析:
DataFrame提供了一个领域特定语言（DSL）以方便操作结构化数据。
273、
【】表示时间戳，记录每次操作数据的时间，通常记作数据的版本号。
参考答案:
【Timestamp】
答案解析:
Timestamp表示时间戳，记录每次操作数据的时间，通常记作数据的版本号。
274、
Spark Streaming的特点有易用性、【】、易整合性。
参考答案:
【容错性】
答案解析:
Spark Streaming的特点有易用性、容错性、易整合性。
275、
Spark SQL可以无缝地将【】查询与Spark程序进行结合。
参考答案:
【SQL】
答案解析:
暂无解析
276、
【】是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构，最终在Spark2.0版本被定义成Spark新特性。
参考答案:
【Dataset】
答案解析:
Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构，最终在Spark2.0版本被定义成Spark新特性。
277、
进入Windows的命令行，输入【】命令可以测试Scala环境是否安装成功。
参考答案:
【scala】
答案解析:
暂无解析
278、
Catalyst优化器是一个新的可扩展的查询优化器，它是基于【】函数式编程结构。
参考答案:
【Scala】
答案解析:
Catalyst优化器是一个新的可扩展的查询优化器，它是基于Scala函数式编程结构。
279、
Spark生态系统主要包含【】、Spark SQL、【】、MLlib、GraphX以及独立调度器。
参考答案:
【Spark Core】【Spark Streaming】
答案解析:
暂无解析
280、
DAG（Directed Acyclic Graph）叫做有向无环图，Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个【】。
参考答案:
【DAG】
答案解析:
暂无解析
281、
在Spark中，不同的RDD之间具有依赖的关系。RDD与它所依赖的RDD的依赖关系有两种类型，分别是【】和宽依赖（wide dependency）。
参考答案:
【窄依赖（narrow dependency）】
答案解析:
暂无解析
282、
【】命令用于扫描表并返回表的所有数据。
参考答案:
【scan】
答案解析:
scan命令用于扫描表并返回表的所有数据。
283、
Scala中的Trait可以被类和对象(Objects)使用关键字【】来继承。
参考答案:
【extends】
答案解析:
Scala中的Trait可以被类和对象(Objects)使用关键字extends来继承。
284、
Spark运行架构主要是由SparkContext、【】和Worker。
参考答案:
【ClusterManager】
答案解析:
暂无解析
285、
在HBase集群中，【】负责为HRegion Server分配HRegion。
参考答案:
【HMaster】
答案解析:
在HBase集群中，HMaster负责为HRegion Server分配HRegion。
286、
Kafka集群是由【】、消息代理服务器（Broker Server）、【】组成。
参考答案:
【生产者（Producer）】【消费者（Consumer）】
答案解析:
暂无解析
287、
Spark Streaming提供了一个高级抽象的流，即【】。
参考答案:
【DStream（离散流）】
答案解析:
Spark Streaming提供了一个高级抽象的流，即DStream（离散流）
288、
【】主要用于返回数据集中的元素个数。
参考答案:
【count()】
答案解析:
count()算子操作主要用于返回数据集中的元素个数。
289、
通过浏览器访问【】，查看HBase集群状态。
参考答案:
【http://hadoop01:16010】
答案解析:
通过浏览器访问http://hadoop01:16010，查看HBase集群状态。
290、
【】主要用于以数组的形式返回数据集中的所有元素。
参考答案:
【collect()】
答案解析:
collect()主要用于以数组的形式返回数据集中的所有元素。
291、
MLlib库中包含了一些通用的机器学习算法和工具类，包括分类、【】、聚类、【】等。
参考答案:
【回归】【降维】
答案解析:
MLlib库中包含了一些通用的机器学习算法和工具类，包括分类、回归、聚类、降维等。
292、
MLlib提供了两个分层抽样方法，分别为sampleByKey()、【】。
参考答案:
【sampleByKeyExtra()】
答案解析:
暂无解析
293、
Spark Streaming支持从多种数据源获取数据，包括【】、Flume、Twitter、ZeroMQ、【】、TCP Sockets数据源。
参考答案:
【Kafka】【Kinesis】
答案解析:
暂无解析
294、
Spark框架对大数据的支持从【】、实时处理到交互式查询，进而发展到图计算和【】。
参考答案:
【内存计算】【机器学习模块】
答案解析:
Spark框架对大数据的支持从内存计算、实时处理到交互式查询，进而发展到图计算和机器学习模块。
295、
本地矩阵具有整型的【】以及Double类型的元素值，它存储在单个机器上。
参考答案:
【行和列索引值】
答案解析:
本地矩阵具有整型的行和列索引值以及Double类型的元素值，它存储在单个机器上。
296、
Spark要想很好地支持SQL，就需要完成解析（Parser）、【】、执行（Execution）三大过程。
参考答案:
【优化（Optimizer）】
答案解析:
Spark要想很好地支持SQL，就需要完成解析（Parser）、优化（Optimizer）、执行（Execution）三大过程。
297、
Kafka核心API主要有Producer API、【】、Streams API、【】、AdminClient API五种。
参考答案:
【Consumer API】【Connect API】
答案解析:
Kafka核心API主要有【Producer API】、【Consumer API】、【Streams API】、【Connect API】、【AdminClient API】五种。
298、
每个【】中保存的是HBase表中某段连续的数据。
参考答案:
【Region】
答案解析:
每个Region中保存的是HBase表中某段连续的数据。
299、
【】是一种以RDD为基础的分布式数据集，因此它可以完成RDD的绝大多数功能。
参考答案:
【DataFrame】
答案解析:
暂无解析
300、
【】是Spark提供的可扩展的机器学习库，其特点是采用较为先进的迭代式、内存存储的分析计算，使得数据的计算处理速度大大高于普通的数据处理引擎。
参考答案:
【MLlib】
答案解析:
MLlib是Spark提供的可扩展的机器学习库，其特点是采用较为先进的迭代式、内存存储的分析计算，使得数据的计算处理速度大大高于普通的数据处理引擎。
301、
在协同过滤算法中有着两个分支，分别是基于群体用户的协同过滤（UserCF）、【】。
参考答案:
【基于物品的协同过滤（ItemCF）】
答案解析:
在协同过滤算法中有着两个分支：基于群体用户的协同过滤（UserCF）和基于物品的协同过滤（ItemCF）。
302、
Kafka的设计初衷是为实时数据提供一个【】、高通量、【】的消息传递平台。
参考答案:
【统一】【低等待】
答案解析:
暂无解析
303、
Spark SQL的重要特点是能够统一处理【】和RDD。
参考答案:
【关系表】
答案解析:
暂无解析
304、
【】操作会筛选出满足函数func的元素，并返回一个新的数据集。
参考答案:
【filter(func)】
答案解析:
filter(func)操作会筛选出满足函数func的元素，并返回一个新的数据集。
305、
Scala中的数组分为【】和变长数组。
参考答案:
【定长数组】
答案解析:
Scala中的数组分为定长数组和变长数组。
306、
Spark的任务调度流程分为RDD Objects、【】、【】以及Worker四个部分。
参考答案:
【DAGScheduler】【TaskScheduler】
答案解析:
暂无解析
307、
Spark可以访问各种数据源，包括本地文件系统、【】、Cassandra、【】和Hive等。
参考答案:
【HDFS】【HBase】
答案解析:
暂无解析
308、
Spark Streaming具有很好的【】，在没有额外代码和配置的情况下，可以恢复丢失的数据。
参考答案:
【容错性】
答案解析:
Spark Streaming在没有额外代码和配置的情况下，可以恢复丢失的数据。对于实时计算来说，容错性至关重要。首先我们要明确一下Spark中RDD的容错机制，即每一个RDD都是一个不可变的分布式可重算的数据集，其记录着确定性的操作继承关系（lineage），所以只要输入数据是可容错的，那么任意一个RDD的分区（Partition）出错或不可用，都是可以使用原始输入数据经过转换操作重新计算得出。
309、
Kafka的消息传递模式有【】、发布订阅消息传递模式。
参考答案:
【点对点消息传递模式】
答案解析:
Kafka的消息传递模式有点对点消息传递模式、发布订阅消息传递模式。
310、
当join算子操作后，分区数量【】则为窄依赖。
参考答案:
【没有变化】
答案解析:
当join算子操作后，分区数量没有变化则为窄依赖。
311、
Kafka集群中消息的消费模型有两种，分别是【】和【】。
参考答案:
【推送模型（push）】【拉取模型（pull）】
答案解析:
Kafka集群中消息的消费模型有两种，分别是推送模型（push）和拉取模型（pull）。
312、
本地矩阵的基类是【】，DenseMatrix和【】均是它的继承类。
参考答案:
【Matrix】【SparseMatrix】
答案解析:
本地矩阵的基类是Matrix，DenseMatrix和SparseMatrix均是Matrix的继承类。
313、
Client通过请求【】地址来查询目标数据。
参考答案:
【RegionServer】
答案解析:
Client通过请求RegionServer地址来查询目标数据。
314、
HBase同样利用Hadoop的【】来处理HBase中的海量数据。
参考答案:
【MapReduce】
答案解析:
HBase同样利用Hadoop的MapReduce来处理HBase中的海量数据。
315、
HBase中表的每一个列的数据存储都有多个【】。
参考答案:
【Version（版本）】
答案解析:
HBase中表的每一个列的数据存储都有多个Version（版本）。
316、
【】表中存储的是META表的Region信息，也就是所有RegionServer的地址。
参考答案:
【ROOT】
答案解析:
ROOT表中存储的是META表的Region信息，也就是所有RegionServer的地址。
317、
目前，Mllib库默认采用【】计算方法,计算多个序列之间相关统计的方法。
参考答案:
【皮尔森相关系数】
答案解析:
暂无解析
318、
【】用于在集群上申请资源的外部服务。
参考答案:
【Cluster Manager（集群管理器）】
答案解析:
暂无解析
319、
向Kafka集群发送消息数据时，只需要调用【】类的send()方法
参考答案:
【KafkaProducer】
答案解析:
暂无解析
320、
通过【】和“--total-executor-cores”参数指定执行器的资源分配。
参考答案:
【--executor-memory】
答案解析:
暂无解析
321、
由于HBase中表的列允许为【】，并且空列不会占用存储空间，因此，表可以设计的非常稀疏。
参考答案:
【空】
答案解析:
由于HBase中表的列允许为空，并且空列不会占用存储空间，因此，表可以设计的非常稀疏。
322、
机器学习是一门多领域交叉学科，涉及【】、统计学、逼近论、凸分析、【】、等多门学科。
参考答案:
【概率论】【算法复杂度理论】
答案解析:
机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能
323、
在RDD的处理过程中，真正的计算发生在RDD的【】操作。
参考答案:
【行动】
答案解析:
暂无解析
324、
在HBase中，数据的存储规则是【】的数据存储到一起。
参考答案:
【相近】
答案解析:
在HBase中，数据的存储规则是相近的数据存储到一起。
325、
Spark Streaming中对DStream的转换操作会转变成对【】的转换操作。
参考答案:
【RDD】
答案解析:
暂无解析
326、
机器学习在电商领域的应用主要涉及搜索、【】、推荐三个方面，在机器学习的参与下，搜索引擎能够更好的理解语义，为用户推荐商品。
参考答案:
【广告】
答案解析:
暂无解析
327、
Scala中，数组转换就是通过【】关键字将原始的数组进行转换，会产生一个新的数组，然而原始的数组保持不变。
参考答案:
【yield】
答案解析:
Scala中，数组转换就是通过yield关键字将原始的数组进行转换，会产生一个新的数组，然而原始的数组保持不变。
328、
Scala是Scalable Language的简称，它是一门【】的编程语言，其设计初衷是实现可伸缩的语言、并集成【】和函数式编程的各种特性。
参考答案:
【多范式】【面向对象编程】
答案解析:
Scala是Scalable Language的简称，它是一门多范式的编程语言，其设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。
329、
目前，市场上常用的实时计算框架有【】、Apache Storm、【】、Yahoo！S4。
参考答案:
【Apache Spark Streaming】【Apache Flink】
答案解析:
暂无解析
330、
本地向量分为密集向量（Dense）和【】。
参考答案:
【稀疏向量（Sparse）】
答案解析:
本地向量分为密集向量（Dense）和稀疏向量（Sparse），密集向量是由Double类型的数组支持，而稀疏向量是由两个并列的数组（索引、值）支持。
331、
MLlib采用【】语言编写，借助了函数式编程设计思想，开发人员在开发的过程中只需要关注数据，而不需要关注算法本身，所有要做的就是传递参数和调试参数。
参考答案:
【Scala】
答案解析:
暂无解析
332、
在Scala的元组中，可以通过使用【】命令将多个值绑定在一起。
参考答案:
【zip】
答案解析:
在Scala的元组中，可以通过使用zip命令将多个值绑定在一起。
333、
Shark将SQL语句的转换从MapReduce作业替换成了【】作业。
参考答案:
【Spark】
答案解析:
暂无解析
334、
HBase则是基于【】进行数据的存储。
参考答案:
【列】
答案解析:
HBase则是基于列进行数据的存储。
335、
RDD是Spark提供的最重要的【】。
参考答案:
【抽象概念】
答案解析:
RDD是Spark提供的最重要的抽象概念。
336、
DataFrame与Hive类似，支持【】（例如Struct、Array、Map）。
参考答案:
【嵌套数据类型】
答案解析:
DataFrame与Hive类似，支持嵌套数据类型（例如Struct、Array、Map）。
337、
开发Kafka Stream程序需要实现【】接口，并重写父类中的【】方法，它是业务计算的核心方法，最后调用【】方法，将消息数据转发到拓扑下游处理节点。
参考答案:
【Processor】【process()】【forward()】
答案解析:
暂无解析
338、
Spark-Shell本身就是一个【】，它会初始化一个SparkContext对象为“sc”，用户可以直接调用。
参考答案:
【Driver】
答案解析:
Spark-Shell本身就是一个Driver，它会初始化一个SparkContext对象为“sc”，用户可以直接调用。
339、
Spark中的机器学习流程大致分为三个阶段，即数据准备阶段、【】以及部署预测阶段。
参考答案:
【训练模型评估阶段】
答案解析:
Spark中的机器学习流程大致分为三个阶段，即数据准备阶段、训练模型评估阶段以及部署预测阶段。
340、
reduceByKeyAndWindow()方法需要三个参数，分别是函数、窗口长度及【】。
参考答案:
【时间间隔】
答案解析:
暂无解析
341、
StoreFile底层是以【】文件的格式保存在HDFS上。
参考答案:
【HFile】
答案解析:
StoreFile底层是以HFile文件的格式保存在HDFS上。
342、
IDEA工具可以【】和进行简单的修复、以及IDEA工具内置了很多优秀的插件。
参考答案:
【自动识别代码错误】
答案解析:
IDEA工具可以自动识别代码错误和进行简单的修复、以及IDEA工具内置了很多优秀的插件。
343、
Dataset也可以使用【】方法转换为DataFrame。
参考答案:
【toDF()】
答案解析:
Dataset也可以使用toDF()方法转换为DataFrame。
345、
简述Spark SQL提供的三个功能。
参考答案:
（1）Spark SQL可以从各种结构化数据源（例如JSON、Hive、Parquet等）中读取数据，进行数据分析。
（2）Spark SQL包含行业标准的JDBC和ODBC连接方式，因此它不局限于在Spark程序内使用SQL语句进行查询。
（3）Spark SQL可以无缝地将SQL查询与Spark程序进行结合，它能够将结构化数据作为Spark中的分布式数据集（RDD）进行查询，在Python、Scala和Java中均集成了相关API，这种紧密的集成方式能够轻松地运行SQL查询以及复杂的分析算法。
357、
简述RDD的依赖关系。
参考答案:
窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。也就是说，一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解，我们通常把窄依赖形象的比喻为独生子女。当RDD执行map、filter及union和join操作时，都会产生窄依赖。
宽依赖是指子RDD的每一个分区都会使用所有父RDD的所有分区或多个分区，即OneToManyDependecies。为了便于理解，我们通常把宽依赖形象的比喻为超生。当RDD做groupByKey和join操作时，会产生宽依赖。
365、
简述RDD的创建方式。
参考答案:
Spark提供了两种创建RDD的方式，分别是从文件系统（本地和HDFS）中加载数据创建RDD和通过并行集合创建RDD。
答案解析:
Spark提供了两种创建RDD的方式，分别是从文件系统（本地和HDFS）中加载数据创建RDD和通过并行集合创建RDD。
372、
简述什么是Kafka的分区。
参考答案:
在物理意义上可以把主题看作是分区的日志文件，每个分区都是有序的，不可变的记录序列，新的消息会不断地追加到日志中，分区中的每条消息都会按照时间顺序分配一个递增的顺序编号
答案解析:
暂无解析
373、
解释说明Kafka的Zookeeper是什么，是否可以在没有Zookeeper的情况下使用Kafka。
参考答案:
Zookeeper是一个开放源码的、高性能的协调服务，它用于Kafka的分布式应用，Zookeeper主要用于在集群中不同节点之间进行通信，使用Kafka集群时，必须部署Zookeeper服务。
答案解析:
暂无解析
375、
简述Spark SQL的工作流程。
参考答案:
1.在解析SQL语句之前，会创建SparkSession，涉及到表名、字段名称和字段类型的元数据都将保存在SessionCatalog中；
2.当调用SparkSession的sql()方法时就会使用SparkSqlParser进行解析SQL语句，解析过程中使用的ANTLR进行词法解析和语法解析；
3.接着使用Analyzer分析器绑定逻辑计划，在该阶段，Analyzer会使用Analyzer Rules，并结合SessionCatalog，对未绑定的逻辑计划进行解析，生成已绑定的逻辑计划；
4.然后使用Optimizer优化器优化逻辑计划，该优化器同样定义了一套规则（Rules），利用这些规则对逻辑计划和语句进行迭代处理；
5.接着使用SparkPlanner对优化后的逻辑计划进行转换，生成可以执行的物理计划SparkPlan；
6.最终使用QueryExecution执行物理计划，此时则调用SparkPlan的execute()方法，返回RDDs。
378、
简述RDD分区的作用。
参考答案:
在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上，但是可以确保相同的键出现在同一个分区上。
答案解析:
在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上，但是可以确保相同的键出现在同一个分区上。
379、
简述设置检查点方式进行故障恢复。
参考答案:
设置检查点（checkPoint）方式，本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时，只需要在中间阶段设置一个检查点进行容错，即通过Spark中的sparkContext对象调用setCheckpoint()方法，设置一个容错文件系统目录（如HDFS）作为检查点checkpoint，将checkpoint的数据写入之前设置的容错文件系统中进行高可用的持久化存储，若是后面有节点出现宕机导致分区数据丢失，则可以从做检查点的RDD开始重新计算即可，不需要进行从头到尾的计算，这样就会减少开销。
答案解析:
设置检查点（checkPoint）方式，本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时，只需要在中间阶段设置一个检查点进行容错，即通过Spark中的sparkContext对象调用setCheckpoint()方法，设置一个容错文件系统目录（如HDFS）作为检查点checkpoint，将checkpoint的数据写入之前设置的容错文件系统中进行高可用的持久化存储，若是后面有节点出现宕机导致分区数据丢失，则可以从做检查点的RDD开始重新计算即可，不需要进行从头到尾的计算，这样就会减少开销。
387、
简述利用Spark Streaming完成实时计算的工作流程。
参考答案:
当Spark Streaming从数据源获取数据之后，则可以使用诸如map、reduce、join和window等高级函数进行复杂的计算处理，最后将处理的结果存储到分布式文件系统、数据库中，最终利用实时Web仪表板进行展示。
389、
简述RDD转换DataFrame的两种方法。
参考答案:
Spark官方提供了两种方法实现从RDD转换得到DataFrame，第一种方法是利用反射机制来推断包含特定类型对象的Schema，这种方式适用于对已知数据结构的RDD转换；第二种方法通过编程接口构造一个Schema，并将其应用在已知的RDD数据中。
答案解析:
Spark官方提供了两种方法实现从RDD转换得到DataFrame，第一种方法是利用反射机制来推断包含特定类型对象的Schema，这种方式适用于对已知数据结构的RDD转换；第二种方法通过编程接口构造一个Schema，并将其应用在已知的RDD数据中。
394、
什么是DStream窗口操作。
参考答案:
在DStream流上，将一个可配置的长度设置为窗口，以一个可配置的速率向前移动窗口。根据窗口操作，对窗口内的数据进行计算，每次落在窗口内的RDD数据会被聚合起来计算，生成的RDD会作为Window DStream的一个RDD。
答案解析:
在DStream流上，将一个可配置的长度设置为窗口，以一个可配置的速率向前移动窗口。根据窗口操作，对窗口内的数据进行计算，每次落在窗口内的RDD数据会被聚合起来计算，生成的RDD会作为Window DStream的一个RDD。
407、
简述说明什么是DStream流。
参考答案:
DStream是Spark Streaming提供的一个高级抽象流，表示连续的数据流，其内部结构是由一系列连续的RDD组成。
答案解析:
暂无解析
411、
请说明什么是Apache Kafka。
参考答案:
Kafka是一个高吞吐量的分布式发布订阅消息系统，能够将消息从一个端点传递到另外一个端点。
答案解析:
Kafka是一个高吞吐量的分布式发布订阅消息系统，能够将消息从一个端点传递到另外一个端点。
414、
简述Spark的部署方式。
参考答案:
Spark部署模式分为Local模式（本地单机模式）和集群模式，在Local模式下，常用于本地开发程序与测试，而集群模式又分为Standalone模式（集群单机模式）、Yarn模式和Mesos模式。
416、
简述Scala语言的显著特性。
参考答案:
Scala语言具有面向对象的、函数式编程的、静态类型的、可扩展的、可以交互操作的。

你可能感兴趣的:(spark,hadoop,Python,spark,hadoop)

Python使用pip安装Caused by SSLError:certificate verify failed 风一样的树懒人工智能 python
最近公司电脑受限，安装conda好像有点问题，不让安装。只能pip硬装了：使用pip安装的时候一直报错：“CouldnotfetchURLhttps://pypi.org/simple/pyplot/:Therewasaproblemconfirmingthesslcertificate:HTTPSConnectionPool(host='pypi.org',port=443):Maxretrie
jupyter notebook在Linux系统中导入虚拟环境 tiantian11253 linux jupyter python
一、创建虚拟环境：1、Anaconda自带的工具创建虚拟环境：1.1离线创建：condacreate-nenv_name--offlinepython=3.6.31.2在线创建：condacreate-nenv_namepython=3.6.3注：env_name表示你要创建的虚拟环境的名称python=3.6.3表示新建的环境指定的python解释器版本，不指定代表默认环境的python版本1.
【Swift 算法实战】利用 KMP 算法高效求解最短回文串网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
python jieba+wordcloud 风夏夜中 python jieba wordcloud
pipinstalljiebapipinstallwordcloud#!-*-coding:utf-8-*-importjieba.possegaspsegstop_words=["给","被","的","最"]text="食堂的饭真的是很好吃呀，最喜欢食堂了"word_dict={}#分词并统计词频，flag表示词性forword,flaginpseg.cut(text):ifwordnotin
详解Python字符串 jay丿 python 网络开发语言
字符串str是由多个字符组成的文本内容、在python中可以使用双引号、单引号或者三引号来标记字符串类型。在编程语言中，字符串是使用频率最高的一种数据类型。Python中的字符串是不可变的序列字符串的定义方式字面量定义str工厂函数字面量定义字符串可以使用双引号、单引号或者三引号进行定义、且支持不同的符号之间的嵌套。str工厂函数str(obj)可以将任何数据类型转换为字符串字符串的运算+:字符串
Python面向对象 jay丿 python 开发语言
#面向对象在编程领域中，有多种开发模式/风格，比较常见的有面向过程、面向对象、函数式编程等手段。在Python语言中，支持面向过程、面向对象和函数式编程的。面向过程面向过程目的性很强、为了完成某个特定的功能而通过函数、判断、循环等手段编写的代码。面向对象面向对象将一个任务进行拆解、每一部分的任务由特定的类/函数等完成、最终将每一部分任务的结果合并到一块、最终完成整个任务。面向对象的三大基石封装继承
Python基础知识点全面总结 jay丿 python windows 开发语言
Python基础知识点全面总结Python作为一种简洁、易读且功能强大的编程语言，已经成为编程学习和应用领域中的热门选择。本文将对Python的基础部分进行全面总结，涵盖数据类型、条件判断、循环、函数、数据结构等重要知识点，并附上相关代码示例。一、数据类型Python中的数据类型主要分为五大类：数值、布尔、字符串、容器、None。数值类型整型（int）：在Python3中，int表示长整型，没有l
Python 进阶特性深度解析：从语法糖到内存管理的统一视角 Neo Evolution Python python windows 开发语言算法数据结构
生成式（推导式）的用法与内存效率分析Python的推导式不仅仅是语法糖，它们在内存管理和性能方面有着深刻的影响。理解推导式的工作原理，有助于我们写出更高效的代码。推导式的内存模型分析列表推导式在CPython解释器中的实现实际上比等价的for循环更为高效：#列表推导式的内存分配模式squares_list=[x**2forxinrange(1000)]#等价for循环的内存分配模式squares_
python SSL: CERTIFICATE_VERIFY_FAILED certificate has expired 证书错误的几种情况和解决方法景影随形 python python ssl certificate 证书错误
文章目录一、哪些情况可能会遇到这个错误？二、为什么会出现这个错误？这个错误说明了什么？2.1HTTPS的简要知识2.2客户端是如何验证服务器证书的呢？2.2.1常见的证书错误有：三、哪些原因可能会导致证书错误？3.1证书无效报错3.1.1网站使用自签发证书3.1.2证书和域名不匹配3.2证书有效报错3.2.1本地计算机缺少合适的根证书3.2.2本地计算机根证书过期未更新3.2.3证书链不完整3.2
cap4：YoloV5的TensorRT部署指南（python版）我是一个对称矩阵 TensorRT全流程部署指南 YOLO python 人工智能 TensorRT 模型部署
《TensorRT全流程部署指南》专栏文章目录：《TensorRT全流程部署指南》专栏主页cap1：TensorRT介绍及CUDA环境安装cap2：1000分类的ResNet的TensorRT部署指南（python版）cap3：自定义数据集训练ResNet的TensorRT部署指南（python版）cap4：YoloV5目标检测任务的TensorRT部署指南（python版）cap5：YoloV5
Python----数据分析（Numpy二：数组的索引切片，属性，更改类型和形状，修改维度）蹦蹦跳跳真可爱589 数据分析 Python numpy python 数据分析
一、数组的索引和切片Ndarray数组中的元素是可以被修改的，如果需要访问或者修改Ndarray数组某个位置的元素，则需要使用Ndarray数组的索引来完成；如果需要访问或者修改一些区域的元素，则需要使用Ndarray数组的切片。1.1、一维数组的索引与切片1.1.1、索引一维数组的索引方式与Python列表的索引方式类似，Ndarray数组使用方括号行索引，索引值从左向右从0开始，从右向左从-1
Python Cookbook-2.10 处理字符串中的 zip 文件我不会编程555 #Python学习 python 开发语言
任务程序接收到了一个字符串，其内容是一个zip文件，需要读取这个zip文件中的信息。解决方案应对这种问题，采用Python标准库的cStringIO模块的拿手好戏:importcStringIO，zipfileclassZipString(ZipFile):def__init__(self,datastring):ZipFile.__init__(self,cStringIO.StringIO(d
解决在Python中使用Win32api报错的问题，No module named win32api w36680130 Python
解决在Python中使用Win32api报错的问题，Nomodulenamedwin32api参考文章：（1）解决在Python中使用Win32api报错的问题，Nomodulenamedwin32api（2）https://www.cnblogs.com/SH170706/p/9640110.html备忘一下。
ROS2安装教程（virtualbox7.0.6+ROS2） setella c++ubuntu
整个过程分两步：先安装Virtualbox，再安装ROS2一、安装virtualbox7.0.6网址：https://www.virtualbox.org/wiki/Downloads问题1安装时报错：缺少pythoncore、win32api依赖（下图网上拷贝的图，版本忽略）解决：根据virtualbox论坛的帖子，有人说不使用python控制virtualbox的话，可以先不安装，去掉pyth
基于Python开发的使用多个单视图特征融合的基于图卷积网络（GCN）的肺结节检测系统的示例 go5463158465 python 深度学习算法 python 迁移学习开发语言
以下是一个基于Python开发的使用多个单视图特征融合的基于图卷积网络（GCN）的肺结节检测系统的示例。我们将使用PyTorch和torch_geometric库来实现图卷积网络，并模拟数据进行演示。步骤概述数据准备：模拟生成多个单视图的肺结节特征数据，并构建图数据。特征融合：将多个单视图特征进行融合。图卷积网络构建：构建一个简单的图卷积网络模型。模型训练：使用训练数据对模型进行训练。模型评估：使
virtualBox虚拟机使用 hawks:) linux 运维服务器
之前一直使用vmware，现在发现virtualbox其实用着也还可以，界面比较简洁。下载和安装官方网站：https://www.virtualbox.org/不知道为什么，这个官网看起来很亲切。我下载的是virtualbox7，直接安装提示缺少python和win32api。目前virtualbox最高支持python3.11https://www.virtualbox.org/ticket/2
如何使用Python快速开发一个带管理系统界面的网站-解析方案萧鼎 python基础到进阶教程 python 开发语言
如果你想用Python开发一个管理系统界面的网站，并且希望界面美观，可以考虑以下几个框架和库：1.Streamlit（快速、简洁）适合：数据分析、仪表盘、内部管理系统特点：写法简单，类似JupyterNotebook自带现代化UI，无需前端开发内置交互组件，如表单、图表、按钮缺点：不适合复杂的权限管理和大规模系统示例代码：importstreamlitasstst.title("管理系统")st.
安全见闻笔记 freesec 安全笔记
安全见闻包含了网络安全，网络技术，拓展知识面“不识庐山真面目，只缘身在此山中”编程语言:C语言：一种通用的、面向过程的编程语言，广泛应用于系统软件和嵌入式开发。C++：在C语言基础上发展而来，支持面向对象编程，常用于游戏开发、高性能计算等领域。Java：一种广泛使用的面向对象编程语言，具有跨平台性，应用于企业级应用开发等。Python：简洁易学，拥有丰富的库，适用于数据分析、人工智能、Web开发等
使用 Python 和 OpenCV 检测人体皮肤颜色变化计算心率爱搬砖的程序猿. python opencv 开发语言
一、引言心率是反映人体健康状况的重要生理指标之一。传统的心率检测方法通常需要使用专业的医疗设备，如心电图仪、心率带等。而随着计算机视觉技术的发展，我们可以利用摄像头捕捉人体皮肤的颜色变化，通过分析这些变化来计算心率。本文将介绍如何使用Python和OpenCV实现这一功能。二、原理概述当心脏跳动时，血液会在血管中流动，导致皮肤表面的颜色发生微小的变化。这种颜色变化主要体现在皮肤的红色通道上。我们可
python数据分析一周速成2.数据计算噼里啪啦噼酷啪Q python 数据分析 CDA
python数据分析一周速成2.数据计算一、按列聚合计算（常用函数，五星推荐describe一键多维展示）importnumpyasnpimportpandasaspdd=np.array([[1,12,13,15,16],[23,28,24,215,26],[370,39,355,325,3],[47,49,45,42,482],[571,519,5,52,57],[61,69,
linux建立多个repo,git+repo的搭建过程七月步远 linux建立多个repo
此文章是分为Git搭建和repo搭建，以及repoAndroid仓库的创建Git搭建公用版代码服务器apt-getinstallgit确保ssh已经正常安装并使用。useradd-mgitapt-getinstallpython-setuptoolsgitconfig--globaluser.name"S905-server"gitconfig--globaluser.email查看成功与否则是：
【Python爬虫(70)】Python爬虫实战：房产数据大揭秘奔跑吧邓邓子 Python爬虫 python 爬虫开发语言房产数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬取准备2.1目标网站选择2.2开发环境搭建2.3反爬
【Python爬虫(68)】扒一扒招聘网站，让求职“有备而来” 奔跑吧邓邓子 Python爬虫 python 爬虫开发语言招聘网站
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬取准备2.1确定目标招聘网站2.2环境搭建2.3了解
【Python爬虫(69)】解锁游戏数据宝藏：Python爬虫实战攻略奔跑吧邓邓子 Python爬虫 python 爬虫游戏开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言1.1游戏数据的价值1.2爬虫在游戏数据获取中的作用二、爬
基于YOLOv5、FaceNet与KNN的人脸识别系统 reset2021 人脸识别系统 YOLO facenet knn 人脸检测
步骤1：环境配置安装依赖库：安装Python3.x安装TensorFlow、Keras、OpenCV等深度学习库获取数据集：收集训练用的多个人脸图像（每个用户至少几十张）将图像按用户分类存放在data/train/user1,user2等文件夹中步骤2：训练YOLO模型配置YOLO数据集：创建一个data.yaml文件，配置您的数据集路径和标签train:./data/train/images/v
L1-013 计算阶乘和(10分) Python 大菜彩天梯赛蓝桥杯 python 天梯赛
对于给定的正整数N，需要你计算S=1!+2!+3!+...+N!。输入格式：输入在一行中给出一个不超过10的正整数N。输出格式：在一行中输出S的值。样例：">输入样例：3输出样例：9代码：n=int(input())sum0=0foriinrange(1,n+1):sum1=1forjinrange(1,i+1):sum1=sum1*jsum0=sum0+sum1print(sum0)
零基础学习Python之保留字_我的学习Python记录3 灏瀚星空人工智能 python 学习经验分享笔记
零基础学习Python之保留字_我的学习Python记录3学习背景在ChatGPT引爆AI革命的今天，Python以"人工智能第一语言"的身份成为技术圈宠儿。作为零基础小白，我决定用CSDN博客记录学习历程，通过输出倒逼输入，与广大网友共同成长！今日重点攻克——Python保留字。一、Python保留字速查表（共35个）以下为Python3.10版本所有保留字及简明释义：保留字释义基础用法示例（新
windows下安装Open Web UI 醒醒a python
windows下安装openwebui有三种方式,docker,python+node.js,整合包.这里我选择的是第二种,非docker.非Docker方式安装1.安装Python：下载并安装Python3.11，建议安装路径中不要包含中文字符，并勾选“Addpython3.11toPath”选项。安装完成后，在命令提示符中输入python，若显示Python版本信息则表示安装成功。2.安装No
Python Django系列—入门实例(二) Doker数码品牌 Python python django 开发语言
数据库配置现在，打开mysite/settings.py。这是个包含了Django项目设置的Python模块。默认情况下，DATABASES配置使用SQLite。如果你是数据库新手，或者只是想尝试Django，这是最简单的选择。SQLite包含在Python中，因此你不需要安装任何其他东西来支持数据库。然而，当你开始第一个真正的项目时，你可能希望使用像PostgreSQL这样更具扩展性的数据库，以
Python天梯赛10分题-念数字、求整数段和、比较大小、计算阶乘和重生之我要成为代码大佬 pythonPTA天梯赛算法 python 开发语言数据结构
007-念数字输入一个整数，输出每个数字对应的拼音。当整数为负数时，先输出fu字。十个数字对应的拼音如下：0:ling1:yi2:er3:san4:si5:wu6:liu7:qi8:ba9:jiu输入格式：输入在一行中给出一个整数，如：1234。提示：整数包括负数、零和正数。输出格式：在一行中输出这个整数对应的拼音，每个数字的拼音之间用空格分开，行末没有最后的空格。如yiersansi。输入样例：
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep