spark、hadoop大数据计算面试题汇总

地址:https://developer.aliyun.com/ask/256456?utm_content=g_1000084791
Hadoop 相关试题 Hive 相关试题

hive表关联查询,如何解决数据倾斜的问题?

hive内部表和外部表的区别

Spark 相关试题 Spark Core面试篇01

随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。希望能给大家带来帮助。

Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?

Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?

如何配置spark master的HA?

Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?

driver的功能是什么?

spark的有几种部署模式,每种模式特点?

Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?

Spark中Work的主要工作是什么?

Spark为什么比mapreduce快?

简单说一下hadoop和spark的shuffle相同和差异?

Mapreduce和Spark的都是并行计算,那么他们有什么相同和区别

RDD机制?

spark有哪些组件?

spark工作机制?

spark的优化怎么做?

简要描述Spark分布式集群搭建的步骤

什么是RDD宽依赖和窄依赖?

spark-submit的时候如何引入外部jar包

cache和pesist的区别

二、选择题

Spark 的四大组件下面哪个不是

下面哪个端口不是 spark 自带服务的端口

spark 1.4 版本的最大变化:

Spark Job 默认的调度模式:

哪个不是本地模式运行的个条件:

下面哪个不是 RDD 的特点:

关于广播变量,下面哪个是错误的:

关于累加器,下面哪个是错误的:

Spark 支持的分布式部署方式中哪个是错误的:

Stage 的 Task 的数量由什么决定:

下面哪个操作是窄依赖:

下面哪个操作肯定是宽依赖:

spark 的 master 和 worker 通过什么方式进行通信的:

默认的存储级别:

spark.deploy.recoveryMode 不支持那种:

下列哪个不是 RDD 的缓存方法?

Task 运行在下来哪里个选项中 Executor 上的工作单元:

hive 的元数据存储在 derby 和 MySQL 中有什么区别:

DataFrame 和 RDD 最大的区别:

Master 的 ElectedLeader 事件后做了哪些操作

【Spark面试2000题41-70】Spark core面试篇02

cache后面能不能接其他算子,它是不是action操作?

reduceByKey是不是action?

数据本地性是在哪个环节确定的?

RDD的弹性表现在哪几点?

常规的容错方式有哪几种类型?

RDD通过Linage(记录数据更新)的方式为何很高效?

RDD有哪些缺陷?

说一说Spark程序编写的一般步骤?

Spark有哪两种算子?

Spark提交你的jar包时所用的命令是什么?

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

你所理解的Spark的shuffle过程?

你如何从Kafka中获取数据?

对于Spark中的数据倾斜问题你有什么好的方案?

RDD创建有哪几种方式?

Spark中数据的位置是被谁管理的?

collect功能是什么,其底层是怎么实现的?

Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

为什么Spark Application在没有获得足够的资源,job就开始执行了,可能会导致什么问题发生?

列举你常用的action?

Spark为什么要持久化,一般什么场景下要进行persist操作? 为什么要进行持久化?

为什么要进行序列化

介绍一下cogroup rdd实现原理,你在什么场景下用过这个rdd?

下面这段代码输出结果是什么?

一、面试30题(第71-100题)

Spark使用parquet文件存储格式能带来哪些好处?

Executor之间如何共享数据?

Spark累加器有哪些特点?

spark hashParitioner的弊端是什么?

如何在一个不确定的数据规模的范围内进行排序?

spark hashParitioner的弊端是什么?

RangePartitioner分区的原理?

介绍parition和block有什么关联关系?

Spark应用程序的执行过程是什么?

hbase预分区个数和spark过程中的reduce个数相同么

如何理解Standalone模式下,Spark资源分配是粗粒度的?

Spark如何自定义partitioner分区器?

spark中task有几种类型?

union操作是产生宽依赖还是窄依赖?

rangePartioner分区器特点?

什么是二次排序,你是如何用spark实现二次排序的?互联网公司常面

如何使用Spark解决TopN问题?

如何使用Spark解决分组排序问题?

窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系?

Hadoop中,Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?

什么是shuffle,以及为什么需要shuffle?

不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快?

Spark中的HashShufle的有哪些不足?

conslidate是如何优化Hash shuffle时在map端产生的小文件?

Sort-basesd shuffle产生多少个临时文件

Sort-based shuffle的缺陷?

Spark shell启动时会启动derby?

spark.default.parallelism这个参数有什么意义,实际生产中如何设置?

spark.storage.memoryFraction参数的含义,实际生产中如何调优?

spark.shuffle.memoryFraction参数的含义,以及优化经验?

介绍一下你对Unified Memory Management内存管理模型的理解?

【Spark面试2000题101-130】Spark on Yarn面试篇04 本篇题集主要是Spark on Yarn相关的面试题,主要涉及Spark on Yarn、Yarn、Mapreduce相关面试题。

一、面试题30题

MRV1有哪些不足?

描述Yarn执行一个任务的过程?

Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?

提交任务时,如何指定Spark Application的运行模式?

不启动Spark集群Master和work服务,可不可以运行Spark程序?

Spark中的4040端口由什么功能?

spark on yarn Cluster 模式下,ApplicationMaster和driver是在同一个进程么?

如何使用命令查看application运行的日志信息

Spark on Yarn 模式有哪些优点?

谈谈你对container的理解?

运行在yarn中Application有几种类型的container?

Spark on Yarn架构是怎么样的?

Executor启动时,资源通过哪几个参数指定?

为什么会产生yarn,解决了什么问题,有什么优势?

Mapreduce的执行过程?

一个task的map数量由谁来决定?

reduce后输出的数据量有多大?

你的项目提交到job的时候数据量有多大?

你们提交的job任务大概有多少个?这些job执行完大概用多少时间?

你们业务数据量多大?有多少行数据?

如何杀死一个正在运行的job

列出你所知道的调度器,说明其工作原理

YarnClient模式下,执行Spark SQL报这个错:

spark.driver.extraJavaOptions这个参数是什么意思,你们生产环境配了多少?

导致Executor产生FULL gc 的原因,可能导致什么问题?

Combiner 和partition的作用

Hbase 相关试题
Storm 相关试题
大数据相关试题
面试|大数据相关试题-面试篇07
面试系列重新继续发布,下面这个是从网上搜来的,题目都是好题目,答案作为参考是可以的,作为学习素材,仅供大家参 考。

简答说一下hadoop的map-reduce编程模型

hadoop的TextInputFormat作用是什么,如何自定义实现

hadoop和spark的都是并行计算,那么他们有什么相同和区别

为什么要用flume导入hdfs,hdfs的构架是怎样的

map-reduce程序运行的时候会有什么比较常见的问题

简单说一下hadoop和spark的shuffle过程

Hive中存放是什么?

Hive与关系型数据库的关系?

Flume工作机制是什么?

Sqoop工作原理是什么?

Hbase行健列族的概念,物理模型,表的设计原则?

Spark Streaming和Storm有何区别?

mllib支持的算法?

简答说一下hadoop的map-reduce编程模型?

Hadoop平台集群配置、环境变量设置?

Hadoop性能调优?

Hadoop高并发?

hadoop的TextInputFormat作用是什么,如何自定义实现?

hadoop和spark的都是并行计算,那么他们有什么相同和区别?

为什么要用flume导入hdfs,hdfs的构架是怎样的?

map-reduce程序运行的时候会有什么比较常见的问题?

简单说一下hadoop和spark的shuffle过程?

RDD机制?

kafka工作原理?

ALS算法原理?

kmeans算法原理?

canopy算法原理?

朴素贝叶斯分类算法原理?

关联规则挖掘算法apriori原理?

这个是什么原因导致的?

不配置spark.deploy.recoveryMode选项为ZOOKEEPER,会有什么不好的地方

多Master如何配置

No Space Left on the device

java.lang.OutOfMemory, unable to create new native

Worker节点中的work目录占用许多磁盘空间

spark-shell提交Spark Application如何解决依赖库

Spark在发布应用的时候,出现连接不上master问题

ERROR XSDB6: Another instance 。。。

java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

问题:在执行yarn集群或者客户端时,报以上错误

Spark Streaming 和kafka整合后读取消息报错: OffsetOutOfRangeException

运行Spark-SQL报错

你可能感兴趣的:(spark、hadoop大数据计算面试题汇总)