大数据问答汇总

Apache Spark有哪些常见的稳定版本，Spark1.6.0的数字分别代表什么意思？

1）第一个数字：1 major version : 代表大版本更新，一般都会有一些 api 的变化，以及大的优化或是一些结构的改变；
2）第二个数字：6 minor version : 代表小版本更新，一般会新加 api，或者是对当前的 api 就行优化，或者是其他内容的更新，比如说 WEB UI 的更新等等；
3）第三个数字：0 patch version ，代表修复当前小版本存在的一些 bug，基本不会有任何 api 的改变和功能更新；记得有一个大神曾经说过，如果要切换 spark 版本的话，最好选 patch version 非 0 的版本，因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的，有可能会有一些隐藏的 bug 或是不稳定性存在，所以最好选择 1.2.1, … 1.6.1 这样的版本。通过版本号的解释说明，可以很容易了解到，spark2.1.1的发布时是针对大版本2.1做的一些bug修改，不会新增功能，也不会新增API，会比2.1.0版本更加稳定。

Spark为什么比mapreduce快？spark和mr的区别？spark和Mapreduce快？为什么快呢？快在哪里呢？

https://www.jianshu.com/p/99253d54893d

Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别

https://blog.csdn.net/weixin_43230682/article/details/105548049

spark sql又为什么比hive快呢？

https://blog.csdn.net/qq_19446965/article/details/112758881

Spark技术栈有哪些组件，每个组件都有什么功能，适合什么应用场景？

https://my.oschina.net/134596/blog/3038149

spark工作机制？

https://blog.csdn.net/wendelee/article/details/107864584

Spark Job执行流程？spark的执行流程？简要描述Spark写数据的流程？

Spark Job执行流程 https://www.imooc.com/article/267183
spark的执行流程 https://www.jianshu.com/p/07302e679663
Spark写数据的流程 https://blog.csdn.net/weixin_39400271/article/details/99694379

spark的运行模式，wc的简单描述

运行模式 https://www.cnblogs.com/chong-zuo3322/p/12911934.html
wc的简单描述 https://www.cnblogs.com/asker009/p/11690442.html

画图，画Spark的工作模式，部署分布架构图

https://www.jianshu.com/p/ae9839140f71

画图，画图讲解spark工作流程。以及在集群上和各个角色的对应关系。

https://blog.csdn.net/ChillLitchi/article/details/107026919

Spark应用程序的执行过程是什么？spark的执行流程

https://www.cnblogs.com/ytwang/p/13722752.html

如何理解Standalone模式下，Spark资源分配是粗粒度的？

https://developer.aliyun.com/ask/256282

Spark on Mesos中，什么是粗粒度分配，什么是细粒度分配，各自的优点和缺点是什么？

https://developer.aliyun.com/ask/256083

Spark中standalone模式特点，有哪些优点和缺点？

1）特点：
（1）standalone是master/slave架构，集群由Master与Worker节点组成，程序通过与Master节点交互申请资源，Worker节点启动Executor运行；
（2）standalone调度模式使用FIFO调度方式；
（3）无依赖任何其他资源管理系统，Master负责管理集群资源
2）优点：
（1）部署简单；
（2）不依赖其他资源管理系统。
3）缺点：
（1）默认每个应用程序会独占所有可用节点的资源，当然可以通过spark.cores.max来决定一个应用可以申请的CPU cores个数；
（2）可能有单点故障，需要自己配置master HA

Spark的优化怎么做？Spark做过哪些优化，（优化说完会问你为什么？原理是什么？）

https://jingyan.baidu.com/article/6fb756ecd88057651858fb80.html

Spark性能优化主要有哪些手段？

https://www.cnblogs.com/skaarl/p/13899458.html

简要描述Spark分布式集群搭建的步骤？

https://blog.csdn.net/ZFX008/article/details/108219091

spark-submit的时候如何引入外部jar包

http://www.k6k4.com/simple_question/qshow/aaqxwzpbp1540220788463

Spark提交你的jar包时所用的命令是什么？

spark-submit

你如何从Kafka中获取数据？

https://ask.naixuejiaoyu.com/question/321

Spark对接kafka的两种方式

https://blog.csdn.net/weixin_43854618/article/details/107703387

SS对接Kafka两种整合方式的区别

https://blog.csdn.net/weixin_43854618/article/details/107703387

SS中如何实现精准一次消费

https://blog.csdn.net/weixin_41347419/article/details/115741633

Spark 中Master 实现HA有哪些方式？

https://blog.csdn.net/u013771019/article/details/106815986/

Spark master使用zookeeper进行HA，有哪些元数据保存在Zookeeper?

https://my.oschina.net/134596/blog/3038161

Spark master HA 主从切换过程不会影响集群已有的作业运行，为什么？

因为程序在运行之前，已经申请过资源了，driver和Executors通讯，不需要和master进行通讯的

Spark master如何通过Zookeeper做HA？

https://blog.csdn.net/love__live1/article/details/86606326

如何配置spark master的HA？

https://www.cnblogs.com/xupccc/p/9544603.html

对于Spark中的数据倾斜问题你有什么好的方案？

https://blog.csdn.net/m0_49834705/article/details/114218898

Spark使用parquet文件存储格式能带来哪些好处？

https://www.jianshu.com/p/8fd4b48bf604?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Spark累加器有哪些特点？

https://blog.csdn.net/qq_40337086/article/details/107003817

如何在一个不确定的数据规模的范围内进行排序？

https://ask.naixuejiaoyu.com/question/337

Spark如何自定义partitioner分区器？

https://www.cnblogs.com/Gxiaobai/p/11073381.html

spark hashParitioner的弊端是什么？

https://ask.naixuejiaoyu.com/question/336

spark读取数据，是几个Partition呢？

RangePartitioner分区的原理?

https://ask.naixuejiaoyu.com/question/338

rangePartioner分区器特点？

rangePartioner尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大；但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。RangePartitioner作用：将一定范围内的数映射到某一个分区内，在实现中，分界的算法尤为重要。算法对应的函数是rangeBounds

介绍parition和block有什么关联关系？

https://www.cnblogs.com/itboys/p/9779128.html

什么是二次排序，你是如何用spark实现二次排序的？（互联网公司常面）

https://blog.csdn.net/Poolweet_/article/details/108483148

如何使用Spark解决TopN问题？（互联网公司常面）

https://www.cnblogs.com/yurunmiao/p/4898672.html

如何使用Spark解决分组排序问题？（互联网公司常面）

https://www.it610.com/article/1290035562081755136.htm

Hadoop中，Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子？

相当于spark中的map算子和reduceByKey算子，当然还是有点区别的,MR会自动进行排序的，spark要看你用的是什么partitioner

Spark shell启动时会启动derby?

spark shell启动会启动spark sql，spark sql默认使用derby保存元数据，但是尽量不要用derby，它是单实例，不利于开发。会在本地生成一个文件metastore_db,如果启动报错，就把那个文件给删了，derby数据库是单实例，不能支持多个用户同时操作，尽量避免使用

介绍一下你对Unified Memory Management内存管理模型的理解？

https://developer.aliyun.com/ask/256318

hbase预分区个数和spark过程中的reduce个数相同么

和spark的map个数相同，reduce个数如果没有设置和reduce前的map数相同。

sparksql常用哪些算子

https://blog.csdn.net/qq_32595075/article/details/79918644

Spark中Lineage的基本原理

https://cloud.tencent.com/developer/news/590420

使用shell和scala代码实现WordCount？

shell https://www.cnblogs.com/wpbk007/p/12010345.html
scala https://blog.csdn.net/weixin_42312342/article/details/90415448

Spark RDD 和 MR2的区别

1）mr2只有2个阶段，数据需要大量访问磁盘，数据来源相对单一 ,spark RDD ,可以无数个阶段进行迭代计算，数据来源非常丰富，数据落地介质也非常丰富spark计算基于内存；
2）MapReduce2需要频繁操作磁盘IO，需要大家明确的是如果是SparkRDD的话，你要知道每一种数据来源对应的是什么，RDD从数据源加载数据，将数据放到不同的partition针对这些partition中的数据进行迭代式计算计算完成之后，落地到不同的介质当中。

Spark读取hdfs上的文件，然后count有多少行的操作，你可以说说过程吗。那这个count是在内存中，还是磁盘中计算的呢？

1）从任务执行的角度分析执行过程
driver生成逻辑执行计划->driver生成物理执行计划->driver任务调度->executor任务执行。
四个阶段：逻辑执行计划-》成物理执行计划-》任务调度-》任务执行
四个对象：driver-》DAGScheduler-》TaskScheduler-》Executor
两种模式：任务解析、优化和提交单机模式-》任务执行分布式模式
2）计算过程发生在内存

怎么用spark做数据清洗

https://blog.csdn.net/qq_43414681/article/details/115918869

spark怎么整合hive？

https://blog.csdn.net/weixin_42419342/article/details/108922410

hbase region多大会分区，spark读取hbase数据是如何划分partition的？

region超过了hbase.hregion.max.filesize这个参数配置的大小就会自动裂分，默认值是1G。
默认情况下，hbase有多少个region，Spark读取时就会有多少个partition

BlockManager怎么管理硬盘和内存的？

https://www.cnblogs.com/hdc520/p/13677806.html

列举Spark中常见的端口，分别有什么功能？

https://www.cnblogs.com/zfy0098/p/11010236.html

Spark官网中，你常用哪几个模块？

集群上 nodemanager和ResourceManager的数量关系？

看过源码？你熟悉哪几个部分的源码？

spark 如何防止内存溢出？

https://blog.csdn.net/xiaoyaGrace/article/details/102821104

spark的内存模型？

https://blog.csdn.net/hxcaifly/article/details/85855446
https://www.iteblog.com/archives/2342.html

谈谈你对Spark内存管理的认识？

https://www.cnblogs.com/wzj4858/p/8204282.html

spark的通信方式，Spark如何处理结构化数据，Spark如何处理非结构化数据？

通信方式 https://www.jianshu.com/p/b85d096baa94
Spark如何处理结构化数据 Spark SQL是处理结构化的数据，参考https://blog.csdn.net/qq_44973159/article/details/106325796
Spark如何处理非结构化数据可以先转成结构化数据进行处理，当然也可以直接在非结构化数据上拿取相应的数据

对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里？

优势 Spark是基于内容的计算，快速，易用(Scala)
参考 https://blog.csdn.net/master_hunter/article/details/114823065

对于算法是否进行过自主的研究设计？

没有