大数据问答汇总

Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?

1)第一个数字:1 major version : 代表大版本更新,一般都会有一些 api 的变化,以及大的优化或是一些结构的改变;
2)第二个数字:6 minor version : 代表小版本更新,一般会新加 api,或者是对当前的 api 就行优化,或者是其他内容的更新,比如说 WEB UI 的更新等等;
3)第三个数字:0 patch version , 代表修复当前小版本存在的一些 bug,基本不会有任何 api 的改变和功能更新;记得有一个大神曾经说过,如果要切换 spark 版本的话,最好选 patch version 非 0 的版本,因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的,有可能会有一些隐藏的 bug 或是不稳定性存在,所以最好选择 1.2.1, … 1.6.1 这样的版本。 通过版本号的解释说明,可以很容易了解到,spark2.1.1的发布时是针对大版本2.1做的一些bug修改,不会新增功能,也不会新增API,会比2.1.0版本更加稳定。

Spark为什么比mapreduce快?spark和mr的区别?spark和Mapreduce快?为什么快呢? 快在哪里呢?

https://www.jianshu.com/p/99253d54893d

Mapreduce和Spark的都是并行计算,那么他们有什么相同和区别

https://blog.csdn.net/weixin_43230682/article/details/105548049

spark sql又为什么比hive快呢?

https://blog.csdn.net/qq_19446965/article/details/112758881

Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?

https://my.oschina.net/134596/blog/3038149

spark工作机制?

https://blog.csdn.net/wendelee/article/details/107864584

Spark Job执行流程?spark的执行流程?简要描述Spark写数据的流程?

Spark Job执行流程 https://www.imooc.com/article/267183
spark的执行流程 https://www.jianshu.com/p/07302e679663
Spark写数据的流程 https://blog.csdn.net/weixin_39400271/article/details/99694379

spark的运行模式,wc的简单描述

运行模式 https://www.cnblogs.com/chong-zuo3322/p/12911934.html
wc的简单描述 https://www.cnblogs.com/asker009/p/11690442.html

画图,画Spark的工作模式,部署分布架构图

https://www.jianshu.com/p/ae9839140f71

画图,画图讲解spark工作流程。以及在集群上和各个角色的对应关系。

https://blog.csdn.net/ChillLitchi/article/details/107026919

Spark应用程序的执行过程是什么?spark的执行流程

https://www.cnblogs.com/ytwang/p/13722752.html

如何理解Standalone模式下,Spark资源分配是粗粒度的?

https://developer.aliyun.com/ask/256282

Spark on Mesos中,什么是粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?

https://developer.aliyun.com/ask/256083

Spark中standalone模式特点,有哪些优点和缺点?

1)特点:
(1)standalone是master/slave架构,集群由Master与Worker节点组成,程序通过与Master节点交互申请资源,Worker节点启动Executor运行;
(2)standalone调度模式使用FIFO调度方式;
(3)无依赖任何其他资源管理系统,Master负责管理集群资源
2)优点:
(1)部署简单;
(2)不依赖其他资源管理系统。
3)缺点:
(1)默认每个应用程序会独占所有可用节点的资源,当然可以通过spark.cores.max来决定一个应用可以申请的CPU cores个数;
(2)可能有单点故障,需要自己配置master HA

Spark的优化怎么做?Spark做过哪些优化,(优化说完会问你为什么?原理是什么?)

https://jingyan.baidu.com/article/6fb756ecd88057651858fb80.html

Spark性能优化主要有哪些手段?

https://www.cnblogs.com/skaarl/p/13899458.html

简要描述Spark分布式集群搭建的步骤?

https://blog.csdn.net/ZFX008/article/details/108219091

spark-submit的时候如何引入外部jar包

http://www.k6k4.com/simple_question/qshow/aaqxwzpbp1540220788463

Spark提交你的jar包时所用的命令是什么?

spark-submit

你如何从Kafka中获取数据?

https://ask.naixuejiaoyu.com/question/321

Spark对接kafka的两种方式

https://blog.csdn.net/weixin_43854618/article/details/107703387

SS对接Kafka两种整合方式的区别

https://blog.csdn.net/weixin_43854618/article/details/107703387

SS中如何实现精准一次消费

https://blog.csdn.net/weixin_41347419/article/details/115741633

Spark 中Master 实现HA有哪些方式 ?

https://blog.csdn.net/u013771019/article/details/106815986/

Spark master使用zookeeper进行HA,有哪些元数据保存在Zookeeper?

https://my.oschina.net/134596/blog/3038161

Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

因为程序在运行之前,已经申请过资源了,driver和Executors通讯,不需要和master进行通讯的

Spark master如何通过Zookeeper做HA?

https://blog.csdn.net/love__live1/article/details/86606326

如何配置spark master的HA?

https://www.cnblogs.com/xupccc/p/9544603.html

对于Spark中的数据倾斜问题你有什么好的方案?

https://blog.csdn.net/m0_49834705/article/details/114218898

Spark使用parquet文件存储格式能带来哪些好处?

https://www.jianshu.com/p/8fd4b48bf604?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Spark累加器有哪些特点?

https://blog.csdn.net/qq_40337086/article/details/107003817

如何在一个不确定的数据规模的范围内进行排序?

https://ask.naixuejiaoyu.com/question/337

Spark如何自定义partitioner分区器?

https://www.cnblogs.com/Gxiaobai/p/11073381.html

spark hashParitioner的弊端是什么?

https://ask.naixuejiaoyu.com/question/336

spark读取数据,是几个Partition呢?

RangePartitioner分区的原理?

https://ask.naixuejiaoyu.com/question/338

rangePartioner分区器特点?

rangePartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。RangePartitioner作用:将一定范围内的数映射到某一个分区内,在实现中,分界的算法尤为重要。算法对应的函数是rangeBounds

介绍parition和block有什么关联关系?

https://www.cnblogs.com/itboys/p/9779128.html

什么是二次排序,你是如何用spark实现二次排序的?(互联网公司常面)

https://blog.csdn.net/Poolweet_/article/details/108483148

如何使用Spark解决TopN问题?(互联网公司常面)

https://www.cnblogs.com/yurunmiao/p/4898672.html

如何使用Spark解决分组排序问题?(互联网公司常面)

https://www.it610.com/article/1290035562081755136.htm

Hadoop中,Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?

相当于spark中的map算子和reduceByKey算子,当然还是有点区别的,MR会自动进行排序的,spark要看你用的是什么partitioner

Spark shell启动时会启动derby?

spark shell启动会启动spark sql,spark sql默认使用derby保存元数据,但是尽量不要用derby,它是单实例,不利于开发。会在本地生成一个文件metastore_db,如果启动报错,就把那个文件给删了 ,derby数据库是单实例,不能支持多个用户同时操作,尽量避免使用

介绍一下你对Unified Memory Management内存管理模型的理解?

https://developer.aliyun.com/ask/256318

hbase预分区个数和spark过程中的reduce个数相同么

和spark的map个数相同,reduce个数如果没有设置和reduce前的map数相同。

sparksql常用哪些算子

https://blog.csdn.net/qq_32595075/article/details/79918644

Spark中Lineage的基本原理

https://cloud.tencent.com/developer/news/590420

使用shell和scala代码实现WordCount?

shell https://www.cnblogs.com/wpbk007/p/12010345.html
scala https://blog.csdn.net/weixin_42312342/article/details/90415448

Spark RDD 和 MR2的区别

1)mr2只有2个阶段,数据需要大量访问磁盘,数据来源相对单一 ,spark RDD ,可以无数个阶段进行迭代计算,数据来源非常丰富,数据落地介质也非常丰富spark计算基于内存;
2)MapReduce2需要频繁操作磁盘IO,需要大家明确的是如果是SparkRDD的话,你要知道每一种数据来源对应的是什么,RDD从数据源加载数据,将数据放到不同的partition针对这些partition中的数据进行迭代式计算计算完成之后,落地到不同的介质当中。

Spark读取hdfs上的文件,然后count有多少行的操作,你可以说说过程吗。那这个count是在内存中,还是磁盘中计算的呢?

1)从任务执行的角度分析执行过程
driver生成逻辑执行计划->driver生成物理执行计划->driver任务调度->executor任务执行 。
四个阶段:逻辑执行计划-》成物理执行计划-》任务调度-》任务执行
四个对象:driver-》DAGScheduler-》TaskScheduler-》Executor
两种模式:任务解析、优化和提交单机模式-》任务执行分布式模式
2)计算过程发生在内存

怎么用spark做数据清洗

https://blog.csdn.net/qq_43414681/article/details/115918869

spark怎么整合hive?

https://blog.csdn.net/weixin_42419342/article/details/108922410

hbase region多大会分区,spark读取hbase数据是如何划分partition的?

region超过了hbase.hregion.max.filesize这个参数配置的大小就会自动裂分,默认值是1G。
默认情况下,hbase有多少个region,Spark读取时就会有多少个partition

BlockManager怎么管理硬盘和内存的?

https://www.cnblogs.com/hdc520/p/13677806.html

列举Spark中常见的端口,分别有什么功能?

https://www.cnblogs.com/zfy0098/p/11010236.html

Spark官网中,你常用哪几个模块?

集群上 nodemanager和ResourceManager的数量关系?

看过源码? 你熟悉哪几个部分的源码?


spark 如何防止内存溢出 ?

https://blog.csdn.net/xiaoyaGrace/article/details/102821104

spark的内存模型?

https://blog.csdn.net/hxcaifly/article/details/85855446
https://www.iteblog.com/archives/2342.html

谈谈你对Spark内存管理的认识?

https://www.cnblogs.com/wzj4858/p/8204282.html

spark的通信方式,Spark如何处理结构化数据,Spark如何处理非结构化数据?

通信方式 https://www.jianshu.com/p/b85d096baa94
Spark如何处理结构化数据 Spark SQL是处理结构化的数据,参考https://blog.csdn.net/qq_44973159/article/details/106325796
Spark如何处理非结构化数据 可以先转成结构化数据进行处理,当然也可以直接在非结构化数据上拿取相应的数据

对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里?

优势 Spark是基于内容的计算,快速,易用(Scala)
参考 https://blog.csdn.net/master_hunter/article/details/114823065

对于算法是否进行过自主的研究设计?

没有

简要描述你了解的一些数据挖掘算法与内容spark Streaming中对接的socket的缓存策略是什么?


你可能感兴趣的:(大数据问答汇总)