遐想者csdn

大数据常见面试题及答案

1、rdd的5大特性：

2、Hive分桶和分区的区别：

3、Hive表动态分区和静态分区

4、一个Hive表，数据量很大，分布在集群的100个节点，现在需要定期取top100，如何设计/实现：

5、窗口函数

6、hive sql和spark sql底层执行流程？

6、Spark任务的执行流程

7、Spark和MapReduce

8、cache和persist的区别

9、什么是宽窄依赖

10、spark的shuffle和MR shuffle

1）shuffle的过程描述一下

hadoop shuffle：

spark shuffle：

2）MR的shuffle和Spark的shuffle之间的区别

11、增量合并具体是怎么实现的你了解吗？如果让你来实现的话你怎么写

12、flink和spark streaming有什么区别

13、spark streamiing相比flink有什么优点

14、udf和udaf

15、spark你常用的参数设置有哪些

16、Hive的order by和sort by什么区别，都有哪些应用场景

17、Hive的distribute by和group by有什么区别

18、Dataframe和RDD有什么区别

19、Flink的原理

20、数仓分层了解吗

21、数仓建模除了维度建模还有其他的吗

22、数仓的特性讲一下

23、你真的了解全量表,增量表及拉链表吗？

24、数据仓库中的维表和事实表

25、.数据倾斜有哪几种优化思路？

26、考虑一个100亿数据的表关联一个10亿数据的表，如何优化

27、HashMap的底层原理

28、去重都有哪些方式？

29、数据量特别大的情况下（例如10g、100g、1t）如何用mr实现全局排序？

30、flatmap算子的理解，flat原理，返回类型？（iterator）

31、hive的metastore的三种模式

32、hive join的类别(方式)？

33、对一组数据频繁插入删除，选哪种数据结构

34、MR中的map具体流程

35、MR的map阶段完成了几次排序？

36、海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

37、hdfs读写流程

38、hdfs的体系结构

39、一个datanode 宕机,怎么一个流程恢复

40、hadoop 的 namenode 宕机,怎么解决

41、namenode对元数据的管理

42、yarn资源调度流程

43、hadoop中combiner和partition的作用，分别举例什么情况要使用 combiner，什么情况不使用？

44、用mapreduce怎么处理数据倾斜问题？

45、Mapreduce 的 map 数量和 reduce 数量是由什么决定的 ,怎么配置

46、MR运行流程解析

47、HDFS数据安全性如何保证

48、在通过客户端向hdfs中写数据的时候，如果某一台机器宕机了，会怎么处理

49、Hadoop优化有哪些方面

0）HDFS 小文件影响

1）数据输入小文件处理：

2）Map 阶段

3）Reduce 阶段

4）IO 传输

5）整体

50、列出正常工作的hadoop集群中hadoop都分别启动哪些进程以及他们的作用

51、Hadoop总job和Tasks之间的区别是什么？

52、Hadoop高可用HA模式

52、简要描述安装配置一个hadoop集群的步骤

53、yarn的三大调度策略

54、hadoop的shell命令用的多吗?,说出一些常用的

55、namenode的fsimage与editlog详解

56、left semi join和left join区别

57、hive内部表和外部表的区别，及使用场景

58、用hive创建表有几种方式

59、线上业务每天产生的业务日志（压缩后>=3G），每天需要加载到hive的log表中，将每天产生的业务日志在压缩之后load到hive的log表时，最好使用的压缩算法是哪个,并说明其原因

60、若在hive中建立分区仍不能优化查询效率，建表时如何优化

61、Hive 里边字段的分隔符用的什么？为什么用t？有遇到过字段里边有t 的情况吗，怎么处理的？为什么不用 Hive 默认的分隔符，默认的分隔符是什么？

62、在hive的row_number中distribute by 和 partition by的区别

63、hive和传统数据库之间的区别

64、hive中导入数据的4种方式

65、创建rdd的几种方式

66、Spark中Partition的数量由什么决定

67、Spark中coalesce与repartition的区别

68、sortBy 和 sortByKey的区别，reduceByKey和groupBykey的区别

69、map和mapPartitions的区别

70、cache和checkPoint的比较

71、spark共享变量和累加器

72、当 Spark 涉及到数据库的操作时，如何减少 Spark 运行中的数据库连接数？

73、特别大的数据，怎么发送到excutor中？

74、Spark on Yarn作业执行流程？yarn-client和yarn-cluster有什么区别？

75、spark任务为什么会被yarn kill掉？

76、sql问题：连续活跃n天用户的获取

77、spark中reparation和coalesce的用法和区别

78、ClickHouse常用表引擎

79、Spark小文件合并

80、数据中台之OneData体系

81、维度建模和范式建模对比

算法：

其他

1、rdd的5大特性：

Spark之RDD的定义及五大特性 - |旧市拾荒| - 博客园

2、Hive分桶和分区的区别：

https://blog.csdn.net/u010003835/article/details/80911215

3、Hive表动态分区和静态分区

https://blog.csdn.net/sinat_40572875/article/details/128062279

https://hero78.blog.csdn.net/article/details/80382174

4、一个Hive表，数据量很大，分布在集群的100个节点，现在需要定期取top100，如何设计/实现：

个人答案：先对100个节点的数据求top100，然后将数据导入1张表，再对该表求top100；

5、窗口函数

hive窗口函数必备宝典_dingchangxiu11的博客-CSDN博客_hive窗口函数

Hive开窗函数总结_Abysscarry的博客-CSDN博客_hive的开窗函数

6、hive sql和spark sql底层执行流程？

HIVE源码(1):HQL 是如何转换为 MR 任务的 - 秋华 - 博客园

Spark SQL的底层执行流程_蓝色校服的岁月的博客-CSDN博客_sparksql的执行流程

一文读懂Spark SQL运行流程 - 知乎

6、Spark任务的执行流程

Spark任务执行流程_wlk_328909605的博客-CSDN博客_spark执行任务的流程

Spark（五）Spark任务提交方式和执行流程 - Frankdeng - 博客园

spark集群的任务提交执行流程_bokzmm的博客-CSDN博客_spark执行流程

7、Spark和MapReduce

1）MapReduce和Spark的区别

mapreduce与spark的区别--内容详细_wyz0516071128的博客-CSDN博客

spark与mapreduce的区别 - db_record - 博客园

2）为什么Spark比MapReduce快

为什么Spark比MapReduce快？_数仓大山哥的博客-CSDN博客

为什么Spark运行比MapReduce快_寞逍遥的博客-CSDN博客_spark为什么快

为什么Spark比MapReduce快_大数据从入门到放弃的博客-CSDN博客

百度面试总结：spark比MapReduce快的原因是什么？（比较完整）_道法—自然的博客-CSDN博客_spark比mapreduce处理速度快的原因不包括哪一项

8、cache和persist的区别

每次进步一点点——spark中cache和persist的区别_housir的专栏-CSDN博客

9、什么是宽窄依赖

Spark 宽窄依赖 - Earendil - 博客园

Spark宽窄依赖详解_modefrog的博客-CSDN博客_spark宽窄依赖

10、spark的shuffle和MR shuffle

1）shuffle的过程描述一下

https://blog.csdn.net/kaede1209/article/details/81953262

hadoop shuffle：

https://blog.csdn.net/shujuelin/article/details/83992061

spark shuffle：

https://blog.csdn.net/weixin_42868529/article/details/84622803

https://blog.csdn.net/quitozang/article/details/80904040

2）MR的shuffle和Spark的shuffle之间的区别

MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了_reduce

https://blog.csdn.net/wuwang1988/article/details/80131728

https://blog.csdn.net/m0_37803704/article/details/86174267

11、增量合并具体是怎么实现的你了解吗？如果让你来实现的话你怎么写

大数据量增量同步方案杂谈【面试+工作】

12、flink和spark streaming有什么区别

https://blog.csdn.net/xianpanjia4616/article/details/85076247

干货 | Spark Streaming 和 Flink 详细对比

13、spark streamiing相比flink有什么优点

https://blog.csdn.net/mojir/article/details/96033432

14、udf和udaf

https://blog.csdn.net/xiaofengguojiangnan/article/details/80059703

15、spark你常用的参数设置有哪些

set spark.sql.adaptive.enabled = true;
set spark.sql.adaptive.join.enabled = true;
set spark.sql.adaptive.skewedJoin.enabled = true; --自动处理 Join 时数据倾斜
set spark.sql.parser.quotedRegexColumnNames = false;

Spark开发常用参数 - XIAO的博客 - 博客园

Spark常用参数解释及建议值_淡淡的倔强的博客-CSDN博客_spark常用参数

16、Hive的order by和sort by什么区别，都有哪些应用场景

Hive中Order by和Sort by的区别是什么?_春华秋实-CSDN博客

https://blog.csdn.net/qq_40795214/article/details/82190827

https://jthink.blog.csdn.net/article/details/38903775

17、Hive的distribute by和group by有什么区别

Hive：distribute by与group by，order by与sort by , cluster by的区别_云舒s的博客-CSDN博客

18、Dataframe和RDD有什么区别

RDD和DataFrame和DataSet三者间的区别_乌镇风云的博客-CSDN博客_rdd和dataframe有什么区别

https://blog.csdn.net/wo334499/article/details/51689549

https://blog.csdn.net/weixin_39793644/article/details/79050762

19、Flink的原理

https://blog.csdn.net/sxiaobei/article/details/80861070

https://blog.csdn.net/oTengYue/article/details/102689538

20、数仓分层了解吗

数仓分层_吗达拉的博客-CSDN博客_数仓分层及各层作用

21、数仓建模除了维度建模还有其他的吗

数仓理论之关系建模与维度建模_ITBOY_ITBOX博客-CSDN博客_关系建模和维度建模区别

22、数仓的特性讲一下

数据仓库具有四个主要特性_guanyi的博客-CSDN博客_数据仓库的四大特点

23、你真的了解全量表,增量表及拉链表吗？

你真的了解全量表,增量表及拉链表吗？_我的祖传代码-CSDN博客

24、数据仓库中的维表和事实表

数据仓库之维度表和事实表_不言尘世-CSDN博客_维度表和事实表

25、.数据倾斜有哪几种优化思路？

https://segmentfault.com/a/1190000009166436

https://segmentfault.com/a/1190000021439076?utm_source=sf-similar-article

26、考虑一个100亿数据的表关联一个10亿数据的表，如何优化

过滤、分桶

Work

27、HashMap的底层原理

HashMap 的底层原理 - holyqueen - 博客园

java提高篇（二三）-----HashMap - chenssy - 博客园