大数据开发工程师面试题 (20.04.15)

概述

本篇同样是一些博主最近面试遇到的问题,在此和大家分享一下。

正文

1.在开发中,你们用的Flink版本

答: 我们使用的是 Flink 1.8.0 版本。

注意:各个版本的发布时间
大数据开发工程师面试题 (20.04.15)_第1张图片

2.Flink发生数据倾斜,怎么解决?自带的数据倾斜解决机制?

答:
①自带的机制 rebalancing : 分区元素轮循,从⽽为每个分区创建相等的负载。

dataStream.rebalance()

发生窗口数据倾斜时:将key进行扩展,扩展成自定义的负载数,即,将原始的key封装后新的带负载数的key,进行逻辑处理,然后再对新key的计算结果进行聚合,聚合成原始逻辑的结果。

上文出自,参考文档: https://blog.csdn.net/it_lee_j_h/article/details/88641894

聚合操作调优手段-MiniBatch 参考文档: https://www.aboutyun.com/thread-28119-1-1.html

3.Flink的容错机制

答:
① 分布式快照
② 可部分重发的数据源

Flink基于分布式快照与可部分重发的数据源实现容错,用户可以自定义对整个Job进行快照的时间间隔,当任务失败时,Flink会将整个Job作业恢复到最近一次快照,并从数据源重发快照之后的数据。

4.Flink的API有几层

答: 三层。
最底层: 处理函数(ProcessFunctions)
中层:DataStream API
最顶层:SQL & Table API

参考文档: https://www.jianshu.com/p/de54cda1a571

5.Flink的数据来源

答:
1.内置数据源

a)基于文件 b)基于Socket c)基于Collection

2.自定义数据源

a)实现SourceFunction(非并行的)
b)实现ParallelSourceFunction
c)继承RichParallelSourceFunction

参考文档: https://www.cnblogs.com/dajiangtai/p/10607393.html

6.怎么搭建的Hive数仓

(我感觉这个题,怎么像在试探我???)
太多了,参考下文吧。

参考文档:https://www.cnblogs.com/lcword/p/5858819.html
或者: https://blog.csdn.net/weixin_38750084/article/details/83099196

7.Hive的表有几种

答: 5种

① 管理表(内部表): 删除表时,删除表数据以及元数据
② 外部表: 删除表时,只删除元数据不删除表数据
③ 分区表:数据按照分区储存,提高查询速度和性能
④ 分桶表:将数据按照某个字段进行hash计算出所属的桶,然后在对桶内的数据进行排序
⑤临时表:一个连接有效,并在连接结束后,删除表

8.介绍一下你创建的分区表

答:

create external table 表名(
....
)
 partitioned by (某一字段 + 字段属性)
 ....;  
9.分区表的种类

答: 静态与动态分区表

参考文档: https://www.cnblogs.com/huangmr0811/p/5571014.html

10.Hive开窗函数

答: 分析函数(如:sum(),max(),row_number()…) + 窗口子句(over函数)

参考文档: https://blog.csdn.net/Abysscarry/article/details/81408265

11.Hive里面left join 和 join的区别

答:
join 一般用于A表和B表都存在的记录进行关联。
left join:如果右边有多行自和左边表对应,就每一行都映射输出;如果右边没有行与左边行对应,就输出左边行,右边表字段为NULL

left semi join:左半开连接会返回左边表的记录,前提是其记录对于右边表满足ON语句中的判定条件

12.Hive中Union 与 Union All区别

答:
Union: 对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序;
Union All :对两个结果集进行并集操作,包括重复行,不进行排序;

13.Hive中怎么创建一个表

答: 三种方式
直接建表法
查询建表法
like建表法

参考文档:https://blog.csdn.net/qq_36743482/article/details/78383964

14.创建Hive表,用的是什么格式

答: : textfile

扩充: hive共有储存三种格式 textfile,sequencefile,rcfile.
参考资料: https://blog.csdn.net/TC_HaoShuai/article/details/84303140

15.你们开发中Hive有几张表 (这个,看项目的吧,哪仁兄分享一下标准答案)

(这个,又来试探???)
答: 告辞告辞,打扰了,打扰了…

下一篇

传送门: https://blog.csdn.net/ASYMUXUE/article/details/105570682

你可能感兴趣的:(面试)