面经2:22年实习生大数据开发面试(第一家凉了,第二家拿了offer)

本人是一个双非硕士在读地研二狗,非科班出身,最近也是参加了大数据开发地面试,已拿到了哔哩哔哩和顺丰的大数据开发岗实习offer,现在把自己的面试经历分拨记录下来,记录了面试各个公司的问题和心经,给正在面试的你做一些适当的参考

如果这篇文章对你有所帮助,可以点一下关注作者支持一下,对于这段时间的面试,作者也是参考和总结了一些面试中常常问到的问题,可以关注作者私信“大数据面试”,我看到后会一一为大家发送资料的
面经2:22年实习生大数据开发面试(第一家凉了,第二家拿了offer)_第1张图片

一、一家天使轮公司

面试时间:1月14日

面试时长:32min

面试形式:电话面试

1、首先还是自我面试

有了上次字节的教训,这次自我介绍明显控制了不少

2、问我项目相关的

介绍了我们实验室承接的项目

3、问为什么用kafka

因为这个时候还没有真正按照面试形式组织知识,所以将自己在使用kafka的心得体会和他说了,讲解了一下自己理解的为什么用kafka

4、问了hdfs的读写机制

这个也是按照自己当时使用时候了解的讲解了一下,最后重新复盘了一下,发现自己理解的还是不够全面

5、问了Yarn的工作流程

给他讲了一个任务从开始到结束怎么工作的,以及yarn的调度机制

6、问在项目中是否使用到了yarn去调度一些任务

怎么会,实验室项目和企业项目还有很大的区别,怎么会用yarn去调度任务,我们都是人工智能解决方法(人工+智能,就是人+计算机)

7、问了hive的一些知识

hive因为使用的比较多,但还是处于怎么用,工作原理一问到就蒙圈

8、问了hive的优化

当时并不知道什么叫优化,在使用的时候优化了也不知道,哦?原来这就是优化了啊,回答了更换了计算引擎,变成了spark

9、然后就问为什么用spark

我说spark比mr快,他问我为什么会比mr快,我想,本来就比mr快啊,设计的时候就比mr快,这让我咋给你说,就好像问我汽车为啥比自行车快,我说就是比自行车快。当时也是不知道回答问题的套路,着实是吃了不少亏啊

10、问了我spark处理延迟数据

我说watermark,他还不满意,继续问,问的我都怀疑你是不是平时用的时候都不知道哪是哪了,问的和延迟数据也不相关啊

11、问了flink怎么实现的流式处理

我听到了有点蒙圈,又像是问汽车是怎么跑起来的,真是不知道该如何下嘴。现在想想,应该是想问我flink的流式计算api这些

12、问了flink和spark的区别

flink是准实时,spark更像是微批处理。方式想到的就是这个,就说了这个,相比较肯定是差了不少

13、flink怎么保证的容错机制

我说checkpoint,他说不是,我纳闷,不是checkpoint能是啥保证容错,他就说不是checkpoint,最后面试完我还专门去查了flink的容错机制,也都是checkpoint,不知道他为啥说不是

14、flink的窗口函数

那就给他介绍一下窗口函数,他又问我怎么实现的,我从代码层面给他说了怎么使用的,他说他想知道flink的窗口函数底层怎么做到的,我不知道

15、反问

问了对面试的反馈,大概说了几点,但是觉得并不是特别中肯,也没有采纳

此次面试总结:这次面试虽然是电话面试,但是和大数据息息相关,在这次面试也是收获了很多,但是有一点该说不说,对于这种公司的面试官,准确说业务水平真的有些差距,我不确定他自己是不是知道自己要问的问题答案,但是总结下来,这次面试也是知道了关于大数据方面自己的哪些不足

二、一家上市中型公司面试

一个上市的中型公司

面试时间:21.1.15

面试时间:43min

面试形式:腾讯会议

1、自我介绍

因为有了前两次的经验积累,这一次明显顺畅多了,介绍也是游刃有余,可以根据时间随时结束,他让我30s,我就花了30s把情况介绍了结束

2、问了我得论文

这个问题一出来,我很蒙圈,没见过这样问的,事实证明,所有的面试这是唯一一个问我论文的。大概给他讲了讲论文

3、接着问论文

问我论文中用了什么大数据相关的知识,这个让我说我能给你说8000字,写的就是大数据相关的,那不整篇都是大数据相关吗

4、问了hdfs的读写流程

给他说了一遍,怎么读怎么写

5、yarn的调度机制

fifo、容量/能力、公平;apache用的容量、CDH用的公平

6、kafka怎么不丢数据

怎么不丢,生产、消费、broke都又不丢的保证

7、数据库的维度建模模型

星型、雪花、星座

8、数据库怎么保证数据一致性

这个真的不会,项目中也没考虑过,以为我们项目主要不在数据库,而且数据也不是进一行出一行,是会变化的。面试后查了一下,确实有好多确保数据一致性的方案,也是补充了这一方面的知识

9、flink的迟到数据

watermark机制。

10、接着问对于超过迟到时间的数据怎么处理?是不是允许迟到时间越久越好?

有一个什么玩意可以保存超过设置时间的数据,不是越久越好

11、工作岗位规划和想要从事的工作岗位?

我说了离线处理和实时计算

12、对数仓开发感不感兴趣

挺感兴趣的

13、能不能接受加班

我一听完了,这么问的,多半是不行啊,但也算诚实。我说能,通宵都行。给他乐屁了

14、介绍了他们的公司和岗位需求

介绍了他们部门属于公司的研究所,等等一些情况,数据规模、业务等等

15、反问

问了具体的工作内容,一共几轮面试

本次面试总结:这次面试基本情况就是比着前两次有着明显的提高,多了一些经验,总结了前两次的教训之后,也知道了应该怎么回答面试官的问题,在这次面试中的不足也是体现出来,在面试结束后也是弥补了一下,总之收获也是很大

你可能感兴趣的:(面试,big,data,spark)