本人是一个双非硕士在读地研二狗,非科班出身,最近也是参加了大数据开发地面试,已拿到了哔哩哔哩和顺丰的大数据开发岗实习offer,现在把自己的面试经历分拨记录下来,记录了面试各个公司的问题和心经,给正在面试的你做一些适当的参考
如果这篇文章对你有所帮助,可以点一下关注作者支持一下,对于这段时间的面试,作者也是参考和总结了一些面试中常常问到的问题,可以关注作者私信“大数据面试”,我看到后会一一为大家发送资料的
面试时间:1月14日
面试时长:32min
面试形式:电话面试
1、首先还是自我面试
有了上次字节的教训,这次自我介绍明显控制了不少
2、问我项目相关的
介绍了我们实验室承接的项目
3、问为什么用kafka
因为这个时候还没有真正按照面试形式组织知识,所以将自己在使用kafka的心得体会和他说了,讲解了一下自己理解的为什么用kafka
4、问了hdfs的读写机制
这个也是按照自己当时使用时候了解的讲解了一下,最后重新复盘了一下,发现自己理解的还是不够全面
5、问了Yarn的工作流程
给他讲了一个任务从开始到结束怎么工作的,以及yarn的调度机制
6、问在项目中是否使用到了yarn去调度一些任务
怎么会,实验室项目和企业项目还有很大的区别,怎么会用yarn去调度任务,我们都是人工智能解决方法(人工+智能,就是人+计算机)
7、问了hive的一些知识
hive因为使用的比较多,但还是处于怎么用,工作原理一问到就蒙圈
8、问了hive的优化
当时并不知道什么叫优化,在使用的时候优化了也不知道,哦?原来这就是优化了啊,回答了更换了计算引擎,变成了spark
9、然后就问为什么用spark
我说spark比mr快,他问我为什么会比mr快,我想,本来就比mr快啊,设计的时候就比mr快,这让我咋给你说,就好像问我汽车为啥比自行车快,我说就是比自行车快。当时也是不知道回答问题的套路,着实是吃了不少亏啊
10、问了我spark处理延迟数据
我说watermark,他还不满意,继续问,问的我都怀疑你是不是平时用的时候都不知道哪是哪了,问的和延迟数据也不相关啊
11、问了flink怎么实现的流式处理
我听到了有点蒙圈,又像是问汽车是怎么跑起来的,真是不知道该如何下嘴。现在想想,应该是想问我flink的流式计算api这些
12、问了flink和spark的区别
flink是准实时,spark更像是微批处理。方式想到的就是这个,就说了这个,相比较肯定是差了不少
13、flink怎么保证的容错机制
我说checkpoint,他说不是,我纳闷,不是checkpoint能是啥保证容错,他就说不是checkpoint,最后面试完我还专门去查了flink的容错机制,也都是checkpoint,不知道他为啥说不是
14、flink的窗口函数
那就给他介绍一下窗口函数,他又问我怎么实现的,我从代码层面给他说了怎么使用的,他说他想知道flink的窗口函数底层怎么做到的,我不知道
15、反问
问了对面试的反馈,大概说了几点,但是觉得并不是特别中肯,也没有采纳
此次面试总结:这次面试虽然是电话面试,但是和大数据息息相关,在这次面试也是收获了很多,但是有一点该说不说,对于这种公司的面试官,准确说业务水平真的有些差距,我不确定他自己是不是知道自己要问的问题答案,但是总结下来,这次面试也是知道了关于大数据方面自己的哪些不足
一个上市的中型公司
面试时间:21.1.15
面试时间:43min
面试形式:腾讯会议
1、自我介绍
因为有了前两次的经验积累,这一次明显顺畅多了,介绍也是游刃有余,可以根据时间随时结束,他让我30s,我就花了30s把情况介绍了结束
2、问了我得论文
这个问题一出来,我很蒙圈,没见过这样问的,事实证明,所有的面试这是唯一一个问我论文的。大概给他讲了讲论文
3、接着问论文
问我论文中用了什么大数据相关的知识,这个让我说我能给你说8000字,写的就是大数据相关的,那不整篇都是大数据相关吗
4、问了hdfs的读写流程
给他说了一遍,怎么读怎么写
5、yarn的调度机制
fifo、容量/能力、公平;apache用的容量、CDH用的公平
6、kafka怎么不丢数据
怎么不丢,生产、消费、broke都又不丢的保证
7、数据库的维度建模模型
星型、雪花、星座
8、数据库怎么保证数据一致性
这个真的不会,项目中也没考虑过,以为我们项目主要不在数据库,而且数据也不是进一行出一行,是会变化的。面试后查了一下,确实有好多确保数据一致性的方案,也是补充了这一方面的知识
9、flink的迟到数据
watermark机制。
10、接着问对于超过迟到时间的数据怎么处理?是不是允许迟到时间越久越好?
有一个什么玩意可以保存超过设置时间的数据,不是越久越好
11、工作岗位规划和想要从事的工作岗位?
我说了离线处理和实时计算
12、对数仓开发感不感兴趣
挺感兴趣的
13、能不能接受加班
我一听完了,这么问的,多半是不行啊,但也算诚实。我说能,通宵都行。给他乐屁了
14、介绍了他们的公司和岗位需求
介绍了他们部门属于公司的研究所,等等一些情况,数据规模、业务等等
15、反问
问了具体的工作内容,一共几轮面试
本次面试总结:这次面试基本情况就是比着前两次有着明显的提高,多了一些经验,总结了前两次的教训之后,也知道了应该怎么回答面试官的问题,在这次面试中的不足也是体现出来,在面试结束后也是弥补了一下,总之收获也是很大