大厂面试 | 阿里巴巴大数据工程师面试题汇总

坐标城市:浙江杭州

面试公司:阿里巴巴

面试岗位:大数据工程师

面试难度:给4星吧

面试感受:还行吧,就是紧张了有点

本人学计算机的,同时也自学了Java、Python、C#、前端等,感觉都是皮毛,最后觉得还是大数据比较适合我,不过技术之间都是想通的,越来越发现自己欠缺的知识其实还有很多。

面试题

1.kafka 重启是否会导致数据丢失

2.讲一讲checkpoint

3.描述mapreduce的过程,中间有几次写磁盘

4.ORC、Parquet等列式存储的优点

5.调度系统的实现,开源调度系统Azkaban

6.zookeeper HA原理

7.二分法以及变种

8.用java实现多种排序算法

9.如何用redis实现分布式锁

10.ArraryBlockingQueue的实现

11.一个文本文件,大约有一万航,每行一个词,要求统计出其中最频繁出现的前10个词

12.上千万或上亿数据(有重复),统计其中出现最多的前n个数据

13.有10个文件,每个文件1g,每个文件的每一行存放的都是用户的query,meigewenjiandequery都有可能重复,要求你按照query的频率来排序

14.海量日志数据,提取出某日访问百度最多次数的那个IP

15.zookeeper选举机制

16.zookeeper的端口水命,作用

17.zookeeper主从服务器如何通信

18.HFile数据格式中的KeyValue介绍

19.Spark中的Work主要工作是什么

20.Spark有几种部署模式,每种模式有什么特点

21.spark的driver的功能是什么

22.Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么

23.spark streaming读取kafka的两种方式

24.spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面

25.spark rdd如何区分宽依赖窄依赖

26.怎么解决kafka的数据丢失

27.怎么查看kafka的offset

围绕kafka、spark、Hadoop问的较多,相当有难度,本关已过~,喜欢杭州,希望能进阿里!

你可能感兴趣的:(big,data,面试)