出去面了一波大数据,总结一下

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

魔秀科技总结:
岗位5-10年,面试人:技术总监:薪资范围25以上
问题:
1、自我介绍,手写wordcount,分析每个算子,主要问flatmap和map的区别,简单的原理不算,要从源码剖析
2、画DAG和宽窄依赖,产生Stage的原因。Join会不会发生shuffle,如果不会请说明理由,如果会哪种会哪种会(画图讲解)
3、Scala语言写一个二次排序不要用Spark算子。
4、Spark中的任务工作原理
5、期望薪资,离职原因

易鑫车贷总结:
三轮面试,工作年限5-10年,面试人:组员,组长,项目经理  薪资范围15-25
第一轮:
自我介绍,问了java项目,会不会springboot,在公司中经常做什么
第二轮:
1、问公司架构,每日数据量
2、Flume里面的channel用的是哪种,你公司用这种架构的优势在哪里,公司平台用什么搭的(画架构图),处理数据你们Spark资源用了多少,怎么分配
3、每日工作是什么,是否了解权限控制,最后数据存储到哪里,怎么展示,用的是HUE吗?怎么控制权限,数据怎么查看对错是否有问题
4、Java了解多少,在java项目中做的什么
第三轮:
1、上来手写二分查找
2、JVM模型及调优(画图)垃圾回收算法(画图),Map了解多少(画图原理),String m="a"+"b"内存图 几个对象,StringBuffer和StringBuilder区别
3、公司架构(画图),Java负责哪里,大数据负责哪里
4、两个栈,一个栈里面的数据是无序的,怎么到另一个栈里面是有序的
5、什么叫拦截器,拦截器的原理,是否写过拦截器,权限会不会控制
6、自我评价,优势在哪里,期望薪资,离职薪资,离职原因

熙诚紫光:
一轮面试,工作年限1-3年,薪资范围10-15
1、自我介绍,说一个自己最近做的项目,架构如何搭的,每日数据量是多少,Kafka分区多少,每秒数据多少,你们公司有多少数据每天
2、RDD是什么,他的弹性体现在哪里
3、Spark On Yarn上的工作原理(画图),YarnCluster和YarnClient的区别 
4、SparkStreaming中的窗口函数怎么理解的,Kafka和Spark之间的整合是怎么整合的,偏移量保存到哪里,什么时候保存
5、数据报错了怎么监控,通过什么工具

转载于:https://my.oschina.net/TomcatJack/blog/3050250

你可能感兴趣的:(大数据,面试,java)