出去面了一波大数据，总结一下

2019独角兽企业重金招聘Python工程师标准>>>

魔秀科技总结：
岗位5-10年，面试人：技术总监：薪资范围25以上
问题：
1、自我介绍，手写wordcount，分析每个算子，主要问flatmap和map的区别，简单的原理不算，要从源码剖析
2、画DAG和宽窄依赖，产生Stage的原因。Join会不会发生shuffle，如果不会请说明理由，如果会哪种会哪种会（画图讲解）
3、Scala语言写一个二次排序不要用Spark算子。
4、Spark中的任务工作原理
5、期望薪资，离职原因

易鑫车贷总结：
三轮面试，工作年限5-10年，面试人：组员，组长，项目经理薪资范围15-25
第一轮：
自我介绍，问了java项目，会不会springboot，在公司中经常做什么
第二轮：
1、问公司架构，每日数据量
2、Flume里面的channel用的是哪种，你公司用这种架构的优势在哪里，公司平台用什么搭的（画架构图），处理数据你们Spark资源用了多少，怎么分配
3、每日工作是什么，是否了解权限控制，最后数据存储到哪里，怎么展示，用的是HUE吗？怎么控制权限，数据怎么查看对错是否有问题
4、Java了解多少，在java项目中做的什么
第三轮：
1、上来手写二分查找
2、JVM模型及调优（画图）垃圾回收算法（画图），Map了解多少（画图原理），String m="a"+"b"内存图几个对象，StringBuffer和StringBuilder区别
3、公司架构（画图），Java负责哪里，大数据负责哪里
4、两个栈，一个栈里面的数据是无序的，怎么到另一个栈里面是有序的
5、什么叫拦截器，拦截器的原理，是否写过拦截器，权限会不会控制
6、自我评价，优势在哪里，期望薪资，离职薪资，离职原因

熙诚紫光：
一轮面试，工作年限1-3年，薪资范围10-15
1、自我介绍，说一个自己最近做的项目，架构如何搭的，每日数据量是多少，Kafka分区多少，每秒数据多少，你们公司有多少数据每天
2、RDD是什么，他的弹性体现在哪里
3、Spark On Yarn上的工作原理（画图），YarnCluster和YarnClient的区别
4、SparkStreaming中的窗口函数怎么理解的，Kafka和Spark之间的整合是怎么整合的，偏移量保存到哪里，什么时候保存
5、数据报错了怎么监控，通过什么工具

出去面了一波大数据，总结一下

你可能感兴趣的:(大数据,面试,java)