大数据面试总结

1 总体情况
现在我面试了三家
第一家:***技术股份有限公司,已经得到复试通知
第二家:***第一研究所,面试成功,给的待遇是18万~20万/年。他们在等待我的回复。
第三家:电话面试,面得不好,这个部门主要不是开发,他需要熟悉各组件,做架构推荐的。
下面是面试题汇总,我自己做了一些,有些正在看。
2 ***技术股份有限公司
2.1 面试题
2.1.1 介绍自己,讲讲自己的项目
2.1.2 hadoop的生态圈
请查看网址:http://cqwjfck.blog.chinaunix.net/uid-22312037-id-3969789.html
一张图看懂生态圈:

大数据面试总结_第1张图片
Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

  1. 这一切,都起源自Web数据爆炸时代的来临

  2. 数据抓取系统 - Nutch

  3. 海量数据怎么存,当然是用分布式文件系统 - HDFS

  4. 数据怎么用呢,分析,处理

  5. MapReduce框架,让你编写代码来实现对大数据的分析工作

  6. 非结构化数据(日志)收集处理 - fuse,webdav, chukwa, flume, Scribe

  7. 数据导入到HDFS中,至此RDBSM也可以加入HDFS的狂欢了 - Hiho, sqoop

  8. MapReduce太麻烦,好吧,让你用熟悉的方式来操作Hadoop里的数据 – Pig, Hive, Jaql

  9. 让你的数据可见 - drilldown, Intellicus用高级语言管理你的任务流 – oozie, Cascading

  10. Hadoop当然也有自己的监控管理工具 – Hue, karmasphere, eclipse plugin, cacti, ganglia

  11. 数据序列化处理与任务调度 – Avro, Zookeeper

  12. 更多构建在Hadoop上层的服务 – Mahout, Elastic map Reduce

  13. OLTP存储系统 – Hbase

  14. How did it all start- huge data on the web!

  15. Nutch built to crawl this web data

  16. Huge data had to saved- HDFS was born!

  17. How to use this data?

  18. Map reduce framework built for coding and running analytics – java, any language-streaming/pipes

  19. How to get in unstructured data – Web logs, Click streams, Apache logs, Server logs – fuse,webdav, chukwa, flume, Scribe

  20. Hiho and sqoop for loading data into HDFS – RDBMS can join the Hadoop band wagon!

  21. High level interfaces required over low level map reduce programming– Pig, Hive, Jaql

  22. BI tools with advanced UI reporting- drilldown etc- Intellicus

  23. Workflow tools over Map-Reduce processes and High level languages

  24. Monitor and manage hadoop, run jobs/hive, view HDFS – high level view- Hue, karmasphere, eclipse plugin, cacti, ganglia

  25. Support frameworks- Avro (Serialization), Zookeeper (Coordination)

  26. More High level interfaces/uses- Mahout, Elastic map Reduce

  27. OLTP- also possible – Hbase

2.1.3 hadoop的全排序和局部排序和二次排序
请查看网址
http://blog.csdn.net/evo_steven/article/details/17139123
http://blog.csdn.net/kingjinzi_2008/article/details/7738188
注意:局部排序和二次排序请查看肖老师的demo:hadoop-1.2_MR_Hot_Wc
mapreduce全排序,昨天我没看明白。
2.1.4 kafka用到的什么设计模式
消息订阅模式
2.1.5 说说storm
2.1.6 java的多线程
2.1.7 java的流处理
3 ***第一研究所
两轮技术面试。主要讲解自己做的项目,用了哪些技术。感觉他们大数据人才缺乏,他们也不太懂大数据。所以技术问题他们问了两个。
3.1.1 hadoop的优化
我回答了有很多参数的优化。那人问我有没有修改过里面的源代码,对源代码进行优化。我说没有。
3.1.2 zookeeper熟悉不
这个问题我当时很吃惊,好简单。。。。。
4 电话面试
大公司很注重技术细节。我回答得很不好。我也接到了该公司的其他部门的面试邀请,感觉不适合,我就没去了。盖公司个人感觉说话都是中文中夹着英文,好不习惯,哈哈。
这个部门不是开发部门,所以开发方面的问题很少。
4.1 面试题
4.1.1 对自己每个项目做讲解,项目中的疑难点
4.1.2 hadoop1和hadoop2的区别
详见:http://blog.csdn.net/fenglibing/article/details/32916445
Hadoop1.x与Hadoop2的区别
1、变更介绍
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:
l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;
l MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)。
4.1.3 yarn有哪些组件,调度算法
4.1.4 zookeeper有哪些组件
4.1.5 hbase有哪些组件,以及hbase里面的buffer
4.1.6 hadoop有哪些组件
5 车网互联
本公司根据你的项目,一个一个问题问,由于以前都没想到这些问题,没回答好。
5.1 面试题
5.1.1 集群问题
服务器如何选择
项目服务器多少台
namenode多少台
dotanode多少台
kafka多少台
yarn多少台
5.2 对于优化网络项目
5.2.1 基站总数
一个基站一般负责200个电话的通信。标准的每个基站之间间隔300米,也就是一个基站覆盖90000平方米,以城区面积除以覆盖面积后再乘3倍,是该城区多少个通信基站了。
我的项目是重庆市区的,重庆主城区的面积是1435平方千米,所以基站数量为
1435000000/90000 X 3 = 5万多
5.2.2 每一秒发送到kafka的数据量

重庆主城区人口为1000万,
每个基站支持的通话数量
storm的窗口,即多少时间算一次掉线率
掉线率上线是多少
kafka分几个区
每一秒过来的数据
hbase rowkey的设计
不向同一个region插数据
基站掉线率多少
strom窗口:五分钟统计一次。
hbase优化
hbase数据插入优化
5.2.3 网站分析系统的问题
数据分析多大:10G

6 ***科技股份有限公司
讲解自己的项目,遇到的问题
问了一个算法题:求a的b次方
pow(double a, int b){
}
最快的算法 ,二分法。
这个公司感觉不是太靠谱,建议大家不去,一个做大数据的人才都没有,后来我问了联系我的hr,原来招聘信息挂了一个多月了,一个人都没有招到。面试我的人也不怎么懂大数据。
7 ***语音技术有限公司
这个公司感觉不错,做机器学习,还做机器人(公司有哦),感觉高大上。有自己的云平台,屏幕上实时显示用户数量,有1亿左右的用户了,与滴滴打车有合作。这家公司面试了我三多小时。
技术一面:我回答非常好,他对我也很认可
人力:回答也很好,薪资谈的是年薪18万
最后一面,技术总监:其实他问的问题不是技术了,主要是问项目的。问我数据量多大问题,和mapreduce运行时间问题,由于我实现没有准备好,回答不好,订单的我回答50G,微博我回答1TB,mapreduce运行时间我回答 1~2小时
回来想想,订单应该在500G左右,微博应该不止1TB,mapreduce运行时间1个小时左右。技术总监肯定感觉我在说谎,哎,好可惜。
后来人力让我回来等通知,感觉最后一面没弄好。
7.1 面试题
7.1.1 笔试
前台给了我个J2EE的,做完了,技术面的时候,那人说面试提给错了。。。
7.1.2 面试问题
大家对自己项目一定要滚瓜烂熟才行。
对自己项目讲解,数据量多大,执行mapreduce时间,用了什么算法,遇到什么疑难问题
hbase如何优化的
会配置本地yum源码
socket编程
hibernate的原理,干啥的
服务器之间如何通信
定时器如何写
hbase的writebuffer
是否用过maven
谈谈redis
还有一个java框架 ,p开头的,我没记住,回来也没查到
7.1.3 zookeeper的机制等,各组件的原理
7.1.4 平实喜欢关注什么关键技术,论坛
云论坛,我就举了可可云。这个问题很关键,我发觉,好的公司都会问这些。
8 **科技有限公司
这个公司主要是从事离线数据分析。分为hadoop组合数据挖掘组。就一面,技术总监。
面试成功。薪资:15K * 13个月
8.1 面试题
其实面试内容和前面的公司差不多。以下是不相同的面试题。
8.1.1 hbase对于复杂表如何设计rowkey
由于rowkey不能太长,这个问题我没有回答上来。
8.1.2 用到哪些全文检索的技术
这个问题,lucene 和solar,我自己用过IK分词器(老师微博广告智能投放里面有)
8.1.3 免密码登陆如何设置
8.1.4 其他问题
linux命令,都是平时用到的命令
是否配过yum本地源。
9 **科技(重点)
这个公司,他说她们还要讨论一下,应该是挂了。他们是天使轮,公司只有10几个人,5到6个核心人物都是百度出来的。每天他们处理的数据大概1TB左右。所以问我的技术问题是我遇到最难的。基础问题前面说过,我就不再说了。
9.1 面试题
9.1.1 kafka相关问题
kafka的原理
如果生产数据是消费数据100倍,该如何处理
9.1.2 flume与kafka区别
9.1.3 storm问题
storm原理,
storm如何保证不丢失数据
9.1.4 spark问题
spark streaming
spark的相关算法,比如推荐系统需要什么算法
9.2 编程题(现场手写)
面试官直接在白板上出题,你马上在白板上写出程序,这个好考验人。
9.2.1 hive sql
列出了三张关联的表,其中一张表有点击数量的统计。让我们算一天的所有点击数量
写出 hivesql,我没写出来。
9.2.2 java编程题

  1. 一个数组,如a=[1,2,3,4,1,2],把元素出现两次的保留,最后得到a=[1,2];最后要写几个测试case。
    这个问题我先用一个循环,map统计次数,让后再循环。当出现两次的元素,踢掉。
  2. 一个字符串,如何查询是否含有某一个子字符串,如果有返回索引,不能用api的函数。
    我的回答是先把字符串变为字符数组,再去循环匹配。时间关系,程序没有写完。
    9.2.3 其他问题
    是否熟悉python,scala等等。

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验
大数据面试总结_第2张图片

你可能感兴趣的:(大数据)