大数据-面试问题大全-持续更新

  • 结合课程内容、学习情况、学生面试情况。想了一些大数据相关的问题。供参考。
  • 2018年11月27日08:28:40 更新

#zookeeper&hadoop

  • 公司部署了几台zookeeper
  • 公司部署了几台hadoop?
  • 怎么确定需要几台hadoop?
  • 写过shell脚本没有?什么场景写了shell?
  • 公司什么项目用到大数据,为什么要用大数据?
  • 你们公司数据库量多大?
  • nameNode机子的内存和磁盘多大?dataNode的内存和磁盘多大?

#项目问题
*.你做过哪些项目?

#任何大数据项目都需要考虑的问题

  • 是否存在大量数据,大量的数据具有什么价值?
  • 数据量有多大?
  • 项目将会用到哪些大数据技术?
  • 项目数据怎么产生?
  • 项目数据怎么采集?
  • 项目数据采集到的是什么样数据?
  • 项目数据采集之后存储在哪里?
  • 项目如何使用采集到的数据?

#hadoop-hdfs

  • 项目数据怎么上传到hdfs?
  • 项目数据上传到hdfs要花多长时间?
  • HDFS 上传文件有没有遇到什么问题?
  • 如何实现文件定时上传到hdfs?
  • 需要上传很多小文件到hdfs怎么处理?
  • 谈谈你对hdfs的理解?
  • 简单说说hdfs的读写流程?
  • 你们如何保证hadoop的稳定性?
  • 有没有遇到上传文件很慢的问题?
  • 如何保证不同机器之间的磁盘利用率平衡?

#hadoop-mr

  • 公司几个NameNode结点,几个DataNode?
  • 写过mr程序没有?
    1.你的mr程序大概多少个map,多少个reduce?
    2.你的mr程序负责做什么事情?
    3.你的mr程序写了多久?
    4.你的mr程序怎么去执行执行?
  • mr程序,运行有几种模式?
  • Partitioner分区原理是怎样的?
  • Mapper任务的执行流程是怎样的?
  • Reducer任务的执行流程是怎样的?
  • 说说MapReduce自定义数据类型?
  • 说说WritableComparable和Writable两个接口的区别?
  • 你所了解的MapReduce中的常见算法有哪些?
  • 说说mr的combiner组件?
  • 说说MapReduce中分片、分区、排序?
  • Mapreduce整体过程分为几个阶段?分别是什么?

#hadoop
*.说说hadoop的分片,分区的概念
*.如何监控hadoop

#Flume

  • 你们的数据采集用到了flume吗?怎么使用的?
  • flume的核心角色agent包含哪些部分(组件)?
  • flume的Source可以有哪些种类,项目中用的哪个?
  • flume的channel可以有哪些种类,项目中用的哪个?
  • flume的sink可以有哪些种类,项目中用的哪个?
  • flume采集遇到过什么问题?
  • 工作中哪些项目用到了flume,分别的source,channel,sink是什么?
  • 你说知道的flume常见应用场景有哪些?
  • 说说flume的高可用?工作中有没有这样使用?
  • 说说flume的负载均衡?工作中有没有这样使用?
  • 说说flume自定义拦截器?工作中有实际应用过吗?
    #Hive
  • 简单说说数据仓库和数据库的理解?
  • 数据仓库的数据可以从哪里来?
  • 你觉得数据仓库有什么好处?
  • 说说你对hive的理解?
  • 操作型系统和分析型系统的区别?
    分析型系统更加注重数据分析和报表,而操作型系统的目标是一个伴有大量数据改变的事务优化系统。
  • 设计分析型数据库时应该考虑哪些问题?
  • 谈谈你对ETL的理解?
  • 数据仓库和数据集市的区别?
  • 数据集市组织数据的两种模型?
  • 你们项目数据集市组织数据用的什么模型?事实表包含了多少个索引?
  • 全量抽取和增量抽取的区别?你们项目用的什么抽取方式?
  • 什么是维度速度模型?
  • hive 数据倾斜怎么解决?
  • 使用hive遇到过什么问题?
  • hive有几种存储格式,大概区别是什么?
  • hive 和mysql的区别?
  • hive的分区和分桶的区别?
  • hive的内部表和外部表的选择?
  • hive什么时候用内部表?什么时候用外部表?
  • hive导入数据有几种形式?
  • hive导出数据有几种形式?

#kafka

  • 说说kafka分片副本机制?
  • kafka如何保证消息不丢失?
  • kafka你在工作中遇到什么问题?
  • kafka重复消费问题?
  • kafka有哪些特性?
  • kafka为什么那么快?

你可能感兴趣的:(面试-javaEE)