MapReduce相关的几道面试题

转载自微信公众号hadoop123

  1. 现有100TB的用户查询词(从搜索引擎日志中提取出来的),如何用MapReduce计算出现次数最多的K个查询词?如何对你设计的算法进行优化?考虑的优化点有:如果一个查询词出现次数非常多,产生的负载倾斜问题会不会导致你的算法性能非常低下,等等。
  2. 现有100TB的网页文档(文档库),很容易统计出每个文档中每两个词(词对)出现频率,设计一个MapReduce算法统计出现在超过10个文档中的词对,比如以下文档 I am a good man
    那么词对有I am,I a,I good, I man, a man, am good ……
    设计出算法之后,尝试考虑从以下几点进行优化:
    (1)在Map阶段,一个Map Task可能会输出大量的临时数据,这可能会带来什么性能问题?如何对其进行优化?
    (2)假设现在有一个词频表,已经统计出了文档库中每个词出现的频率,怎么利用这个词频表优化你的mapreduce程序?
    (3)如果词频表非常大,内存放不下,有哪些数据结构可以节省内存?
    (4)如果尝试使用各种数据结构后,词频表仍无法保存到内存中,如何进行解决该问题?
  3. 目前有很多基于MapReduce的数据挖掘库、机器学习库和图算法库,尝试基于MapReduce实现最短路径算法。
  4. Hadoop MapReduce提供了什么机制允许一个作业的各个任务间共享只读文件?尝试描述该机制的工作原理。
  5. 请描述MapReduce中shuffle阶段的工作流程?如何优化shuffle阶段?
  6. 一个MapReduce作业的Map Task数目是如何决定的?一般情况下,在Hadoop中,一个处理文本文件的作业的Map Task是如何计算的?
  7. 什么叫数据本地性?Hadoop采用了哪些机制提高任务的数据本地性?
  8. 描述Hadoop MapReduce的容错机制。
  9. MapReduce中Partitioner的作用是什么,哪些情况下需要自定义Parititioner?
  10. MapReduce中Combiner的作用是什么,它一般用于哪些场景?举出一个不能使用Combiner的例子。
  11. MapReduce中排序发生在哪几个阶段?这些排序是否可以避免,为什么?
  12. 编写MapReduce作业时,如何做到在Reduce阶段,先对key排序,再对value排序?
  13. 如何使用MapReduce实现两表join,可考虑以下几种情况:(1)一个表大,一个表小(可放到内存中) (2)两个表均是大表
  14. 如何使用MapReduce实现全排序(即数据全局key有序)? 你给出的算法可能要求仅启动一个Reduce Task,那么如何对算法改进,可以同时启动多个Reduce Task提高排序效率。
  15. 如何对MapReduce作业进行调优(可从参数配置、程序编写等角度说明)
  16. 电话面试,请描述MapReduce的设计架构。
  17. 如果对MapReduce系统进行调优(可从操作系统配置、参数配置等角度说明)
  18. Hadoop MapReduce中资源管理模型是怎样的,有什么缺点,如何改进?
  19. 解释什么是Capacity Scheduler?
  20. Hadoop 2.0中YARN是什么?(最近部分明年毕业的同学找工作过程遇到了关于YARN的笔试题,比如今天的EMC笔试题)
  21. YARN和MapReduce有什么关系?

你可能感兴趣的:(Hadoop,大数据)