如何学习Hadoop，面试Hadoop工程师有哪些问题？

如何学习Hadoop，面试Hadoop工程师有哪些问题？ - 董飞的回答 - 知乎
https://www.zhihu.com/question/24965053/answer/29612377

作者：董飞链接：https://www.zhihu.com/question/24965053/answer/29612377来源：知乎著作权归作者所有，转载请联系作者获得授权。

Hadoop面试和学习小结随着大数据的盛行，Hadoop也流行起来。面过一些公司，包括开发Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google，数不胜数了.
Hadoop 2.0转型基本无可阻挡，今年下半年要正式发布了，它的出现让大家知识体系都要更新了。Hadoop1.0搞了8年才发布，2.0不到2年就出来了。2.0的核心是YARN，它的诞生还是有趣的故事**
YARN介绍 Yarn from Hortonworks**
Yarn from IBM developerworks**

Hadoop 生态系统Hadoop Ecosystem at a Glance**

SQL on HadoopSQL is what’s next for Hadoop: Here’s who’s doing it**

All SQL-on-Hadoop Solutions are missing the point of Hadoop**

Hadoop SummitHadoop Summit, San Jose**

书籍和Paper“Hadoop: The Definitive Guide”: 里面内容非常好，既有高屋建瓴，又有微观把握，基本适用于1.X版本。比如mapreduce各个子阶段，Join在里面也有代码实现，第三版
Hadoop: The Definitive Guide, 3rd Edition**
tomwhite/hadoop-book · GitHub**

Google的三辆马车，GFS, MapReduce, BigTable Google的新三辆马车：Caffeine、Pregel、Dremel
Big Data beyond MapReduce: Google’s Big Data papers**

SIGMOD, VLDB Top DB conference
入门：知道MapReduce大致流程，Map, Shuffle, Reduce
知道Combiner, partition作用，设置Compression
搭建Hadoop集群，Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
Pig, Hive 简单语法，UDF写法

When to use Pig Latin versus Hive SQL?**
Online Feedback Publishing System**
Introduction to Apache Hive Online Training**
http://i.stanford.edu/~ragho/hive-icde2010.pdf**

Hadoop 2.0新知识; HDFS2 HA，Snapshot, ResourceManager,ApplicationsManager, NodeManager
进阶:HDFS，Replica如何定位

HDFS Design**

Hadoop 参数调优，性能优化，Cluster level: JVM, Map/Reduce Slots, Job level: Reducer #, Memory, use Combiner? use Compression?

7 Tips for Improving MapReduce Performance**

Hadoop Summit 2010 Tuning Hadoop To Deliver Performance To Your Application**

HBase 搭建，Region server, key如何选取?**
数据倾斜怎么办？**

算法：字典同位词
翻译SQL语句 select count(x) from a group by b;
MapReduce Algorithms**
Designing algorithms for Map Reduce**

Blog关注Cloudera**, Hortonworks**, MapR
董的博客**

Hadoop学习资料**

相关系统数据流系统: Storm**

内存计算系统: Spark and Shark**

交互式实时系统：Cloudera Impala， Apache Drill (Dremel开源实现），Tez (Hortonworks)

公司列表：Powered by**

其他Hadoop进化目标：开发部署傻瓜化，性能更强劲，最后为程序员标配。
核心都是被寡头控制的，记得一边文章说一流的公司卖标准，二流的公司卖技术，三流的公司卖产品，H和C有最多的committer，自然就影响着整个Hadoop社区。
技术就是日新月异，还是多看看那些公司的博客，关注感兴趣的新产品，Hortonworks Stack**
在Hadoop系统中从头裸写MapReduce不现实了，ETL基本靠Hive,Pig, 还有Cascading**,Scalding**
MapReduce并不是最优的，仅适合批处理，很多问题：JVM的启动overhead很大，小 Job更明显，数据必须先存储，不适合迭代计算，延迟高。DB学术圈讨论很久tradeoff 了,MapReduce: 一个巨大的倒退**

如何学习Hadoop，面试Hadoop工程师有哪些问题？

你可能感兴趣的:(如何学习Hadoop，面试Hadoop工程师有哪些问题？)