hadoop学习一

Web HDFS
•开启Web HDFS
•编辑hdfs-site.xml,添加属性“dfs.webhdfs.enabled”,设置值为“true”
•Webhdfs具有FileSystem接口完整实现
•Web hdfs通过restful api操作HDFS,使得客户端更简单、更广泛
Next
Hadoop核心组件——MapReduce
什么是MapReduce?
•MapReduce是一种编程模型,它适合大规模数据并行计算。
•MapReduce核心思想:将一个大任务分为多个小任务执行,然后再对它们的输出再进行处理
•MapReduce分为下面两个函数:
•Map函数:通常功能是过滤、获取、转换数据
•Reduce函数:聚合操作,求和、求平均数、计算TOP值、排序等
用SQL语言理解MapReduce
select ip, count(*) from access-log where date='2013-09-30' group by ip
•Where语句相当于一个map过程,用于找到需要处理的数据,
•group和count相当于reduce过程,用于将相同key的数据聚合在一起,然后做累加运算SQL语言与MapReduce最大不同点是不能做并行计算
JobTracker与TaskTracker
•Client提交MapReduceJob到JobTracker
•JobTracker决定哪个TaskTracker运行Job,决定条件:
•机架感知
•数据存放位置
•数据是否损坏
•JobTracker与TaskTracker通过心跳通信,如果TT长时间没有响应JT,则JT会重新安排任务到其它TT
•JobTracker负责跟踪Job整体运行进度
理解MapReduce任务槽(solt)
•每个TaskTracker都会配置任务槽
•任务槽也叫TaskTrackerChild进程,它是独立的JVM
•任务槽分为map槽和reduce槽,数量通过mapred-site.xml配置
•任务槽的作用是运行map或者reduce task
•任务槽与TT通信汇报状态

你可能感兴趣的:(mapreduce,sql,编程,hadoop,Web)