11.26学习笔记(hadoop)

11.26学习笔记(hadoop)_第1张图片
TEZ:将MR作业进行分析优化,构建成一个有向无环图
Spark和MR逻辑一样,但是Spark基于内存,MR基于磁盘,故Spark性能比MR高
HIVE:实现数据仓库功能对历史数据进行分析,把SQL语句转化成MR作业执行(批量数据处理)
PIG:流数据处理,轻量级数据分析
Oozie:工作流管理工具
Zookeeper:分布式协调一致性服务
HDFS:分布式文件系统
HBase:非关系型的分布式数据库
Sqoop:用于在Hadoop与传统数据库之间进行数据传递

SSH:Secure Shell,建立在应用层和传输层基础上的安全协议。配置SSH以使namenode能够无密码登录每一个服务器。

hadoop fs可以用于不同文件系统,比如本地文件系统和HDFS文件系统
hadoop dfs和hdfs dfs只能用于HDFS文件系统

Hadoop两大核心组件:HDFS和MR
HDFS:namenode和datanode
MR:JobTracker(协调TaskTracker)和TaskTracker

HDFS实现目标:兼容廉价的硬件设备,实现流数据读写,支持大数据集,支持简单的文件模型,强大的跨平台兼容性。
HDFS局限性:不适合低延迟的数据访问(HBase),无法高效存储大量小文件,不支持多用户写入及任意修改文件
分块:支持面向大规模数据存储,降低分布式节点的寻址开销
块过大会导致失去并行度
支持大规模文件存储,简化系统设计,适合数据备份
secondnamenode:名称节点的冷备份,维护EditLog

HDFS冗余设计好处:加快数据传输速度(并行传输),很容易检查数据错误,保证数据可靠性
三个冗余备份:发起请求的datanode,另一个block上的datanode,原block上随机计算的另一个datanode
数据错误:namenode出错:热备份恢复
datanode出错:定期发送心跳信息,一个周期没收到心跳信息,namenode将其标记为宕机,将上面所存数据发到其他datanode上备份。
数据出错:校验码计算和上次生成不一致,对上次数据重新进行复制。

ls :显示指定文件的详细信息
mkdir:创建文件夹
cat:指定文件内容输出到标准输出

你可能感兴趣的:(hadoop)