大数据框架总结

Kafka Eagle

这是一款Kafka监控工具,Kafka Eagle主要是有几个我们关注的点:

  • 流量,最长可以查看最近七天的流量波动图
  • lag size邮件告警
  • 可以用Kafka Sql分析

课程框架总结

Zookeeper 分布式服务协调框架,帮助其他节点正常运行

  • 永久节点: 普通永久节点、序列化永久节点
  • 临时节点(客户端一旦断开节点消失): 普通临时节点、序列化临时节点
  • Watch机制 类似于监听器

Hdfs 分布式文件存储

  • NameNode 主节点:用于管理元数据
  • fsimage 一份完整的元数据信息
  • edits 最近一段时间客户端的操作日志
  • SecondaryNode 合并fsimageedits
  • DataNode 数据存储,议block块128M进行存储

写入数据过程

  • 客户端请求Namenode上传数据
  • NameNode检验客户端是否有权限,文件是否存在,校验通过,直接告诉客户端允许上传
  • 客户端请求NameNode第一个文件Block块地址
  • NameNode寻找对应客户端地址返回给客户端:采用就近原则,寻找心跳比较活跃,磁盘比较空闲的
  • 客户端与对应的DataNode进行通信,将数据写入到DataNode对应的Block块里面去,数据以Packet为单位进行传输,默认为64KBDataNode反向进行数据校验

MapReduce

  • 记住八个步骤

Yarn资源调度管理平台

  • FIFO 先进先出
  • Fair Schedular 公平调度 Apache使用
  • Capacity Schedular 容量调度器 cdh使用,不同用户提交作业到不同的队列里面,实现资源隔离

Hive
面向数据分析,将原数据存储在Mysql

  • 外部表:外部表删除的时候不会删除Hdfs数据
  • 内部表:删除的时候会删除Hdfs数据
  • 分区表:分文件夹 partition by
  • 分桶表:分文件 cluster by into buckets

Hive调优

  • MapJoin
  • 合并小文件
  • 控制MapReduce的个数
  • 表的优化
  • 本地模式
  • 推测执行

Flume数据采集工具

  • 离线分析:把数据存储到Hdfs上面去
  • 实时分析:把数据发送到Kafka上面去

Sqoop数据导入导出工具

  • 增量数据、减量数据、更新数据怎么解决:拉链表

Azkaban\Oozie

  • 任务调度工具

Kafka消息队列
用于实时处理场景,作用:

  • 解耦
  • 异步
  • 并行

核心概念 producer、consumer、topic、partition、segement、.log.index

各个软件框架之间的依赖关系

Zookeeper:依赖jdk
Hadoop: 依赖zk
Hive: 依赖hadoopMysql
flumesqoopazkaban: 无依赖
impala: 依赖Hive,必须启动Hive Metastore服务

你可能感兴趣的:(大数据)