Hadoop离线项目

离线项目下的Hadoop生态栈
Hadoop生态离线项目
Hadoop:(无论什么大数据项目Hadoop是少不了的)
HDFS MapReduce(主要是做清洗) YARN (大数据项目基本都是跑在yarn资源框架上)
Hadoop集群
Hive:(主要是做计算)
外部表 (会使用)
SQL (会使用)
数据倾斜 (会遇到的问题)
优化
基于元数据管理 (需要拿到元数据管理)
SQL ==> MapReduce (hive不仅仅是写sql,重要的是给一个sql语句如何分析生成的stage)
Flume
调度:(作业的调度)
crontab、shell
Azkaban
HUE:可视化的notebook CM
主要用于排查数据(相对于命令行形式来讲非常方便)

项目:通用
集群规模==>每台机器的配置==>机型

离线处理架构
Hadoop离线项目_第1张图片

流程及注意点
1、采集数据,server主要通过Flume,关系型数据库可以通过spoop或者spark采集
2、以天级别来分log文件的;支持各种文本格式
3、清洗过后的数据一般都是落在hive之上;ETL(mapreduce)出来之后是一个分区表
4、数据清洗之后移动数据到数仓,一定要刷元数据信息 ,才能在hue等工具上展示数据

你可能感兴趣的:(Hadoop)