大数据学习-hive(四:离线数仓搭建流程)

一:接需求

需求通常是其他部门提过来的。我们要和其他部门人员进行沟通,核实需求是否能完成,如果能完成最后要形成一个excl文档,把想要的字段都写在excl中,并和对方核对任务完成日期。如果完不成,提前告知对方。

二:查看所需数据

1. 所需数据在维表中。

这种情况直接写sql,将结果放在dm层即可。

2. 所需数据在ods层或者dwd层。

这些数据并没有在维表中,我们要想是否要建立一个新的维度,进行维度建模,如果不需要,则直接进行计算,将结果放在dm层。

3. 所需数据不在数仓中。

我们需要数据从其他部门,同步到我们的数仓中,使用工具例如sqoop,flume,datax等。
之后将数据存放到ods,清晰之后放在dwd,看是否需要维度建模,需要进行建模,不需要直接计算,将结果放在dm层。

三:编写脚本测试和上线。

1. 编写代码,写sql。
2. 进行检验sql,将代码放在hue中进行跑到,看是否可以跑成功,并且查看检验数据是否正确。
3. 之后将代码写入到idea中,通过git上传。
4. 通过genkins进行同步到我们数仓的目录下。
5. 上调度。	
	例如(dolphinscheduler)在调度工具中,添加阶段,连接依赖。

四:数据通过BI报表工具展示

  1. 将数据同步到mysql的某个库中,某个表中。
  2. 使用报表工具链接mysql对应的库,表。
  3. 通过BI制作展示结果。
  4. 给需求部门人员开权限。
  5. 报表工具(FinePort,FineBI,superset…)

你可能感兴趣的:(big,data,hive,学习,数据仓库,大数据)