大数据MaxCompute教程(阿里云离线数仓项目)学习笔记20231127

1 数据仓库概念

数据仓库定义(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。

AI:数据仓库是一个大型、集中、主题导向的数据库系统,用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据,并将其在一个可查询的数据模型中进行了整合和转换,以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载(ETL)的过程,以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。

数据仓库VS传统数据存储
三大优势:

  1. 体量大,效率高
  2. 历史追查,时光回溯
  3. 数据可用性

原始数据分为以下三个部分:
日志采集系统(Jsonser)
业务系统数据库(MySQL)
爬虫系统等

将这三部分数据源统一存放到数据仓库

报表系统
用户画像
推荐系统
机器学习
风控系统

2.1 项目需求分析

  1. 采集业务数据库中数据(业务数据库:RDS,导入到DataWorks,进行数据分析)
  2. 数据仓库的搭建(在Hadoop里面核心的组件HDFS上嵌套使用Hive框架,用Hive框架创建不同分层的表格,作为数据仓库的整体结构)
  3. 分析统计业务指标(ADS层)

你可能感兴趣的:(云原生,数据仓库)