数据仓库简介

数据仓库构建
数仓架构图:
数据仓库简介_第1张图片

数据仓库的三个阶段:
第一阶段:

使用大量成熟的开源框架,主要是离线批处理为主,外围系统自研能力较弱,数据量和集群资源少。

第二阶段:

使用开源+自研方式,有自己的方法论和建模体系,有完善的元数据管理,数据质量监控。能有效支持离线实时需求

第三阶段:

   自研通用一站式大数据处理平台,有完善的数仓理论基础和外围工具,有完善的数据共享机制和权限管理

趋势:

   工具智能、平台完善。

   实时和离线一体化,技术不是障碍。

   数据膨胀速度块,吞噬大量计算资源

数据仓库痛点:
痛点1:临时取数需求占用数仓人员大部分时间

痛点2:数仓规范和流程不一致,跨部门合作困难

痛点3:指标口径不一致导致数据可信度下降

痛点4:烟囱式开发形成数据孤岛和重复计算

痛点5:数据膨胀导致计算资源紧张,出数时间得不到保障

痛点6:异常排查时间和修复时间长

痛点7:数据安全和数据共享矛盾不可调和

痛点8:产出形式单一

痛点9:业务需求响应不及时

数据仓库痛点解决方案:
1->自助取数据+OLAP系统

2->建模规范,开发规范

3->给定指标字典

4->给定指标字典,建模规范

5->数据产品服务化,数据规范

6->元数据与数据质量监控

7->数据分级,权限管理

8->数据产品服务化

9->规范化,产品服务化

数据仓库简介_第2张图片

你可能感兴趣的:(云计算,大数据基础,大数据,数据仓库)