分布式平台的下的数据模型特征

在讨论分布式平台的数据模型特征之前,我们来看看两个分布式平台和传统数据库之间的差异是什么。

分布式 传统DB DW
系统& 平台层面差异 1、并行处理 1、单机或伪分布处理或大型机
2、整体可用性好 2、整体可用性差
3、meta一致性不好 3、meta一致性高
4、无索引 4、有索引
5、SQL可优化空间、手段少 5、SQL可优化空间和手段多
6、整体数据处理能力强 6、整体数据处理能力弱
7、功能实现灵活度高 7、功能实现灵活度低
8、平台的开放性好 8、平台的开放性差
9、小数据下慢 9、小数据下快

数据特征差异

1、总体数据量大 1、总体数据量小
2、脏数据多 2、脏数据少
3、非结构数据多 3、非结构数据少
4、数据变化快 4、数据变化慢
5、数据来源更负责 5、数据来源复杂度低
6、数据种类多 6、数据种类少

我想一个数仓模型的好坏,除了能否满足业务期望之外,还在于说我们能否充分利用平台的特性让我们的模型运转效率更高。

那么 我们的模型特征是什么?

模型计算过程扁平化

优点:

  • 充分利用分布式环境下的计算能力;
  • 有助于业务变化的快速实现;
  • 有助于数据问题的快速查找;
  • 有助于口径统一化;
  • 中间层数据通用性强;

劣势

  • 计算资源消耗高;
  • 源头对目标的影响可能性变大;
  • 业务人员使用成本增加;

模型内并行计算能力高

  • 多设计通用计算模块,利用计算框架化产出相同计算逻辑的数据;

模型脏数据的容错和处理能力高

 

 

 

你可能感兴趣的:(ETL)