数据仓库认识

1、通用数据仓分层设计,主要分成五层:

        1、基础数据层(ODS):将数据采集过来最先存放的地方,一般和最原始的数据会保持一致

                ETL:萃取(Extract)、转置(Transform)及加载(Load)

                主要的作用是:保持数据的原样,压缩采用LZO,压缩比是100:10左右、创建分区表

        2、明细数据层(DWD):主要是做数据清洗、过滤、对一些敏感的数据例如手机号,省份证进行脱敏、对业务传输过过来的数据进行降维

        3、一致性维度(DIM):基于维度建模理念思想,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险,公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一一对应。

        4、汇总数据层(DWS):主要在这层的作用是形成宽表,将在DWD层中的数据标尽心关联然后整合,避免以后在ADS层在反复的进行表与表之间的关联。

        5、应用数据层(ADS):主要的目的是对外的,当外部想要调用这个数仓,就是通过这层ADS进行连接的。

 数据仓库认识_第1张图片

2、对于数据仓库的权限划分:

        坚持的三个原则:

                1、生产和临时需求支持账户分离

                2、对内权限最小化

                3、对外全权限固定化

3、分层的命名规范:

数据仓库认识_第2张图片

4、权限的问题的考虑

        1、在数据仓库中的每一层的权限是不同的才能保证数据的安全。

        2、普通权限认证只能控制当前的用户,当前用户所属的组、其他的用户、不能精确到每一个其他的用户,使用chmod、chown修改后的权限,是对全局的权限都是开放的,无法做到对指定不同用户有不同的权限。

        3、 ACL可以做到对每一个用户的权限认证,可以实现不同的用户有着不同的权限。

        4、开通ACL的权限认证:

修改hdfs-site.xml的配置文件,将权限认证打开:

当配置好,需要将该配置文件分发给其他的节点.


1、添加配置文件:

dfs.permissions
true



dfs.namenode.acls.enabled
true



2、重启hdfs

stop-hdfs.sh
start-hdfs.sh


3、通过ACL添加权限:
hdfs dfs  -setfacl -R -m user:ods:r-x /文件路径       -R表示的是将该目录下所有的子文件都设置该权限


4、ACL删除权限:
hdfs   dfs  -setfacl -R -x  user:ods   /文件路径


5、查看权限:
hdfs  dfs -getfacl  /文件路径



    5、数据仓库中的模型:

        1、星型模型:

        在数据仓库建模中,星星模型是维度建模中的⼀种选择⽅式。星型模型是以⼀个事实表和⼀ 组维度表组合⽽成,并且以事实表为中⼼,所有的维度表直接与事实表相连。

数据仓库认识_第3张图片

    

        2、雪花型模型:

        雪花模型也是维度建模中的另⼀种选择,它是对星型模型的扩展,雪花模型的维度表可以拥
有其他的维度表,并且维度表与维度表之间是相互关联的。因此,雪花模型相⽐星型模型更
规范⼀些。但是,由于雪花模型需要关联多层的维度表,因此,性能也⽐星型模型要低,所
以⼀般不是很常⽤。
数据仓库认识_第4张图片

        3、星座模型:

        维表是共享状态的,可以被多个事实表关联使⽤,这种模式可以看做星型模式的汇集,因⽽
称作星系模式或者事实星座模式。
6、数据仓库的三大范式:
第⼀范式:属性不可在分割
第⼆范式:所有⾮主属性都完全依赖于主关键字
第三范式:⾮主关键字不能依赖于其他⾮主关键字。即⾮主关键字之间不能有函数(传递)依赖关
 

你可能感兴趣的:(数据仓库,数据仓库)