数仓分层设计可以按照以下层次来划分:
数据源层(Source Layer):该层是数仓的数据来源,包含一些原始系统、外部数据源,这些数据需要进行ETL处理后才能被加载到数仓中。
数据提取层(Staging Layer):该层是数据被存储、提取和清洗的地方。数据在此进行普通化处理、数据验证和纠错,然后被更改为标准格式,以便于后续的处理。
数据集成层(Integration Layer):该层是数据被整合的地方。将来自不同数据源的数据,按一定规则整合到一个集成的层中,以满足业务需求,并且适合进行数据分析和报告。
数据存储层(Storage Layer):该层是数据在数仓中的存储层次,包含了经过处理的、格式化的数据。在此层可以进行详细的数据分析,以获得更多的见解。
数据展现层(Presentation Layer):该层是用来展示数据、构建报告和仪表板,以及进行交互式数据分析的地方。可视化的展示对人员进行决策、发现问题或抓取机会至关重要。
在数仓分层设计中,每个层次都履行定义和核心功能,无论是数据来源,数据清洗,还是数据整合和分析,都通过逐级提升,最终帮助企业实现数据驱动的战略目标。
ODS层(Operational Data Store):ODS层是数仓分层中的基础层,负责处理和管理来自各种数据源的原始数据,并且通常采用近实时的方式接收。
ODS层的作用在于管理和维护原始数据,进行数据质量检查和校验,处理数据异常和变化,同时为后续的数据集成和分析提供数据基础。
DWD层(Data Warehouse Data):DWD层是数仓分层中的核心层,用于存储处理好的数据,包括清洗、加工和集成后的数据。
DWD层中的数据是面向主题的,以便业务使用和决策分析。DWD层的作用在于将数据转化为可用于分析和报告的标准化数据,并为数据仓库提供数据抽象和集成。
DWS层(Data Warehouse Service):DWS层是数仓分层中的数据服务层,用于提供针对业务需求和数据访问的数据服务。
DWS层中的数据往往是面向终端用户和业务分析师的,通常是处理后的数据集合,并提供了更直观、更易于理解的数据展现方式。DWS层的作用在于提供数据可视化和交互式分析,以及数据的实时查询和更新。
ADS层(Application Data Services):ADS层是数仓分层中的应用数据服务层,用于为特定应用提供应用服务。
ADS层中的数据往往是面向特定应用程序,并与应用系统进行对接,以支持各种业务需求。
ADS层的作用在于提供专门的数据服务,以适应特定的应用需求,支持应用程序和业务的快速开发和部署。
这些层级的命名规则,主要为了保持每个层的结构层级清晰,方便技术人员协调开发和数据共享。
同时,这些命名规则还为开发人员理解和统一规范数据的命名提供了便利。
缓冲层(Buffer Layer):缓冲层是数仓中的一个中间层,用于将来自各种数据源的数据进行阻塞缓存、过滤和转换,以减轻汇聚过程中的负载。
缓冲层的作用是预处理数据,以便在后续层中更快地进行转换和分析。
明细层(Detail Layer):明细层是数仓中的详细层次,用于存储和管理方式数据,包括来自缓冲层的数据和来自其他数据源的详细数据。
明细层的作用是提供原始数据,以便后续层次进行数据转换和数据聚合。
汇总层(Summary Layer):汇总层是数仓中的重要层次,用于对明细数据进行汇总和聚合。
汇总层的作用是提供快速和可靠的汇总数据,以支持数据决策分析。
维度层(Dimension Layer):维度层用于存储和管理各个业务参与维度元素的信息,例如时间、地理位置等。
维度层的作用是管理主题中的维度元素和属性,以为汇总层和明细层提供一致的维度信息。
临时层(Temp Layer):临时层是数仓中的一个辅助层次,用于存储临时性数据,例如ETL过程中使用的临时表、数据治理中的中间数据、清洗、分割和映射过程中的临时数据等。
临时层的作用是提供临时数据的存储和处理,以支持数据集成和处理中间过程。
应用层(Application Layer):应用层是根据不同业务领域需要,构建的描述不同应用领域和业务流程的前一层次的数据结构。
应用层包括数据仓库的主要应用程序,如财务、人力资源、营销、客户关系管理等。应用层的作用是为不同业务领域提供视角角度,以便进行各种分析和决策。
实时落仓层(Real-time Landing Layer):实时落仓层用于存储实时/近实时数据,例如交易数据、传感器数据等。
实时落仓层的作用是实现数据实时采集和存储,以支持实时/高频数据分析。