Txixi

数据仓库原理&实战【1】

文章目录

一、数仓的诞生背景
- 1.1 数仓诞生原因
- 1.2 基本概念
- - 数据仓库（Data Warehouse,DW）
  - - 数据仓库特点
    - 数据仓库与数据库的区别
- 1.3技术实现
- - 1.3.1数据仓库建设方案
  - 1.3.2传统数据仓库
  - 1.3.3大数据数据仓库
- 1.4MPP&分布式架构
- - 1.4.1MPP架构
  - 1.4.2分布式架构
  - 1.4.3MPP+分布式架构
二、数据仓库架构
- 2.1数据仓库的架构
- 2.2ETL流程
- - 2.2.1ETL（Extract-Transform-Load）
  - 2.2.2数据抽取（Extract）
  - 2.2.3数据转换（Transformation）
  - 2.2.4数据加载（Loading）
  - 2.2.5常见得ETL工具
- 2.3操作数据层（ODS）
- 2.4公共维度模型层（CDM）
- - 2.4.1数据明细层（DWD）
  - 2.4.2数据汇总层（DWS）
- 2.4数据应用层（ADS）
三、建模方法
- 3.1 OLTP系统建模方法
- 3.2 OLAP（在线联机分析）
- - 3.2.1 ROLAP系统建模方法（面向DWS）
  - 3.2.2 MOLAP系统建模方法
- 3.3 多维分析

一、数仓的诞生背景

1.1 数仓诞生原因

历史数据积存
企业数据分析需要

（1）历史数据积存
历史数据使用频率低，堆积在业务库中，导致性能下降。

对于企业来说，线上的业务系统随着业务的进行，会源源不断的产生数据，这些数据都会存储在业务数据库中（例如Mysql、Oracle、SQL Server等）来支持业务系统的运行，但是，当线上业务系统运行超过一定时间后会累积越来越多的数据，就会对我们的业务数据库产生一定的负载，从而导致我们的业务系统运行较慢。而这些历史数据中，有相当一部分是冷数据，即业务系统一般对最近产生的数据（当天、一周内、一个月内）调用比较频繁，对较早之前的数据调用频率很低。

所以为了避免随着时间的推移，历史数据积压对业务数据库产生的影响，妨碍业务的正常运行，企业需要定期将积压的冷数据从业务数据库中转移出去，存储到一个专门存放历史数据的仓库中。这就是——数据仓库。
（2）企业数据分析需要
各部门自己建立独立的数据抽取系统，导致数据不一致.

企业将历史数据存储到数据仓库中后，这些数据不仅可以改善业务数据库的性能；还可以用来进行数据分析，从而辅助管理层进行决策。以历史数据积存为导向，这种发展是顺其自然的。

但有的企业开始并没有历史数据积存，然而仅仅是对数据分析特别看重。这些企业可能会存在多个部门需要进行数据分析的任务。这些企业建立数据仓库的原由，是以数据分析为导向的。

在没有建立数据仓库时候，各个部门是有自己的数据抽取系统的，他们做数据分析的时候是在业务数据库了提取数据，然后分析。但是这样存在一些问题：

各个部门分析的结果不一致，例如各部门提取数据的时间不同，就会导致数据不同，从而导致分析的结果有差异；
各部门建立各自的数据抽取系统，这样很浪费资源；
每个部门有一个抽取系统，数据库需要给权限，这样数据库的权限管理也存在极大的风险。

因此，企业统一建立一个数据仓库，使用专门的数据抽取系统，定期从业务数据库把数据抽取到数据仓库里面，①实际上就是数据仓库为各个部门建立了一个统一的数据视图，就直接解决了分析结果不一致的问题；②数据仓库可以直接开放访问接口，这样业务数据库和数仓的权限管控就更具有针对性了。

数仓面向于数据分析，业务数据库面向于业务系统。企业无论是以历史数据积存，还是数据分析为导向建立的数据仓库。数据积存、数据分析，这两个都是数据仓库的基本功能与建设目的。

1.2 基本概念

数据仓库（Data Warehouse,DW）

由数据仓库之父比尔.恩门（Bill Inmon）提出；
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合；
主要用于组织积累的历史数据，并使用分析方法（OLAP、数据分析）进行分析整理，进而辅助决策，为管理者、企业系统提供数据支持，构建商业智能。

数据仓库特点

（1）面向主题：为数据分析提供服务，根据主题将原始数据集合在一起；
（2）集成：原始数据来源于不同数据源，要整合成最终数据，需要经过抽取、清洗、转换的过程（便于后面的分析）；
（3）非易失：保存的数据是一系列历史快照，不允许被修改，只允许通过工具进行查询、分析；
（4）时变性：数仓会定期接收、集成新的数据，从而反映出数据的最新变化。

数据仓库与数据库的区别

数据库面向事务设计，属于OLTP（在线事务处理）系统，主要操作是随机读写；在设计时尽量避免冗余，常采用符合范式规范来设计；
数据仓库是面向主题设计的，属于OLAP（在线分析处理）系统，主要操作是批量读写；关注数据整合，以及分析、处理性能；会有意引入冗余，采用反范式方式设计。

1.3技术实现

1.3.1数据仓库建设方案

传统数据仓库
大数据数据仓库

1.3.2传统数据仓库

传统的数据仓库是由关系型数据库组成MPP（大规模并行处理）集群，是由单机数据库发展而来的，业务数据库一般是单机的关系型数据库，数仓在建设初期一般会选用关系型数据库，是为了同步业务数据库的数据，使得数据迁移起来更加方便，而且它的业务系统这块改造的成本也就更小，但是作为数据仓库，需要存储的历史数据是比较庞大的，需要多个单机的数据库组成MPP集群，进行数据存储，包括运算。
传统数仓

优点：在数据量没有达到某个量级的时候，他继承了单机数据库优异的性能，迁移数据方便，不需要额外的学习成本；
缺点：在数据量超过某个量级的时候，它的扩展性有限、热点问题就暴露出来了。

常见的传统数据仓库：

Oracle RAC
DB2
Teradata
Greenplum

1.3.3大数据数据仓库

利用大数据天然的扩展性，完成海量数据的存放；
将SQL转换为大数据计算引擎任务，完成数据分析。

大数据数据仓库实际就是依托大数据技术产生的数仓，是基于大数据天然的分布式存储（包括分布式计算），并添加了SQL的支持，而形成的一种架构，与传统的数仓架构是截然不同的。

大数据数仓的优势：
①解决了传统数仓扩展性的问题；
②因为大数据底层的分布式文件系统，在做数据存储的时候为了保证数据的安全性、可靠性，会对数据进行备份，解决了热点问题。
大数据数仓的缺点：
①因为不是原生的关系型数据库，是通过SQL转成大数据语法的，SQL支持率不高；
②缺少事务支持，因为是分布式架构实现事务是比较难的，但是数仓面向的是数据分析，对事务要求并没有那么严格；
③在数据量较少的情况下，计算速度是比较慢的。

常见的大数据数据仓库：

Hive
Spark SQL
HBase
Impala
HAWQ
TIDB

1.4MPP&分布式架构

1.4.1MPP架构

（1）MPP架构

传统数仓中常见的技术架构，将单机数据库节点组成集群，提升整体处理性能；
节点间为非共享架构（Share Nothing），每个节点都有独立的磁盘存储系统和内存系统；（也就是说既能存储数据，也能进行计算）
每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供服务；（对网络的速度要求高）
设计上优先考虑C（一致性），其次考虑A（可用性），尽量做好P（分区容错性）

因为MPP架构本质上还是关系型数据库组成的集群，其优点：

运算方式精细，延迟低、吞吐低
适合中等规模的结构化数据处理

MPP架构缺点：

存储位置不透明，通过Hash确定数据所在的物理节点，查询任务在所有节点均会执行；
并行计算时，单节点瓶颈会成为整个系统短板，容错性差；
分布式事务的实现会导致扩展性降低。

1.4.2分布式架构

大数据中常见的技术架构，也称为Hadoop架构/批处理架构；
各节点实现场地自治（可以单独运行局部应用），数据在集群中全局透明共享；
每台节点通过局域网或广域网相连，节点间的通信开销较大，在运算时致力减少数据移动；
优先考虑的是P（分区容错性），然后是A（可用性），最后再考虑C（一致性）。

1.4.3MPP+分布式架构

数据存储采用分布式架构中的公共存储，提高分区容错性；（把数据透明化）
上层架构采用MPP，减少运算延迟。

二、数据仓库架构

2.1数据仓库的架构

2.2ETL流程

2.2.1ETL（Extract-Transform-Load）

将数据从来源端（也就是业务数据库）经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程；
构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去；
ETL规则的设计和实施约占整个数据仓库搭建工作量的60%~80%，把数据通路搭好了，为数据积存、数据分析等打好基础。

2.2.2数据抽取（Extract）

（1）数据抽取

抽取的数据源可以分为结构化数据、非结构化数据、半结构化数据；
结构化数据一般采用JDBC、数据库日志方式，非半结构化数据会监听文件变动。

（2）抽取方式

数据抽取方式有全量同步、增量同步两种方式；
全量同步会将全部数据进行抽取，一般用于初始化数据装载；
增量同步方式会检测数据的变动，抽取发生变动的数据，一般用于数据更新。

2.2.3数据转换（Transformation）

数据转换需要经历数据清洗和转换两个环节：

数据清洗主要是对出现的重复、二义性、不完整、违反业务或逻辑规则等问题的数据进行统一的处理；（数据清洗对于结构化数据来说很少，主要是对非结构化数据和半结构化数据清洗比较多）
数据转换主要是对数据进行标准化处理，进行字段、数据类型、数据定义的转换。

2.2.4数据加载（Loading）

就是将最后处理完的数据导入到对应的目标源里，加载完成后数据就存储在ODS层中。

2.2.5常见得ETL工具

（1）结构化数据ETL工具

Sqoop
Kettle
Datastage
Informatica
Kafka

（2）非/半结构化数据ETL工具

Flume
Logstash

2.3操作数据层（ODS）

这一层主要是在数据仓库中完成数据积存的一个任务。
（1）数据与原业务数据保持一致，可以增加字段用来进行数据管理存储的，（可以理解为ODS里面的数据是原业务数据的扩充集）

（2）历史数据是只读的，提供业务系统查询使用；
（3）业务系统对历史数据完成修改后，将update_type字段更新为UPDATE，追加回ODS中；
（4）在离线数仓中，业务数据定期通过ETL流程导入到ODS中，导入方式有全量、增量两种

全量导入：数据第一次导入时，选择此种方式
增量导入：数据非第一次导入，每次只需要导入新增、更改的数据，建议使用外连接&全覆盖方式。

2.4公共维度模型层（CDM）

2.4.1数据明细层（DWD）

（1）数据明细层对ODS层的数据进行清洗、标准化、维度退化（时间、分类、地域）；
（2）数据仍然满足3NF（三范式）模型，为分析运算做准备。

2.4.2数据汇总层（DWS）

（1）数据汇总层的数据对数据明细层的数据，按照分析主题进行计算汇总，存放便于分析的宽表；
（2）存储模型并非3NF，而是注重数据聚合，复杂查询、处理性能更优的数仓模型，如维度模型。

2.4数据应用层（ADS）

（1）数据应用层也被称之为数据集市；
（2）存储数据分析结果，为不同业务场景提供接口，减轻数据仓库的负担

数据仓库擅长数据分析，直接开放业务查询接口，会加重其负担。

三、建模方法

3.1 OLTP系统建模方法

OLTP（在线事务处理）系统中，主要操作是随机读写（业务数据库都是这样的系统，提供数据存储和数据操作的服务）
为了保证数据一致性、减少冗余，常使用关系模型（也就是ER模型，其原则尽量把表拆分得越细越好）
在关系模型中，使用三范式规则来减少冗余

3.2 OLAP（在线联机分析）

（1）OLAP（在线联机分析）

OLAP系统，主要操作是复杂分析查询；关注数据整合，以及分析、处理性能（更加关注于分析性能的）；
OLAP根据数据存储的方式不同，又分为ROLAP，MOLAP，HOLAP，不管分为哪几种，其目的都是为了加快数据分析计算的一个性能。

（2）OLAP系统分类

ROLAP（Relation OLAP，关系型OLAP）：使用关系模型构建，存储系统一般为RDBMS （最常见的系统，存数据结果，一般不存明细数据）
MOLAP（Multidimensional OLAP，多维型 OLAP）：预先聚合计算，使用多维数组的形式保存数据结果，加快查询分析时间；（此系统更加依赖于产品的底层体现）
HOLAP（Hybrid OLAP，混合架构的 OLAP）：ROLAP 和MOLAP 两者的集成；如低层是关系型的，高层是多维矩阵型的；查询效率高于ROLAP，低于MOLAP。（底层因为是关系型，可以存储明细数据，把预计算结果存储在上层）

3.2.1 ROLAP系统建模方法（面向DWS）

典型的数据仓库建模方法有ER模型、维度模型、Data Value、Anchor

最常用的是维度模型，其他三种是属于一个源头的，这三个模型适合比较成熟的数据仓库，也就是说数据的表结构变动不大的，适合更传统的一些行业，不怎么适合互联网产业。

1.维度模型

维度模型中，表被分为维度表、事实表，维度是对事实的一种组织
维度一般包含分类、时间、地域等，维度主要对数据进行一些组织、分类、划分等；
事实其实就是它本质的一些个属性;
维度模型分为星型模型、雪花模型、星座模型；
维度模型建立后，方便对数据进行多维分析

（1）星型模型：标准的星型模型，维度只有一层，分析性能最优（就是只有一个事实表，带有一个维度表）

对于企业来说，不太可能出现这个最优的情况，有可能存在多层维度，这就是雪花模型。
（2）雪花模型：雪花模型具有多层维度，比较接近三范式设计，较为灵活，但是性能就比较差一些了。

（3）星座模型

星座模型基于多个事实表，事实表之间会共享一些维度表；
是大型数据仓库中的常态，是业务增长的结果，与模型设计无关。

2.宽表模型（适合大数据数仓产品）

宽表模型是维度模型的衍生，适合join性能不佳的数据仓库产品；
宽表模型将维度冗余到事实表中，形成宽表，以此减少join操作。

3.2.2 MOLAP系统建模方法

MOLAP系统实际就是一种用空间换时间的方式。

MOLAP将数据进行预结算，并将聚合结果存储到 CUBE模型中
CUBE模型以多维数组的形式，物化到存储系统中，加快后续的查询
生成CUBE需要大量的时间、空间，维度预处理可能会导致数据膨胀

常见MOLAP产品：Kylin、Druid，适合ADS层

3.3 多维分析

OLAP多维分析：

OLAP主要操作是复杂查询，可以多表关联，使用COUNT、SUM、AVG等聚合函数
OLAP对复杂查询操作做了直观的定义，包括钻取、切片、切块、旋转

（1）钻取

对维度不同层次的分析，通过改变维度的层次来变换分析的粒度
钻取包括上卷（Roll-up）、下钻（Drill-down）
上卷（Roll-up），也称为向上钻取，指从低层次到高层次的切换
下钻（Drill-down），指从高层次到低层次的切换

（2）切片（Slice）、切块（Dice）

选择某个维度进行分割称为切片
按照多维进行的切片称为切块

（3）旋转（Pivot）
对维度方向的互换，类似于交换坐标轴上卷（Roll-up）

为什么要进行数据仓库分层？ BenBen尔 #建模方法 spark 大数据分布式
对数据仓库进行分层（如常见的ODS、DWD、DWS、ADS等层次）是为了解决复杂数据处理场景中的效率、可维护性、易用性问题。以下是分层的主要目的和优势：1、职责分离，逻辑解耦分层能够沉淀公共的数据模型，实现了逻辑解耦。有以下好处：减少重复开发，提升研发效率从数仓模型角度能够提升数据一致性。减少了冗余计算，高频查询或者高频开发无需使用原始数据，直接使用公共的数据模型查询或者开发即可，减少了对计算资源
数据仓库有哪些建模方法？ BenBen尔 #数据仓库数据仓库大数据
数据仓库的建模方法主要分为关系建模和多维建模两大类，不同方法适用于不同的业务场景和目标。以下是常见的建模方法及其特点：一、关系建模（规范化建模）基于关系型数据库的规范化理论，强调减少数据冗余，适合复杂的企业级数据仓库（EDW）。第三范式（3NF）定义：通过规范化将数据分解为多个关联表，确保每个字段仅依赖主键。优点：数据冗余低，一致性高，适合复杂事务处理。缺点：查询需要多表关联，性能较低；业务理解成
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
现代数据栈：秽土重生？——从 SAP x Databricks 看数据世界的轮回数据库
由SAP官宣与Databricks合作想开去。现代数据栈（ModernDataStack）曾一度是数据行业最炙手可热的概念。Snowflake、Databricks、Fivetran、dbt……一众明星公司描绘出一个美好的未来：所有数据汇集到云端数据仓库，所有分析、BI和AI应用直接连接仓库数据，再无数据孤岛，数据流转自由，一切井然有序。但现实并没有这么美好。现代数据栈经历了一轮狂热，又在短短几年
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
初识开源云原生数仓Databend 开源项目精选云原生
Databend是一款开源的数据仓库产品，主要定位于OLAP场景，采用云原生架构理念（可对比snowflake），有非常好的扩展性、同时具备低成本、高性能的优势，兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准，支持复杂查询和数据版本回溯（时间旅行）功能。与流行的商业智能（BI）、提取、转换和加载（ETL）以及数据科
实施一套先进的智能摄像头服务系统。合方圆～小文 4G低功耗模块 A-I智能人工智能硬件工程大数据
一、项目背景随着物联网、人工智能和大数据技术的飞速发展，智能摄像头已成为家庭、企业以及公共安全领域的重要设备。其便捷、高效、智能的特点，使得市场需求日益增长。为了满足用户对智能监控的多样化需求，提供更加全面、可靠的监控服务，本方案旨在设计并实施一套先进的智能摄像头服务系统。二、项目目标提高监控效率：通过智能摄像头，实现实时视频监控，减少人力成本，提高监控响应速度。提升安全性：集成实时报警功能，及时
2024年大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别，2024年最新你花了多久弄明白架构设计 2401_84182146 程序员大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取虽然Lambda架构使用起来十分灵活，并且可以适用于很多的应用场景，但在实际应用的时候，Lambda架构也
大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别(3) 2301_76348014 程序员大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Lambda架构总共由三层系统组成：批处理层（Batc
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
doris：阿里云 MaxCompute 向阳1218 大数据 doris
MaxCompute是阿里云上的企业级SaaS（SoftwareasaService）模式云数据仓库。什么是MaxCompute连接MaxCompute示例--1.创建Catalog。CREATECATALOGmcPROPERTIES("type"="max_compute","mc.default.project"="xxx","mc.access_key"="xxxx","mc.secret_
使用Activeloop Deep Lake构建深度学习数据仓库与向量存储 dgay_hua 深度学习人工智能 python
技术背景介绍随着深度学习技术的发展，数据的存储与管理成为了一个重要的问题。尤其是对于需要处理大量数据的应用，例如自然语言处理和图像识别，传统的数据存储方式已经无法满足需求。ActiveloopDeepLake是专为深度学习设计的数据仓库，可以作为向量存储使用，支持多模态数据的存储和处理，并且可以直接用于细调大型语言模型（LLMs）。此外，它还提供自动版本控制，无需依赖其他服务，兼容主要云服务提供商
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
什么是数据库中的宽表？見贤思齊数据分析数据库
数据库中的宽表（WideTable）是指一种包含大量列的表结构设计，通常通过将多个业务相关的数据字段（甚至来自不同表的字段）合并到一张表中，以减少多表关联查询的需求。宽表常见于数据仓库、OLAP（联机分析处理）系统或大数据场景，其核心目标是优化查询性能，尤其是在需要频繁进行复杂分析或生成报表的场景中。一、宽表的核心特点1.列数多宽表可能包含数十甚至数百列，涵盖多个维度和指标（例如订单信息、客户信息
【数据仓库与数据挖掘基础】第一章概论/基础知识精神病不行计算机不上班数据仓库与数据挖掘基础数据挖掘数据仓库
知识点复习：事务（关于事务的一些知识点可以点这里）一、数据仓库的一些基本的知识1.从数据库到数据仓库1.1数据库用于事务处理1.1.1定义：事务处理是指对数据库中数据的操作，这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。事务的定义：事务是数据库操作的基本单位，包含一组逻辑上相关的操作。事务要么全部成功，要么全部失败。ACID特性：原子性（Atomicity）：
ZooKeeper 的 Watch 机制是什么？ Shockang 大数据技术体系大数据 zookeeper
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文Watch机制的简介ZooKeeper提供了分布式数据发布/订阅功能，一个典型的发布/订阅模型系统定义了一种一对多的订阅关系，能让多个订阅者同时监听某一个主题对象，当这个主题对象自身状态变化时，会通知所有订
云数据库是什么数据库？云服务器数据库
云数据库，简单来说，是一种部署在云计算环境中的数据库服务。它借助云计算的强大资源，将数据库管理系统以服务的形式提供给用户，用户无需在本地自行搭建复杂的硬件和软件环境，通过互联网就能便捷地使用数据库功能。这就像是把原本需要在自家搭建、维护的“数据仓库”搬到了云端的“大型仓储中心”，由专业团队负责管理和维护。与传统数据库相比，云数据库有着诸多明显差异。传统数据库往往需要用户自行购置服务器、存储设备等硬
Kimball维度模型之数据仓库灵魂总线架构 ByteCodeLabs 维度数据仓库设计数据仓库架构
目录一总线架构(BusArchitecture)1总线矩阵(BusMatrix)2Mapping文档二一致性维度(ConformedDimension)三一致性事实(ConformedFact)在数据仓库领域，深刻理解基本概念是确立强大数据管理体系的关键。数据仓库作为一个庞大而复杂的系统，其核心概念涉及多维体系结构、总线架构等关键要素。首要的是理解数据仓库的架构，例如Multidimensiona
湖仓一体化及冷、热、实时三级存储麦当当MDD 数据仓库 Spark 大数据数据库数据仓库数据库架构
一、湖仓一体化（Lakehouse）湖仓一体化（Lakehouse）是数据湖（DataLake）与数据仓库（DataWarehouse）的结合，旨在解决传统数据架构中数据孤岛、存储冗余、计算性能不足等问题。其核心思想是兼顾数据湖的存储灵活性和数据仓库的管理与计算能力，使得结构化、半结构化、非结构化数据能够在同一存储系统中高效管理和分析。二、为什么需要湖仓一体？数据湖的缺陷：缺乏强Schema，查询
大数据与物联网（IoT）的完美融合：驱动智能新时代 Echo_Wish 大数据高阶实战秘籍大数据物联网 python 人工智能
大数据与物联网（IoT）的完美融合：驱动智能新时代大家好，我是你们的大数据探索者Echo_Wish。今天，我们将深入探讨大数据与物联网（IoT）整合的重要性及其在现代科技中的应用。物联网通过连接大量智能设备，生成海量数据；而大数据技术则赋予我们从这些数据中提取有价值信息的能力。当两者结合在一起时，能够为各行各业带来革命性的变化，推动智能时代的到来。一、大数据与物联网的基本概念1.物联网（IoT）物
深入理解Kettle：ETL工具的学习与实践未知方程无解
本文还有配套的精品资源，点击获取简介：Kettle（Spoon）是Pentaho公司开发的开源ETL工具，用于数据整合和数据仓库建设。本学习笔记着重于Kettle的核心——转换引擎，详细探讨其数据处理的各个步骤，包括数据的输入、转换、输出以及工作原理，提供了一系列的学习资源和实践操作指南，旨在帮助学习者深入理解并掌握Kettle的转换引擎，从而提升数据处理能力。1.Kettle（Spoon）简介与
探索数据仓库自动化：ETL流程设计与实践 Echo_Wish 大数据高阶实战秘籍数据仓库自动化 etl
探索数据仓库自动化：ETL流程设计与实践在大数据时代，数据仓库已成为企业数据管理和决策支持的核心工具。如何高效地提取、转换和加载数据（ETL），是数据仓库建设中的重要环节。本文将围绕数据仓库自动化的ETL流程设计展开，结合实际代码示例，探讨如何构建高效、稳定和可扩展的ETL解决方案。什么是ETL？ETL（Extract,Transform,Load）是指数据抽取、转换和加载，是数据仓库建设的重要步
企业信息查询系统的技术实现路径探析——以某大数据平台为例探熵科技大数据
引言在数字化转型加速的背景下，企业信息服务领域正经历着从传统工商查询向智能决策支持的演进。本文将以某企业信息查询系统为研究样本，解析其技术架构与实现路径，探讨大数据技术在企业服务场景中的落地应用。一、行业技术现状分析当前企业信息服务面临三大技术挑战：多源异构数据整合：需聚合工商数据（结构化）、招投标公告（半结构化）、企业新闻（非结构化）等差异化数据源数据实时性要求：企业经营状态变更、联系方式更新等
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
阿里云MaxCompute面试题汇总及参考答案大模型大数据攻城狮阿里云 odps 云计算机器学习大数据面试大数据面经增量数据
目录简述MaxCompute的核心功能及适用场景，与传统数据仓库的区别解释MaxCompute分层架构设计原则，与传统数仓分层有何异同MaxCompute的存储架构如何实现高可用与扩展性解析伏羲（Fuxi）分布式调度系统工作原理盘古（Pangu）分布式存储系统数据分片策略计算与存储分离架构的资源弹性扩展方案解释MaxCompute多租户资源隔离实现机制容错机制设计：Worker节点故障时的数据恢复
云上大数据平台的优化：提升效率与可靠性的实践 Echo_Wish 大数据高阶实战秘籍大数据
云上大数据平台的优化：提升效率与可靠性的实践随着云计算和大数据技术的快速发展，越来越多的企业选择将其数据处理和分析工作迁移到云上。云上大数据平台以其灵活性、高效性和可扩展性，成为现代企业数据战略的重要组成部分。然而，随着数据规模的不断增长和业务需求的多样化，如何优化云上大数据平台以提升效率和可靠性，成为了一个亟需解决的问题。云上大数据平台的优化策略在本文中，我们将探讨几种常见的云上大数据平台优化策
国产化替代 | 星环科技TDH替代IBM数仓，助力城商行构建湖仓一体平台 ibm
城商行构建湖仓一体平台|TDH替代IBM数仓IBM的数仓NetezzaEOL是2023年，数仓Netezza生命周期结束了。数仓产品停止提供支持和更新，不再为该产品提供修复漏洞或功能改进的服务。某城市商业银行在此背景下，启动数据仓库系统升级项目，将数据仓库从IBMNetezza迁移到星环科技大数据基础平台TDH，不但成功实现了数据仓库的国产化替代，还建设了新一代的湖仓一体平台，为银行业务发展提供新
《数据仓库》读书笔记：第11章非结构化数据和数据仓库 search-lemon 数据仓库数据仓库
该系列博文为《数据仓库BuildingtheDataWarehouse》一书的读书笔记，笔者将书中重点内容进行概括总结。大致保留书中结构，一部分根据自己的理解进行调整。如发现问题，欢迎批评指正。章节博文1《数据仓库》读书笔记：第1章决策支持系统的发展2《数据仓库》读书笔记：第2章数据仓库环境3《数据仓库》读书笔记：第3章设计数据仓库4《数据仓库》读书笔记：第4章数据仓库中的粒度5《数据仓库》读书笔
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟