yyuu002

数据仓库框架指导

目录
1, 数据仓库 DW
2, 数据库 vs 数据仓库
3，数据仓库历史
        3.1，历史
4，维度建模
        4.1，概念
        4.2，建模模型
        4.3，结构
        4.4，事实表
        4.5，维度表
        4.6，高级事实表技术
        4.7，高级维度表技术
        4.8，维度模型设计的四步骤
        4.8，分层设计
5, ETL子系统
        5.1, E 获取
        5.2, T 清洗及转换
        5.3, L 发布（加载）
        5.4, 管理
6， ETL开发指导
        6.1, 工具集
        6.2, 加载策略
                增量
                全量
                拉链
6.3, ETL 开发规范
        1、设计高层规划
        2、选择ETL工具
        3、开发默认策略【行业标准】
        4、按照目标表钻取数据
        5、历史数据填充维表
        6、事实表加载
        7、维度表增量处理
        8、事实表增量处理
        9、聚集表与OLAP加载
        10、ETL系统操作与自动化
6.4, ETL 实时数据
        7，大数据分析
        7.1, 工具集
        7.2，面向大数据管理的最佳实践
        7.3，面向大数据结构的最佳实践
        7.4，应用于大数据的数据建模的最佳实践
        7.5，大数据的数据治理最佳实践

正文：

1, 数据仓库 DW

from Bill Inmon:

数据仓库非常具体的原则，包括：

数据仓库是面向主题的（Subject-Oriented）、
集成的（Integrated）、
包含历史的（Time-variant）、
不可更新的（Nonvolatile）、
面向决策支持的（Decision Support）
面向全企业的（Enterprise Scope）
最明细的数据存储（Atomic Detail）
数据快照式的数据获取（Snap Shot Capture）

这些原则到现在仍然是指导数据仓库建设的最基本原则。

from Ralph Kimball:

（1）方便存取信息，内容是直观性的，不仅针对开发人员

（2）一致的形式展示信息，同名的度量必须是同义的

（3）适应变化

（4）及时展现信息

（5）安全

（6）为决策制定提供权威和可信的基础

（7）只有业务群体接受了DW/BI才是成功的标志

2, 数据库 vs 数据仓库

OLAP 多维数据库

更多的复杂安全选项，汇总数据提供更开放的接口（更丰富的分析能力）

支持事务，周期性快照事实表

处理累积快照事实表有所困难（方便支持缓慢变化维度类型2变化，但使用其他缓慢变化维度技术重写数据时，需要全部或部分重新处理数据）

数据库：传统关系型数据库的主要应用是OLTP(On-Line Transaction Processing)，主要是基本的、日常的事务处理，例如银行交易。主要用于业务类系统，主要供基层人员使用，进行一线业务操作。

数据仓库：数仓系统的主要应用主要是OLAP（On-Line Analytical Processing），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。OLAP数据分析的目标是探索并挖掘数据价值，作为企业高层进行决策的参考。

功能	数据库	数据仓库
数据范围	当前状态数据	存储历史、完整、反应历史变化数据
数据变化	支持频繁的增删改查操作	可增加、查询，无更新、删除操作
应用场景	面向业务交易流程	面向分析、支持侧重决策分析
处理数据量	频繁、小批次、高并发、低延迟	非频繁、大批量、高吞吐、有延迟
设计理论	遵循数据库三范式、避免冗余	违范式、适当冗余
建模方式	ER实体关系建模（范式建模）	范式建模+维度建模

3，数据仓库历史

Inmon vs Kimball ： 3. Bill Inmon VS. Ralph Kimball | 记忆不靠谱

3.1，历史

（1）Bill Inmon 1991，自上而下

企业级数据仓库 EDW（规范化表）

（2）Ralph Kimball 1994，自底向上

数据集市（维度建模, 部门级） -> 数据仓库

源 → 后端： ETL（Extract, Transformation and Load） → 企业级数据仓库总线结构（星型模式或维度建模） -> 前端：（展现 → 商业智能应用）

ETL 交付：划分维度和事实 ->关注数据的质量、完整性、一致性

展现区：星型模式，or OLAP多维数据库 ,数据时维变化的，原子聚集的，以业务过程为中心的，坚持使用总线结构的企业数据仓库

（3）Bill Inmon 辐射状企业信息工厂 CIF (Corporate Information Factory)

ETL -> EDW（规范化表） + 数据集市（维度建模, 部门级）

CIF的核心是将数仓架构划分为不同的层次以满足不同场景的需求，比如常见的ODS、DW、DM等，每层根据实际场景采用不同的建设方案。

（4）混合辐射状架构与 Kimball架构

ETL -> EDW（规范化表） -> ETL -> 企业级数据仓库总线结构（星型模式或维度建模）

4，维度建模

4.1，概念

（1）事实，度量，度量事件（物理世界度量事件：度量表对应行 1:1）

（2）数值类型，可加性事实

（3）事实表的粒度：事务、周期性快照、累积快照

事实表：两个或更多的外键→维度表，表示的是维度间的关系，描述的是物理世界的度量事件

（4）维度表 who what where when how why ....

（5）维度属性 or 事实表属性？

描述，常量，约束行 or 参与计算的度量？比如产品的标价，经常发生变化，更可能是一种度量事实

数字量，连续值的基本可以认为属于事实，而不太大的离散数字基本可以认为属于维度属性

4.2，建模模型

星型模型与雪花模型对比：

星型模型和雪花模型主要区别就是对维度表的拆分，对于雪花模型，维度表的设计更加规范，一般符合三范式设计;而星型模型，一般采用降维的操作，维度表设计不符合三范式设计，反规范化，利用冗余牺牲空间来避免模型过于复杂，提高易用性和分析效率。

星型模型因为数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素，设计与实现都比较简单。

雪花型模型由于去除了冗余，有些统计就需要通过表的联接才能产生，所以效率不一定有星型模型高。正规化也是一种比较复杂的过程，相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下，数仓构建实际运用中星型模型使用更多，也更有效率。

此外，在数据仓库中星座模型也使用比较多，当多个事实表共用多张维度表时，就构成了星座模型。

4.3，结构

维度建模 = 事实表 + 维度表

事实表 = 维度列 + 度量，列的视角趋向于短，行的角度趋向于增长

维度表 = 单一主键列，对应事实表中的维度列 + 属性列

4.4，事实表

事实表根据粒度的角色划分不同，可分为事务事实表、周期快照事实表、累积快照事实表。

（1）事务事实表，用于承载事务数据，通常粒度比较低，它是面向事务的，其粒度是每一行对应一个事务，它是最细粒度的事实表，例如产品交易事务事实、ATM交易事务事实。

（2）周期快照事实表，按照一定的时间周期间隔(每天，每月)来捕捉业务活动的执行情况，一旦装入事实表就不会再去更新，它是事务事实表的补充。用来记录有规律的、固定时间间隔的业务累计数据，通常粒度比较高，例如账户月平均余额事实表。

（3）累积快照事实表，用来记录具有时间跨度的业务处理过程的整个过程的信息，每个生命周期一行，通常这类事实表比较少见。

注意：这里需要值得注意的是，在事实表的设计时，一定要注意一个事实表只能有一个粒度，不能将不同粒度的事实建立在同一张事实表中。

4.5，维度表

维度表，一致性维度，业务过程的发生或分析角度，我们主要关注下退化维度和缓慢变化维。

（1）退化维度（DegenerateDimension）

在维度类型中，有一种重要的维度称作为退化维度，亦维度退化一说。这种维度指的是直接把一些简单的维度放在事实表中。退化维度是维度建模领域中的一个非常重要的概念，它对理解维度建模有着非常重要的作用，退化维度一般在分析中可以用来做分组使用。

（2）缓慢变化维（Slowly Changing Dimensions）

维度的属性并不是始终不变的，它会随着时间的流逝发生缓慢的变化，这种随时间发生变化的维度我们一般称之为缓慢变化维（SCD）。

4.6，高级事实表技术

1）事实表代理键
2）蜈蚣事实表（尽量规避）
3）多货币场景（一个记录本币，一个记录外币）
4）多度量单位场景（一个记录公制标准单位，一个记录特殊度量值）
5）事实表时间跟踪（Type手段，拉链表机制应用）

4.7，高级维度表技术

1）多值维度与桥接表
2）随时间变化的多值桥接表
3）聚集事实作为维度属性
4）多时区维度

4.8，维度模型设计的四步骤

（1）选择业务过程：

业务过程是组织完成的操作型活动。（后面我们还会知道，事实表不仅仅可以描述业务操作，还可以是定义某些人参与了某些活动、某些人在某些公司工作过这类维度之间的关联关系，称无事实的事实表）

（2）声明粒度：如何描述事实表中每一行的内容？

1）粒度用来确定某事实表中的每行表示什么，等价于物理表中的主键。比如超市销售事实表每行记录一个购物单中的一种产品，对应主键(购物单号，产品)；

2）原子粒度是最低级别的粒度；

3）针对不同事实表粒度，要建立不同的事实表。

（3）确定维度：who what where when how why ....

（4）确定事实：过程的度量是什么？比如典型的可加性数值

1）对业务过程事件的度量，与申明粒度保持一致；

2）常用于计算、汇总

关于日期维度，Kimball 建议针对日期，提前建立好10-20年的日期维度表，包含

日期键、日期（timestamp）、完整描述、周天（星期几）、日历月（几月）、日历季度（第几季度）、日历年（哪一年）、财务年-月、是否节假日等等。

这样做的原因，主要在于SQL日期函数通常不支持范围广泛的日期属性。

如果不需要按照当天时间分组上卷或过滤，当天时间将按照简单的日期/时间事实处理，放入事实表中。

关于文本属性的标识，Kimball 建议采用文本字符串表示离散的少数值，而不是神秘的Y/N、0/1来表示。

比如是否节假日，直接用 Holiday / Not Holiday 表示，而不是 1/0 表示。这样在对于BI应用时，不需要做额外的文本转换。

关于是否当天、是否当季，这类的滞后列没有存在的必要。

我们需要考虑和避免雪花模型（规范化维度）、蜈蚣事实表（非常多的维度）

4.8，分层设计

ODS(Operational Data Store)层 - 操作数据层

ODS层，操作数据层，也叫贴源层，本层直接存放从业务系统抽取过来的数据，这些数据从结构上和数据上与业务系统保持一致，降低了数据抽取的复杂性，本层数据大多是按照源头业务系统的分类方式而分类的。一般来讲，为了考虑后续可能需要追溯数据问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即可。

DW（Data Warehouse）层 - 数据仓库层

数据仓库层是我们在做数据仓库时要核心设计的一层，本层将从 ODS 层中获得的数据按照主题建立各种数据模型，每一个主题对应一个宏观的分析领域，数据仓库层排除对决策无用的数据，提供特定主题的简明视图。DW层又细分为 DWD（Data Warehouse Detail）层、DWM（Data Warehouse Middle）层和DWS（Data Warehouse Service）层。

数据明细层：DWD（Data Warehouse Detail）

该层一般保持和ODS层一样的数据粒度，并且提供一定的数据质量保证，在ODS的基础上对数据进行加工处理，提供更干净的数据。同时，为了提高数据明细层的易用性，该层会采用一些维度退化手法，当一个维度没有数据仓库需要的任何数据时，就可以退化维度，将维度退化至事实表中，减少事实表和维表的关联。例如：订单id,这种量级很大的维度，没必要用一张维度表来进行存储，而我们一般在进行数据分析时订单id又非常重要，所以我们将订单id冗余在事实表中，这种维度就是退化维度。

数据中间层：DWM（Data Warehouse Middle）

该层会在DWD层的数据基础上，对数据做轻度的聚合操作，生成一系列的中间表，提升公共指标的复用性，减少重复加工处理数据。简单来说，就是对通用的维度进行聚合操作，算出相应的统计指标，方便复用。

数据服务层：DWS（Data Warehouse Service）

该层数据表会相对比较少，大多都是宽表(一张表会涵盖比较多的业务内容，表中的字段较多)。按照主题划分，如订单、用户等，生成字段比较多的宽表，用于提供后续的业务查询，OLAP分析，数据分发等。

在实际业务处理中，如果直接从DWD或者ODS计算出宽表的统计指标，会存在计算量太大并且维度太少的问题，因此一般的做法是，在DWM层先计算出多个小的中间表，然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定，也可以去掉DWM这一层，只留DWS层，将所有的数据在放在DWS也没有问题。

DM(Data Mart)层 - 数据集市层

数据集市层，也可以称为数据应用层，基于DW上的基础数据，整合汇总成分析某一个主题域的报表数据。主要是提供给数据产品和数据分析使用的数据，一般会存放在 ES、PostgreSql、Redis等系统中供线上系统使用，也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据，一般就放在这里。

5, ETL子系统

ETL 需要关注：业务需求、合规性、数据质量、安全性、数据延迟、归档、对接BI发布接口

ETL的四个部分：

ETL（Extract, Transformation and Load）

获取、清洗及转换、发布（加载）、管理

5.1, E 获取

（1）数据分析

（2）变化数据获取系统，增量获取

源系统增加审计列（创建、修改时间），区分是否由触发器控制，如果不是需要分析和测试每一列以确保它们是表示变化的可靠来源，比如不要过度依赖审计列，有可能源系统允许后端脚本进行更新审计列
定时获取（不靠谱）比如定时任务每天获取创建或修改时间为昨天的数据，需要考虑加载失败导致推迟，可能导致丢失的数据无法再次进入数据仓库
全差异比较，比如CRC算法，需要源系统支持
数据库日志抓取，比如基于MYSQL的binlog获知变化，此类情况需要沟通DBA，确保ETL的需求能获得这个可靠日志（因为DBA可能会定期清空日志，可以建议按要求建立一个专门的日志）
消息队列 MQ 监控，开销较小，需要注意消息队列可能没有回放功能，比如rabbitmq

（3）获取系统

从源系统获取数据有两种形式：文件方式，或流方式

关于加密：对于公共网络或某些内部环境，需要考虑加密传输，保证安全

关于压缩：考虑加密前压缩，因为加密后的文件压缩效果不好？

5.2, T 清洗及转换

（1）数据清洗系统

质量屏幕：列屏幕、结构屏幕、业务规则屏幕

简单来说，就是对数据的完整性、一致性做测试校验。

列屏幕: 是否包含未预期的空值、是否超过规定的范围值、某个值未能遵守格式规范

结构屏幕：外键约束、唯一约束、邮政编码是否合法

业务规则屏幕：复杂业务的检查

对质量事件的响应

可以对质量事件采用：终止；错误记录发送到搁置处理文件中；仅对数据进行标记并放入流水线的下一个步骤（推荐方式）。

（2）错误事件模式

记录数据清洗过程发生的错误事件，可以建立错误事件事实（错误、严重程度）、错误事件详细事实（包括错误的引用键、错误条件、错误）、屏幕维度、日期维度、批处理维度

（3）审计维度装配器

针对每个事实表增加审计维度，应对错误情况，记录审计维度表（完成标记、校验标记、出界标记、屏幕错误标记、记录修改标记 .... ）

（4）重复数据删除系统

（5）一致性系统

使得来自不同源系统的同含义数据具有一致性意义，并且结构一致、过滤无效数据、标准化

5.3, L 发布（加载）

（1）缓慢变化维度管理器

原样保留
类型1：覆盖重写，属性总是反映最新最近的工作

类型2：增加新行，要求维度主键具有一致性，同时需要增加行有效起止时间、行标识、列变化原因、当前标记（有效/失效）

这样一来，因为事实表存储的是维度表的代理键而非自然键，因此在历史数据的查询中会以历史的维度值进行计算。

能够保留历史变化情况，会增加数据量（查询也会增加一些复杂度）
拉链表（几种错误场景：断链、交叉链、重复链）

类型3：增加新列（属性）（替换现实），用新增的列来保存变化前的属性（导致数据表变得复杂），不常用（需要增加列）

类型4：增加微型维度，即从表标识变化，主要针对快速变化

针对维度中的一组属性变化非常快的情况下，需要将它们划分为到微型维度上。

主维度的主键和微型维度的主键都必须出现在事实表中

消除频繁变化的维度属性。如年龄。把高频数据变为低频数据。

如生日，不变化。
地址，变化频率低。
年龄，购买习惯，收入水平变化频繁（按月）... 将这些人口统计特征维度构建mini维。

如人口统计维度。mini维度下，行记录数减少了。
但存在风险：如果要变更区域范围，就难以处理。

类型5：增加微型维度和类型1支架；

在类型4的基础上，同时在主维度加入类型1的引用。这样允许直接通过主维度访问微型维度上的当前值，而不再需要通过事实表连接。

类型6：类型2维度中增加类型1属性

既保留历史名称，当前名称，又记录拉链表。

类型7：双重类型1及类型2维度

在维度表中，使用代理键来跟踪变化是Type6的加速变形

事实表对于该维度表存储 2 个外键，如下图

这幺一来，如果想要了解雇员在用餐发生瞬间历史的状态，关联至左边的维度表即可得知；如果想要以雇员最新的状态进行分析。则直接取右边的表即可。

最新视图获取：右边表可以通过视图展示（比如只取 updated == ‘9999-12-31’的数据），也可以生成一个实际表来存储。

（2）代理键产生器

避免级联源系统的操作型键与日期时间戳的诱惑。

使用代理键，产生无语义的键，通常是一个整数，成为维度行的主键，需要考虑分布式全局唯一的可能

生成的方法有如下3种：
1、将表中现有的代理键的最大值+1（不是线程安全，强烈不推荐）
2、使用数据库的序列。（线程安全，推荐使用）
3、使用一个自增的字段。（也可以）

（3）层次管理器

在维度中通常具有多个同时存在的、嵌入的层次结构。这些层次以属性的形式简单共存于同一个维度表中。

如果层次固定，可以简单建模并将不同的维度属性添加到每个层次即可，比如通讯地址这样轻微参差不齐的层次可以建模为固定层次。

如果层次不平衡或不确定，则需要采用桥接表，比如组织结构。

例如，行政区划，一般是按照“国家-省份-市-县”，但中国存在直辖市，这个直辖市和省份放在一起就比较乱了。有的地方是“旗”有的地方是“建设兵团”，这些都没法直接进行映射。处理此类的维度，一般采用递归的方式来实现其关系。

（4）特定维度管理器

比如日期维度、杂项维度、微型维度、缩减子集维度、小型静态维度等

（5）事实表建立器

涉及事务事实表加载器、周期快照事实表加载器、累积快照事实表加载器

在这里将事实表的加载单独拿出来，主要是要强调如下三种不同类型的事实表。
1、事务型事实表：以单个事务或者事件为单位，作为事实表的1行数据。
2、周期快照事实表：事实表里并不保存全量的数据，只保存固定事件间隔的数据，如每个月的资金余额。
3、累积周期快照事实表：当新的事实到达后，更新事实表的里记录。例如订单处理过程，有多个日期：下单日期、发货日期、签收日期、退款日期等。在这个订单的处理过程中，随着订单的状态改变，事实表的相应日期也在改变。
在加载事实表时，为了提升加载速度，大部分数据库都是采用批量加载的方式，甚至要先删除事实表上的索引，等加载完毕后，再重新创建索引。

（6）代理键流水线

输入事实表行的操作型自然键，替换为适当的维度代理键的步骤

（7）多值维度桥接建立器

通过桥接表对于多值的维度，建立与事实表的关系

例如一个大客户是一个学校，它有主校和分校。每个学校都可能去购买商品。如果要从主校的角度去看一共购买了多少商品，就得用桥接表来实现。

当有多个维度项和事实表的其他维表关联时，也得用桥接表。

（8）迟到数据处理器

在实时环境中，可能存在事实表中的记录迟到，这时候不得不修改历史数据。

所有的数据都是在数据同时到达的假设前提下，但是在某些场景下却并非如此。事实表和维表的数据都有可能弯道。在这种情况下，对事实表不算什么太大的问题。

唯一有区别的是，是要根据维度的有效时间来查找业务发生时的代理键。

这种情况下，只要在查询条件中增加begin_time和end_time即可。处理这种情况，有两种方法。

第一种，事实表已经加载完毕，而维表后续到达。择根据SCD2，在维表中增加一条记录，并且用这个新创建的维度的代理键来更新事实表里有上一个代理键的数据。

第二种方法，先在维度表创建一个新的维度记录，并将所有字段都设置成默认值，然后使用这条记录的代理键。当正确的维度数据从源系统过来后，在用新的数据来更新默认值和空值。

（9）维度管理系统

维度管理系统是整个数据仓库的中心控制系统，用来为数据仓库提供正确的维度数据。在这里，所谓的中心控制系统，不但是组织维表的数据，而且还要负责管理和维表相关的计算任务，包括维表的生成、维表的更新、缓慢变化维的更新管理、维表的加载、生成维杂项维的管理等

（10）事实提供者系统

负责如何创建、组织和管理事实表相关的任务。这个子系统和事实表建立器一起联合工作。事实表管理系统通过维度管理系统获得维表的相关维度，将这些维度整合到事实表中。

（11）聚集建立器

数据仓库的重点应用方向就是在线分析，这就对性能提出了很高的要求。为了能快速的响应前端的性能需求，可以有多种解决方案：升级硬件，采用内存数据库，数据表建立索引，对数据进行聚集。

在这些方案中，在同等条件下，聚集表对性能的提升最大。

如果能把数分钟的响应时间变成毫秒级的响应，则对前端的体验影响非常大。

聚集表虽能达到这样的效果，但任何事物都有两面性。

为了达到此效果，就得维护聚集表。一方面可以采用商业数据库，另一方面可以采用带聚居表功能的开源产品（唯一的一个开源产品Mondrian)。

使用Mondrian时还得使用其聚集表设计器来创建和维护。

（12）OLAP多维数据库建立器

OLAP数据库的存储结构和通常的数据库不同。当进行数据加载时，可以先预聚集数据。

一般的OLAP数据库只能加载不能更新，所以在更新前必须把原数据清除。

其他的OLAP数据库（微软的分析服务器）可以更新事实表，但是是其自有的更新方式。

（13）数据传播管理器

主要用来从数据仓库获取统计结果，并将这些结果推送到其他的应用环境中，例如离线数据分析，统计报表等。

5.4, 管理

良好的ETL系统的三个标准：可靠性、可用性、可管理性。

（1）任务调度器

任务控制系统包括：任务定义、任务调度、元数据获取、日志记录、通知

（2）备份系统

备份在ETL过程中产生的各种中间数据也应该是ETL方案的一部分工作。

Kimball推荐在ETL过程中的三个环节备份这些数据。

1）从源系统加载后未进行任何改动之前。

2）清洗之后

3）已做完各种数据处理，可以写入正式数据仓库之前。

备份具有高性能、简单的管理、自动化的远程的代理操作。

（3）恢复与重启系统

ETL设计的一个重要部分就是当ETL任务失败时，可以重新启动。

在任务设计中，我们要尽量避免丢失数据和重复记录的情况。

因此，这个子系统对整个ETL系统都是非常重要的。

（4）版本控制系统

版本控制系统是存档和恢复ETL任务流中所有逻辑和元数据的一种快照功能。
它负责控制所有ETL任务模块和作业的check-in以及check-out,对于开源的kettle，可以采用svn或者cvs等版本控制工具来实现。
并且，版本控制系统也不应该成为一个事后才想起的问题。
在ETL系统的设计上，每一部分都要确定一个主版本号，另外ETL系统的整体也应该有一个版本号。
当某天发布的版本有严重的错误时，可以快速的恢复到之前的一个正确的版本。

（5）版本迁移系统

从开发迁移到测试到最终生产环境。

版本迁移系统需要考虑与版本控制系统的接口，以控制过程及在必要时备份迁移。

（6）工作流监视器

与任务调度系统配合，获取历史数据以支持随时间变化的性能趋势，用于评估ETL系统的性能，获取基础组件的性能，包括 CPU、内存分配、磁盘利用与争夺情况、缓冲池使用情况、数据库性能等等。

（7）排序系统

ETL 工具能够提供排序能力，正如 DBMS 可以通过 SQL SORT 子句提供排序能力，存在大量排序的应用场景

（8）世系及依赖分析器

世系：以中间表或 BI 报表的特定数据元素开始，识别数据元素的来源，包括该元素及其来源的其他上游的中间表，以及该元素及其来源的所有转换

依赖：从包含在源表或中间表的特定数据元素开始，识别所有包含该元素或根据其推导产生的下游中间表和最终的BI报表，还包含所有应用到该数据元素的转换，及其派生元素

（9）问题提升系统

需要支持各种类型的消息能力，包括电子邮件告警、发生短信等

（10）并行/流水线系统

性能的提升

（11）安全系统

严重违反安全的情况最有可能来自组织内部而不是来自外部黑客

建议对ETL系统的元数据、所有数据采用基于角色的安全管理

（12）合规性管理器

增加可能的合规性使能表，并且为性能考虑，不需要被索引，因为不能被 BI 使用

（13）元数据存储管理器

包括过程元数据、技术元数据、业务元数据

需要在什么都不做和什么都做之间设计出一个平衡的策略

6， ETL开发指导

6.1, 工具集

ETL 同步：Sqoop、DataX、Kettle、Canal、StreamSets

参考：系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL - 云+社区 - 腾讯云

Sqoop，SQL-to-Hadoop 即 “SQL到Hadoop和Hadoop到SQL”。

是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。主要用于在Hadoop与关系型数据库之间进行数据转移，可以将一个关系型数据库（MySQL ,Oracle等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导出到关系型数据库中。

DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。github地址：GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

Kettle，中文名：水壶，是一款国外免费开源的、可视化的、功能强大的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。
两种脚本文件：transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。
图形界面设计：托拉拽，无需写代码。
定时功能：在Job下的start模块，有一个定时功能，可以每日，每周等方式进行定时。

canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据实时订阅和消费，目前主要支持了MySQL，也支持mariaDB。很多大型的互联网项目生产环境中使用，包括阿里、美团等都有广泛的应用，是一个非常成熟的数据库同步方案，基础的使用只需要进行简单的配置即可。github地址：https://github.com/alibaba/canal当前的

canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x

canal是通过模拟成为mysql 的slave的方式，监听mysql 的binlog日志来获取数据，binlog设置为row模式以后，不仅能获取到执行的每一个增删改的脚本，同时还能获取到修改前和修改后的数据，基于这个特性，canal就能高性能的获取到mysql数据数据的变更。

Streamsets是一个大数据实时采集ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。数据源支持MySQL、Oracle等结构化和半/非结构化，目标源支持HDFS、Hive、Hbase、Kudu、Solr、Elasticserach等。创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分。Streamsets的强大之处：
拖拽式可视化界面操作，No coding required 可实现不写一行代码
强大整合力，100+ Ready-to-Use Origins and Destinations，支持100+数据源和目标源
可视化内置调度监控，实时观测数据流和数据质量

6.2, 加载策略

数据集成加载策略，按类型可包括快照、流水、增量、全量、拉链等。

增量

有些表巨大，我们需要选择增量策略，新增delta数据需要和存量数据merge合并。

Merge方式（一）

1）快照数据

Merge方式（二）

1）只有新增数据

2）新增+删除

全量

每天一个全量表，也可一个分区一个全量。

拉链

拉链表，记录数据生命周期，记录一条数据生命周期的开始和结束。

建议在设计拉链表的时候不仅要有开始时间和结束时间，最好再加一个生命状态字段，如chain_status：有效 active、失效 expired、历史 history。

回想一下前面缓慢变化维，可类比SCD的TYPE2，有异曲同工之处

全量拉链，或许会存在性能问题，故建议根据实际业务场景中进行取舍，可只和最近一个时间周期(eg:1个月)的进行拉链处理。

6.3, ETL 开发规范

1、设计高层规划

明确数据的来源；
首先需要明确项目之间维度值的映射关系；
关于指标的获取方式按照需求的要求实现；
对于站在历史看历史的数据，那么维度的变化是不可避免，需要考虑对变化的维度如何处理；

2、选择ETL工具

3、开发默认策略【行业标准】

（1）从每个主要的源系统获取数据；
确定是直接从库读取，还是文件读取，或者流的方式读入等。

（2）归档获取的数据或分级的数据；
在获取数据之后，在处理之前需要将数据保存，是保存最新的还是历史所有的，需要将迁移的数据做一个归档，是永久归档还是有时间限制的归档，根据具体的平台设计和将来平台的扩展性，及项目是作为其他项目的数据仓库等一些列原因去分析。

（3）监控维度和特定事实表的数据质量
在做ETL过程中，要时刻注意数据质量的问题，对于一些异常数据及时发现与相关业务沟通，制定相应的处理规则，不能等用户发现再处理，这样项目的整个进度就会出现很难把控的形式。

（4）维度变换的属性变化的管理
ETL 设计的难度，参考缓慢变化的维度管理的七种类型方法：原样保留、覆盖重写、增加新行、增加新列、增加微型维度等。

（5）确保数据仓库和ETL系统满足系统可用性需求
将这一部分一定要文档化，以及所有使用到的 ETL 设计文档很重要。

（6）设计数据审计子系统
数据仓库中每行应该使用相关审计信度息标记，用于描述数据如何进入系统的。

（7）组织过渡区
数据仓库建立或者ETL处理过程一般至少都要有2-3次的转换，用于ETL步骤以及系统恢复和附档工作。

另外，ETL规范的下一个部分就是描述每个表的历史和增量的加载策略，具体应该包含如下细节：

表设计｛列名，数据类型、键和约束｝
历史数据加载参数（月数）和容量（行计数）
增量数据容量，对每个加载周期涉及的新的和更新的行
处理实时表和维度表迟到的数据。
加载数据频率
处理每一个维度属性的缓慢变换维度变化
表分区，例如按月
数据来源概述，包括讨论所有不常见的源特征
详细的源到目标的映射
源数据概要，包括每一个列的最大值和最小值，每一个列中不同值的统计及空值发生的频率
源数据获取策略【api，直接从数据库查询或者转存储到平面文件】
依赖，包括某个表在处理前必须加载那些表
文档化转换逻辑，这部分最好用伪代码或者图进行说明
避免产生错误的前台条件，ETL开始之前检查数据库的存储空间和必须检查的文件
清洗步骤，删除冗余的文件
估计ETL设计的各个环境的难易程度

4、按照目标表钻取数据

（1）确保层次的清洗性；
（2）开发的详细设计的pdm。

5、历史数据填充维表

主要针对一次性的历史加载

（1）填充维度属性

（2）维度转换，包括简单数据转换、不同源的数据合并、产品码解码（code→text）、验证多对一和一对一的关系、分配维度代理键（比如序列）

（3）维度加载，此时可以通过关闭日志、快速批量加载、文件预排序、谨慎关注转换性能、可能的截断过渡区的表内容（TRUNCATE TABLE）提高加载速度

（4）加载维度表历史

（5）对日期和其他静态维度填充

6、事实表加载

（1）获取历史事实表

（2）审计统计信息

（3）转换事实表，包括空值转换、旋转或逆转透视数据，以及预先计算导出计算、代理键查询流水线（需要保证数据完整性）

（4）分配审计维度键

7、维度表增量处理

（1）获取维度表

（2）识别新的和变化的维度行

（3）处理维度属性的变化，区分是否新行，行是否发生变化

8、事实表增量处理

（1）获取事实表与数据质量检查点

（2）转换事实表与代理键流水线，需要保证数据完整性

一般终止加载是ETL的默认方法，但不是建议使用的方法，我们可以使用以下的操作：抛弃错误行、将错误行写入文件或表中以便后续分析、通过建立虚拟维度行并返回其代理键到流水线中对错误行进行修改、通过映射到每个维度中单一的未知成员修改错误行。

（3）延迟到来的事实与代理键流水线

（4）加载增量事实表

（5）加载快照事实表

（6）加速加载周期，可以通过缩短加载周期、并行处理、采用并行结构加速

9、聚集表与OLAP加载

如果聚集表包含对日期维度的聚集结果，聚集表可能需要被更新、或者删除及重建。

如果聚集表时按照类型1重写的维度属性定义的，类似的问题和操作也必须要有。

保持聚集表与底层的事实数据同步是极其重要的工作。

10、ETL系统操作与自动化

一般要求调度任务、自动并优雅地处理预料之外的错误。

6.4, ETL 实时数据

实时结构的权衡

可以采用以下的方式，以适应实时的要求：

1、替换批处理文件，数据源来自日志、消息队列
2、限制数据质量检查，实时数据可能数据质量检查不能太严格
3、连接事实与维度，维表可能事先加载，维度更新没办法做到非常及时，应该允许早先得到的事实与旧版本的维度共存这种情况出现
4、消除数据过渡区：数据可能没有写入ETL的持久性存储，需要就此问题是否需要备份、恢复、归档以及兼容性是否满足，或者这些责任是否生产源系统唯一的关注等进行严肃的讨论。

7，大数据分析

7.1, 工具集

统看业界可视化BI工具可大致分为：开源bi，商业bi，和传统重bi工具。

业界目前比较流行的开源bi工具有Superset、metabase、Redash、Cboard、Spagobi等。

商业bi工具有帆软、tableau、PowerBI、SmartBI、QlinkView、QuickBI等。

传统企业、传统数仓，大多依然沿用重bi产品，如Congos、BIEE、BO、MicroStrategydeng等。

OLAP，On-Line Analytical Processing，在线分析处理，主要用于支持企业决策管理分析。区别于OLTP，On-Line Transaction Processing，联机事务处理。

OLAP的优势：丰富的数据展现方式、高效的数据查询以及多视角多层次的数据分析。

数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。

在大数据数仓架构中，离线以Hive为主，实时计算一般是Spark+Flink配合，消息队列Kafka一家独大，后起之秀Pulsar想要做出超越难度很大，Hbase、Redis和MySQL都在特定场景下有一席之地。

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP） - 云+社区 - 腾讯云

OLAP引擎/工具/数据库，技术选型可有很多选择，传统公司大多以Congos、Oracle、MicroStrategy等OLAP产品，互联网公司则普遍强势拥抱开源，如 Presto，Druid ，Impala，SparkSQL，AnalyticDB，(Hbase)Phoenix，kudu，Kylin，Greenplum，Clickhouse, Hawq, Drill，ES等

在数据架构时，可以说目前没有一个引擎能在数据量，灵活程度和性能上（吞吐和并发）做到完美，用户需要根据自己的业务场景进行选型。

开源技术选型，MOLAP可选Kylin、Druid，ROLAP可选Presto、impala等。

Presto

Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎，基于内存的低延迟高并发并行计算（mpp），适用于交互式分析查询。

☆ 本身并不存储数据，但是可以接入多种数据源，包括Hive、RDBMS（Mysql、Oracle、Tidb等）、Kafka、MongoDB、Redis等
☆ 完全支持ANSI SQL标准，用户可以直接使用 ANSI SQL 进行数据查询和计算
☆ 可以混合多个catalog进行join查询和计算，支持跨数据源的级联查询
☆ 基于PipeLine进行设计的，流水管道式数据处理，支持数据规模GB~PB，计算中拿出一部分放在内存、计算、抛出、再拿。
☆ SQL on Hadoop：弥补Hive的效率性能和灵活性的不足，Presto和Spark SQL、Impala有很多异曲同工之处。

Druid

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。

数据可以实时摄入，进入到Druid后立即可查，同时数据是几乎是不可变。通常是基于时序的事实事件，事实发生后进入Druid，外部系统就可以对该事实进行查询。

Kylin

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

可扩展超快olap引擎，Hadoop/Spark上百亿数据规模
提供 Hadoop ANSI SQL 接口
交互式查询能力，用户可以与Hadoop数据进行亚秒级交互
百亿以上数据集构建多维立方体（MOLAP CUBE）
与BI工具无缝整合，如Tableau，PowerBI/Excel，MSTR，QlikSense，Hue和SuperSet

Clickhouse

Clickhouse是一个用于在线分析处理（OLAP）的列式数据库管理系统（DBMS）。

是由俄罗斯的Yandex公司为了Yandex Metrica网络分析服务而开发。它支持分析实时更新的数据，Clickhouse以高性能著称。

ADB（AnalyticDB for MySQL）

分析型数据库MySQL版（AnalyticDB for MySQL），是阿里巴巴自主研发的海量数据实时高并发在线分析（Realtime OLAP）云计算服务，使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。

7.2，面向大数据管理的最佳实践

1, 围绕数据分析而不是标准报表构建大数据

2.延迟构建长期的遗留环境，大数据变化太快，没有必要

3.从沙箱中构建

4.首先从简单应用开始着手，比如备份与归档

7.3，面向大数据结构的最佳实践

1、规划数据通道，增加多个延迟的缓存，应对不同的应用场景
2、建立针对大数据的事实获取器
3、建立完整的生态系统
4、制定数据质量规划
5、尽可能提高数据价值
尽可能早地在切入点应用过滤、清晰、剪枝、一致性、匹配、连接和诊断。
6、实现前期缓存的回流
比如将维度等可控内容尽早与数据连接
7、实现数据流
8、避免无法扩展的限制
9、将原型移动到私有云
10、改进性能
11、监视计算资源
12、利用内置数据库分析

7.4，应用于大数据的数据建模的最佳实践

1、维度思考
2、集成不同的包含一致性维度的数据源
3、使用持久性代理键定位维度
4、集成结构化与非结构化数据
5、使用缓慢变化维度
6、分析时定义数据结构
7、以key-value形式加载数据
8、利用数据虚拟化快速原型

7.5，大数据的数据治理最佳实践

1、数据治理应高包含隐私、安全、兼容性、数据质量、元数据管理、主数据管理、环境定义、术语定义
2、数据治理前，数据应当维度化
3、不要在大数据应用已到达高峰才开始治理

你可能感兴趣的:(数据仓库,数据库,big,data)

Python 遍历文件夹下的文件码破苍穹其他
importosdeffindAllFile(base):forroot,ds,fsinos.walk(base):forfinfs:fullname=os.path.join(root,f)yieldfullnamedefmain():base='data\\user00'#当前的相对目录foriinfindAllFile(base):if"sensor_log_0"ini:print(i)if
做商城系统，是选择SaaS还是源码？ hunzi_1 运维
做商城系统时，选择SaaS还是源码各有优劣，需要综合考虑多个因素，以下是详细的对比分析：成本方面SaaS：前期投入成本低，通常以订阅模式付费，一般每月几百元到数千元不等，具体取决于功能和使用规模。无需承担服务器运维、软件升级等额外成本，适合预算有限、不想投入过多资金进行技术建设的中小企业。源码：一次性购买源码费用可能较高，从数万元到数十万元都有可能，还需自行搭建服务器、数据库等基础设施，加上后续运
搭建商城系统有可能运用到什么技术 hunzi_1 微信小程序小程序
搭建商城系统涉及多种技术，涵盖前端、后端和数据库等多个方面：一、前端技术HTML（超文本标记语言）这是构建网页的基础语言，用于定义页面的结构。在商城系统中，通过HTML可以创建商品展示页面、购物车页面、用户注册登录页面等的基本框架。例如，使用标签来划分页面的不同区域，如商品图片展示区、商品描述区、购买按钮区域等；用标签来显示商品图片，通过设置其src属性来指定图片的来源路径。CSS（层叠样式表）用
第八讲 SCQL使用 huang8666 数据库 mysql
第八讲SCQL使用部署系统项目设置联合分析scql概念：project：多个参与方在协商一致后加入到同一个项目中进行安全数据分析参与方身份认证数据表管理：管理参与分析的数据表的schema信息权限信息管理：表字段的权限信息，特别是CCL信息SCDB包含的内容：database,user,table,privilege创建用户通过root账户，语法时间戳，签名公钥地址：防止伪造身份攻击创建项目创建表
简历_使用优化的Redis自增ID策略生成分布式环境下全局唯一ID，用于用户上传数据的命名以及多种ID的生成醒了就刷牙面试分布式面试
系列博客目录文章目录系列博客目录WhyRedis自增ID策略Why我们需要设置全局唯一ID。原因：当用户抢购时，就会生成订单并保存到tb_voucher_order这张表中，而订单表如果使用数据库自增ID就存在一些问题。问题：id的规律性太明显、受单表数据量的限制。所以在自己的项目中，针对上传的数据的ID的生成也可以使用全局唯一ID。表中有ID，属性类型(文本、音频、图像）以及存储位置，文件名（文
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
SQL语言的数据库交互 C++小厨神包罗万象 golang 开发语言后端
SQL语言的数据库交互在当今的信息时代，数据的管理和处理变得越来越重要，而结构化查询语言（SQL）作为一种用于管理关系型数据库的标准语言，其重要性愈加凸显。本文将深入探讨SQL语言的基本概念、主要功能、常见语法以及在实际数据库交互中的应用。一、SQL语言概述SQL（StructuredQueryLanguage）是一种特定用途的编程语言，主要用于与关系型数据库进行交互。SQL于1970年代初被IB
第三讲隐语架构 huang8666 人工智能
第三讲隐语架构产品层白屏黑屏两大模块通过可视化产品，降低终端用户的体验和演示成本通过模块化API降低技术集成商的研发成本隐语产品SecretPad：轻量化安装快速验证POC可定制集成SecretNote：Notebook形式交互式建模多节点一站式管理和交互运行状态跟踪算法层PSI/PIR、DataAnalysis、FederatedLearningPSI（PrivateSetIntesection
[图数据库]HugeGraph 1.5.0 版本发布了码农丁丁 #图数据库 #数据库数据库图数据库 HugeGraph
运行环境/版本说明1.5.0版开始，hugegraph相关组件仅支持Java11编译/运行环境PS:未来HugeGraph组件的版本会朝着Java11->Java17->Java21演进hugegraph本版本新增了大量功能并进行了多项优化，尤其是针对自控分布式版本新后端HStore(Raft+RocksDB)的实现支持，欢迎试用反馈APIChangesBREAKINGCHANGE:Support
docker部署ELK日志系统+kafka weixin_50837690 docker kafka elk elasticsearch
docker部署ELK日志系统+kafka1.部署elasticsearch#拉取镜像dockerpullelasticsearch:7.6.2#创建文件夹mkdir-p/data/elk/es/config#创建elasticsearch.yml文件vi/data/elk/es/config/elasticsearch.yml------------------------写入---------
Emgu.CV 报错 Emgu.CV.Util.CvException: OpenCV Echo_Wish C#笔记 OpenCV opencv 计算机视觉人工智能
Emgu.CV报错Emgu.CV.Util.CvException:OpenCV异常信息：Emgu.CV.Util.CvException:OpenCV:在Emgu.CV.CvInvoke.CvErrorHandler(Int32status,IntPtrfuncName,IntPtrerrMsg,IntPtrfileName,Int32line,IntPtruserData)在Emgu.CV.C
Mysql----高可用集群晗光HG mysql dba
搭建的数据存储架构的优缺点：主从结构存储数据优点：实现了的数据的自动备份缺点：主服务器和从服务器都有单点故障的问题数据读写分离优点:减轻单台服务器的访问压力同时实现数据的备份缺点：读写分离服务器主数据库从数据库都存在单点故障问题分库分表解决是的大量并发存储数据的存储压力问题和存储空间问题缺点：分片存储服务器有单点故障问题没有数据备份的功能(mysql高可用集群)解决服务的单点故障问题和数据的自动备
ASP.NET Core 全局异常处理步、步、为营 asp.net 后端 c#
一、引言在ASP.NETCore的开发过程中，全局异常处理是保障应用程序健壮性与稳定性的关键环节。当应用程序遭遇未预料的错误时，妥善的异常处理机制不仅能够避免程序崩溃，还能为用户提供清晰、友好的反馈，同时帮助开发者快速定位和解决问题。在实际应用场景中，假设我们正在开发一个在线商城系统。当用户进行商品下单操作时，可能由于网络波动、数据库连接异常或业务逻辑错误等原因，导致订单提交失败。如果没有良好的全
skywalking-1-服务端安装小卡车7号 skywalking
skywalking很优秀。安装服务端skywalking的服务端主要是aop服务，为了方便查看使用还需要安装ui。另外采集的数据我们肯定要存起来，这个数据库就直接用官方的banyandb。也就是aop、ui、banyandb都使用官方包。我们的目的是快速使用和体验，所以安装部署时选择单机模式。为了更有沉浸感，我们选择直接的安装部署，不用docker那些。确认安装了java如果没有，可以直接用命令
Python之Mock数据神器Faker 大唐锦绣 #Python python 开发语言
引言在软件开发和测试过程中，我们经常需要使用模拟数据来进行验证、填充数据库或生成测试用例。而手动创建大量的模拟数据是一项繁琐且耗时的任务。为了解决这个问题，Python提供了一个强大的库——Faker，它可以帮助我们轻松地生成各种类型的模拟数据。本文将介绍Faker的基本概念和用法，并通过一个使用MySQL生成千万用户信息表的示例来展示其应用。一、介绍FakerFaker是一个Python库，用于
十几套JavaWeb项目，快拿去当毕业设计，简直不要太爽了 VX_BYDZ1988 django flask eclipse spring boot spring cloud servlet
1、基于web的图书管理系统设计与实现图书管理系统就是利用计算机，结合互联网对图书进行结构化、自动化管理的一种软件，来提高对图书的管理效率。本系统采用Java+Servlet+Jsp的方式实现基于web的图书管理系统。开发工具及相关技术Java技术HTML、css、javascript技术Servlet技术Eclipse开发工具MySql数据库功能概述用户端：图书查询：根据图书编号、图书名称查询图
Mysql数据库高可用群集一坨小橙子ovo 数据库
目录前言一、概念二、如何实现Mysql数据库高可用群集1.可靠性概念三、实现Mysql数据库高可用群集1.先做主从复制1.1Master11.2Master22.再做主主2.1Master12.2Master23.安装Keepalived3.1Master1配置文件3.2Master2配置文件4.编写Mysql_check.sh服务检测脚本四、测试集群是否搭建成功五、主从巡检脚本前言一、概念高可用
mysql8查看data目录_windows环境MySQL8.0的data目录变更方法及问题刘泽宏 mysql8查看data目录
windows环境安装MySQL8.0，默认安装在C盘的。basedir是：C:\ProgramFiles\MySQL\MySQLServer8.0\bindatadir是：C:\ProgramData\MySQL\MySQLServer8.0\data#这是一个隐藏文件夹现在想把datadir迁移到E盘，做法是：1、关闭数据库服务cdC:\ProgramFiles\MySQL\MySQLServ
docker mysql数据迁移进击的铁甲小宝 docker mysql docker 数据库
dockermysql数据迁移1.导出mysql数据1.1#导出对应数据库mysqldump-u用户名-p数据库名>导出的文件名1.2#示例mysqldump-urootmy_mysql_data>./my_mysql_data.sql#将mysql数据库中的my_mysql_data导出保存在当前目录下为my_mysql_data.sql文件。#注意：windows系统在，要在mysql安装目录
毕业设计--基于Python+Django框架的豆瓣图书评论推荐可视化系统源码空间站11 python 课程设计 django 毕业设计人工智能后端豆瓣图书爬虫
1.系统概述本系统是一个基于Python和Django框架的豆瓣图书评论推荐可视化系统。通过收集并分析豆瓣图书的评论数据，结合可视化技术，系统能够为用户推荐感兴趣的图书，并以直观的方式展示图书评论的统计信息和分析结果。2.项目目标本项目的主要目标是设计并实现一个豆瓣图书评论推荐系统，具体目标如下：图书评论数据采集与存储：系统能够从豆瓣平台抓取图书评论数据，并将其存储在本地数据库中（db.sqlit
SpringBoot+Vue网站项目是如何实现的森森 coding 技术 spring boot vue.js 后端毕业设计
1.项目规划需求分析：明确项目的功能需求，比如用户注册、登录、数据展示等。确定技术栈：使用SpringBoot作为后端，Vue.js作为前端，MySQL作为数据库。2.环境准备2.1后端安装JDK：确保安装JavaDevelopmentKit(JDK)8或更高版本。安装Maven：用于管理依赖和构建项目。IDE选择：选择合适的IDE，如IntelliJIDEA或Eclipse。2.2前端安装Nod
Big-endian（大端字节序）与Little-endian（小端字节序）区别 kse_music 技能 arm开发字节大端字节小端字节
文章目录前言字节序的定义举例说明为什么有两种字节序应用举例总结前言BIG_ENDIAN和LITTLE_ENDIAN是两种不同的字节序（ByteOrder）表示方式，用于指定数据在内存中存储的顺序。字节序的定义字节序指的是多字节数据类型（如int,long,float等）在计算机内存中的存储顺序。主要有两种字节序：Big-endian（大端字节序）：最高有效字节（MostSignificantByt
小程序适配底部安全距离 dingcho 前端小程序
方案一onLoad(options){const{screenHeight,safeArea,windowHeight}=wx.getWindowInfo()letsafeBottom=windowHeightif(safeArea?.bottom){safeBottom=safeArea.bottom}safeBottom=screenHeight-safeBottomthis.setData(
docker 部署postgresql ubuntu20.04 docker postgresql 容器
docker部署PostgreSQL服务拉一下容器dockerpullpostgres运行容器dockerrun--namemy-postgres-ePOSTGRES_PASSWORD=123456-p5432:5432-dpostgres以postgres用户身份进入容器dockerexec-itmy-postgrespsql-Upostgres创建数据库CREATEDATABASEfinanc
单体式架构，集群，分布式架构有什么区别 highfish920 java 分布式 java
单体式架构单体架构就是所有的代码都是放在一个项目上面的，并且部署在一个机器上面，他什么都做，自己完成所有的任务。但是当业务规模变得复杂以后，就会暴露他的缺点缺点：1.编译和启动的速度会变慢2.代码冲突3.单个数据库存储能力有限4.很难在进行扩展虽然有缺点，但是他肯定还是有自己的优点的优点1.开发测试简单部署方便2.扩容简单，给应用加机器就可以由于单体架构的缺点，逐渐出现了集群集群集群就是当单体架构
使用Docker部署PostgreSQL服务器 shelby_loo docker postgresql 服务器
Yo，大家好！今天我要分享的是在阿贝云免费服务器上使用Docker部署PostgreSQL服务器的技术教程。配置虽然是1核CPU、1G内存、10G硬盘、5M带宽，但性能已经完全升任了！首先，让我们简要介绍一下使用到的Docker和PostgreSQL软件。Docker是一个强大的容器化平台，而PostgreSQL则是一款开源的关系型数据库管理系统，两者结合使用能让我们的工作更加高效！现在，让我们来
高级java每日一道面试题-2025年01月17日-JDBC篇-JDBC 编程有哪些步骤? java我跟你拼了 java每日一道面试题 java 加载驱动程序建立数据库连接创建SQL 语句调用执行查询或更新处理结果集关闭资源
如果有遗漏,评论区告诉我进行补充面试官:JDBC编程有哪些步骤?我回答:在Java高级面试中，关于JDBC（JavaDatabaseConnectivity）编程的讨论通常会围绕如何使用JDBC进行数据库操作以及最佳实践展开。以下是JDBC编程的基本步骤及其详解：1.加载驱动程序为了与特定类型的数据库通信，首先需要加载相应的JDBC驱动程序。这是通过调用Class.forName()方法来实现的，
使用Docker部署一个使用PostgreSQL数据库的Springboot项目 youtian.L Docker系列教程数据库 docker spring boot java 容器
1-我们将建造什么？出于演示目的，我们将创建一个简单的食谱管理应用程序，其中包含两个实体：Chef和Recipe。编辑2-创建一个springboot应用程序为此，如果您使用IntelliJidea.并选择以下依赖项：SpringWeb，PostgreSQLDriver当然SpringDataJPA还要确保选择maven作为项目经理。编辑安装项目后，将其解压缩并使用您喜欢的IDE打开它。如第一部分
Docker安装PostgreSQL tag心动 Docker容器 docker postgresql 容器 docker-compose
文章目录一、PostgreSQL是什么？二、搭建步骤1、编写docker-compose.yml脚本2、启动验证一、PostgreSQL是什么？PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统（ORDBMS），其基础源于加州大学计算机系开发的POSTGRES4.2版本。PostgreSQL不仅支持大部分的SQL标准，还提供了许多现代特性，如复杂查询、外键、触发器、视图、
深入理解 MySQL 中的锁和MVCC机制 master_chenchengg 能力提升面试宝典技术 IT信息化
深入理解MySQL中的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本并发控制（MVCC）原理幻读问题及解决方法死锁检测与预防策略事务隔离级别对锁和MVCC的影响实际应用场景下的锁优化技巧事务的概念与ACID特性在任何数据库操作中，事务都是一个核心概念。事务是指作为一个单位的一组有序的数据库操作，这些操作要么全部执行，要么全部不执行，确保数据的完整性和一致性。M
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">