Fofosy

不看后悔！新手小白必看的保姆级教程！一篇文章学会数据仓库！

一、什么是数据仓库？

1.1 数据仓库概述：

数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库致力于研究和解决从数据库中获取信息的问题。

1.2 数据仓库特征：

面向主题、集成性、稳定性和时变性，用于支持管理决策。

1.3 数据仓库意义：

对企业的所有数据进行汇总，致力于为企业各个部门提供统一的、规范的数据出口。

1.4 数据仓库目标：

实现集成、稳定、反应历史变化有组织有结构的存储数据的集合。

1.5 数据库与数据仓库的区别：

数据库（Database）：则是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。

1.6 OLTP和OLAP：

操作型处理：又名联机事务处理OLTP（On-Line Transaction Processing），也可以称面向交易的处理系统，是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数量等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理。

分析型处理：又名联机分析处理OLAP（On-Line Analytical Processing），一般针对某些主题的历史数据进行分析，支持管理决策。

二者的异同如表1所示：

表 1：OLTP与OLAP的异同

操作型处理	分析型处理
细节的	综合的或提炼的
实体-关系（ER）模型	星型或雪花模型
存取瞬间数据	存储历史数据，不包含最近的数据

可更新的	只读，只追加
一次操作一个单元	一次操作一个集合
性能要求高，响应时间短	性能要求宽松
面向事务	面向分析
一次操作数据量小	一次操作数据量大
支持日常操作	支持决策需求
数据量小	数据量大
客户订单、库存水平和银行账户等	客户收益分析、市场细分等

二、星型模式、雪花模式和星座模式

2.1 星型模式

星型模式是维度模型中最简单的形式，也是数据仓库以及数据集市开发中使用最广泛的形式。星型模式由事实表和维度表组成，一个星型模式中可以有一个或多个事实表，每个

事实表引用任意数量的维度表。星型模式的物理模型像一颗星星的形状，中心是一个事实表，围绕在事实表周围的维度表表示星星的放射状分支，这就是星型模式这个名字的由来。

星型模式将业务流程分为事实和维度。事实包含业务的度量，是定量的数据，如销售价格、销售数量、距离、速度、重量等是事实。维度是对事实数据属性的描述，如日期、产品、客户、地理位置等是维度。一个含有很多维度表的星型模式有时被称为蜈蚣模式，显然这个名字也是因其形状而得来的。蜈蚣模式的维度往往只有很少的几个属性，这样可以简化对维度表的维护，但查询数据时会有更多的表连接，严重时会使模型难于使用，因此在设计中应该尽量避免蜈蚣模式。

2.2 雪花模式

雪花模式是一种多维模型中表的逻辑布局，其实体关系图有类似于雪花的形状，因此得名。

与星型模式相同，雪花模式也是由事实表和维度表所组成。所谓的“雪花化”就是将行星模型中的维度表进行规范化处理。当所有的维度表完成规范化后，就形成了以事实表为

中心的雪花型结构，即雪花模式。将维度表进行规范化的具体做法是，把低基数的属性从维度表中移除并形成单独的表。基数指的是一个字段中不同值的个数，如主键列具有唯一值，所以有最高的基数，而像性别这样的列基数就很低。

在雪花模式中，一个维度被规范化成多个关联的表，而在星型模式中，每个维度由一个单一的维度表所表示。一个规范化的维度对应一组具有层次关系的维度表，而事实表作为雪花模式里的字表，存在具有层次关系的多个父表

2.3 星座模式

数据仓库由多个主题构成，包含多个事实表，而维表是公共的，可以共享，这种模式可

以看做星型模式的汇集，因而称作星系模式或者事实星座模式。

三、数据仓库分层理论

3.1 CIF层次结构

CIF 层次架构（信息工厂）通过分层将不同的建模方案引入到不同的层次中，CIF 将数据仓库分为四层，如图所示：

维度建模	DM
维度建模	DWS
维度建模ER	DWD
ER	ODS

ODS（Operational Data Store）：操作数据存储层，往往是业务数据库表格的一对一映射，将业务数据库中的表格在 ODS 重新建立，数据完全一致；

DWD（Data Warehouse Detail）：数据明细层，在 DWD 进行数据的清洗、脱敏、统一化等操作，DWD 层的数据是干净并且具有良好一致性的数据；mapreduce

DWS（Data Warehouse Service）：服务数据层（公共汇总层），在 DWS 层进行轻度汇总，粒度比明细数据稍粗，为 DM 层中的不同主题提供公用的汇总数据，目的是避免重复计算。往往在 DWS 层建立宽表。

DM（Data Market）：数据集市层，DM 层针对不同的主题进行统计报表的生成；在 DM 完成报表或者指标的统计，DM 层已经不包含明细数据，是粗粒度的汇总数据，因此 DM 层会被当成 BI 或者 OLAP 的底层模型。

四、数据仓库维度建模

4.1 维度表设计

4.1.1 代理键

维度表中必须有一个能够唯一标识一行记录的列（最好是原子性的列，不要是组合键），通过该列维护维度表与事实表之间的关系，一般在维度表中业务主键符合条件可以当作维度主键。

但是，数据仓库是整个公司数据的整合，这会涉及到多个数据源有相同维度，那么就会出现以下两个问题：

当整合多个数据源的维度时，不同数据源的业务主键重复怎么办？
涉及维度拉链表时，同一主体多条记录，业务键重复怎么办？

表2：财务部门维度表

ID	name	note
1	Chen	Fine
2	Zhang	Fine

表3：研发部门维度表

ID	name	note
1	Li	R&D
2	Zhou	R&D

如上图所示，业务键重复，我们可以引入代理键，如下表所示:

表4：引入代理键

GID	ID	name	note
1	1	Chen	Fine
2	2	Zhang	Fine
3	1	Li	Risk
4	2	Zhou	Risk

把多个系统的数据复合在一起，同时再维护一个代理键，而且代理键在这个维度表里是唯一标识一条记录的，类似于业务系统的业务键。

代理键是由数据仓库处理过程中产生的、与业务本身无关的、唯一标识维度表中一条记录并充当维度表主键的列，也是描述维度表与事实表关系的纽带。

在设计有代理键的维度表中，事实表中的关联键是代理键而不是原有的业务主键，即

业务关系是靠代理键维护，这样有效避免源系统变化对数仓数据对影响。

4.1.2 稳定维度

部分维度表的维度是在维度表产生后，属性是稳定的、无变化的。比如时间维度、区域维度等，针对这种维度，设计维度表的时候，仅需要完整的数据，不需要天的快照数据，因为当前数据状态就是历史数据状态。

4.1.3 缓慢渐变维

维度数据会随着时间发生变化，变化速度比较缓慢，这种维度数据通常称作缓慢渐变维，例如电商平台的用户维度表，用户可能会随着时间推移改变收件地址，因此用户维度表

中的收件地址就是一个缓慢变化维。由于数据仓库需要追溯历史变化，尤其是一些重要的数据，所以历史状态也需要采取一定的措施进行保存，保存历史状态的方式有以下三种：

每天保存当前数据的全量快照数据（每天一个新增分区），该方案适合数据量较小

（根据公司具体的配置而定）的维度，使用简单的方式保存历史状态。

在维表中添加关键属性值的历史字段，仅保留上一个的状态值。可能同时有多个属性都非常重要，而且只能追溯上一个数据，不是所有的历史数据，这种范式应用场景较少。

拉链表：当维度数据发生变化时，将旧数据置为失效，将更改后的数据当作新的记录插入到维度表中，并开始生效，这样能够记录数据在某种粒度上的变化历史。

4.1.4 拉链表详解

将数据的变更当做流水记录下来，旧的设为失效，新的设为生效，如果粒度为天，那么就可以得到一天的最终状态作为最终状态。

表5：拉链表

ID	name	addr	start_date	end_date
1	Zhou	dept2	2018-05-01	2018-06-09
1	Zhou	dept3	2018-06-10	2018-06-14
1	Zhou	dept1	2018-06-15	2018-12-31

表 5 中每条记录都有一个 End_date，当有新的数据产生时，在旧数据的 End_date 字段中插入日期，然后新插入一条数据，新数据的 End_date 字段中是一个永久有效的值，如果再发生更新，上一次更新数据的 End_date 字段设置为当前日期，然后再次插入新数据，新数据的 End_date 字段中设置一个永久有效的值。

如果想知道某个员工在 5 月 22 号时在哪个部门，那么可以通过如下 SQL：

Select * from user where start_date<= 2018-05-22 and end_date>= 2018-05-22

根据拉链表的结构，如果对维度表做拉链，那么一个维度实体必然存在多条记录，也就是一个主键 ID 对应多条数据，此时维度表的原子性主键也就没有意义了。

维度表做拉链后会失去原子性主键，那么拉链维度表如何和事实表进行关联呢？此时就要用到代理键，也就是在事实表和维度表中同时添加代理键，如下图所示：

表6：用户详情拉链表

UID	ID	name	addr	start_date	end_date
1	1	Zhou	dept2	2018-05-01	2018-06-09
2	1	Zhou	dept3	2018-06-10	2018-06-14
3	1	Zhou	dept1	2018-06-15	2018-12-31

表7：订单表

OID	ID->UID	Tim_ID	amount
1	1	5	998
2	1	9	1000
3	2	10	1499

完成代理键的添加后，在之后的统计中，按照代理键进行聚合即可。

事实表来源于业务事务表，代理键和业务本身没有关系，那么怎么在新增数据时在事实表中装载代理键？

当事实表中有新增数据时，新增数据中记录了维度表中原有的原子性主键，可以根据原有的主键匹配维度表中的数据，然后根据新增数据的时间范围找到匹配的代理键，然后在事实表的新增数据中加入代理键。

代理键是维度建模中极力推荐的方式，它的应用能有效的隔离源端变化带来的数仓结构不稳定问题，同时也能够提高数据检索性能。

但是代理键维护代价非常高，尤其是数据装载过程中，对事实表带来了较大的影响，在基于 hive 的数据仓库建设影响更加严重，比如代理键的生成、事实表中关联键的装载、不支持非等值关联等问题，带来 ETL 过程更加复杂。

因此，在大数据体系下，谨慎使用代理键，同时对于缓慢渐变维场景，可以考虑用空间换取时间，每天保留维表全量快照，但这样会带来存储成本，根据实际情况衡量。

4.2 事实表设计

4.2.1事实表设计

1.增量存储

当事实表数据无状态变化时，采用增量存储，即每周期仅处理增量部分的数据，纯增量采集。

        2.全量快照

        状态有变化，但每天保存当前的快照数据，对于数据量在可控范围内的情况可以采用。保存策略：

     （1）如果存储空间和成本可接受，完整存储，确保能够追溯到历史每天数据状态；

     （2）存储空间有限，考虑移动历史快照数据到冷盘，需要使用的时候可恢复；

     （3）数据历史状态数据无太大价值，可以考虑部分删除，比如近保留每月最后一天的快照数据

        3.拉链

        数据量大，但缓慢变化，需要跟踪历史状态，和缓慢渐变维类似。

        如果变化非常快，拉链表的数据量会大于快照表数倍，一天变一次，那么一周就保存了

7 份数据，可以考虑把已经失效的数据转移到其他的存储介质或者冷盘上，或者定期（一个月）进行删除。

4.2.2明细事实表

事实表有粒度大小之分，基于数据仓库层次架构，明细事实表一般存在于 DWD 层，该层事实表设计不进行聚合、汇总动作，仅做数据规范化、数据降维动作，同时数据保持业务事务粒度，确保数据信息无丢失。

DWD 层与业务强相关，DWD 层的表就是业务表经过一系列规范化、降维之后的表。

1. 数据降维

为了提高模型易用性，将常规维度表中的常用的属性数据冗余到相应的事实表中，从而在使用的时候避免维表关联的方式，既为数据降维。

2. 独立维度的选择

并不是你业务中遇到的每一个实体都要成为一个独立的维度，具体哪些维度可以合并，要根据实际的业务场景来确定，比如对于出行行业，司机一定是一个独立维度，而汽车这个实体就没有必要称为独立的维度（除非要分析订单的取消与汽车品牌的关系），因此可以汽车信息和司机信息进行合并。

3. 事实表不一定有事实

一般将事实表中包含两部分信息：维度、度量，度量即为事实，但有些特殊情况下，事实表中无度量信息，只是记录一个实际业务动作。

        4. 明细事实表设计方案

        设计事实表的主要依据是业务过程，之前说过，每一个业务动作事件，都可以作为一个事实，那么在一个订单处理过程中，会有多个动作，这个过程中的事实表怎么设计呢？

        方案一：单事件事实表

        对于每一个业务动作事件，设计一个事实表，仅记录该事件的事实以及状态。（一个业务流程多个单事件事实表）

        方案二：流程事实表

        对于一个业务流程主体，设计一个事实表，跟踪整个流程的事实以及状态流转。

单事件事实表和流程事实表的特点：

单事件事实表：

更方便跟踪业务流程细节数据，针对特殊的业务分析场景比较方便和灵活，数据处理上也更加灵活；

不方便的地方就是数仓中需要管理太多的事实表，同时跟踪业务流转不够直观；

流程事实表：

能够更直观的跟踪业务流转和当前状态，流程事实集中，方便大部分的通用分析应用场景，由于和业务侧的数据模型设计思路一致，也是目前最常用的事实表设计；但是细节数据跟踪不到位，特殊场景的分析不够灵活；

两种表的设计区别在于对业务流程的拆分思路不同，具体选择事实表的构建思路，需要根据实际的业务确定，一般建议两者结合

4.2.3聚合事实表

相对于明细事实表，聚合事实表通常是在明细事实表的基础上，按照一定的粒度粗细进行的汇总、聚合操作，它的粒度较明细数据粒度粗，同时伴随着细节信息的丢失。

在数仓层次结构中，聚合事实表通常位于 DWS 层，一般作为通用汇总数据存在，也可以是更高粒度的指标数据。

聚合事实表的数据来源可以是两种明细事实表中的任意一种。

日粒度

周期性累积（周，月，年）

历史累积（累计订单量、累计金额）

4.2.3.1 可累加事实与不可加事实

1.可累加事实

可累加事实是在一定的粒度范围内，可累加的事实度量，比如：订单金额、订单数。

2.不可累加事实

不可累加事实是在更高粒度上不可累加的事实，比如通过率、转化率等。

通常情况下，比率这种不可累积的事实，建议拆分存储，比如通过率拆分为通过数、申请数，由细粒度数据去重计算而得到的事实，正常存储，但是更粗粒度累积是不可直接使用。

4.2.3.2 聚合事实表分类

1. 公共维度层/通用汇总层

        封装底层计算逻辑，做通用汇总，避免上层直接访问下层明细数据。

        应对大部分可预期的、常规的数据需求，通常针对模式相对稳定的分析、BI 指标计算、特征提取等场景，封装部分业务处理、计算逻辑，尽量避免用户直接使用底层明细数据，该层用到的数据范围比较广泛。

        通用汇总层需要满足 80%~90%的场景，对数据进行轻度汇总，避面直接访问明细层，假设明细层有 1 亿条数据，这一层可能只有 1 千万条。

2. 日粒度

主要应对模式稳定的分析、BI 日报、特征提取场景，同时日粒度也为后续累积计算提供粗粒度的底层，数据范围一般为上一日的数据。

对可累加指标进行粗粒度的统计，周、月等粒度的统计可以在日粒度基础上计算，假设明细层 1 亿条数据，这一层可能只有 1 百万条。

3. 周期性累积

主要应对明确的周期性分析、BI 周期性报表，数据范围一般在某周期（周、月等）内的。底层数据可以来自于公共维度层-通用汇总，也可以来自于日粒度。

4. 历史累积

顾名思义，历史以来某一特定数据的累积，通常在用户画像、经营分析、特征提取方面场景较多，设计数据范围比较广泛，通常是计算耗时较长的一部分，比如某门店累积营业额、某用户累积利润贡献、用户首次下单时间(非可度量、描述性)。

Qt——Qt控件之输入窗口-QTextEdit文本编辑框控件的使用总结（例程：文本编辑输入） Winter_world QT开发实战 qt 开发语言 QTextEdit控件 Qt文本编辑控件的使用
【系列专栏】：博主结合工作实践输出的，解决实际问题的专栏，朋友们看过来！《项目案例分享》《极客DIY开源分享》《嵌入式通用开发实战》《C++语言开发基础总结》《从0到1学习嵌入式Linux开发》《QT开发实战》《Android开发实战》《实用硬件方案设计》《结构建模设计》《数据库开发总结》《JAVA入门基础》《JavaWeb开发实战》长期持续带来更多案例与技术文章分享；欢迎商业项目咨询，10年+软
MySQL 8.0 社区版安装与配置全流程指南（Windows平台） waicsdn_haha 程序员教程数据库 mysql windows python django pygame virtualenv
一、软件定位与特性MySQL8.0是开源关系型数据库管理系统的里程碑版本，支持ACID事务、JSON文档存储、窗口函数等特性，广泛应用于Web开发、数据分析等领域。相较于旧版本，8.0版引入以下核心升级：性能优化：查询速度提升2倍以上安全性增强：默认启用caching_sha2_password认证插件功能扩展：支持CTE（公共表表达式）和原子DDL二、安装环境准备1.系统要求项目最低配置推荐配置
Python常见库的使用浪子西科 Python python 开发语言
文章目录人工智能与机器学习1.NumPy2.Pandas3.Scikit-learn4.TensorFlow5.PyTorch数据可视化1.Matplotlib2.Seaborn网络请求与爬虫1.Requests2.Scrapy自动化测试1.unittest2.pytest自然语言处理1.NLTK2.SpaCy数据库操作1.SQLite32.SQLAlchemy日期和时间处理1.datetime2
【SQL数据库】创建公司资料库奖励0216 数据库 sql 学习
橙色为primarykey，绿色为foreignkeyemployeeemp_idnamebirth_datesexsalarybranch_idsup_id206小黄1999/10/8F500001NULL207小绿1985/9/16M290002206208小黑2000/12/19M350003206209小白1997/1/22F390003207210小兰1925/11/10F8400012
GaussDB 数据库迁移方案设计与实践如清风一般 gaussdb 数据库
一、引言随着企业数字化转型加速，数据库迁移成为IT基础设施升级的关键环节。GaussDB（华为云分布式关系型数据库）凭借其高吞吐、强一致性、弹性扩展等特性，成为政企客户替换传统数据库（如MySQL、Oracle）或升级原有GaussDB集群的首选目标。本文从技术角度系统化阐述GaussDB迁移的典型场景、核心方案及优化策略。二、迁移场景分类与技术挑战同构迁移（GaussDB→GaussDB）典型需
YashanDB审计数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...数据库审计是一种监控和记录数据库活动的过程，通过数据库审计，可以追踪和记录对数据库的访问、修改和操作行为，以便进行追踪溯源、故障排除和合规性检查。#审计管理员审计管理员（AUDIT\_ADMIN角色）可以创建和管理审计策略，可
GaussDB 闪回恢复技术详解与应用实践 Gauss松鼠会 GaussDB经验总结 gaussdb 数据库哈希算法 sql database
一、概述闪回恢复（FlashbackRecovery）是GaussDB数据库提供的一种高可用性功能，允许用户将数据库快速恢复到过去某一时间点或事务状态，以应对数据误删、逻辑错误或部分数据损坏等问题。相较于传统的全量备份+增量恢复方案，闪回恢复具有秒级恢复速度和最小化业务中断的核心优势。二、技术原理日志驱动机制WAL（Write-AheadLogging）日志：记录所有数据库修改操作（如INSERT
【RAG系列】AI的“三步记忆法“ - RAG工作流程全景解析什么都想学的阿超原理概念 #深度学习人工智能 RAG
AI的"三步记忆法"-RAG工作流程全景解析用户问题检索器向量数据库相关文档增强器增强提示生成器最终回答一、认知建模：从人类记忆到机器记忆1.1考试复习的三步法则建立知识框架提取核心信息综合运用考前预习划重点考场作答最终答案这个经典的学习过程与RAG的工作流程惊人相似：预习阶段→文档预处理与向量化划重点→语义检索与上下文压缩作答→增强生成与结果校验技术原理：记忆的神经编码理论人类海马体的记忆编码机
preview_220624,Day08_DM层建设实战, 啊六六六 Python 大数据数据挖掘数据仓库
DM名称：数据集市层DataMarket功能：基于DWS层日统计宽表，上卷出周、月、年等统计宽表，即粗粒度汇总。解释从理论层面来说，数据集市是一个小型的部门或工作组级别的数据仓库。一些公司早期的数据集市后期可能会演变成为数仓系统。本项目中在数据集市层面主要进行粗粒度汇总，也可以将这些功能下放至DWS层完成。抛弃DM.使用DataGrip在Hive中创建dm层注意，对于建库建表操作，需直接使用Hiv
后端技术栈都有哪些 python资深爱好者 web http 网络安全
在后端技术领域，有很多不同的技术栈可供选择，这取决于项目的具体需求、团队的技能和经验以及所使用的框架或库的流行程度。以下是一些常见的后端技术栈的示例：Node.js：框架：Express.js,Koa.js,NestJS,Hapi.js数据库：MongoDB,MySQL,PostgreSQL,Redis模板引擎：EJS,Pug(Jade),Nunjucks缓存：Redis消息队列：RabbitMQ
如何进行数据库分库分表 python资深爱好者数据库 web 数据库 oracle
当数据库的数据量增长到一定程度，单一数据库或表可能会遇到性能瓶颈，此时分库分表是一种常见的解决方案。以下是如何进行数据库分库分表的详细步骤和考虑因素，结合了参考文章中的相关信息：一、分库分表概述分库分表是为了解决由于库、表数据量过大，而导致数据库性能持续下降的问题。它通过将原本数据量大的数据库拆分成多个单独的数据库，将原本数据量大的表拆分成若干个数据表，使得单一的库、表性能达到最优的效果（响应速度
面试技巧|软件测试面试题八股文-数据库题库软件测试雪儿自动化测试面试软件测试面试数据库职场和发展软件测试功能测试
本期主要是一些原理性和实践类问题，如果你有使用数据库的相关经历，面试官大概率会深入问下面这些问题，回答上来是加分项！小编提醒：理解第一，不要死记硬背哈！可以根据面试题来展开学习相关知识点，会让你进步得更快。关系型数据库和非关系型数据库的区别？关系型数据库以表格形式存储数据，遵循严格规则，便于处理结构化数据的复杂查询；非关系型数据库更灵活，适于存储半结构化和非结构化数据，例如文档、图像。扩展问题-关
Oracle数据库分区自动删除 deadknight9 Oracle 运维数据库
说明：该存储过程部署后，设置成定时任务，每天执行。每次执行删除partition_position='2'的分区，删除之后，partition_position='3'的分区会前移到partition_position为'2';CREATEORREPLACEPROCEDUREBILL_CENT_JILI.DAY_PARTITIONASv_p_namevarchar2(2000);v_p_numnu
Mysql的事务并发问题和解决办法 Twpeak_继续攀登 mysql 数据库
1.脏读含义：在事务过程中，读到了其它事务未提交的数据。一个事务正在对一条记录做修改，在这个事务完成并提交前，这条记录的数据就处于不一致状态；这时，另一个事务也来读取同一条记录，如果不加控制，第二个事务读取了这些“脏”数据，并据此做进一步的处理，就会产生未提交的数据依赖关系。这种现象被形象的叫作"脏读"（DirtyReads）。简答来说，读取了其他事务未提交的数据解决方法：将数据库事务提升到提交读
Django数据库操作南瓜啊 django python
1、ORM创建、删除、修改数据库的表中的数据，但不能创建数据库往数据库表中写入数据表名：app名称_类名的小写2、操作表数据fromdjango.dbimportmodelsclassDepartment(models.Model):title=models.CharField(verbose_name="部门",max_length=32)2.1新建#一次插入单条数据Department.obj
Oracle体系结构：数据泵初探姜豆豆耶 #Oracle体系结构 oracle dba 数据库
数据泵是基于服务器的工具，用于数据和元数据的高速移动。可以跨数据库版本（Oracle版本）进行数据的导入导出。所以也常被用来当作数据迁移的方案之一。它有expdp、impdp两种程序进行导出和导入，下文也会进行详细介绍；但文章标题毕竟只是数据泵初探，也不会详细到让人拍手叫好的程度哈哈。那么话不多说，❀周末时间宝贵❀，开始介绍，先看目录！目录expdp例子常用参数可用关键参数交互模式命令impdp例
Amazon Aurora深度探索（一）仲培艺数据库 Amazon-Aurora
【导语】Amazon的Aurora自从问世，就备受关注，其性能和实现架构是被关注的热点。2017年，Amazon发表了一篇论文，披露其实现的一些技术细节。本文在此背景下，对Aurora系统的实现从整体架构、存储、事务处理三个方面进行深入探讨，并从数据库内核技术实现的角度对Aurora做了一定的推测。2017年，Amazon在SIGMOD上发表了论文《AmazonAurora:DesignConsi
Oracle 数据泵迁移步骤规范 deadknight9 运维 Oracle oracle 数据库
1、调研模块1.1、确认迁移用户以全库迁移为标准，也可直接通过需求方获取需要迁移的用户1）确认数据库中所有用户及其创建时间altersessionsetnls_date_format='yyyy-mm-dd-hh24:mi:ss';selectusername,createdfromdba_usersorderby2;2）以系统用户创建时间为限确认需要的用户selectusername,creat
Node.js 完全教程：从入门到精通 web15117360223 面试学习路线阿里巴巴 node.js
Node.js完全教程：从入门到精通Node.js是一个基于ChromeV8引擎的JavaScript运行环境，允许开发者在服务器端使用JavaScript。它的非阻塞I/O和事件驱动架构使得Node.js非常适合于构建高性能的网络应用。本文将详细介绍Node.js的安装、基本语法、模块系统、异步编程、Express框架、数据库操作等内容，帮助你从入门到精通Node.js。1.Node.js简介N
图数据库Neo4j面试内容整理-索引（Index）不务正业的猿面试 Neo4j 数据库 neo4j oracle 职场和发展面试
索引（Index）是数据库中用来提高查询性能的技术，特别是在处理大量数据时，索引能够大大加速查询操作。在Neo4j这样的图数据库中，索引也起着非常重要的作用，尤其是在图中查找节点时，使用索引可以避免全图扫描，从而提高查询效率。1.Neo4j中的索引概念
Linux故障排查清单：让你调试不再迷茫！深度Linux C/C++全栈开发性能优化 linux 项目实战性能调优
在当今数字化时代，Linux操作系统凭借其开源、稳定、高效等特性，在服务器领域占据着举足轻重的地位。从大型互联网企业的数据中心，到小型创业公司的后端服务器，Linux的身影无处不在。据权威统计，Linux在服务器领域的市场份额已高达75%以上，广泛应用于Web服务器、数据库服务器、负载均衡服务器等关键场景。然而，就像任何复杂的系统一样，Linux服务器在长期运行过程中难免会出现各种故障。这些故障可
from flask_session import Session 为什么是Session(app)这么用？图书馆钉子户 flask mybatis python
在Flask中，fromflask_sessionimportSession和Session(app)的用法是为了配置和使用Flask-Session扩展，将用户的会话（Session）数据存储到服务器端（如Redis、数据库或文件系统），而不是默认的客户端Cookie中。为什么是Session(app)这么用？Flask-Session的工作机制：Flask默认将Session数据存储在客户端的
华纳云：数据库的内存分配策略对性能和稳定性的影响数据库
数据库的内存分配策略对性能和稳定性至关重要。以下是针对不同数据库（如MySQL和Oracle）的内存分配建议和最佳实践：一、MySQL数据库内存分配建议InnoDB缓冲池（BufferPool）配置建议：innodb_buffer_pool_size是MySQL中最重要的内存配置参数，建议设置为系统物理内存的60%80%。iniinnodb_buffer_pool_size=70%示例：16GB内
【网络安全】常见的web攻击网络安全-老纪 web安全前端安全
1、SQL注入攻击定义：攻击者在HTTP请求中注入恶意的SQL代码，当服务器利用参数构建SQL语句的时候，恶意的SQL代码被一起构建,并在数据库中执行。示例：用户登录：输入用户名xx，密码'or'1'='1,如果此时使用参数构建的方式,就会出现select*fromuserwherename="xx"andpassword=''or'1'='1',这样不管输入的用户名和密码是什么内容,查询出来的用
Mysql行格式DYNAMIC和COMPACT区别 yyytucj mysql 数据库
MySQL的InnoDB存储引擎支持多种行格式，其中DYNAMIC和COMPACT是两种常见的行格式，它们各自有着不同的特性和应用场景。下面将详细对比这两种行格式的主要区别，以便于在设计数据库时做出合适的选择。COMPACT行格式COMPACT是MySQL5.0之后引入的一种行记录存储方式，旨在提高数据页的利用率，使每个数据页能够存储更多的行记录。COMPACT格式的特点包括：变长字段处理：对于V
MySQL 数据库作发布系统的存储，一天五万条以上的增量，预计运维三年,怎么优化？思维导图代码示例（java 架构) 用心去追梦数据库 mysql 运维
对于一个每天有五万条以上增量、预计运维三年的MySQL发布系统，优化和规划是非常重要的。这不仅涉及到数据库本身的性能优化，还包括架构设计、硬件选择、监控与维护等多个方面。以下是一些建议和策略：优化策略数据库架构设计分库分表（Sharding）：将数据分散到多个数据库或表中，减轻单个实例的压力。读写分离：使用主从复制，将读操作分流到从服务器上，减少主服务器负载。缓存机制：利用Redis或Memcac
1985-2023 年各省、地级市数字经济专利数据经管数据集数据分析
数据来源：CNRDS数据库包括Excel数据文件+字段说明书+数据库说明书具体字段：Province[省份]-省份Pftn[地市]-地市Year[会计年度]-会计年度Noderiafty[当年申请的数字经济相关发明数量]-当年申请的数字经济相关发明数量，单位：个Noderiaity[当年授权的数字经济相关发明数量]-当年授权的数字经济相关发明数量，单位：个Noderumap[当年申请的数字经济相关
一文速通MySQL C__C.. mysql 数据库
MySQL是一种广泛使用的开源关系型数据库管理系统，它通过SQL（结构化查询语言）来管理和操作数据库。SQL语句主要分为三类：DDL（数据定义语言）、DML（数据操纵语言）和DCL（数据控制语言）。DDL（数据定义语言）：功能：用于定义和修改数据库的结构常见语句：查看数据库showdatabases;新建数据库createdatabase数据库名;删除数据库dropdatabase数据库名;查看当
java23种设计模式-单例模式千里码！后端技术设计模式 #Java 单例模式设计模式
单例模式（SingletonPattern）学习笔记定义单例模式属于创建型设计模式，确保一个类只有一个实例，并提供全局访问点。是Java中最简单但实现最复杂的设计模式。适用场景需要控制资源访问（如数据库连接池）全局配置对象日志记录器设备管理器（如打印机服务）缓存系统线程池/连接池管理模式结构类图Singleton-staticinstance:Singleton-Singleton()+stati
GoFly框架中集成Bolt 和badfer两个Go语言嵌入式键值数据库 GoFly开发者 GoFly快速开发框架数据库 golang 嵌入式键值数据库
本插件集成了Bolt和badfer两个纯Go实现的快速的嵌入式K/V数据库，方便开发时本地存储使用。插件集成Bolt和badfer两个，如果确定使用其中一个，也可以把其中不用的一个删除，不删除也不会有任何影响。插件使用说明1.安装插件到busines后台的开发者工具下的代码仓找到“Go语言嵌入式键值数据库”进行安装即可2.代码说明插件安装到utils\plugin目录中，其中在app\busine
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/pwd@192.168.0.5:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

不看后悔！新手小白必看的保姆级教程！一篇文章学会数据仓库！

你可能感兴趣的:(数据仓库,数据仓库,数据库,hive)