小猪宝宝哦

数据仓库基础知识

数据仓库

企业信息应用现状
企业对应用集成的需求
1. 什么是BI
- 1.1 BI的定义
- 1.2 BI要做的事情
- 1.3 BI的智能
- 1.4 BI应用架构
- 1.5 BI系统架构
- 1.6 BI应用带来的关键效益
2. 什么是数据仓库
- 2.1 数据仓库的概念
- 2.2 数据仓库的特性
3. 数据仓库设计中的几个重要概念
- 3.1 ETL
- 3.2 数据集市（Data mart）
- 3.3 即席查询（Ad hoc queries）
- 3.4 ODS（ Operational Data Store,操作数据存储）
- 3.5 数据仓库的搭建模式
4. 维度建模
- 4.1 维度建模基础知识
- - （1）事实与事实表（Fact Table）
  - （2）维度与维度表（Dimension Table）
  - （3）粒度
  - （4）切片、切块与旋转
  - （5）钻取
- 4.2 建模中的三种模型
- - （1）星形模型
  - （2）雪花模型
  - （3）星座模型
- 4.3 维度的类型
- - （1）缓慢变化维(Slowly Changing Dimension)
  - （2）快速变化维(Rapidly Changing Dimension)
  - （3）大维(Huge Dimension)
  - （4）微型维(Mini-Dimension)
  - （5）退化维(Degenerate Dimension)
- 4.4 常用的事实表类型
- - （1）聚集事实表（Aggregated Fact Table）
  - （2）合并事实表（Consolidated Fact Table）
  - （3）旋转事实表（Pivoted Fact Table）
  - （4）预连接聚集表（Pre-Joined Aggregagte Table）
  - （5）非事实型事实表（Factless Fact Table）
  - （6）切片事实表（Sliced Fact Table）
- 4.5 建模的一般过程
- - 4.5.1 确定该业务过程每个事实表的粒度
  - 4.5.2 确定维度的属性
  - 4.5.3 确定维度的层次
  - 4.5.4 确定每个事实所需要关联的维度
  - 4.5.5 确定数字型事实，包括预先计算的
  - 4.5.6 确定缓慢变化维

企业信息应用现状

企业对应用集成的需求

我要了解企业目前的运转情况！（实时监控）
我要知道某地区近5年内的销售情况以制定未来的发展策略！（决策支持）
我要知道哪些是值得发展的优质的顾客！（预测）

1. 什么是BI

1.1 BI的定义

BI是Business Intelligence的英文缩写，中文解释为商务智能，用来帮助企业更好地利用数据提高决策质量的技术集合，是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程。

1.2 BI要做的事情

传统的交易系统完成的是Business到Data的过程，而BI要做的事情是在Data的基础上，让Data产生价值，这个产生价值的过程就是Business Intelligence analyse的过程。从技术角度来说，这个过程是一个复杂的技术集合，它包含ETL、DW、OLAP、DM等多环节。

1.3 BI的智能

BI不能产生决策，而是利用BI过程处理后的数据来支持决策。
那么BI所谓的智能到底是什么呢？BI最终展现给用户的信息就是报表或图视，但它不同于传统的静态报表或图视，它颠覆了传统报表或图视的提供与阅读的方式，产生的数据集合就象玩具“魔方”一样，可以任意快速的旋转组合报表或图视，有力的保障了用户分析数据时操作的简单性、报表或图视直观性及思维的连惯性。

1.4 BI应用架构

1.5 BI系统架构

1.6 BI应用带来的关键效益

A:获得对业务绩效，流程和客户的可见性和洞察力;更好的进行决策和执行决策，以快速应对机会和挑战
B:横跨多个业务和数据源，获得唯一的、一致的企业信息;在各业务层面中协同战略和执行
C通过集成实时与历史数据，将分析转换为执行力
D赋予所有用户个性化的，基于角色的访问
E能够跨越不同的部门和数据源进行高级分析

2. 什么是数据仓库

2.1 数据仓库的概念

数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支撑管理决策。

企业数据仓库的建设，是以现有企业业务系统和大量业务数据的积累为基础。

数据仓库不是静态的概念，只有把信息及时交给需要这些信息的使用者，供他们做出改善其业务经营的决策，信息才能发挥作用，信息才有意义。

而把信息加以整理归纳和重组，并及时提供给相应的管理决策者，是数据仓库的根本任务。因此，从产业界的角度看，数据仓库建设是一个工程，是一个过程。而不是一种可以购买的产品。

2.2 数据仓库的特性

面向主题

传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据；数据仓库侧重于数据分析工作，是按照主题存储的。

集成

面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

相对稳定

操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

反映历史变化

操作型数据库主要关心当前某一个时间段内的数据。而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。

3. 数据仓库设计中的几个重要概念

3.1 ETL

ETL是将业务系统的数据经过抽取（Extract）、清洗转换（Transform）之后加载（Load）到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
ETL的实现有多种方法，常用的有三种。一种是借助ETL工具实现，一种是SQL方式实现，另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点，借助工具可以快速的建立起ETL工程，屏蔽了复杂的编码任务，提高了速度，降低了难度，但是缺少灵活性。SQL的方法优点是灵活，提高ETL运行效率，但是编码复杂，对技术要求比较高。第三种是综合了前面二种的优点，会极大地提高ETL的开发速度和效率。

3.2 数据集市（Data mart）

也叫做“小数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话，那么数据集市就是企业级数据仓库的一个子集，他主要面向部门级业务，并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

3.3 即席查询（Ad hoc queries）

是指那些用户在使用系统时，根据自己当时的需求定义的查询。
即席查询生成的方式很多，最常见的就是使用即席查询工具。一般的BI展现工具都会提供即席查询的功能。通常的方式是，将数据仓库中的维度表和事实表映射到语义层，用户可以通过语义层选择表，建立表间的关联，最终生成SQL语句。
即席查询与通常查询从SQL语句上来说，并没有本质的差别。它们之间的差别在于，通常的查询在系统设计和实施时是已知的，所有我们可以在系统实施时通过建立索引、分区等技术来优化这些查询，使这些查询的效率很高。而即席查询是用户在使用时临时生产的，系统无法预先优化这些查询，所以即席查询也是评估数据仓库的一个重要指标。

3.4 ODS（ Operational Data Store,操作数据存储）

ODS在通常的数据仓库架构中都是一个可选的部件，它和数据仓库起到互相补充的作用。最早给ODS下定义的是数据仓库之父Inmon。他的定义是，操作数据存储（ODS）是面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合，用来满足企业综合的、集成的以及操作型的处理需求。

Inmon的这个定义与他对数据仓库的定义很像。其中前两个特性和数据仓库是一样的，即都是面向主题的和集成的，而后三个特性和数据仓库相差较大。

ODS中的数据是可以变化的：这一点是Inmon相对与他的CIF（企业信息工厂）中的数据仓库来说的，在CIF中，数据仓库中的数据是不进行更新的，对于错误的处理通常是采用新的快照来进行保存。而ODS是可以按常规方法进行更新的。

ODS反映当前数据值：这一点是指ODS中不会长期的保留数据，通常ODS保留的数据的时限最长到一个月或三个月。而数据仓库可以保留五年、十年或更长的数据。
ODS中保留详细数据：这一点是说ODS中只保留原子数据，而不保留汇总数据。而在数据仓库中原子数据和汇总数据都会进行保留。这和ODS可更新的特性相关，因为随时可能将操作型系统的数据变化更新到ODS中，并且数据的迁移时间间隔会很短，这都使汇总数据在ODS中的意义不大。

3.5 数据仓库的搭建模式

4. 维度建模

维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务。它重点解决如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

4.1 维度建模基础知识

（1）事实与事实表（Fact Table）

事实表是指其中保存了大量业务度量数据的表，是数仓最核心的表。
事实表中的度量值一般称为事实。通常，最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度，决定了数据仓库中数据的详细程度。
下图为例。中间的表：服装销售明细表，就是一张事实表。其中的销售金额、成本、利润，都是事实，也是我们需要分析的目标数据。

一般事实表中只存放数字或一些flag用来统计，如：销售金额、成本等。另外，通常事实表中的数据不允许修改，新的数据只是简单地添加到事实表中。
事实表特点：数据量庞大、列数少、经常变化。这个比较好理解，因为实事表是一张业务表嘛，业务肯定是不断有新的数据加进来的。

（2）维度与维度表（Dimension Table）

维度表是用户来分析数据的窗口，比如时间、地区、用户等。
维度表中包含事实表中记录的特性，有些特性提供描述性信息，有些特性指定如何汇总事实数据表数据，以便为分析者提供有用的信息。

例如上图，包括了五张维度表：时间维表、产品维表、地域维表、用户维表、支付维表。每一张维度表对应现实世界中的一个对象或概念。
每一张维度表利用维度关键字（图中标红字段）通过事实表中的外键约束事实表的中某一行。
维度表等特点：很多描述性的列，行数较少，内容较固定。这个也好理解，比如地域，省市区县这些内容十几年都不会有啥变化。

（3）粒度

粒度是指数据仓库的数据单位中，保存数据的细化程度的级别。简单点来看，在实事表中一条记录所表达的业务细节，就是粒度。

通常，为了便捷的下钻分析，我们都会使用到最小粒度。比如订单表中，最小粒度就是一条订单的记录。使用最小粒度的优点：
可以频繁的ETL操作
很多数据挖掘需要最小粒度数据
方便向下钻取
当然，使用最小粒度也有缺点：
存储和维护代价较高
需要进一步构建汇总事实表来支持汇总数据查询

（4）切片、切块与旋转

切片与切块主要是用来进行数据分析的。我们以下面的三维（产品、年度、地区）为例。

切片：从多维数组中选定一个二维子集，切出一个“平面” 。比如选中上图的2011年，这就是一个切片。
切块：从多维数组中选定一个三维子集，切出一个“立方体” 。比如上图中，年度选择了2011、2012，然后看所有的数据内容，这就是一个切块。
旋转：改变一个报告（页面）显示的维方向

（5）钻取

根据维层次，改变数据分析的粒度，就是钻取分析，主要包括上钻（也叫上卷）和下钻。其实Excel中的数据透视就是各种上卷和下钻。

下钻：从汇总数据深入到细节数据进行观察或增加新维
上钻（上卷）：从某一维上将低层次的细节数据概括到高层次的汇总数据或减少维数
钻透：直接下钻到最明细的数据。

4.2 建模中的三种模型

（1）星形模型

所谓星型模型，具体表现是：事实被维度所包围，且维度没有被新的表连接。如下图。

每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。

可以看出，星型模型是比较单纯的模型，像星星一样触角没有延伸了。

（2）雪花模型

所谓的雪花模型，是有一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上，就像雪花一样。如下图：

雪花模型去除了数据冗余，更贴近与业务。尽可能降低数据存储量以及联合较小的维表来改善查询性能。

（3）星座模型

无论是星型模型还是雪花模型，都是单事实表的情况。但通常来讲，实践当中大部分情况都是多事实表的。这时就是需要星座模型了。

所谓星座模型，是多个事实表共享维度表，因而可以视为星型模型的集合，故亦称星座模型（星系模型）。如下图：

星座模型是数据仓库最常使用的模型。

4.3 维度的类型

（1）缓慢变化维(Slowly Changing Dimension)

缓慢变化维的提出是因为在现实世界中，维度的属性并不是静态的，它会随着时间的流失发生缓慢的变化（如：组织结构的调整、客户更改了他的名称或地址）。这种随时间发生变化的维度我们一般称之为缓慢变化维，并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题，有时也简称为处理SCD的问题。
处理缓慢变化维的方法通常有三种方式：
第一种方式是直接覆盖原值，通常简称为“TYPE 1” 。这样处理，最容易实现，但是没有保留历史数据，无法分析历史变化信息。
第二种方式是添加维度行，通常简称为“TYPE 2” 。这样处理，需要代理键的支持。实现方式是当有维度属性发生变化时，生成一条新的维度记录，主键是新分配的代理键，通过自然键可以和原维度记录保持关联。
第三种方式是添加属性列，通常简称为“TYPE 3” 。这种处理的实现方式是对于需要分析历史信息的属性添加一列，来记录该属性变化前的值，而本属性字段使用TYPE
1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值，缺点是只保留了最后一次变化信息。

（2）快速变化维(Rapidly Changing Dimension)

当某个维度的变化是非常快的时候，我们认定他为快速变化维(具体要看实际的变化频率)，比如：客户的地址、联系电话等。

（3）大维(Huge Dimension)

数据仓库中最有意思的维度是一些非常大的维度，比如客户，产品等等。一个大的企业客户维度往往有上百万记录，每条记录又有上百个字段。而大的个人客户维度则会超过千万条记录，这些个人客户维度有时也会有十多个字段，但大多数时候比较少见的维度也只有不多的几个属性。

（4）微型维(Mini-Dimension)

以客户维度举例来说，如果维度表中有数百万行记录或者还要多，而且这些记录中的字段又经常变化，这样的维度表一般称之为快变超大维度。对于快变超大维度，设计人员一般不会使用TYPE
2的缓慢变化维处理方法，因为大家都不愿意向本来就有几百万行的维度表中添加更多的行。
这时，有一项技术可以解决这个问题。解决的方法是，将分析频率比较高或者变化频率比较大的字段提取出来，建立一个单独的维度表。这个单独的维度表就是微型维度表。
微型维度表有自己的关键字，这个关键字和原客户维度表的关键字一起进入事实表。有时为了分析的方便，可以把微型维度的关键字的最新值作为外关键字进入客户维度表。这时一定要注意，这个外关键字必须做TYPE
1型处理。
在微型维度表中如果有像收入这样分布范围较广的属性时，应该将它分段处理。比如，存储￥31257.98这样过于分散的数值就不如存储￥30000－￥34999这样的范围。这样可以极大的减少微型维度中的记录数目，也给分析带来方便。

（5）退化维(Degenerate Dimension)

退化维度一般都是事务的编号，如订单编号、发票编号等。这类编号需要保存到事实表中，但是不需要对应的维度表，所以称为退化维度。
退化维度经常会和其他一些维度一起组合成事实表的主键。在Kimball提出的维度建模中，事实表应该保存最细粒度的数据。所以对于象销售单这样的事实表来说，需要销售单编号和产品来共同作为主键，而不能用销售日期、商场、产品等用来分析的维度共同作为主键。

4.4 常用的事实表类型

（1）聚集事实表（Aggregated Fact Table）

是原子事实表上的汇总数据，也称为汇总事实表。即新建立一个事实表，它的维度表是比原维度表要少，或者某些维度表是原维度表的子集，如用月份维度表代替日期维度表；事实数据是相应事实的汇总，即求和或求平均值等。在做数据迁移时，当相关的维度数据和事实数据发生变化时，聚集事实表需要做相应的刷新。物化视图是实现聚集事实表的一种有效方式，可以设定刷新方式，具体功能由DBMS来实现。

（2）合并事实表（Consolidated Fact Table）

是指将位于不同事实表中处于相同粒度的事实进行组合建模而成的一种事实表。即新建立一个事实表，它的维度是两个或多个事实表的相同维度的集合；事实是几个事实表中感兴趣的事实。在Kimball的总线架构中，由合并事实表为主组成的合并数据集市称为二级数据集市。合并事实表的粒度可以是原子粒度也可以是聚集粒度。在做数据迁移时，当相关的原子事实表的数据有改变时，合并事实表的数据需要重新刷新。合并事实表和交叉探察是两个互补的操作。
聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。但是它们的差别不是绝对的，一个事实表既是聚集事实表又是合并事实表是很有可能的。因为一般合并事实表需要按相同的维度合并，所以很可能在做合并的同时需要进行聚集，即粒度变粗。

（3）旋转事实表（Pivoted Fact Table）

是将一条记录中的多个事实字段转化为多条记录，其中每条记录保存一个事实字段的一种建模方法。或者反过来，也可以由多条记录转化为一条记录。
旋转事实表建模方法的使用通常是为了简化前端数据展现的查询。它通过改变后端的事实记录存储方式，使相应的查询需求的性能得到的极大的提高。如果在SQL或者查询工具中进行这种转换会非常麻烦，效率也很差。
和合并事实表类似，有时当基础表中没有记录时，旋转事实表也要存储一些零值在里面。

（4）预连接聚集表（Pre-Joined Aggregagte Table）

是通过对事实表和维度表的联合查询而生成的一类汇总表。在预连接聚集表中，保存有维度表中的描述信息和事实表的事实值。

通过预连接，可以避免在用户查询时RDBMS的连接操作，所以预连接聚集表的查询效率要高很多。

在这个销售事实表，前五个字段都来自于维度表的描述字段，后两个字段来自于事实表的事实字段。这样在用户提交查询后，RDBMS就不需要连接维度表和事实表了，只需直接在该表中查询即可。

预连接聚集表有一个很大的缺点，它需要占用大量的存储空间。预连接事实表的记录和事实表一样多，每条记录的长度和维度表一样长，所以对存储空间的需求是非常大的。除非情况特殊，或者该表是高度汇总的，否则不建议建立预连接聚集表。在建立预连接聚集表时需要平衡效率和存储空间的矛盾。

预连接聚集表的生成方式较为简单，直接使用SQL查询即可生成。

如果聚集导航器的功能很强大的话，也可以处理预连接聚集表。否则，需要用户理解预连接聚集表，并在SQL中直接使用该表。

预连接聚集表在数据仓库领域有着很重要的作用，是汇总表的一种。它的优点和缺点都很明显，在使用时需要综合考虑。

（5）非事实型事实表（Factless Fact Table）

事实表通常会保存十个左右的维度外键和多个度量事实，度量事实是事实表的关键所在。在非事实型事实表中没有这些度量事实，只有多个维度外键。非事实型事实表通常用来跟踪一些事件或者说明某些活动的范围。

下面举例来进行说明：
第一类非事实型事实表是用来跟踪事件的事实表。例如：学生注册事件，学校需要对学生按学期进行跟踪。维度表包括学期维度、课程维度、系维度、学生维度、注册专业维度和取得学分维度，而事实表是由这些维度的主键组成，事实只有注册数，并且恒为1。这样的事实表可以回答大量关于大学开课注册方面的问题，主要是回答各种情况下的注册数。

第二类非事实型事实表是用来说明某些活动范围的事实表。例如：促销范围事实表。通常销售事实表可以回答如促销商品的销售情况，但是对于那些没有销售出去的促销商品没法回答。这时，通过建立促销范围事实表，将商场需要促销的商品单独建立事实表保存。然后，通过这个促销范围事实表和销售事实表即可得出哪些促销商品没有销售出去。这样的促销范围事实表只是用来说明促销活动的范围，其中没有任何事实度量。

（6）切片事实表（Sliced Fact Table）

切片事实表中的字段结构和相应的基础表完全相同，差别在于存储的记录的范围。切片事实表中保存记录的是相应基础表中记录的子集，记录数通常与某个维度记录数相同。

这种建模方法一般用来满足特殊需要，如需要分析某些特殊问题时，可以将与之相关的数据切片出来。相反，这种方法也常用于合并存储在不同地区的数据，即各个地区都保存自己地区的数据，总部和所有地区的表结构都相同，然后总部将所有地区的数据合并在一起。

切片事实表的结构与相对应的基础表相同，数据来源于相对应的基础表。切片事实表由于缩小了表中数据的记录数，所以查询的效率得到了很大的提高。

4.5 建模的一般过程

4.5.1 确定该业务过程每个事实表的粒度

确定详细数据的粒度级别

此过程必须是在建模之前最需要考虑的问题

比较典型的粒度指的是单独的，基于时间的或聚集在一个常用的维度的事务

4.5.2 确定维度的属性

确定是否需要同时存储编号和描述，或者只是编号，或者只是描述的信息

确定哪些字段的值需要被筛选掉或者需要存在

4.5.3 确定维度的层次

对于时间维度，我们需要确定的是年，季度，月，周，日等不同的层次

对于产品维度，我们需要确定的是产品大类，产品小类，产品等不同的层次

需要注意的是比如在销售中，地理位置的层次可能和真正的地理位置的层次会有不同

4.5.4 确定每个事实所需要关联的维度

通常的维度包括时间，产品，投保人，代理人，和地理等常见对象

请注意，创建的维度需要和与其连接的事实的粒度保持一致

4.5.5 确定数字型事实，包括预先计算的

需要根据具体业务来确定事实及其量度

对于每个聚合事实需要在应用(ETL)过程中进行计算

4.5.6 确定缓慢变化维

根据需求，对缓慢变化维进行相应的处理

你可能感兴趣的:(数据仓库,数据仓库,数据库,大数据)

大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
【数据仓库】三日看尽长安花系统架构师数据仓库
数据仓库：概念、架构与应用目录什么是数据仓库数据仓库的特点数据仓库的架构3.1数据源层3.2数据集成层（ETL）3.3数据存储层3.4数据展示与应用层数据仓库的建模方法4.1星型模型4.2雪花模型4.3星座模型数据仓库与数据库的区别数据仓库的应用场景数据仓库的优缺点分析数据仓库的未来趋势总结1.什么是数据仓库数据仓库（DataWarehouse,DW）是一种用于分析和报告的数据库系统，专门为大规模
mysqlclient MacOS 使用报错 NameError: name ‘_mysql’ is not defined 流浮生日常填坑 python django mysql
背景最近使用django作为一个服务的后台，在使用mysqlclient链接mysql数据库时发生一个奇怪的报错NameError:name‘_mysql’isnotdefined下面是具体报错信息INFO]2021-04-0702:27:57,613WatchingforfilechangeswithStatReloaderExceptioninthreaddjango-main-thread:
innodb_file_per_table weixin_34203426 数据库
MySQLInnoDB引擎默认会将所有的数据库InnoDB引擎的表数据存储在一个共享空间中：ibdata1，当增删数据库的时候，ibdata1文件不会自动收缩，单个数据库的备份也将成为问题。通常只能将数据使用mysqldump导出，然后再导入解决这个问题。在MySQL的配置文件[mysqld]部分，增加innodb_file_per_table参数，可以修改InnoDB为独立表空间模式，每个数据库
MySQL 参数- Innodb_File_Per_Table（独立表空间） csdn_life18 数据库#mysql mysql oracle 数据库
Innodb存储引擎可将所有数据存放于ibdata*的共享表空间，也可将每张表存放于独立的.ibd文件的独立表空间。共享表空间以及独立表空间都是针对数据的存储方式而言的。共享表空间某一个数据库的所有的表数据，索引文件全部放在一个文件中，默认这个共享表空间的文件路径在data目录下。默认的文件名为:ibdata1初始化为10M。优点：可以将表空间分成多个文件存放到各个磁盘上（表空间文件大小不受表大小
后端树结构分类数据模型如何设计 My LQS 历史经验篇分类数据库 java
树形结构在后端系统中非常常见，特别是分类管理场景，例如商品分类、组织架构等。本文将以给定的数据库表为例，探讨如何设计树结构分类数据模型及其优点。一、数据表设计1.分类节点表CREATETABLE`product_classification_node`(`id`bigint(20)NOTNULLAUTO_INCREMENTCOMMENT'主键(分类ID)',`classification_name
如何区分MongoDB和关系型数据库？思维导图代码示例（java 架构) 用心去追梦数据库 mongodb java
MongoDB和关系型数据库（RDBMS，如MySQL、PostgreSQL）是两种不同类型的数据库管理系统，它们在数据模型、查询语言、扩展性和性能等方面存在显著差异。理解这些差异有助于选择适合特定应用场景的数据库类型。以下是关于如何区分MongoDB和关系型数据库的详细指南：区分MongoDB和关系型数据库数据模型MongoDB：文档模型：使用BSON格式存储数据，每个记录都是一个自描述的文档，
探索全球分布式数据库的新篇章：Azure Cosmos DB .NET SDK v3 施刚爽
探索全球分布式数据库的新篇章：AzureCosmosDB.NETSDKv3azure-cosmos-dotnet-v3.NETSDKforAzureCosmosDBforthecoreSQLAPI项目地址:https://gitcode.com/gh_mirrors/az/azure-cosmos-dotnet-v3AzureCosmosDB.NETSDKv3是一个强大的开发工具包，专为连接并利用
玩转大语言模型——使用GraphRAG+Ollama本地构建知识图谱（完全本地化，不依赖OpenAI）艾醒(AiXing-w) 玩转大语言模型语言模型知识图谱人工智能
系列文章目录玩转大语言模型——使用langchain和Ollama本地部署大语言模型玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型玩转大语言模型——使用GraphRAG+Ollama构建知识图谱玩转大语言模型——完美解决GraphRAG构建的知识图谱全为英文的问题玩转大语言模型——配置图数据库Neo4j（含a
【Neo4j】SOLVED:java.lang.RuntimeException: Error starting Neo4j database server 村口小张报错 database neo4j 数据库
问题描述：Neo4j数据库服务启动失败java.lang.RuntimeException:ErrorstartingNeo4jdatabaseserver问题分析：APOC插件问题解决办法1：关闭APOC占用程序进程（zuluplatformx64architecture）,重启Neo4j数据库解决办法2：卸载APOC，重装与Neo4j数据库对应版本neo4j-contrib/neo4j-apo
性能测试后期的性能调优 Feng.Lee 漫谈测试性能优化测试工具可用性测试
目录性能调优的常规手段有如下几种。(1)空间换时间。(2)时间换空间。(3)分而治之。(4)异步处理。(5)并行。(6)离用户更近一点。(7)一切可扩展，业务模块化、服务化(无状态、幂等)、良好的水平扩展能力。下面将详细探讨一些关键的性能调优策略，并引用相关资料中的细节。设计优化算法优化代码优化JVM优化参数优化数据库优化高可用性，高可靠性，可扩展性及运维能力是高并发系统的设计要求（当然也要顾及成
springDataJPA实战 cc& Spring Boot maven
从个人开发角度来说，SpringDataJPA更好用，是因为开发起来更快。但从团队角度，我们希望更好的维护性，springdatajpa就差一些，或者说对后期人的要求更高。mybatis更好一些1.创建module2.添加数据源,新建jpa数据库spring:datasource:username:rootpassword:123456url:jdbc:mysql://localhost:3306
如何使用C#的using语句释放资源？什么是IDisposable接口？与垃圾回收有什么关系？ Dr.勿忘 C#游戏开发面试 c#开发语言 unity 游戏引擎面试
在C#中，using语句用于自动释放实现了IDisposable接口的对象所占用的非托管资源，如文件句柄、数据库连接、图形句柄等。其使用方式如下：基础用法声明并初始化资源对象：在using关键字后的括号内声明并初始化一个实现了IDisposable接口的对象。使用资源：在using语句块内使用该资源对象。自动释放资源：当程序执行离开using语句块时，无论是否发生异常，都会自动调用对象的Dispo
Flask 使用Flask-SQLAlchemy操作数据库字节全栈_PVK 数据库 flask python
username=db.Column(db.String(64),unique=True,index=True);password=db.Column(db.String(64));建立对应关系如果是多对多关系就建一张表，关联两个表的idrole_id=db.Column(db.Integer,db.ForeignKey(‘roles.id’))‘’’帮助作关联查询relationship()把两
如何学习Java后端开发写代码的大学生学习 java 开发语言
文章目录一、Java语言基础二、数据库与持久层三、Web开发基础四、主流框架与生态五、分布式与高并发六、运维与部署七、项目实战八、持续学习与提升总结路线图学习Java后端开发需要系统性地掌握多个技术领域，从基础到进阶逐步深入。以下是一个详细的学习路线和建议，帮助你高效入门并逐步提升：一、Java语言基础核心语法数据类型、流程控制、数组、字符串等基础语法。面向对象（OOP）：封装、继承、多态、抽象类
Spring Data JPA 实战：构建高性能数据访问层随风九天 Spring Data JPA JPA 性能
1简介1.1SpringDataJPA概述1.1.1什么是SpringDataJPA？SpringDataJPA是SpringData项目的一部分，旨在简化对基于JPA的数据库访问操作。它通过提供一致的编程模型和接口，使得开发者可以更轻松地与关系型数据库进行交互，同时减少了样板代码的编写。SpringDataJPA不仅简化了数据访问层的开发，还提供了丰富的功能和工具，帮助开发者构建高效、可维护的数
PostgreSql扩展定时任务插件（pg_cron）为什么不问问神奇的海螺呢丶 PostgreSql
定时任务（pg_cron）pg_cron是基于cron的作业调度插件，语法与常规cron相同，但它可以直接从数据库执行PostgreSQL命令。每一个定时任务分为两部分：定时计划规定使用插件的计划，例如每隔1分钟执行一次该任务。定时计划使用标准的cron语法，其中*表示任意时间都运行，特定数字表示仅在这个时间时运行。┌─────────────分钟：0~59│┌──────────────小时：0
redis分页查询java实现_Redis分页查询缓存方案果龙火只一 redis分页查询java实现
常规分页查询缓存方案我们都知道，通过缓存查询的结果，可以极大的提升系统的服务能力，以及降低底层服务或者是数据库的压力。对于有分页条件的缓存，我们也可以按照不同的分页条件来缓存多个key，比如分页查询产品列表,page=1&limit=10和page=1&limit=5这两次请求可以这样缓存查询结果productList:page:1:limit:10productList:page:1:limit
关于C/S架构和B/S架构是栗子yaya 学习笔记数据库
C/S结构：CS架构即客户机和服务器（Client/Server）结构，是软件系统体系结构，通过它可以充分利用两端硬件环境的优势，将任务合理分配到Client端和Server端来实现，降低了系统的通讯开销。C/S结构通常采取两层结构。服务器负责数据的管理，客户机负责完成与用户的交互任务。客户机通过局域网与服务器相连，接受用户的请求，并通过网络向服务器提出请求，对数据库进行操作。服务器接受客户机的请
我的架构梦：（一）手写MyBatis框架老周聊架构我的架构梦
手写mybatis框架一、前言二、JDBC问题分析三、自定义框架实现四、自定义框架优化五、代码仓库一、前言在手写mybatis框架之前，我们先来思考一下这个问题：为啥要有mybatis框架存在？它是为了解决什么问题的？我们带着这两个问题来开始我们手写mybatis框架之旅。我们刚开始搞java的时候，貌似都知道用jdbc去连接数据库，那我们来看一下jdbc连接数据库的代码：publicstatic
C/S、B/S架构模式的三层结构特点分析爱学习的王二胖物联网
C/S架构和B/S架构：C/S（Client/Server）结构分为客户端和服务端两部分。服务端存储数据库内容，并在客户端上安装相应软件。C/S结构按照架构分为双层结构和三层结构。双层结构中的表示层和业务逻辑层部署在客户端，主要提供用户界面，接受用户提交的请求，并将用户请求发送至服务端，申请数据库服务。数据层则部署在服务端，负责数据库的业务处理，包括查询数据库、排序、索引等操作，对数据进行处理后将
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
一体化运维监控管理平台：产品架构与功能解析 MXsoft618 一体化运维平台一体化监控平台运维管理软件数据库大数据运维
在当今的信息化时代，运维监控管理平台已成为确保企业IT系统稳定运行不可或缺的工具。本文旨在深入探讨一体化运维监控管理平台的产品架构及其核心功能，以期为运维团队提供有益的参考。随着企业信息化建设的不断深入，IT系统日益复杂，涉及的设备和系统越来越多。传统的分散式监控方式已无法满足现代运维的需求。一体化监控应运而生，它能够集中监控各类IT资源，包括服务器、网络设备、安全设备、数据库等，实现统一的管理和
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
被怼了：acks=all消息也会丢失？ java
消息队列是面试中一定会被问到的技术模块，虽然它在面试题占比不及并发编程和数据库，但也属于面试中的关键性问题。所以今天我们就来看一道，MQ中高频，但可能会打破你以往认知的一道面试题。所谓的关键问题指的是这道面试题会影响你整体面试结果。我们在面试消息队列（MessageQueue，MQ）时，尤其是面试Kafka时，经常会被问到：如何保证消息不丢失？那么，我们的回答会分为以下3部分：保证生产者消息不丢失
缓存的几种不同的实现方法？ ducode
一、1、文件缓存所谓文件缓存，就是根据逻辑判断，一段时间内某个asp的特定执行将不会很大的变动，因因而将内容以静态html的形式存放，然后以web的重定向技术让客户端访问静态文件，以达到减少CPU、数据库资源等的需求。这样的应用很多，譬如很多论坛就是在回复帖子的时候将整个帖子重新生成一个静态文件，然后进行重定向的，例如DONEWS,COM的论坛。该成静态还有一个副作用（好处）可以很容易被googl
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
缓存技术有哪些实现的方法呢？【缓存技术汇总】不起眼的Coder scikit-learn
缓存技术是一种常用的提高系统性能和响应速度的方法。作为网站开发者，真的是必用的提速方法了。今天，我们总结下常用的缓存技术有哪些。以下是常见的缓存实现方法：内存缓存内存缓存是将数据缓存在内存中，以提高访问速度。常见的内存缓存技术包括Memcached、Redis等。文件缓存文件缓存是将数据缓存在文件中，以减轻数据库的负载。常见的文件缓存技术包括APC、ZendOptimizer、eAccelerat
MySQL数据库连接串学不完了是吧数据库 mysql
数据库连接串（通常称为连接字符串）包含了连接到数据库所需的所有信息，如数据库类型、服务器地址、端口、数据库名称、用户名和密码等。获取数据库连接串的方法取决于你使用的数据库类型和环境。以下是一些常见数据库的示例：MySQL如果你使用的是MySQL数据库，连接串通常如下：arduino复制代码jdbc:mysql://:/?user=&password=其中：复制代码*``是数据库服务器的地址。*``
构建 Java Web 应用程序：实现简单的增删查改（Mysql） F2022697486 java 前端 mysql
简介本教程将指导您如何使用JavaServlet和JSP技术构建一个简单的Web应用程序。该应用程序将包括用户注册、登录、注销（删除用户信息）、修改密码以及根据性别查询用户信息等功能。我们将使用MySQL数据库来存储用户数据。环境准备JavaDevelopmentKit(JDK):安装JDK8或更高版本。IDE:推荐使用IntelliJIDEA或Eclipse。Servlet容器:如ApacheT
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方