web_go_run

维度建模的基本概念及过程

维度建模的基本概念及过程

摘要：本文首先介绍维度模型中的维度表和事实表这2个基本构成要素的基础知识；其次，介绍设计维度模型的4个基本步骤；再次，围绕某银行为实现业务价值链数据集成的需要，介绍多维体系结构中的3个关键性概念：数据仓库总线结构、一致性维度、一致性事实。

关键词：维度表;事实表;维度模型设计过程;数据仓库总线结构;一致性维度;一致性事实。

0 引言

与流行的说法不同，Ralph Kimball本人并没有定义“维度”和“事实”这样的术语。术语“维度”与“事实”，最初是20世纪60年代在一个由General Mills与Dartmouth大学主持的联合研究计划中提出的。70年代，AC Nielsen和IRI都一致地使用这些术语描述他们的数据发布应用，用现在更为准确的话来说，就是关于零售数据的维度数据集市（Data Mart）。在简明性成为生活方式的潮流之前的长时期内，早期的数据库垄断组织们致力于将这些概念用来简化用做分析的信息。他们意识到，除非数据库做得简单易用，否则没有人会用它。因此，在将可理解性和性能作为最高目标的驱动下，产生了维度模型的构造思想。

1 维度表和事实表

1.1 事实表

事实表是维度模型的基本表，其中如图1.1所示存放有大量的业务性能度量值。力图将从一个业务处理过程得到的度量值数据存放在单个数据集市。由于度量值数据压倒性地成为任何数据集市的最大部分，因此应该避免在企业范围内的不同地方存储其拷贝。用术语“事实”代表一个业务度量值。可以设想一个作为例子的情形：查询某个客户在某个机构下某个产品合约账户的某个币种的某个时点余额，在各维度值(客户、产品合约、账户、机构、币种、日期)的交点处就可以得到一个度量值。维度值的列表给出了事实表的粒度定义，并确定出度量值的取值范围是什么。

图 1.1 示例事实表

事实表的一行对应一个度量值，一个度量值就是事实表的一行；事实表的所有度量值必须具有相同的粒度。最有用的事实是诸如账户余额这样的数字类型为可做加法的事实。可加性是至关重要的，因为数据仓库应用不仅仅只检索事实表的单行数据。相反，往往一次性带回数百、数千乃至数百万行的事实，并且处理这么多行的最有用的事就是将它们加起来。

当然，有些事实是半加性质的，而另外一些是非加性质的。半加性事实仅仅沿某些维度相加，例如销售占比，周期余额；而非加性事实根本就不能相加，例如状态。对于非加性事实，如果希望对行进行总结就不得不使用计数或平均数，或者降为一次一行地打印出全部事实行。

度量事实在理论上讲可以是文本形式的，不过这种情况很少出现。在大多数情况下，文本度量值可以是某种事物的描述并取自某个离散列表的值。设计者应该尽各种努力将文本度量值转换成维度，原因在于维度能够与其他文本维度属性更有效地关联起来，并且消耗少得多的空间。不能将冗余的文本信息存放在事实表内。除非文本对于事实表的每行来说都是唯一的，否则它应该归属到维度表中。真正的文本事实在数据仓库中是很少出现的，文本事实具有像自由文本内容那样的不可预见性内容，这几乎是不可能进行分析的。

所有事实表有两个或者两个以上的外关键字(如图1.1中FK符号标记的部分)，外关键字用于连接到维度表的主关键字。例如，事实表中的“产品合约关键字”总是匹配产品合约维度表的一个特定“产品合约关键字”。如果事实表中的所有关键字都能分别与对应维度表中的主关键字正确匹配，就可以说这些表满足引用完整性的要求。事实表要通过与之相连的维度表进行存取。

事实表根据粒度的角色划分不同，可分为事务事实表、周期快照事实表、累积快照事实表。事务事实表用于承载事务数据，通常粒度比较低，例如产品交易事务事实、ATM交易事务事实；周期快照事实表用来记录有规律的、固定时间间隔的业务累计数据，通常粒度比较高，例如账户月平均余额事实表；累积快照事实表用来记录具有时间跨度的业务处理过程的整个过程的信息，通常这类事实表比较少见。这里需要值得注意的是，在事实表的设计时，一定要注意一个事实表只能有一个粒度，不能将不同粒度的事实建立在同一张事实表中。

1.2 维度表

维度表是事实表不可分割的部分。如图1.2所示，维度表包含有业务的文字描述。在一个设计合理的维度模型中，维度表有许多列或者属性，这些属性给出对维度表的行所进行的描述。应该尽可能多地包括一些富有意义的文字性描述。对于维度表来说，包含50到100个属性的情形并不少见。维度表倾向于将行数做得相当少(通常少于100万行)，而将列数做得特别大。每个维度用单一的主关键字(如图1.2中PK符号标记的部分)进行定义，主关键字是确保同一与之相连的任何事实表之间存在引用完整性的基础。

图1.2 示例维度表

维度属性是查询约束条件、成组与报表标签生成的基本来源。在查询与报表请求中，属性用by这个单词进行标识。例如，一个用户表示要按“产品合约编号”与“机构编号”来查看账户余额，那么“产品合约编号”与“机构编号”就必须是可用的维度属性。

维度表属性在数据仓库中承担着一个重大的角色。由于它们实际上是所有令人感兴趣的约束条件与报表标签的来源，因此成为使数据仓库变得易学易用的关键。在许多方面，数据仓库不过是维度属性的体现而已。数据仓库的能力直接与维度属性的质量和深度成正比。在提供详细的业务用语属性方面所花的时间越多，数据仓库就越好。在属性列值的给定方面所花的时间越多，数据仓库就越好。在保证属性列值的质量方面所花的时间越多，数据仓库就越好。

维度表是进入事实表的入口。丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了使用数据仓库的接口。最好的属性是文本的和离散的。属性应该是真正的文字而不应是一些编码简写符号。应该通过用更为详细的文本属性取代编码，力求最大限度地减少编码在维度表中的使用。有时候在设计数据库时并不能很确定，从数据源析取出的一个数字型数据字段到底应该作为事实还是维度属性看待。通常可以这样来做出决定，即看字段是一个含有许多的取值并参与运算的度量值(当事实看待)，还是一个多少变化不多并参与作为约束条件的离散取值的描述(当维属性看待)。

在维度类型中，有一种重要的维度称作为退化维度(Degenerate Dimension)，这种维度指的是直接把一些简单的维度放在事实表中而不专门去做一个维度表。退化维度是维度建模领域中的一个非常重要的概念，它对理解维度建模有着非常重要的作用，退化维度经常会和其他一些维度一起组合成事实表的主键。退化维度在分析中可以用来做分组使用。

1.3 维度表和事实表的融合

在理解了事实和维度表之后，现在就考虑将两个组块一起融合到维度模型中去的问题。如图1.3所示，由数字型度量值组成的事实表连接到一组填满描述属性的维度表——这个星型特征结构通常被叫做星型连接方案。该术语可以追溯到最早的关系数据库时期。

图1.3维度模型中的事实与维度表

关于其中用到的维度方案，应该注意的第一件事就是其简明性与对称性。很显然，业务用户会因为数据容易理解和浏览而从简明性方面受益。

维度模型的简明性也带来了性能上的好处。数据库优化器可以更高效率地处理这些连接关系较少的简单方案。数据库引擎可以采取的非常强劲的做法是，首先集中对建立了充足的索引的维度表进行约束(过滤)处理，然后用满足用户约束条件的维度表关键字的笛卡尔乘积一次性处理全部的事实表。令人惊奇的是，利用这种方法只需使用一次事实表的索引，就可以算出与事实表之间的任意n种连接结果。

最后，维度模型能够很自然地进行扩展以适应变化的需要。维度模型的可预定框架能够经受住无法预见的用户行为变化所带来的考验。每个维度都是平等的，所有维度都是进入事实表的对等入口。这个逻辑模型不存在内置的关于某种期望的查询形式方面的偏向，不存在这个月要问的业务问题相对于下个月来说具有优先方面的考虑。没有谁会希望，如果业务用户采用新的方式进行业务分析，就要调整设计方案这样的事情发生。

最佳粒度或者原子数据具有最佳的维度。被聚合起来的原子数据是最有表现力的数据。原子数据应该成为每个事实表设计的基础，从而经受住业务用户无法预见的查询所引起的特别攻击。对于维度模型来说，完全可以向方案中加入新的维度，只要其值对于每个现有的事实行存在唯一性定义就行。同样，可以向事实表加入新的不曾预料到的事实，只要其详细程度与现有事实表处在一致的水平面上就可以了。可以用新的不曾预料到的属性补充先前存在的维度表，也可以从某个前向时间点的角度在一个更低的粒度层面上对现存维度行进行分解。在每种情况下，可以简单地在表中加入新的数据行或者执行一条SQL ALTER TABLE命令来对现存表格进行适当的修改。数据用不着重新加载，所有现存的数据存取应用可以继续运行而不会产生不同的结果。

2 维度建模设计过程

本文按照图2.1具有一定顺序的四个步骤的方式进行维度数据库的设计。

图2.1四步骤维度设计过程

2.1 第一步选取业务处理

业务处理过程是机构中进行的一般都由源系统提供支持的自然业务活动。听取用户的意见是选取业务处理过程的效率最高的方式。在选取业务阶段，数据模型设计者需要具有全局和发展的视角，应该理解整体业务流程的基础上，从全局角度选取业务处理。

要记住的重要一点是，这里谈到的业务处理过程并不是指业务部门或者职能。通过将注意力集中放在业务处理过程方面，而不是业务部门方面，就能在机构范围内更加经济地提交一致的数据。如果建立的维度模型是同部门捆绑在一起的，就无法避免出现具有不同标记与术语的数据拷贝的可能性。多重数据流向单独的维度模型，会使用户在应付不一致性的问题方面显得很脆弱。确保一致性的最佳办法是对数据进行一次性地发布。单一的发布过程还能减少ETL的开发量，以及后续数据管理与磁盘存储方面的负担。

2.2 第二步定义粒度

粒度定义意味着对各事实表行实际代表的内容给出明确的说明。粒度传递了同事实表度量值相联系的细节所达到的程度方面的信息。它给出了后面这个问题的答案:“如何描述事实表的单个行?”。

粒度定义是不容轻视的至关重要的步骤。在定义粒度时应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息，这样的数据不能再做更进一步的细分。通过在最低层面上装配数据，大多原子粒度在具有多个前端的应用场合显示出其价值所在。原子型数据是高度维结构化的。事实度量值越细微并具有原子性，就越能够确切地知道更多的事情，所有那些确切知道的事情都转换为维度。在这点上，原子型数据可以说是维度方法的一个极佳匹配。

原子型数据可为分析方面提供最大限度的灵活性，因为它可以接受任何可能形式的约束，并可以以任何可能的形式出现。维度模型的细节性数据是稳如泰山的，并随时准备接受业务用户的特殊攻击。

当然，可以总是给业务处理定义较高层面的粒度，这种粒度表示最具有原子性的数据的聚集。不过，只要选取较高层面的粒度，就意味着将自己限制到更少或者细节性可能更小的维度上了。具有较少粒度性的模型容易直接遭到深入到细节内容的不可预见的用户请求的攻击。聚集概要性数据作为调整性能的一种手段起着非常重要的作用，但它绝对不能作为用户存取最低层面的细节内容的替代品。遗憾的是，有些权威人士在这方面一直显得含糊不清。他们宣称维度模型只适合于总结性数据，并批评那些认为维度建模方法可以满足预测业务需求的看法。这样的误解会随着细节性的原子型数据在维度模型中的出现而慢慢地消逝。

2.3 第三步选定维度

维度所引出的问题是，“业务人员将如何描述从业务处理过程得到的数据?”应该用一组在每个度量上下文中取单一值而代表了所有可能情况的丰富描述，将事实表装扮起来。如果对粒度方面的内容很清楚，那么维度的确定一般是非常容易的。通过维度的选定，可以列出那些使每个维度表丰满起来的离散的文本属性。常见维度的例子包括日期、产品、客户、账户和机构等。

2.4 第四步确定事实

设计过程的第四步同时也是最后一步，在于仔细确定哪些事实要在事实表中出现。事实的确定可以通过回答“要对什么内容进行评测”这个问题来进行。业务用户在这些业务处理性能度量值的分析方面具有浓厚的兴趣。设计中所有供选取的信息必须满足在第2步中定义的粒度要求。明显属于不同粒度的事实必须放在单独的事实表中。通常可以从以下三个角度来建立事实表[2]：

1、针对某个特定的行为动作，建立一个以行为活动最小单元为粒度的事实表。最小活动单元的定义，依赖于分析业务需求。比如用户的一次网页点击行为、一次网站登录行为，一次电话通话记录。这种事实表，主要用于从多个维度统计，行为的发生情况，主要用于业务分布情况，绩效考核比较等方面的数据分析。

2、针对某个实体对象在当前时间上的状况。我们通过对这个实体对象在不同阶段存储它的快照，比如账户的余额、用户拥有的产品数等，通过这种可以统计实体对象在不同的生命周期中的关键数量指标。

3、针对业务活动中的重要分析和跟踪对象，统计在整个企业不同业务活动中的发生情况。比如会员，可以执行或参与多个特定的行为活动。这种事实表是以上两种事实表的一个总结和归纳。它主要用于针对我们业务中的活动对象进行跟踪和考察。

3 数据仓库总线结构

业务与IT机构一般都对不同业务处理过程的集成很感兴趣。低级别业务分析师在这方面的愿望可能并不是很急迫，但那些处于较高管理阶层的人员非常清楚，在跨业务的范围内进行数据的查看对于提高评估性能是很必要的。众多的数据仓库项目将注意力放在从终端到终端的视角，更好地理解顾客关系的管理需求方面了。如图3.1所示，在某大型国有银行中，在业务价值链的产品运营中，包含许多相关的业务处理，如营销支持、产品运营、风险管控、财务绩效等诸多业务处理。

图3.1业务价值链

如果针对这些业务处理分别进行维度建模、建立独立数据集市，数据集市之间没有共享公共的维度，那么就会出现问题，数据集市就会变成孤立的集市，不能组合成数据仓库，而一致性维度的提出正式为了解决这个问题。图3.2给出了这种维度共享情形的逻辑表示形式.

图3.2业务处理之间的维度共享

共享公共的维度对于设计可以进行集成的数据集市来说，具有绝对的决定性作用。这样做使得来自不同处理的性能度量值可以被组合到单个报表中去。具体的实现过程是，使用多通路的SQL单独查询各个集市，然后基于共同的维度属性对查询结果施加外连接。这个通常称作交叉探查(Drill Across)的连接，在维度表属性具有同一性的情况下是很直接的。

将一组分布在各处的相关业务处理成一个综合的数据仓库来说，总线结构是最基本的要素。

3.1 数据仓库总线结构

很显然，想一个步骤就建成企业数据仓库太令人望而生畏了，然而，将它分成孤立的片段进行建造又会挫败一致性这个压倒一切的目标。要使数据仓库能够长期地成功运转，很需要有一种在体系结构上可以按增量方式建造企业数据仓库的方法。这里提倡使用的一种方法就是数据仓库总线结构。

通过为数据仓库环境定义标准的总线接口，独立的数据集市就可以由不同的小组在不同的时间进行实现。只要遵循这个标准，独立的数据集市就可以插入到一起并有效地共存。所有业务处理将创建一个维度模型系列，这些模型共享一组综合的具有一致性的共用维度，如图3.3。

图3.3 数据仓库总线结构

数据仓库总线结构提供了一种可用于分解企业数据仓库规划任务的合理方法。在体系结构确立阶段的较短时间内，开发团队设计出一整套在企业范围内具有统一解释的标准化维度与事实。这样，数据体系结构的框架就建立起来了。然后，开发团队可以全力以赴去实现严格依照体系结构进行迭代开发的独立数据集市。随着独立数据集市的投入使用，它们像积木块一样搭在了一起。在某种意义上讲，需要存在足够的数据集市才可能为集成的企业数据仓库带来美好的前景。

总线结构使数据仓库管理人员获取两个方面的优势。一方面，他们有了指导总体设计的体系框架，并且将问题分成了可以根据具体时限加以实施的以字节计量的数据集市块。另一方面，各数据集市开发团队遵照体系指南，可以相对独立地异步地开展工作。

3.2 一致性维度

在理解了总线结构的重要性以后，现在可以进一步开发发挥数据仓库总线奠基石作用的一致性标准维度了。一致性维度要么是同一的，要么是具有最佳粒度性与细节性的维度在严格数学意义上的子集。例如，如果建立月维度话，月维度的各种描述必须与日期维度中的完全一致，最常用的做法就是在日期维度上建立视图生成月维度。这样月维度就可以是日期维度的子集，在后续钻取等操作时可以保持一致。

一致的维度具有一致的维度关键字、一致的属性列名字、一致的属性定义以及一致的属性值(将转化成一致的报表标签与分组标识)。如果属性标签的标记不同或者包含不同的值，维度表就不是一致的(不被处理成一致的)。如果客户或者产品维度是按非一致的方式进行配置的，那么，要么分散的数据集市不能在一起使用，要么更为严重的是，试图将它们用在一起将产生无效的结果。

一致的维度以几种不同的样式出现。在最基本的层次上，一致的维度意味着与同它们相连接的每种可能的事实表具有完全相同的内容。连接到产品服务签约事实上的日期维度表与连接到产品服务账户余额事实上的日期维度表是同一的。实际上，一致的维度在数据库范围内可能就是相同的物理表。不过，基于对配有多种数据库平台的数据仓库技术环境的典型复杂性的考虑，维度更有可能同时在每个数据集市都存在拷贝。在其中任何一种情况下，两个数据集市的日期维度都将具有相同数目的行、相同的关键字值、相同的属性标签、相同的属性定义与相同的属性值等。同样，也存在一致的数据内容、数据解释与用户展示。

3.3 一致性事实

到现在为止，我们已经讨论了建立一致性维度以将数据集市维系在一起的中心任务。这涵盖了数据仓库迁移开发所要付出的大量工作努力，余下的努力要投入到建立一致性事实定义上。

通常，像利润、经济资本、产品覆盖度、客户满意度以及其他关键性指标（KPI）需要在企业级共享的度量指标，都是必须保持一致性的事实。一般地说，事实表数据并不在各个数据集市之间明确地进行拷贝。不过，如果事实确实存在于多个位置，那么支撑这些事实的定义与方程(公式)都必须是相同的，假如将它们当作同种事物看待的话，如果这些事实具有相同的标记，那么需要在相同维度环境下对它们进行定义，同时使其在各个数据集市之间具有相同的度量单位。必须在数据命名实践中接受规范的约束，如果不可能做到使事实完全一致，那么应该对不同的解释给出不同的名称。这样可以减少计算中使用不兼容的事实的可能性。

4 总结

本文作为维度建模综述性文章，基于维度建模理论知识并结合某企业的维度建模实践介绍了事实表、维度表、数据仓库总线结构、一致性维度、一致性事实等维度模型中的基本概念以及维度建模的设计过程。

5 参考资料

[1].Ralph Kimball著，谭明金译.《数据仓库工具箱：维度建模的完全指南（第二版）》，电子工业出版社，2003.

2参照3种不同类型的事实表

http://blog.itpub.net/23716337/viewspace-1118751/

Numpy学习小记 qq_58136075 学习
1.NumpyArrayNumpy喜欢用电脑内存中连续的一块物理地址存储数据，因为都是连号的嘛，找到前后的号，不用跑很远，非常迅速。而Python的List并不是连续存储的，它的数据是分散在不同的物理空间，在批量计算的时候，连号的肯定比不连号的算起来更快。2.维度（1）创建数据np.array创建数据，array.ndims数据维数（2）添加数据cars1=np.array([5,10,12,6]
REST 架构风格 maweitao2014 Web 架构 rest
目前基于网络应用的架构风格主要有三种：RPC架构风格将服务器看作是由一些过程组成，客户端调用这些过程来执行特定的任务。SOAP就是RPC风格的一种架构。过程是动词性的（做某件事），因此RPC建模是以动词为中心的。分布式对象架构风格认为服务器是由一些对象和对象上的方法组成，客户端通过调用这些对象上的方法来执行特定的任务。并且客户端调用这些对象上的方法应该就像是调用本地对象上的方法一样，这样开发就可以
给国内的低代码厂商/产品排个序，对其中的前5个进行介绍低代码paas
低代码平台的排序原则和评价标准通常基于以下几个关键维度：功能完整性、技术成熟度、用户体验、市场表现、创新能力、生态支持、行业适配性、安全性。根据这些原则，我们进行2025年国内低代码平台排名。国内低代码平台排名（2025年）得帆微搭宜搭华为云AppCube‌活字格前五名低代码平台详细介绍1.得帆云DeCode低代码aPaaS平台‌●提供‌低代码开发（aPaaS）、融合集成（iPaaS）、主数据管理
Python的struct 2301_82309799 python
struct是Python中的一个内建模块，用于处理C语言结构体与Python数据类型之间的转换。它允许你将Python中的数据打包成二进制格式，或者将二进制数据解包成Python数据类型。这在处理二进制数据（如网络通信、文件读写等）时非常有用。基本用法打包（Packing）使用struct.pack方法将Python数据类型转换为二进制数据。struct.pack的第一个参数是一个格式字符串，用
《需求工程实战指南：从理论到避坑，附大创项目案例》鸿·蒙软件需求管理需求工程软件项目管理需求分析项目实战开发避坑指南
《需求工程实战指南：从理论到避坑，附大创项目案例》本文内容整理自《需求工程——软件建模与分析》（第2版，高等教育出版社），结合个人大创项目“社联云桥”的实践经验，深入解析软件需求工程的核心问题与方法。文中所有项目实例均来自该项目开发过程中的真实场景。一、软件需求问题：高失败率背后的真相表现高项目失败率课本数据：StandishGroup1994年统计显示仅16.2%的项目成功，需求问题（如超支、功
一文读懂Sql Server读写分离和分库分表 Marzlam Sql Server基础知识 sqlserver
读写分离顾名思义就是读和写分离在不同数据库操作减免操作之间影响提升性能读写分离通过将数据库的读操作（SELECT）和写操作（INSERT/UPDATE/DELETE）分发到不同的物理实例上，从多个维度优化资源利用和并发处理能力，从而显著提升整体性能。思路：主从同步发布订阅主库应对写从库应对读可扩展从库数量适用场景：读多写少，对数据实时性要求较高的业务（如电商商品查询）实现建议：优先在读多写少（读写
遗传算法的应用场景和 C# 代码实现 CoreFMEA软件技术算法 c#遗传算法
遗传算法（GeneticAlgorithm,GA）是一种受生物进化启发的智能优化算法，通过模拟自然选择、遗传变异和种群迭代机制，在复杂解空间中高效搜索最优解。其核心思想是将问题的候选解编码为“染色体”，通过选择、交叉、变异等操作模拟生物进化过程，逐步优化种群以逼近最优解。以下从原理、应用场景及技术演进三个维度展开分析：一、遗传算法的核心原理与机制编码与解码将问题参数映射为二进制或实数编码的“染色体
深度学习框架PyTorch——从入门到精通（10）PyTorch张量简介 Fansv587 深度学习 pytorch 人工智能经验分享机器学习 python
这部分是PyTorch介绍——YouTube系列的内容，每一节都对应一个youtube视频。（可能跟之前的有一定的重复）创建张量随机张量和种子张量形状张量数据类型使用PyTorch张量进行数学与逻辑运算简单介绍——张量广播关于张量更多的数学操作原地修改张量复制张量迁移到加速器操作张量形状改变维度数量NumPy桥接本节YouTube视频地址：点击这里张量是PyTorch中的核心数据抽象。首先，让我们
DeepSeek-V3-0324更新详解与入门指南：从技术突破到实际应用 Tee xm 语言模型
DeepSeek-V3-0324更新详解与入门指南：从技术突破到实际应用一、更新概述：开源AI的里程碑式升级2025年3月24日，DeepSeek推出的V3-0324版本（参数规模6850亿）虽定位为"小版本迭代"，却在代码能力、推理效率、开源协议三大维度实现跨越式发展。此次更新不仅让开源模型首次达到闭源顶级水平（如Claude3.7Sonnet），更通过MIT协议彻底解除商用限制，标志着AI技术
2.9 软件质量控制与质量保证 Tom Boom 25年软考架构师-2.项目管理系统架构职场和发展
软件质量双引擎：质量控制(QC)与质量保证(QA)深度解析一、QC与QA的本质区别时间维度执行维度质量活动阶段性检查QA实时监控QC质量审计过程分析缺陷检测问题溯源核心特征对比表维度质量保证(QA)质量控制(QC)执行频率阶段里程碑检查（如迭代结束）实时持续监控关注对象生产过程与方法论交付成果与具体产出核心目标预防缺陷产生识别并消除已存在缺陷典型工具过程审计/PDCA循环测试用例/统计抽样时间特性
3ds Max 2013 官方许可与安全使用指南御坂10057
本文还有配套的精品资源，点击获取简介：3dsMax2013是Autodesk公司开发的3D建模、动画和渲染软件，被广泛应用于多个行业。本简介提供了软件的核心功能介绍，强调了使用注册机的法律和安全风险，并鼓励用户通过合法途径获取和使用软件。1.3dsMax2013产品概述3dsMax2013是Autodesk公司推出的一款专业三维建模、动画和渲染软件。自其首版发布以来，3dsMax已经成为了游戏开发
echarts柱形图鼠标悬停显示数值_通过常用的柱形图，了解PowerBI的做图流程活鸭肉
前面通过大量时间学习那些可能会让你感觉枯燥的数据处理、数据建模等内容，到这里我们开始涉足PowerBI中最让人心动的环节：数据可视化。第一篇先在PowerBI中制作常见的柱形图，简单来说，柱形图就是利用水平的柱子表示不同分类数据的大小，与之类似的是条形图，它就是竖的柱形图，或者说把柱形图顺时针转动90度就成了条形图，使用以及作图方式类似，因此本文介绍的柱形图的各项设置也适用于条形图，对它不再作单独
锂电池寿命预测 | Matlab基于拓展卡尔曼滤波算法的电池寿命预测模型算法如诗电池建模(RUL BC)matlab 算法开发语言
一、锂电池寿命预测的核心问题与定义锂电池剩余使用寿命（RUL）定义为电池容量衰减至额定容量80%时的剩余充放电循环次数（失效阈值）。预测RUL的关键在于准确建模容量衰减过程，并结合实时状态参数（如电压、电流、温度）进行动态修正。二、拓展卡尔曼滤波（EKF）在锂电池寿命预测中的原理1.EKF的基本思想非线性系统处理：通过一阶泰勒展开对非线性系统进行局部线性化，近似处理电池退化过程中的非线性特征。双滤
电子硬件工程师谈耦合设计 CircuitWizard 硬件工程师成长之路硬件工程
耦合（Coupling）是电路或系统设计中一个核心概念，涉及能量或信号在不同模块、电路或器件之间的传递方式。耦合机制的选择直接影响系统的性能、稳定性、抗干扰能力以及成本。以下从多个维度展开讨论：1.耦合的核心类型与硬件实现（1）直接耦合（DirectCoupling）原理：通过导线或电阻直接连接电路，传递直流和交流信号。硬件特点：优点：无频率限制，适合低频或直流系统（如运算放大器级联）。缺点：易受
使用esri的gis-tools-for-hadoop工具包，在hive中实现空间计算从地图看世界 GIS大数据 hadoop hive r语言
以基站工参表实现空间关系判断（点在多边形内）为例，使用ESRI的gis-tools-for-hadoop工具包，在hive中实现数据空间计算的几个主要步骤：上传空间地理实体数据到hadoop集群；hive中创建地理实体表；与基站工参表做空间判断（点在多边形内）。一、HiveHive是基于Hadoop的数据仓库，采用MPP架构（大规模并行处理），存储结构化数据，提供sql查询功能，sql语句转换为M
Hive UDF开发实战：构建高性能JSON生成器莫叫石榴姐收获不止一点 hive json hadoop 数据仓库大数据 sql
目录一、背景与需求场景二、开发环境准备2.1基础工具栈2.2Maven依赖配置三、核心代码实现3.1UDF类骨架3.2高级类型处理四、部署与使用4.1打包与注册4.2使用示例五、性能优化技巧六、功能扩展方向七、生产环境注意事项八、性能对比测试九、总结与展望往期精彩一、背景与需求场景在大数据生态中，Hive作为主流的数据仓库工具，在处理结构化数据时表现出色。但当我们需要将Hive查询结果与其他JSO
R语言基本语法 CodeMaven r语言开发语言 R语言
R语言基本语法R语言是一种强大的编程语言和环境，广泛应用于数据分析、统计建模和可视化等领域。本文将介绍R语言的基本语法，包括变量赋值、数据类型、运算符、条件语句、循环语句以及函数定义和调用等内容。变量赋值在R语言中，可以使用赋值运算符"<-“或”="来为变量赋值。例如，将数值10赋给变量x，可以使用以下代码：x<-10数据类型R语言支持多种数据类型，包括数值型、字符型、逻辑型、因子型和向量等。数值
弱网测试：全链路实战、高阶策略与自动化落地 jingling1007 测试自动化运维网络协议 python 开发语言 nginx
在移动互联网时代，网络环境的不确定性成为用户体验的“隐形杀手”。弱网测试不仅是质量保障的必备环节，更是提升用户留存率和业务转化率的战略手段。本文将从工具链深度配置、复杂场景模拟、性能优化底层逻辑和自动化流水线集成四个维度，彻底解析弱网测试的完整方法论，并给出可直接复用的代码、配置脚本和实战案例。一、弱网环境模拟：工具链深度配置与参数调优1.工具链选择与对比工具类型代表工具核心能力适用场景配置复杂度
Apache Iceberg 解析，一文了解Iceberg定义、应用及未来发展镜舟科技 apache Iceberg StarRocks 元数据数据湖湖仓一体数据分析
什么是Iceberg？ApacheIceberg是一种开源的表格式（TableFormat），专为超大规模数据分析场景设计，通过标准化数据存储规范与访问协议，解决了传统数据湖在元数据管理、事务控制、查询性能等方面的核心痛点。以下从六个维度全面解析其技术原理、应用场景与最佳实践。一、为什么需要新的表格式？传统数据湖面临的痛点数据治理与管理能力不足：传统数据湖在数据治理和管理方面存在明显短板，缺乏严格
多领域算法安全优化与创新应用智能计算研究中心其他
内容概要随着人工智能技术在多领域的深度渗透，算法安全与创新应用已成为技术发展的核心议题。本文从金融风控、医疗影像分析及自动驾驶等典型场景切入，系统梳理联邦学习、生成对抗网络（GAN）、量子算法等前沿技术的优化路径与应用边界。针对算法可解释性不足、数据隐私泄露及模型效率瓶颈等共性问题，重点探讨特征工程优化、超参数动态调整及多维度模型评估体系的构建策略。技术方向典型应用场景安全优化方向技术挑战联邦学习
H200应用实践与性能解析智能计算研究中心其他
内容概要H200作为新一代高性能计算硬件平台，其架构设计与应用效能已成为工业自动化与数据中心领域的重要研究对象。本文从硬件架构革新、异构计算协同、场景化应用三个维度展开分析，系统梳理该平台在计算密度、实时响应、能效管理等方面的技术突破。通过对比前代产品的核心参数差异（如表1所示），着重解析其实现42%计算吞吐量提升的关键路径，同时探讨多计算单元动态调度机制对复杂场景的适应性优化策略。性能指标H20
RTX4070Ti架构解析与效能实测智能计算研究中心其他
内容概要本文以NVIDIAGeForceRTX4070Ti显卡为核心研究对象，系统性地拆解其基于AdaLovelace架构的技术革新与性能表现。通过整合理论分析与实测数据，文章将从核心规格、显存配置、基准测试、游戏帧率及能效管理五大维度展开论证。具体而言，7680个CUDA核心的并行计算效率、12GBGDDR6X显存的带宽利用率，以及DLSS3与光线追踪技术的协同优化，将成为重点探讨方向。为直观呈
算力网络战略布局与数字未来演进智能计算研究中心其他
内容概要算力网络作为数字经济发展的核心基础设施，正通过技术融合与场景创新重构全球竞争格局。当前，算力网络战略布局聚焦三大维度：异构计算架构优化、边缘-云端协同调度以及量子计算前瞻部署，形成覆盖“云-边-端”的全域算力资源池。以“东数西算”工程为例，通过构建八大枢纽节点与十大数据中心集群，实现算力资源跨区域动态调配，支撑工业互联网、智慧医疗等高实时性场景需求。关键维度技术特征典型应用场景异构计算架构
RTX 3060显卡评测及性能解析智能计算研究中心其他
内容概要RTX3060显卡作为NVIDIA推出的一款中高端显卡，旨在满足游戏玩家和创作者的需求。此显卡基于Ampere架构，具有更高的性能和更好的能效比。本文将从多个方面对RTX3060进行全面评测，以帮助用户了解其在实际使用中的表现。接下来，我们会详细探讨RTX3060的游戏性能，这包括其在主流游戏中的帧率表现等。其次，我们将分析其图形处理能力，评估其在图形密集型应用中的表现，比如3D建模和视频
V100加速引擎与效能突破智能计算研究中心其他
内容概要作为人工智能算力基础设施的关键组件，V100加速引擎通过系统性架构革新实现了性能与能效的协同突破。其核心架构创新可归纳为三个维度：首先，TensorCore引入稀疏化计算与动态张量切片技术，显著提升矩阵运算密度；其次，混合精度计算通过FP16/FP32自适应精度调度算法，在模型收敛性与计算效率间达成平衡；最后，第三代NVLink互联技术以300GB/s双向带宽构建多卡协同拓扑，减少数据搬运
Power BI如何对度量值分组统计？ MetalTrader BigData 数据分析
如何对度量值进行分组统计，比如有一个环比度量值，怎么将环比划分为几个档次，然后统计数量分别是多少？其实度量值只是一个值，并不存在对它分组的问题，真正的问题应该是，如何对某个维度分组统计，只是统计的依据恰好是一个度量值而已。以常用的订单数据模型为例，已经写好了一个环比的度量值，计算出了每个产品的环比：很多人提的问题就是如何对环比进行分组统计，环比负增长的有几个，增长20%以内的有几个，超过20%的有
数据清洗三部曲：缺失值填充、重复值剔除与类型转换实战指南 ……-…… python pandas
数据清洗是数据分析过程中最关键的环节之一，直接影响后续建模和决策的可靠性。本文将深入解析数据清洗的三个核心操作：缺失值填充、重复值剔除和类型转换，并提供完整的Python代码实战示例。一、缺失值处理：让数据重获新生1.1缺失值检测使用pandas快速定位缺失值：importpandasaspdimportnumpyasnp#创建示例数据集data={'订单ID':[1001,1002,1003,1
【栅格地图路径规划】基于小龙虾算法COA实现机器人栅格地图路径规划（目标函数：最短距离）附Matlab代码 Matlab科研辅导帮算法机器人 matlab
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍摘要:本文研究了在栅格地图环境下，利用小龙虾算法(CrabOptimizationAlgorithm,COA)进行机器人路径规划的问题。目标函数设定为路径长度最小化。本文首先简述了栅格地图路径规划的基本概念和挑战，
Data Warehouse 系列之构建业务总线矩阵数字游牧人0v0 矩阵 spark 数据库
一、什么是数仓总线矩阵？数据仓库总线矩阵（DataWarehouseBusMatrix）是数据仓库设计中一个重要工具。它用于定义数据仓库中的业务过程和数据维度之间的关系，提供了数据模型的整体视图以及数据仓库中各个数据源之间的关系。总线矩阵通常是一个表格，其中每一行代表一个业务过程，每一列代表公共维度（一致性维度），还包括业务过程与维度间的联系，图中每个叉号表示该业务过程与维度具有关联关系，也就是我
AnalyticDB for PostgreSQL:阿里云强大的MPP数据仓库服务 llzwxh888 postgresql 阿里云数据仓库 python
标题:AnalyticDBforPostgreSQL:阿里云强大的MPP数据仓库服务内容:AnalyticDBforPostgreSQL:阿里云强大的MPP数据仓库服务引言在当今数据驱动的时代,高效处理和分析海量数据变得至关重要。阿里云推出的AnalyticDBforPostgreSQL就是为此而生的强大工具。本文将深入介绍AnalyticDBforPostgreSQL,探讨其核心特性、使用方法,
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To git@git.dianrong.com:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to 'git@git.dianron
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

维度建模的基本概念及过程

你可能感兴趣的:(数据仓库,维度建模)