萧萧兮24

多维数据模型总结和归纳

开源OLAP引擎：Mondrian

在Mondrian里面的cube是以XML的形式定义的。(MDX)
Mondrian本身是不存储数据的，通过MDX语句（一个类似于SQL的查询语言）来获取数据，Mondrian 运行的时候要连数据库，并且还要有一个数据模型配置文件（Mondrian叫schema），其实就是一个取数据的规则；由此可知Mondrian只不过是把MDX 翻译成了SQL然后从数据库中把数据拿出来给用户
Mondrian是一个开放源代码的Rolap服务器，使用java开发的。它实现了xmla和jolap规范，而且自定义了一种使用mdx语言的客户端接口。Mondrian是olap服务器，而不是数据仓库服务器，因此Mondrian的元数据主要包括olap建模的元数据，不包括从外部数据源到数据库转换的元数据。也就是说Mondria的元数据仅仅包括了多维逻辑模型，从关系型数据库到多维逻辑模型的映射，存取权限等信息。在功能上，Mondrian支持共享维和成员计算，支持星型模型和雪花模型的功能。

Mondrian 是一个开源项目，是开源项目Pentaho的一部分，是一个用Java写成的OLAP引擎。它实现了MDX语言、XML解析、JOLAP规范。

在多维分析中，关注的内容通常被称为度量(Measure)，而把限制条件称为维度(Dimension)。
多维分析就是对同时满足多种限制条件的所有度量值做汇总统计。包含度量值的表被称为事实表(Fact Table)，描述维度具体信息的表被称为维表(Dimension Table)

它从RDBMS和其它数据源读取数据并把数据聚集在内存缓存中，然后经过Java API用多维的方式对结果进行展示，同时可以不写SQL就能分析存储于SQL 数据库的庞大数据集，可以封装JDBC数据源并把数据以多维的方式展现出来。

整体的项目架构，四个大部分Schema manager、Session Manager、Dimension Manager、Aggregate Manager

 Schema Manager：与初始化紧密相关。主要是一些重要的数据结构如缓存池的构建以及多维模型的生成。
 Session Manager：最为重要的一个部分。接受MDX查询、解析MDX，返回结果。
 Aggregate Manager：实现了对聚集表的管理。主要是对OLAP缓存的管理，属于性能优化的部分。
 Dimension Manager：维度的管理。实现多维模型中维度和关系数据库表中列的映射，在Schema Manager也有部分功能处理这些映射。

Mondrian通过Schema来定义一个多维数据库，它是一个逻辑概念上的模型，其中包含Cube（立方体）、Dimension（维度）、Hierarchy（层次）、Level（级别）、Measure（度量），这些被映射到数据库物理模型。Mondrian中Schema是以XML文件的形式定义的。

Cube（立方体）由维度构建出来的多维空间，是一系列Dimension和Measure的集合区域，它们共用一个事实表。
Dimension（维度）观察数据的一种角度，维度可以理解为立方体的一个轴。是一个Hierarchy的集合，维度一般有其相对应的维度表，它由Hierarchy（层次）组成，而Hierarchy（层次）又是由组成Level（级别）的。
Hierarchy（层次）是指定维度的层级关系的，如果没有指定，默认Hierarchy里面装的是来自立方体中的真实表。
Level（级别）是Hierarchy的组成部分，使用它可以构成一个结构树，Level的先后顺序决定了Level在结构树上的位置，最顶层的 Level 位于树的第一级，依次类推。
Measure（度量）是我们要进行度量计算的数值，支持的操作有sum、count、avg、distinct-count、max、min等。

 立方体：由维度构建出来的多维空间，包含了所有要分析的基础数据，所有的聚合数据操作都在立方体上进行。
 维度：就是观察数据的一种角度。在这个例子中，路线，源，时间都是维度，
 维度成员：构成维度的基本单位。对于时间维，例如它的成员分别是：第一季度、第二季度、第三季度、第四季度。
 层次：维度的层次结构，要注意的是存在两种层次：自然层次和用户自定义层次。对于时间维而言，(年、月、日)是它的一个层次，(年、季度、月)是它的另一个层次，一个维可以有多个层次，层次可以理解为单位数据聚合的一种路径。
 级别：级别组成层次。对于时间维的一个层次(年、月、日)而言，年是一个级别，月是一个级别，日是一个级别，显然这些级别是有父子关系的。
 度量值：要分析展示的数据，即指标。如图1中一个cell中包含了两个度量值：装箱数和截至时间，可以对其进行多维分析。
 事实表：存放度量值的表，同时存放了维表的外键。所有的分析用的数据最终都是来自与事实表。
 维表：一个维度对应一个或者多个维表。一个维度对应一个维表时数据的组织方式就是采用的星型模式，对应多个维表时就是采用雪花模式。雪花模式是对星型模式的规范化。简言之，维表是对维度的描述。
 MDX查询：多维模型的查询语言MDX(MDX是微软发布的多维查询语言标准),它的语法与SQL有很多相似之处：select {[Measures].[Salary]} on columns, {[Employee].[employeeId].members} on rows from CubeTest对于这条语句，COLUMNS 和 ROWS都代表查询轴，其中COLUMNS代表列轴，ROWS代表行轴。COLUMNS又可以写成0，ROWS又可以写成1，当只有两个查询轴时，可以理解为结果的展现格式是一个平坦二维表。这条语句的含义就是查询名字为CubeTest的立方体，列显示Measures维度的salary，行显示 Employee维度employeeId级别的所有成员，那么得出的结果就是employeeId所有成员的salary，也就是所有员工的薪酬。具体语法规范和帮助文档可以参考微软的用户文档。

Mondrian缓存控制

为了提高海量数据下的查询响应速度，Mondrian自动将首次查询的结果缓存到内存中，之后的查询如果命中缓存内容，则不再访问数据库。这种实现方式有点自不必说，
但是在实现实时OLAP时会存在问题，实时OLAP中数据变化频繁导致缓存中的数据不是最新的。
缓存控制接口：为了做到不重启OLAP Server也能更新缓存，Mondrian提供了一系列的刷新缓存的接口，支持指定清除指定schema的元数据缓存、查询结果缓存；清除动作可以是全部清除也可以是部分清除（可以指定清除某个维度下某级别成员的相关内容）。
数据变化监听： Mondrian提供了缓存控制接口（被动响应），但对于实现我们的目标“实时OLAP”来说我们就需要自己实现一个数据变更监听的模块，来监听数据变化，一旦数据有变化就发起变更事件，更新Mondrian引擎的缓存。目前初步考虑实现方案为ETL工具在数据处理结束后通知OLAP引擎。引擎收到数据变更通知后做清理缓存的动作。

Jpivot：简单说是一个展示工具，有人说是个标签库，类似于struts。只是用来显示mondrian传来的xml数据，将其渲染成我们熟悉的html。对于层次性很强的报表，XML渲染的确有他的魅力，免去了繁杂的js痛苦。总之mondrian是用来研究和提取数据，jpivot是用来显示数据。至于jpivit是如何显示数据，主要是通过xls+xml。 Jpivot本身的界面是很难看的。
Pentaho、Saiku、Jpivot都用到了Mondrian做为其多维数据处理的服务器，网上的很多关于Mondrian的文章也都是以Jpivot来进行分析的，
不过Jpivot已经被抛弃了作者也不再更新了，并且Jpivot只能支持到Mondrian3.5 所以对于新版本的Mondrian一定是不能用Jpivot了（不过Jpivot有一个替代品Pivot4j这个还在持续维护），
这里还是推荐大家用Saiku或者Pivot4j
如果我们不想用Saiku、pivot4j 这样现成的东西（毕竟有很多东西我们用不到）那么可以把Mondrian 集成到我们自己的应用中去

模型配置文件编写

http://mondrian.pentaho.com/d...
personDemo.xml


  
     
     
         
            
     
 
                   
        
         
    
                 
                                               
        

        
    
    
                 
            
        

        
    
    
                 
            
        

        
    
     
                 
            
        

        
    
    
                 
            
        

        
    
    
                 
            
        

        
           
           
    
 
  
        
 
    
     
       
     
    
   
  对应表： 
  CREATE TABLE `person` (
`userid`  varchar(100) ,
`department`  varchar(100) ,
`username`  varchar(100),
`sex`  varchar(100) ,
`nationality`  varchar(100),
`post`  varchar(100),
`zyjslb`  varchar(100),
`zyjsdj`  varchar(100) ,
`zhixi`  varchar(100),
`xueli`  varchar(100) ,
`age`  int(10) ,
PRIMARY KEY (`userid`)
) 
  MDX查询语句：select NON EMPTY {[Measures].[人数]} on columns, NON EMPTY {([部门].[所有部门], [职系].[所有职系], [专业技术资格类别].[所有专业技术资格类别], [专业技术资格等级].[所有专业技术资格等级], [学历].[所有学历], [民族].[所有民族], [性别].[所有性别])} ON rows from Person 
    
  模型配置文件XML元素分析 
  http://www.biaodianfu.com/ola...
 Schema
 Schema 定义了一个多维数据库。包含了一个逻辑模型，而这个逻辑模型的目的是为了书写 MDX 语言的查询语句。这个逻辑模型实际上提供了这几个概念： 
   
    Cubes: 立方体
  
    Dimensions: 维度
  
    Hierarchies: 层次
  
    Levels: 级别
  
    Members: 成员
 而一个schema 文件就是编辑这个 schema 的一个xml 文件。在这个文件中形成逻辑模型和数据库物理模型的对应。
  
   
  Cube
 一个 Cube 是一系列维度 (Dimension) 和度量 (Measure) 的集合区域。在 Cube 中， Dimension 和 Measure 的共同地方就是共用一个事实表。 Cube 中的有以下几个属性： 
   
    name: Cube 的名字。
  
    caption: 标题 , 在表示层显示的。
  
    cache: 是否对 Cube 对应的实表用 mondrian 进行存储 , 默认为 true。
  
    enabled: 是布尔型的 , 如果是被激活 ,Cubes 就执行 , 否则就不予理睬，默认为 true。
  
    Cube 里面有一个全局的标签定义了所用的事实表的表名。
  
   
  Dimension
 他是一个层次（ Hierarchies ）的集合 , 维度一般有其相对应的维度表 . 他的组成是由层次(Hierarchies)而层次(Hierarchies)又是有级别(Level)组成 . 其属性如下： 
   
    name: Dimension 的名称。
  
    type: 类型，有两个可选的类型： StandarDimension 和 TimeDimension ，默认为StandardDimension。
  
    caption: 标题 , 在表示层显示的UsagePrefix加前缀 , 消除歧义。
  
    foreignKey: 外键，对应事实表中的一个列，它通过  元素中的主键属性连接起来。
  
   
  Hierarchy
 你一定要指定其中的各种关系,如果没有指定,就默认 Hierarchy 里面装的是来自立方体中的真实表 . 属性如下： 
   
    name: Hierarchy 的名称，该值可以为空，为空时表示 Hirearchy 的名字和 Dimension 的名字相同。当一个 Dimension 有多个 Hierarchy时，注意 name 值要唯一。
  
    hasAll: 布尔型的 , 决定是否包含全部的成员 member。
  
    allMemberName: 所有成员的名字 , 也就是总的标题 , 例如： allMemberName= “全部产品”。
  
    allLevelName: 所有级别的名字，它会覆盖其下所有的 Member 的 name 和所有的 Level 的 name 属性的值。
  
    allMemberCaption: 例如 : allMemberCaption= “全部产品”这个是在表示层显示的内容。
  
    PrimaryKey: 通过主键来确定成员，该主键指的是成员表中的主键，该主键同时要与 Dimension 里设置的 foreignKey 属性对应的字段形成外键对应关系。
  
    primaryKeyTable: 如果成员表不只一个，而是多个表通过 join 关系形成的，那么就要通过这个属性来指明 join 的这些表中，哪一个与Dimension 里设置的foreignKey 属性形成外键关系。通过该属性来指明主表。
  
    caption: 标题 , 在表示层显示的。
  
    defaultMember
  
    memberReaderClass 设定一个成员读取器，默认情况下 Hierarchy 都是从关系型数据库里读取的，如果你的数据不在 RDBMS 里面的话，你可以通过自定义一个member reader 来表现一个 Hierarchy 。
  
   
  Level
 级别 , 他是组成 Hierarchy 的部分。属性很多，并且是 schema 编写的关键，使用它可以构成一个结构树， Level 的先后顺序决定了 Level在这棵树上的的位置，最顶层的 Level 位于树的第一级，依次类推。 Level 的属性如下： 
   
    name: 名称
  
    table: 该 Level 要使用的表名
  
    column: 用上面指定的表中某一列作为该 Level 的关键字
  
    nameColumn: 用来显示的时候使用，如果不定义，那么就采用上面的 column 的值来进行显示。
  
    oridinalColumn: 定义该 Level 上的成员的显示顺序，如果不指定，那么采用 column 的值。
  
    parentColumn: 在一个有父 – 子关系的 Hierarchy 当中，当前 Level 引用的是其父成员的列名。好比是一张部门表，在一张表里表现部门的上下级关系，一个是主键，肯定还有一个字段为连接到该主键的外键的列名，这里的 parentColumn 指的就是这个列名。
  
    nullParentValue: 如果当前的 Level 是有上下级关系（设置了 parentColumn 属性），如果该 Level 又处于顶级，我们需要将顶级的数据取出来，这里指的是位于顶级的父成员的值，有些数据库不支持 null, 那么也可以使用0或-1 等，这就表示顶级的成员的父 ID 为0 或为-1 。
  
    type: 数据类型，默认值为 string 。当然还可以是 Numeric 、 Integer 、 Boolean 、 Date 等。
  
    uniqueMembers: 该属性用于优化产生的 SQL ，如果你知道这个级别和其父级别交叉后的值或者是维度表中给定的级别所有的值是唯一的，那么就可以设置该值为 true ，否则为 false 。
  
    levelType: 该 Level 的类型，默认为 regular （正常的），如果你在其 Dimension 属性 type 里选择了 TimeDimension 那么这里就可以选择 TimeYears 、 TimeQuarters 、 TimeMonth 、 TimeWeeds 、 TimeDays 。
  
    hideMemberIf: 在什么时候不隐藏该成员，可选的值有三个： Never 、 IfBlankName 、 IfParentName
  
    approxRowCount: 该属性可以用来提高性能，可以通过指定一个数值以减少判断级别、层次、维度基数的时间，该属性在通过使用 XMLA 连接Mondrian 很有用处。
  
    caption: 标题 , 在表示层显示的。
  
    captionColumn: 用来显示标题的列。
  
    formatter: 该属性定义了 Member.getCaption() 方法返回的动作值，这里需要是一个实现了 mondrian.olap.MemberFormatter 接口的类，用来对Caption地值进行格式化。
  
   
  Join
 对于一个 Hierarchy 来说，有两种方式为其指定：一种是直接通过一个 Table 标签指定；一种是通过 Join 将若干张表连接起来指定。一旦采用 Join 的话，那么就要在 Hierarchy 里的 primaryKeyTable 属性指定主表。 
  Measure 
   
    Measure 就是我们要计算的数值，操作的核心。它的属性如下：
  
    name: 名称。
  
    aggregator: 要采用的计算函数。
  
    column: 要计算的列名。
  
    formatString: 计算结果的显示格式。
  
    visible: 是否可见。
  
    datatype: 数据类型，默认为 Numeric
  
    formatter: 采用类来对该 Measure 的值进行格式，具体参考 Level 的 formatter 属性。
  
    caption: 标题，用来显示时使用。
 概括总结一下：在多维分析中，关注的内容通常被称为度量(Measure)，而把限制条件称为维度(Dimension)。多维分析就是对同时满足多种限制条件的所有度量值做汇总统计。包含度量值的表被称为事实表(Fact Table)，描述维度具体信息的表被称为维表(Dimension Table)，同时有一点需要注意：并不是所有的维度都要有维表，对于取值简单的维度，可以直接使用事实表中的一列作为维度展示。
  
   
  什么是聚合表（Aggregate Table） 
  下描述了一个数据库的结构。该数据库中共有五张表，分别是Sales表，Customer表，Time表，Product表和Mfr表。这个数据库的作用是存储每一笔交易：包括这笔交易发生在什么时间，交易的产品类型，进行交易的客户信息，交易方式，交易了多少件产品以及成交金额是多少。
 模型中有一张事实表（Sales），两个度量列（units和dollars），四个维度表（Product, Mfr, Customer, Time）。在这个星型模型的最顶层，我们创建了以下多维模型： 
   
    [Sales]立方体包含[Unit sales]和[Dollar sales]两个度量值；
  
    [Product]维度包含[All Products]，[Manufacturer]，[Brand]，[Prodid]四个级别；
  
    [Time]维度包含[All Time]，[Year]，[Quarter]，[Month]，[Day]五个级别；
  
    [Customer]维度包含[All Customers]，[State]，[City]，[Custid]四个级别；
  
    [Payment Method]维度包含[All Payment Methods]，[Payment Method]两个级别。
 假设现在我们要对交易做一些统计，例如，某一件特定产品在某一个时间段内以某种特定方式总共卖出多少件或多少钱，这时成交产品数和成交金额是我们最终关注的内容，其他的因素例如时间、产品、方式等都只是对我们最终关注内容进行统计的限制条件。
  
   
  在上面的例子中，限制条件有时间、产品类型、用户类型和交易方式，
 有时我们并不需要同时使用所有的限制条件，例如，当我们只想知道指定产品的成交总金额时，那么除了产品类型之外其他三个限制条件都是多余的，而在查询时，需要在整个事实表中执行查询，找出产品类型为指定类型的所有产品然后再做统计，为了提高查询效率，我们可以新建一张表，这张表按照产品类型把事实表中的行合并到一起，合并的方式是抛弃其他维，把度量值按特定的方式（max，min，sum，count或avg）整合到一起。这种表被叫做聚合表(Aggregate Table)。 
  聚合表的应用场景
 事实表中的行构成了一个集合，每一维（或若干维）按照其取值的不同可以将事实表这个全集划分成若干个不相交的子集。聚合表所做的工作实际上就是把划分出的子集归为数据库表中的一行，这样做一方面可以减少数据库表的行数，另一方面也省去了查询时所需要做的一些统计工作，从而提高查询时的效率。 
   
    使用Mondrian做大数据量（如>100W行）的OLAP分析时，考虑是否可以使用聚合表进行优化。
  
    然而Mondrian的优化方式又不限于聚合表这一种，是否要进行聚合表优化，要根据实际情况来决定。
  
    Mondrian目前并不提供对聚合表的数据同步机制，如果要做实时OLAP，需要自己实现聚合表和事实表中的数据同步。
 聚合表的定义见：http://www.cnblogs.com/panfen..
  
   
  Schema-workspace图形化配置模型文件 
  http://sourceforge.net/projec...
http://blog.csdn.net/athenaer... 
  其他参考：http://blog.csdn.net/zhangzho...
http://blog.csdn.net/xiaolang...
http://wushexu.iteye.com/blog... 
    
  MDX 
  MDX（Multidimensional Expressions）是多维 数据库（OLAP 数据库）的查询语言.
 Mondrian是java中的一个OLAP与MDX解析引擎，它会解析MDX，转换成SQL来查询关系数据库（可能是多条查询）。
 MDX 的内容很多，功能强大，这里只介绍最基础和最重要的部分。 
  1 基本语法 
  以下是里两条MDX 查询语句及其查询结果
  语句1： 
  SELECT
{ [Measures].[Dollar Sales], [Measures].[Unit Sales] } on columns,
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on rows
FROM [Sales]
WHERE ([Customer].[MA])
 
  语句 2 
  SELECT
{ [Time].[Q1, 2005], [Time].[Q2, 2005], [Time].[Q3, 2005] } on columns,
{ [Customer].[MA], [Customer].[CT] } on rows
FROM Sales
WHERE ( [Measures].[Dollar Sales] )
 
  第一条语句查询对[Customer].[MA]这个客户在 2005 年第一、第二季度的销售额、报表期销售额。
 第二条语句查询对[Customer].[MA], [Customer].[CT]这两个客户在 2005 年前三个季度的销售额。
 可以看到，mdx 有类似 sql 的结构，同样有 select、from、where 这三部分。但也有很多不同。 
   
    Select 字句指定一个集合，把它放到某个轴上。
  
    From 字句说明要从哪个数据立方体来查询。
  
    方括号（[]）用于维度名、层次名、维度成员名，避免名字和函数混淆（函数名
 是不加方括号的）。
  
    Where 字句指定切片，即对不出现在轴上的维度的成员的限定。
  
    Mdx 没有 group by 字句。其实分组是隐含的。
  
    Mdx 没有 order by 字句。排序只会对某个轴进行，通过使用排序函数。
  
    和 sql 一样，mdx 也是不区分大小写的，并且可以随意分行。
  
    Mdx 中也可以包含注释，除了支持 sql 的--注释外还支持//和/ ... /注释。
  
   
  2 轴 
  用 on {axis}语法来把维度分配到轴（Axis，复数 Axes）上，一个查询可以有多个轴。
 不同轴用逗号分隔，分配的顺序是没关系的。但如果把轴调换（如 A on columns, B on rows 改成 A on rows, B on columns），结果的行和列也会转置过来。
 轴用 axis(0)，axis(1)，axis(2)...表示，前五个轴可以使用别名 Columns，Rows，Pages，Chapters，Sections。因此 on Columns 等价于 on axis(0)。超过 5 个轴时只能用 axis(5)，axis(6)...来表示（极少会需要这么多的轴）。
 很多实现（包括 Mondrian）支持仅用数字表示轴，因此 on Columns 可以写成 on 0。axis(0)和别名表示可以混用，例如下面语句是可以的： 
  SELECT
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on axis(0),
{ [Customer].[MA], [Customer].[CT] } on rows
FROM Sales
 
  轴必须从 0 开始，并且连续，不能跳过。下面的是不可以的： 
  SELECT
{ [Time].[Q1, 2005], [Time].[Q2, 2005] } on rows,
{ [Customer].[MA], [Customer].[CT] } on pages
FROM Sales
 
  错误，跳过了轴 axis(0)（columns） 。 
  在大多查询中，轴一般是两个。一个轴也可以，甚至 0 个轴。
 如果轴多于两个，就没法在平面上表示。如果维度多于两个，需要把多个维度（交叉后）放到一个轴上。 
  3 切片维度 
  切片（Slice）维度就是出现在 MDX 语句 WHERE 子句中的维度，跟 SQL 一样，表示对数据集的限制。例如 MDX 语句：
 SELECT
 {[Product].[All Products].[Food], [Product].[All Products].[Drink]} ON COLUMNS
 FROM [Sales]
 WHERE [Time].[Year].[2005]
 限制了查询的数据范围，只限于 2005 年。语法和 SQL 不一样，[Time].[Year].[2005]（是一个元组）本身就表示了一个条件。这可以看成对数据立方体从某个方向进行切片（从 Time维度的方向）得到一个子立方体，因此叫切片。
 切片维度不会出现在轴上。上面的时间维度不会出现在轴上。
 一个维度不能同时出现在轴维度（SELECT 的维度）和切片维度上。
 切片器维度只可接受评估为单个元组的表示式 
  默认成员 
  如果一个维度既没有出现在轴维度上，也没有出现在切片维度上，就会用维度的（默认层次的）默认成员进行切片。一般维度的默认成员是“All xxx” ，因此默认是对这个维度所有成员的数据进行聚集操作。例如：
 SELECT {[Time].[Year].Members } ON COLUMNS
 FROM [Sales]
 Product 维度没有出现在轴维度和切片维度上。如果 Product 的默认成员是[All Products]，就会查询所有产品的销售额汇总，符合人的习惯。上面语句相当于：
 SELECT {[Time].[Year].Members } ON COLUMNS
 FROM [Sales]
 WHERE [Product].[ All Products]
 维度有一个函数 defaultMember 可以返回维度的默认成员，因此也相当于：
 SELECT {[Time].[Year].Members } ON COLUMNS
 FROM [Sales]
 WHERE [Product]. defaultMember
 除了 Product 维度，其他没有出现在轴维度和切片维度上的维度也是一样的。 
  度量维度（为了一致可以把度量看成一个维度：Measures 维度）是没有”All xxx”成员的，它的默认成员可以明确设置，如果没设置，就是第一个度量。如果默认度量是[Store Sales]，
 下面的查询
 SELECT {[Time].[Year].Members } ON COLUMNS
 FROM [Sales]
 和
 SELECT {[Time].[Year].Members } ON COLUMNS
 FROM [Sales]
 WHERE [Measures]. [Store Sales]
 是等价的。
 一个维度的默认成员、是否有 All 成员（一般都应该有），是可以在 Schema 文件中设置的。
 如果没有明确设置默认成员，默认成员就是 All 成员，如果没有 All 成员，默认成员就是第一个成员。 
  4、元组和集合 
  元组和集合是 MDX 中的两种数据类型，也是 MDX 语句的构件。 
  元组 
  元组（Tuple）就是一个或多个维度的成员的组合当一个元组有多个维度时，必须用括号括起来
 ([Customer].[Chicago, IL], [Time].[Jan, 2005])
 一个元组可以代表立方体的一个切片
 以这种语法构造的元组可以直接用于
 SELECT
 { ( [Time].[2005], [Measures].[Dollar Sales],
 ( [Time].[Feb, 2005],[Measures].[Unit Sales] )
 } ON COLUMNS ,
 { [Product].[Tools], [Product].[Toys]} ON ROWS
 FROM [Sales]
 元组不能嵌套
 元组用于定义来自多维数据切片；他是由一个或多个维度的单个成员的有序集合组成。元组内不包含来自同一个维度的多个成员（可以理解为坐标），元组用（）包围。
 where 字句也是一个元组，用以指定一个数据切片 
  集合 
  集合（Set）是零个、一个或多个元组的有序集合。不像数学上的集合，MDX 集合一个元组可以出现多次，而且顺序是重要的。
 集合最常用于在Mdx查询中定义轴维度和切片器维度, 通常的指定集合的方式是把一个元组列表用花括号括起来。如{ [Customer].[MA],
 [Customer].[CT] }就表示一个集合，集合里是客户维度的两个成员。一个集合中的所有元组必须有同样的维度性质，即所表示的维度及其顺序。
 使用下面的集合将会报错，因为维度的顺序不一样：
 { ( [Time].[2005], [Measures].[Dollar Sales] ), ( [Measures].[Unit Sales], [Time].[Feb, 2005] ) }
 很多函数都可以返回一个集合 
  5、维度成员 
  要把维度成员放在轴上，可以列举维度的成员，例如{ [Customer].[MA], [Customer].[CT] }。也可以通过范围语法或一个函数得到成员的集合。
 通过坐标值可以定义出每个成员的名称 
  成员范围 
  冒号（:）语法可以表示成员范围。冒号前后是同一个层次的起点和终点两个成员。
 SELECT
 { [Time].[2003] : [Time].[2008] } on columns,
 { [Product].[Drinks] : [Product].[Bread] } on rows
 FROM [Sales]
 时间维度表示 2003 年到 2008 年（6 个成员），产品维度表示从 Drinks 到 Bread。这通常跟排序方式有关。 
  集合里可以包含子集合。例如下面集合，包含 2001 年的前三个月跟后三个月。
 { { [Time].[January-2001] : [Time].[March-2001] } ,{ [Time].[October-2001] : [Time].[December-2001] } } 
  可以用成员名称或成员键引用某个成员。
 &符号可以标记出其父级中的元素集合中的值也叫做元素值，&符号用于区分成员键和成员名称。例如： 
   SELECT
    {[Dim Region].[City].&[上海]，[Dim Region].[City].&[北京]}
 ON COLUMNS,
    {[Dim Time].[Day Of Month].&[13],[Dim Time].[Day OfMonth].&[14]}
 ON ROWS
FROM
    [MKAS]
WHERE ([Measures].[Fact Ind Count])
 
  全部成员 
  大多时候需要得到一个维度、层次、层的全部成员，这个时候可以使用.Members 操作（函数）。比如[Time].[Years].Members 可以得到所有年份。
 SELECT
 { [Time].[Years].Members} ON COLUMNS,
 { [Product].[Line].Members} ON ROWS
 FROM [SteelWheelsSales]
 WHERE [Measures].[sales]
 这个语句查询所有年份、所有产品线的销售额，把年份放在列上，产品线放在行上。 
  下级成员 
  有时候需要得到某个成员的下一层次的全部成员，这是需要用.Children 函数。这在下钻操作时经常用到。
 例如要得到产品线 Classic Cars 下的所有产品，可以这样[Product].[Line].[Classic
 Cars].Children。[Product].[Line].[Classic Cars]是 Product 维度 Line 层的一个成员。
 .Children 只能得到直接下级成员，如果需要多级，需要使用 Descendants()函数。语法是：
 Descendants (member [, [ level ] [, flag]] )
 Descendants 返回 member 成员下 level 层的成员，可选标志 flag 有多个选项，以设置包含最下一层上面的哪些层的成员。
 以下是一个例子，查询 Tools 和 Toys 两类产品在 2005 年各月的销售额，因为年和月两个层次中间有一个季度层次，所以不能用[Time].[2005].Children。
 SELECT
 { [Product].[Tools], [Product].[Toys] } ON COLUMNS,
 Descendants ([Time].[2005],[Time].[Month],SELF_AND_BEFORE) ON ROWS
 FROM Sales
 WHERE [Measures].[Dollar Sales]
 flag 设为 SELF_AND_BEFORE，可以看到行上包含了 2005 年和各个季度（如果设为SELF 则不会包含） 。 
  成员属性 
  有时要获取维度成员的属性（维表上的某些列），这时可以使用 dimemsion properties子句。dimemsion关键字可以省略。
 以下查询同时获取客户所在地的邮编属性
 SELECT
 { [Customer].[Akron, OH].Children }
 DIMENSION PROPERTIES [Customer].[Zip Code]
 on columns,
 { [Product].[Category].Members } on rows
 FROM Sales
 WHERE ([Measures].[Units Sold], [Time].[July 3, 2005]) 
  6、集合操作 
  NON EMPTY 
  在多维空间，数据很多时候是稀疏的。比如：比如，不是每一个产品都销售给了所有的客户，不是每一个客户在每个时期都购买了产品。如果按维度所有成员交叉得出报表，就会有很多空行、空列。
 要从查询结果去掉这些空行
 SELECT
 { [Time].[Jan,2005],[Time].[Feb,2005] } ON COLUMNS ,
 NON EMPTY { [Product].[Toys], [Product].[Toys].Children } ON ROWS
 FROM Sales
 WHERE ([Measures].[Dollar Sales], [Customer].[TX])
 这样空行就去掉了。non empty 可用于任何轴上。 
  CROSS JOIN 
  很多时候，我们需要对两个不同的集合进行交叉，也就是要得到两个集合成员的所有组合。CrossJoin()函数就是用来得到组合的最直接方式，它的语法是 CrossJoin (set1, set2)
 以下语句在每个季度下分出两个度量
 SELECT
 CrossJoin (
 { [Time].[Q1, 2005], [Time].[Q2, 2005]},
 { [Measures].[Dollar Sales], [Measures].[Unit Sales] }
 ) ON COLUMNS,
 { [Product].[Tools], [Product].[Toys] } ON ROWS
 FROM Sales
 CrossJoin 的结果是一个集合。因此支持CrossJoin 嵌套。 
  FILTER 
  Filter 函数用来筛选一个集合，它以一个集合和一个 boolean 表达式为参数
 Filter (set，boolean-expression)。
 例如，以下表达式会返回关联的产品销售额至少为500 的产品分类的集合。
 Filter (
 { [Product].[Product Category].Members },
 [Measures].[Dollar Sales] >= 500
 )
 要求销售额至少为 150 并且销售额要至少在成本的1.2 倍以上
 Filter (
 { [Product].[Product Category].Members },
 ([Measures].[Dollar Sales] >= 1.2 *[Measures].[Dollar Costs])
 AND [Measures].[Dollar Sales] >= 150
 ) 
  ORDER 
  Order()函数用于对一个集合进行排序，语法：
 Order (set1, expression[,ASC| DESC | BASC | BDESC])
 SELECT
 { [Measures].[Dollar Sales] } on columns，
 Order (
 [Product].[Product Category].Members,
 [Measures].[Dollar Sales],
 BDESC
 ) on rows
 FROM [Sales] 
 WHERE [Time].[2004] 
  7、计算成员 
  在 sql 中可以增加计算出来的列，MDX 中同样也可以，在 MDX 中叫计算成员（CalculatedMember）。因为MDX 操作的是多维数据，计算成员实际是给一个维度增加成员。
 语法：
 with
 member 成员标识 as ‘表达式’ [, 属性...]
 select ...
 表达式用单引号引注。
 以下例子增加一个新的度量[Avg Sales Price]
 WITH
 MEMBER [Measures].[Avg Sales Price] AS
 '[Measures].[Dollar Sales] / [Measures].[Unit Sales]'
 SELECT
 { [Measures].[Dollar Sales], [Measures].[Unit Sales],
 [Measures].[Avg Sales Price]
 } on columns,
 { [Time].[Q1, 2005], [Time].[Q2, 2005] } on rows
 FROM Sales
 WHERE ([Customer].[MA]) 
  公式优先级（Solve Order） 
  当不止一个维度增加了计算成员时，由于每个维度的成员都有计算公式，在这些维度的交叉点上，就可以有多种计算顺序。这时候就不需要考虑公式优先级的问题。因此引入了 SOLVE_ORDER 属性
 WITH
 MEMBER [Measures].[Avg Sales Price] AS
 ‘[Measures].[Dollar Sales] / [Measures].[Unit Sales]',
 SOLVE_ORDER=0
 MEMBER [Time].[Q1 to Q2 Growth] AS
 ‘[Time].[Q2, 2005]- [Time].[Q1, 2005]’,
 SOLVE_ORDER=1
 SELECT
 { [Measures].[Dollar Sales], [Measures].[Unit Sales],
 [Measures].[Avg Sales Price]
 } on columns,
 { [Time].[Q1, 2005], [Time].[Q2, 2005], [Time].[Q1 to Q2 Growth] } on rows
 FROM [Sales]
 WHERE ([Customer].[MA]) 
  8、命名集合 
  命名集合（Named Set）允许预先定义的一个集合，供后面的语句使用。语法和计算成员类似。
 with
 set 集合标识 as ‘集合表达式’ 
 select ... 
  WITH
 SET [User Selection] AS ‘{ [Product].[Action Figures], [Product].[Dolls] }'
 MEMBER [Product].[UserTotal] AS ‘Sum ( [User Selection] )’
 SELECT
 { [Time].[Jan, 2005], [Time].[Feb, 2005] } ON COLUMNS,
 { [Product].[Toys], [User Selection], [Product].[UserTotal] } ON ROWS
 FROM Sales
 WHERE ([Measures].[Unit Sales]) 
  9、函数 
  http://mondrian.pentaho.com/d... 
  列出一些重要的，按返回类型来分类。 
  成员函数 
  .currentMember
 .parent
 .prevMember/.nextMember
 .firstChild/.lastChild
 .firstSibling/.lastSibling
 Ancestor(, )
 Ancestor(, ) 
  LAG 返回当前成员开始往前数的本层的第几个成员.
 .Lag(n)
 n是索引，0 是它本身，1是前一个(.prevMember) 
  LEAD 类似 Lag()，但方向相反 
  OpeningPeriod 返回某个层次上第一个后代成员
 语法：OpeningPeriod([[, ]])。
 ClosingPeriod 返回某个层次上最后一个后代成员 
  PARALLELPERIOD 返回一个成员同层次对应位置的成员
 ParallelPeriod([[, [, ]]])在时间维度上取同期(如上年同期)等的时候需要用到它。 
  集合函数 
  前面介绍的 members、children、descendants、crossJoin、filter、order 都是集合函数
 union
 合并两个集合。语法：Union(set1,set2[, ALL]) All 标志指示保留重复元素
 Except
 从set1里去除set2的元素，即求两个集合的差。Except(set1,set2[, ALL])
 Head/Tail
 返回集合Head/Tail元素 。 Head/Tail(set[, ))。
 .SIBLINGS
 返回成员的兄弟成员，包括它自己。.Siblings。
 .MEMBERS
 返回维度/层次的成员。.Members
 DESCENDANTS
 返回成员的后代成员。Descendants (member, [level[,flag]])
 flag 可以是：SELF、BEFORE、SELF_BEFORE_AFTER、LEAVES、AFTER、SELF_AND_BEFORE、SELF_AND_AFTER。 
  DrillDownLevel(set,[level])
 下钻（一级）成员。
 DrillDownLevelBottom(set,index,level)
 下钻最下一级成员。
 DrillDownLevelBTop(set,index,level)
 下钻最上一级成员。
 DrillDownMember
 下钻集合2中的成员.DrillDownMember(set1,set2[,Recursive]) 
  TopCount 返回前n个数据的集合 
   TopCount(, , )
 TopCount(, )
 
  （TopCount, BottomCount, TopPercent, Hierarchize ,etc.） 
  统计函数 
  count (set [,INCLUDEEMPTY])
 可选标记指定是包含无数据的元组
 Sum (set [,数值表达式]])
 max/min/median/avg(set [,数值表达式]]) 
  逻辑函数 
  IS
 object is object2。
 例如：
 [Jan 2000].PrevMember IS NULL
 [Jan 2000].Level IS [Time].[Month] 
  ISEMPTY
 判断一个值是否为空。语法：IsEmpey(表达式)。 
  字符串函数 
  NAME
 返回维度、层次等的名称。语法：.Name
 PROPERTIES
 返回成员的属性值。语法：.properties(<属性名>) 
  其他函数 
  这里是一些返回类型不定的函数。
 iiF
 根据条件返回值，类似Excel 的If 函数。语法：iif(<布尔表达式>, <值1>, <值2>)。
 ITEM
 根据索引返回集合中元素。语法：item(set, )。
 返回类型一般为元组。

SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
高通 audio pal 配置文件盼雨落，等风起 audio 音视频
一、PAL配置文件解析1.mixer_paths.xml-硬件控制中枢核心作用：物理通路定义：建立Codec寄存器到音频端点的信号链路动态控制：运行时通过ALSAControlAPI（如amixerset"SpkrLeftPAVolume"25）实时调整参数平台适配：文件命名规则mixer_paths__.xml（如mixer_paths_sm8550-demo.xml）调试技巧：使用tinymi
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
大数据领域 OLAP 的数据立方体增量更新大数据洞察大数据 ai
大数据领域OLAP的数据立方体增量更新关键词：OLAP、数据立方体、增量更新、预计算、物化视图、ETL、大数据分析摘要：本文深入探讨大数据领域中OLAP数据立方体的增量更新技术。我们将从基本概念出发，详细分析数据立方体的结构和更新机制，介绍多种增量更新算法及其实现原理，并通过实际案例展示如何在分布式环境下高效维护数据立方体的时效性。文章还将讨论增量更新面临的挑战和未来发展方向，为大数据分析系统的设
Clickhouse数据库的探索与安装 PerterTingle 华为云+Ubuntu操作系统 spring boot java 华为云数据库
以下是一个简洁的教程，指导你在Ubuntu系统上通过Docker下载并运行ClickHouse（一个开源的列存储数据库，专为在线分析处理OLAP设计），并确保其支持远程访问。教程基于官方文档和相关资源，适用于初学者。使用Docker部署ClickHouse教程前提条件Ubuntu系统（本教程以Ubuntu22.04为例）。已安装Docker和DockerCompose（若未安装，见下方步骤）。具有
Flink SQL执行流程深度剖析：从SQL语句到分布式执行 Edingbrugh.南空大数据 flink flink sql 分布式
在大数据处理领域，FlinkSQL凭借其强大的处理能力和易用性，成为众多开发者的选择。与其他OLAP引擎类似，FlinkSQL的SQL执行流程大致都需要经过词法解析、语法解析、生成抽象语法树（AST）、校验以及生成逻辑执行计划等步骤。整体流程可笼统地概括为两大阶段：从SQL到Operation的转换，再从Operation到Transformation的转换，最终进入分布式执行阶段。接下来，我们将
数据库领域OLTP与OLAP的对比分析数据库管理艺术数据库 ai
数据库领域OLTP与OLAP的对比分析关键词OLTP；OLAP；数据库；事务处理；数据分析摘要本文聚焦于数据库领域中OLTP（联机事务处理）与OLAP（联机分析处理）的对比分析。首先阐述两者的概念基础，包括领域背景、历史发展及问题空间定义。接着构建理论框架，从第一性原理推导其特性。在架构设计上，详细剖析系统分解与组件交互。实现机制部分进行算法复杂度等分析。探讨实际应用中的实施策略等内容。还考量高级
大数据领域 OLAP 的并发处理能力优化大数据洞察大数据 ai
大数据领域OLAP的并发处理能力优化关键词：大数据、OLAP、并发处理能力、优化策略、数据架构摘要：在大数据时代，联机分析处理（OLAP）技术对于企业的决策支持和数据分析至关重要。然而，随着数据量的不断增长和用户并发请求的增加，OLAP的并发处理能力面临着巨大挑战。本文旨在深入探讨大数据领域OLAP并发处理能力的优化方法。首先介绍OLAP的背景知识，包括其目的、预期读者和文档结构等。接着阐述OLA
mysql查询每种产品的销售总额_MDX示例：统计各产品每个季度的销售排名爱喝冰红茶
ITPUB数据仓库与数据挖掘论坛用户Damon__Li问：统计各种产品在本年每个季度的销售排名，(现在有日期、产品维度和销售额度量)大体显示如下Q1Q2Q3Q4销售额排名销售额排名销售额排名销售额排名产品130002200035000140ITPUB数据仓库与数据挖掘论坛用户Damon__Li问：统计各种产品在本年每个季度的销售排名，(现在有日期、产品维度和销售额度量)大体显示如下Q1Q2Q3Q4
大数据领域 OLAP 的分布式查询执行计划优化大数据洞察大数据与AI人工智能大数据分布式 ai
大数据领域OLAP的分布式查询执行计划优化关键词：OLAP、分布式查询、执行计划优化、查询引擎、并行计算、数据分片、成本模型摘要：本文深入探讨了大数据环境下OLAP系统的分布式查询执行计划优化技术。文章首先介绍了OLAP查询的基本概念和特点，然后详细分析了分布式环境下查询执行计划优化的核心挑战和关键技术，包括查询重写、并行执行策略、数据本地性优化等。接着通过具体算法和数学模型阐述了优化原理，并提供
数据库领域的秘密武器——物化视图数据库管理艺术数据库 ai
物化视图：数据库性能优化的理论基石与工程实践关键词物化视图、预计算聚合、查询加速、存储换时间、数据库优化、一致性维护、OLAP加速摘要物化视图作为数据库领域的“秘密武器”，通过预计算和存储复杂查询结果，在OLAP（联机分析处理）、数据仓库等场景中实现了查询性能的指数级提升。本文从第一性原理出发，系统解析物化视图的理论基础、架构设计、实现机制与工程实践，覆盖从概念定义到未来演化的全生命周期。通过层次
硬核实战 | 3分钟Docker部署ClickHouse列存数据库
本文来自「大千AI助手」技术实战系列，专注用真话讲技术，拒绝过度包装。ClickHouse作为OLAP领域性能标杆，其列式存储引擎比传统数据库快100倍以上。本文将用Docker实战部署，并解析关键配置：安装# 拉取最新镜像（当前版本23.8）docker pull clickhouse/clickhouse-server# 运行容器（关键参数解析）docker run -d \ --name=
Github 2024-07-19 开源项目日报Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-07-19统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目5TypeScript项目2非开发语言项目1C#项目1Rust项目1JavaScript项目1JupyterNotebook项目1MDX项目1C++项目1Supabase:企业级开源Firebase替代方案创建周期：1729天开发语言
数据分析之OLTP vs OLAP
数据处理系统主要有两种基本方法：一种注重数据操作(增删查改)，另一种注重商业智能数据分析。这两种系统是：联机事务处理（OLTP）联机分析处理（OLAP）PowerBI专为与OLAP系统兼容而构建，并未针对OLTP系统进行优化。OLTP：联机事务处理OLTP（OnlineTransactionProcessing）是一种实时处理数据的方式，主要用于支持日常的业务操作，比如如ATM提款、电子商务订单、
DuckDB + Spring Boot + MyBatis 构建高性能本地数据分析引擎 java干货 spring boot mybatis 数据分析
DuckDB是一款令人兴奋的内嵌式分析型数据库(OLAP)，它为本地数据分析和处理带来了前所未有的便捷与高效。它无需外部服务器，可以直接在应用程序进程中运行，并提供了强大的SQL支持和列式存储带来的高性能。什么是DuckDB？DuckDB被誉为“数据科学领域的SQLite”，是一个开源的、专为分析查询设计的嵌入式数据库管理系统。它与传统的行式数据库（如SQLite，主要用于事务处理OLTP）不同，
Doris实践——叮咚买菜基于OLAP引擎的应用实践吵吵叭火大数据大数据数据仓库
目录前言一、业务需求二、选型与对比三、架构体系四、应用实践4.1实时数据分析4.2B端业务查询取数4.3标签系统4.4BI看板4.5OLAP多维分析五、优化经验六、总结原文大佬介绍的这篇Doris数仓建设实践有借鉴意义的，这些摘抄下来用作沉淀学习。如有侵权请告知~前言随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的
Apache Doris实时分析数据仓库的快速入门 AWsggdrg apache 数据仓库知识图谱 python
ApacheDoris是一个现代化的数据仓库，专为实时分析设计。它能够在大规模数据上快速进行分析，非常适合需要快速响应的业务场景。Doris通常被分类为OLAP数据库，并且在ClickBench（一个面向分析型数据库系统的基准测试）中表现出色。得益于其高效的向量化执行引擎，Doris也可以用作快速的向量数据库。1.技术背景介绍ApacheDoris旨在解决传统数据仓库在实时分析中的性能瓶颈问题。传
Greenplum：PB级数据分析的分布式引擎，揭开MPP架构的终极武器茶本无香数据库数据分析分布式架构
一、Greenplum是谁？——定位与诞生背景核心定位：基于PostgreSQL的开源分布式分析型数据库（OLAP），专为海量数据分析设计，支撑PB级数据仓库、商业智能（BI）和实时决策系统。诞生背景：数据爆炸时代：2000年代初，传统数据库（如OracleRAC）面临海量数据时扩展性差、成本高的问题。分布式计算革命：受GoogleGFS和MapReduce论文启发，Greenplum采用MPP（
计算机设备管理器dax,《DAX权威指南：运用Power BI、SQL Server Analysis Services和Excel实现商业智能分》（意）MarcoRusso（马尔·科鲁索），Albe... weixin_39930671 计算机设备管理器dax
章DAX是什么1理解数据模型1理解关系的方向3给Excel用户的DAX学习建议5单元格和智能表格5Excel函数和DAX：两种函数式语言7使用迭代器7DAX相关理论8给SQL开发人员的DAX学习建议8处理关系9DAX是函数式语言9DAX是一种编程语言和查询语言10DAX和SQL中的子查询与条件语句10给MDX开发者的DAX学习建议11多维模型和表格模型12DAX是一种编程语言和查询语言12层级结构
GaussDB高性能之道：从架构设计到实战优化喜酱的探春 gaussdb
GaussDB高性能之道：从架构设计到实战优化引言在金融高频交易、物联网实时分析、电商秒杀等场景中，数据库性能直接决定业务成败。华为云GaussDB通过分布式并行架构、智能资源调度与深度引擎优化，实现了每秒百万级事务处理（100万TPS）、毫秒级响应（OLAP查询延迟10万）+RDMA网络；网络配置：25Gbps网卡+无损以太网（RoCEv2）。四、典型场景性能突破金融高频交易场景需求：支持每秒5
ClickHouse与Presto对比：OLAP引擎选型指南 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 clickhouse 网络 ai
ClickHouse与Presto对比：OLAP引擎选型指南关键词：ClickHouse、Presto、OLAP引擎、选型指南、数据分析摘要：本文旨在为读者提供一份全面的ClickHouse与Presto对比的OLAP引擎选型指南。通过对这两款流行的OLAP引擎的核心概念、算法原理、数学模型、实际应用场景等多方面进行深入分析，并结合项目实战案例和代码解读，帮助读者了解它们各自的特点和优势。同时，还
万字详解：分布式计算系统 OLAP 引擎添加事务管理功能技术方案原理和源代码实现详细指南 AI天才研究院计算 OLAP 分布式事务计算引擎 ClickHouse
分布式计算系统OLAP引擎添加事务管理功能技术方案详解一、概述OLAP（在线分析处理）引擎通常专注于高性能的查询分析能力，而传统的事务管理功能更多出现在OLTP（在线事务处理）系统中。随着现代数据分析需求的演进，为OLAP引擎添加事务管理功能已成为一个重要趋势，能够实现分析型应用中的ACID保证。本文将详细探讨在分布式OLAP引擎中实现事务管理的技术方案，包括原理、架构设计和源代码实现。二、事务管
ClickHouse性能优化技术深度解析与实践指南 weixin_30777913 数据库 clickhouse 性能优化架构
作为面向OLAP场景的列式数据库，ClickHouse凭借其卓越的查询性能和大数据吞吐能力广受青睐。但要充分发挥其潜力，必须深入理解其架构特性并实施针对性优化。本文综合官方文档与最佳实践，系统阐述ClickHouse性能优化的核心技术、技巧与实践策略。所有优化都应基于实际业务场景，通过EXPLAIN和ANALYZE工具验证优化效果，避免过度优化。一、表设计与存储优化1.1主键与索引设计稀疏主索引：
MPP之Clickhouse james二次元大数据数据库 MPP clickhouse MPP 数据库 OLAP 列式数据库时序数据
ClickHouse：列式数据库概述ClickHouse是一款高性能的开源列式数据库管理系统（DBMS），由俄罗斯的Yandex公司开发，专为在线分析处理（OLAP）设计。它以极高的查询性能、水平可扩展性和高压缩率著称，适合大规模数据的实时分析。ClickHouse可以在数十亿行数据中实现亚秒级的查询性能，广泛应用于互联网、金融、电信等行业的数据分析场景。1.基本概念列式存储：ClickHouse
数仓开发面试题汇总-数据建模&数据治理话数Science 1024程序员节大数据
1.如何建设数仓，如何构建主题域数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。可以这样理解：数据仓库对异构数据源进行集成，集成后按照主题进行了重组，并包含历史数据，且不再修改。如果对数据仓库还不够理解，可以先搞清楚关系型数据库与数据仓库的区别，OLTP和OLAP的区别等。如何建设数仓，技术方案选型上有很多选择：云服务/自建、流处理/批处理、MPP/Hado
在文件检索方面doris和elasticsearch的区别 jiedaodezhuti elasticsearch doris elasticsearch 大数据搜索引擎
apacheDoris与Elasticsearch在文件检索领域的差异源于技术架构与定位目标的本质区别，以下从核心维度对比分析二者的技术特性：一、‌架构设计与定位差异‌‌维度‌‌ApacheDoris‌‌Elasticsearch‌‌核心架构‌分布式MPP列式分析引擎，面向OLAP优化分布式倒排索引检索引擎，面向全文搜索优化‌数据模型‌结构化/半结构化数据为主，支持动态Schema非结构化文本为主
SQL语句，索引，视图，存储过程以及触发器源远流长jerry 数据库 mysql
一、初识MySQL1.数据库按照数据结构来组织、存储和管理数据的仓库；是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合；2.OLTP与OLAPOLTP（On-Linetransactionprocessing）翻译为联机事务处理；主要对数据库增删改查；OLTP主要用来记录某类业务事件的发生；数据会以增删改的方式在数据库中进行数据的更新处理操作，要求实时性高、稳定性强、确保数
android 使用zabar库实现条码扫描寂-静 android
导入zabar依赖implementation'cn.bingoogolapple:bga-qrcode-zbar:1.3.6'##扫描界面Activity```java/这个是扫描界面的ActivitypublicclassZbarTestScanActivityextendsAppCompatActivityimplementsQRCodeView.Delegate,CustomAdapt{p
论广告系统对存算分离架构的应用 WanderingScorpion 架构运维
辅助论点辅助论点一：存算分离架构起源于数据库领域，并不是在线系统。存算分离的架构源于Google的Spanner数据库，这个数据库采用了KV做存储层，OLAP做计算层的分离式设计，其目的是能快速伸缩计算资源，且节省数据被动配合计算进行伸缩所带来的存储资源浪费。在这个设计中，没有特别考虑计算时延，更多的是为了突破“水平扩展瓶颈”。相关论文在论证存算分离架构合理性时做了一个很关键的假设，那就是网络性能
Spark 之 Aggregate zhixingheyi_tian spark spark 大数据分布式
Aggregate参考链接：https://github.com/PZXWHU/SparkSQL-Kernel-Profiling完整的聚合查询的关键字包括groupby、cube、groupingsets和rollup4种。分组语句groupby后面可以是一个或多个分组表达式（groupingExpressions）。聚合查询还支持OLAP场景下的多维分析，包括rollup、cube和group
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

多维数据模型总结和归纳

开源OLAP引擎：Mondrian

Mondrian缓存控制

模型配置文件编写

模型配置文件XML元素分析

什么是聚合表（Aggregate Table）

Schema-workspace图形化配置模型文件

MDX

1 基本语法

2 轴

3 切片维度

默认成员

4、元组和集合

元组

集合

5、维度成员

成员范围

全部成员

下级成员

成员属性

6、集合操作

NON EMPTY

CROSS JOIN

FILTER

ORDER

7、计算成员

公式优先级（Solve Order）

8、命名集合

9、函数

成员函数

集合函数

统计函数

逻辑函数

字符串函数

其他函数

你可能感兴趣的:(mondrian,OLAP,mdx)