浮生夢

数据仓库入门简介

一，数组仓库介绍

数据仓库 （英语：Data Warehouse，简称数仓、DW）是一个为数据分析而设计的企业级数据管理系统。它旨在 支持企业决策过程中的数据分析和业务智能 。数据仓库的基本原理是将不同来源的数据整合到一个中心存储库中，以提供一致的数据视图和易于理解的分析结果。

具体来说，数据仓库提供以下服务：

数据存储服务： 数据仓库采用高度优化的数据结构和存储方式，将海量的数据存储到数据仓库中，并提供高效的数据访问和查询服务。
数据清洗和集成服务： 数据仓库通过ETL过程将来自各种数据源的数据进行提取、清洗和集成，确保数据的质量和一致性。
数据分析服务： 数据仓库提供数据分析和挖掘服务，帮助企业深入了解业务、预测趋势和制定策略。
报表查询服务： 数据仓库提供灵活的报表查询服务，支持多种查询方式和多种输出格式，如表格、图表、地图等。
数据可视化服务： 数据仓库通过数据可视化的方式，将数据分析结果以可视化的形式展示给用户，帮助用户更直观地了解数据分析结果。

通过提供这些服务，数据仓库可以帮助企业更好地理解业务、预测趋势、制定战略，并提升企业的决策水平和竞争力。

数据仓库的建设步骤：

需求分析： 了解企业决策需要哪些数据，并确定数据仓库的主题和建模方式。
数据抽取： 从各个数据源（例如企业应用系统、传感器、日志文件等）中抽取数据，并进行清洗、转换和集成。
数据建模： 使用数据模型的方式对数据进行组织和存储。
数据支持： 使用BI工具或其他数据分析工具对数据仓库中的数据进行查询、分析和报表生成。

数据仓库可以通过多种方式进行建模，其中最常用的是 星型模型和雪花模型 。星型模型将事实表（Fact Table）与多个维度表（Dimension Table）连接起来，每个维度表都描述了一个独立的主题，例如时间、地点、产品等。而雪花模型则是在星型模型的基础上，将一些维度表进一步细分为多个子表，以实现更细粒度的数据存储和查询。

数据仓库的优点包括：

提供一致的数据视图： 数据仓库中的数据来自不同的数据源，但经过整合和清洗后，可以提供一致的数据视图，以支持企业决策过程中的数据分析和业务智能。
支持复杂查询和分析： 数据仓库中的数据已经进行了预处理和建模，可以支持复杂的查询和分析操作，以提供更深入的业务洞察。
改善决策过程： 数据仓库提供了更准确和全面的数据视图，可以帮助企业更好地理解业务状况和趋势，从而支持更好的决策过程。
增强数据质量： 数据仓库需要从多个数据源中整合和清洗数据，这可以促进企业对数据质量的关注和管理，从而提高整个企业的数据质量。
支持增量更新： 数据仓库中的数据通常不是一次性导入的，而是通过增量更新的方式进行更新和维护。这可以提高数据的实时性和准确性。

数据仓库的建设存在的挑战和难点：

数据整合和清洗： 不同数据源中的数据可能存在格式、结构和内容上的不一致，需要进行数据整合和清洗，这是数据仓库建设的一个重要环节。
数据建模和设计： 数据仓库需要进行数据建模和设计，以支持业务分析和查询。但是，不同业务领域和业务过程的数据建模和设计可能存在差异和复杂性，需要专业的技术和经验支持。
数据安全和隐私： 数据仓库中存储了大量敏感数据，需要采取有效的安全措施来保护数据的机密性和完整性。
数据一致性和准确性： 数据仓库需要保证数据的一致性和准确性，避免因数据不一致或错误导致的业务决策错误。

总之，数据仓库是企业决策过程中的重要组成部分，它可以提供一致的数据视图、支持复杂的查询和分析、改善决策过程、增强数据质量和支持增量更新。但是，数据仓库的建设也存在一些挑战和难点，需要专业的技术和经验支持。

二，数据仓库和数据库区别

数据库一般用于处理业务数据，数据仓库一般用于做数据分析，因此，虽然它们都涉及到数据的存储和管理，但是在很多方面存在着显著的差异。

使用领域
数据库用于联机事务处理（Online Transaction Processing，OLTP），主要用于管理日常的业务事务，例如交易记录和实时库存管理。
数据仓库用于联机分析处理（Online Analysis Processing，OLAP），主要用于快速分析大型多维数据集，例如多维分析、数据挖掘和预测等。
数据特点
数据库一般用来存储当前事务性数据，如交易数据；数据仓库一般存储的是历史数据。
数据库中数据是由日常的业务产生的，并且是频繁更新的；数据仓库中数据来源多样化，经过一定的规则转换得到的，用于分析和决策。
管理特点
数据库设计一般符合三范式，有最大的精确度和最小的冗余度，有利于数据的插入；数据仓库设计一般不符合三范式，有利于查询。

三，数仓相关技术

数据仓库 是指为企业决策支持服务的一种专用数据存储，它将来自各个数据源的数据进行提取、转换和加载（ETL），并存储到一个或多个数据仓库中。数据仓库通常是面向主题、集成的、稳定的、可伸缩的、可重复的和易于使用的。

数据仓库技术包括以下几个方面：

ETL（Extract-Transform-Load）： 从各种数据源中提取数据，进行转换和清洗，最终将数据加载到数据仓库中。ETL 是数据仓库的基础，可以保证数据的质量和一致性。
数据建模： 数据建模是设计和构建数据仓库的过程。数据仓库通常采用维度建模（Dimensional Modeling）或实体关系建模（Entity-Relationship Modeling）。
数据存储： 数据仓库通常采用关系数据库或列式数据库来存储数据。
OLAP（Online Analytical Processing）： OLAP 是一种面向多维数据分析的技术。数据仓库通常采用 OLAP 技术来支持数据分析和报表查询等功能。
数据可视化： 数据仓库通常需要通过数据可视化的方式来展示数据分析结果，例如使用数据报表、数据可视化工具等。

数仓技术已经成为企业决策支持的重要基础设施，广泛应用于金融、零售、物流、医疗等领域，帮助企业更好地理解业务、预测趋势、制定战略。

四，ETL

ETL 是指数据提取（Extraction）、数据转换（Transformation）和数据加载（Loading）三个步骤的缩写。ETL是数据仓库建设中非常重要的环节，它的主要目的是将分散、异构、杂乱的数据整合到一个数据仓库中，使得数据能够被更加方便地管理和使用。

具体来说，ETL的三个步骤分别是：

数据提取（Extraction）： 从各种数据源中获取数据，并将数据复制到ETL的中间层或者数据仓库的缓存中。数据源可以是关系型数据库、非关系型数据库、文件、Web服务等。
数据转换（Transformation）： 对提取的数据进行清洗、转换和整合，以确保数据质量和一致性。转换的过程包括数据清洗、数据合并、数据增强、数据聚合等。
数据加载（Loading）： 将经过转换的数据加载到数据仓库中，并根据业务需求进行索引和优化。数据加载的方式可以是全量加载，也可以是增量加载。

ETL的好处包括：

提高数据质量和一致性： 通过清洗和转换，可以消除数据中的噪声和冗余信息，提高数据质量和一致性。
支持数据集成： 通过ETL，可以将来自不同数据源的数据进行整合，从而实现数据集成和共享。
提高数据可靠性和安全性： 通过ETL，可以实现数据备份和恢复，提高数据可靠性和安全性。

ETL的实现

ETL的实现可以使用多种技术和工具，例如ETL工具、编程语言、SQL语言等。具体的实现方式取决于数据仓库的需求、数据源的特点、技术团队的技能等因素。

几种常见的ETL实现方式：

ETL工具实现： ETL工具是一种专门用于实现ETL过程的软件。ETL工具通常具有图形化的界面，可以通过简单的拖拽和配置来实现数据的提取、转换和加载。ETL工具具有很高的可视化和易用性，同时也具有很高的效率和可扩展性，适用于各种规模的数据仓库建设。
编程语言实现： ETL也可以通过编程语言来实现。常用的编程语言包括Python、Java、Scala等。编程语言实现ETL通常需要编写复杂的代码，但具有更高的灵活性和可定制性。在处理一些特殊的数据源或者数据处理需求时，编程语言实现ETL可以更加适用。
SQL语言实现： SQL语言也可以用来实现ETL。SQL语言可以直接操作数据库，对数据进行提取、转换和加载。SQL语言具有简单易用、效率高的优点，适用于处理一些简单的数据处理需求。但对于一些复杂的数据处理需求，SQL语言可能不太适用。

ETL过程需要考虑多种因素，如数据源的类型、数据量的大小、数据质量的要求、数据仓库的数据模型等。因此，ETL的设计和实现需要非常注意，需要充分考虑数据仓库的需求和数据源的特点，保证数据的质量和准确性。

简单来说，在实现ETL时，需要注意以下几点：

数据质量： ETL的实现需要保证数据的质量和准确性。在实现过程中需要考虑数据源的特点，对数据进行清洗、转换和校验，避免因数据质量问题导致的数据错误。
性能优化： ETL的实现需要考虑性能问题，避免ETL过程影响业务系统的正常运行。在实现过程中需要考虑数据的大小、处理的复杂度等因素，优化ETL过程的性能。
安全性： ETL的实现需要保证数据的安全性，避免敏感数据泄露。在实现过程中需要采用合适的加密、认证和授权等技术，保证ETL过程中数据的安全性。

总之，ETL的实现需要根据具体的需求和技术特点来选择合适的技术和工具，同时需要注意数据质量、性能优化和安全性等问题。

ETL举例：

假设MySQL数据库中有一个名为"orders"的表，包含以下字段：
order_id：订单号
user_id：用户id
amount：订单金额
create_time：创建时间

现在需要实现一个ETL过程，将"orders"表中的数据提取出来，并将创建时间按照"yyyy-MM-dd"的格式进行格式化，最终将处理后的数据保存到数据仓库中。

提示：
使用JDBC连接MySQL数据库，读取"orders"表中的数据。
使用Spark RDD或DataFrame API对数据进行转换和处理。
使用Spark SQL将数据保存到数据仓库中。

参考答案：

import java.sql.DriverManager
import java.time.format.DateTimeFormatter

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

object OrdersETL {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("OrdersETL").getOrCreate()

    // 1. 从MySQL中读取数据
    val jdbcUrl = "jdbc:mysql://localhost:3306/test"
    val username = "root"
    val password = "123456"
    val driver = "com.mysql.jdbc.Driver"
    val table = "orders"
    val jdbcDF: DataFrame = spark.read.format("jdbc")
      .option("url", jdbcUrl)
      .option("user", username)
      .option("password", password)
      .option("driver", driver)
      .option("dbtable", table)
      .load()

    // 2. 对数据进行转换和处理
    val formattedDF: DataFrame = jdbcDF.select("order_id", "user_id", "amount", "create_time")
      .withColumn("create_date", date_format(col("create_time"), "yyyy-MM-dd"))
      .drop("create_time")

    // 3. 将数据保存到数据仓库中
    formattedDF.createOrReplaceTempView("temp_orders")
    spark.sql(
      """
        |CREATE TABLE IF NOT EXISTS orders (
        |  order_id INT,
        |  user_id INT,
        |  amount DOUBLE,
        |  create_date STRING
        |)
      """.stripMargin)
    spark.sql(
      """
        |INSERT INTO orders
        |SELECT order_id, user_id, amount, create_date FROM temp_orders
      """.stripMargin)

    spark.stop()
  }
}

五，数据建模

为什么需要数据仓库建模

数仓建模需要按照一定的数据模型，对整个企业的数据进行采集，整理，提供跨部门、完全一致的报表数据。合适的数据模型，对于大数据处理来讲，可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据，减少不必要的数据冗余，提高用户的使用效率。

性能：良好的模型能帮我们快速查询需要的数据，减少数据的IO吞吐
成本：减少数据冗余、计算结果复用、从而降低存储和计算成本
效率：改善用户使用数据的体验，提高使用数据的效率
改善统计口径的不一致性，减少数据计算错误的可能性

建模方式

数据仓库的建模方式主要有两种：维度建模和范式建模。

维度建模

维度建模一般按照以下四个步骤：选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

选择业务过程
确定需要建模的业务过程，比如下单业务，支付业务，退款业务，物流业务，一条业务线对应一张事实表。
声明粒度
声明粒度意味着精确定义事实表中的一行数据表示什么，应该尽可能选择最小粒度，以此来应各种各样的需求。
典型的粒度声明如：订单事实表中一行数据表示的是一个订单中的一个商品项。支付事实表中一行数据表示的是一个支付记录。
确定维度
维度的主要作用是描述业务是事实，主要表示的是“谁，何处，何时”等信息。
确定维度的原则是：后续需求中是否要分析相关维度的指标。例如，需要统计，什么时间下的订单多，哪个地区下的订单多，哪个用户下的订单多。需要确定的维度就包括：时间维度、地区维度、用户维度。
确定事实
此处的“事实”一词，指的是业务中的度量值（次数、个数、件数、金额，可以进行累加），例如订单金额、下单次数等。
在DWD层，以业务过程为建模驱动，基于每个具体业务过程的特点，构建最细粒度的明细层事实表。事实表可做适当的宽表化处理。
事实表和维度表的关联比较灵活，但是为了应对更复杂的业务需求，可以将能关联上的表尽量关联上。

维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

星型模型

星型模型主要是维表和事实表，以事实表为中心，所有维度直接关联在事实表上，呈星型分布。

雪花模型

雪花模型，在星型模型的基础上，维度表上又关联了其他维度表。这种模型维护成本高，性能方面也较差，所以一般不建议使用。尤其是基于hadoop体系构建数仓，减少join就是减少shuffle，性能差距会很大。
星型模型可以理解为，一个事实表关联多个维度表，雪花模型可以理解为一个事实表关联多个维度表，维度表再关联维度表。

星座模型

星座模型，是对星型模型的扩展延伸，多张事实表共享维度表。
星座模型是很多数据仓库的常态，因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表，他们之间是否共享一些维度表。

范式模型

即实体关系（ER）模型，数据仓库之父Immon提出的，从全企业的高度设计一个3NF模型，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF。此建模方法，对建模人员的能力要求非常高。特点：设计思路自上而下，适合上游基础数据存储，同一份数据只存储一份，没有数据冗余，方便解耦，易维护，缺点是开发周期一般比较长，维护成本高。

第一范式（1NF)：列不可分
第一范式（1NF)：不存在部分依赖
第一范式（1NF)：不存在传递依赖

建模评价

业务过程清晰：ODS就是原始信息，不修改；DWD面向基础业务过程；DIM描述维度信息；DWS针对最小场景做指标计算；ADS也要分层，面向应用的建设和面向跨域的建设；
指标可理解：按照一定业务事务过程进行业务划分，明细层粒度明确、历史数据可获取，汇总层维度和指标同名同义，能客观反映业务不同角度下的量化程度；
核心模型相对稳定：如果业务过程运行的比较久，过程相对固定，就要尽快下沉到公共层，形成可复用的核心模型；
高内聚低耦合：各主题内数据模型要业务高内聚，避免在一个模型耦合其他业务的指标，造成该模型主题不清晰和性价比低。

六，维度建模

维度建模是数仓中最常用的建模方式，其核心思想是将复杂的业务通过事实和维度两个概念进行呈现。事实通常对应业务过程，而维度通常对应业务过程发生时所处的环境。

维度建模过程： 选择业务过程→声明粒度→确认维度→确认事实
第一步选择业务过程可以确定有哪些事务型事实表，第二步可以确定每张事务型事实表的每行数据是什么，第三步可以确定每张事务型事实表的维度外键，第四步可以确定每张事务型事实表的度量值字段。

事实表

事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。其中包含该业务过程有关的维度引用（维度表外键）以及业务过程的度量（通常是可累加的数字类型字段）。
事实表有三种类型：分别是事务型事实表、周期型快照事实表和累积型快照事实表，每种事实表都具有不同的特点和适用场景。

事务型事实表

事务事实表用来记录各业务过程，它保存的是各业务过程的原子操作事件，即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。

事务型事实表可以保存所有业务过程的最细粒度的操作事件，故理论上其可以支撑与各业务过程相关的各种统计粒度的需求。但对于某些特定类型的需求，其逻辑可能会比较复杂，或者效率会比较低下。如存量型指标，多事务关联统计。

周期性快照事实表

周期快照事实表以具有规律性的、可预见的时间间隔来记录事实，主要用于分析一些存量型（例如商品库存，账户余额）或者状态型（空气温度，行驶速度）指标。
对于商品库存、账户余额这些存量型指标，业务系统中通常就会计算并保存最新结果，所以定期同步一份全量数据到数据仓库，构建周期型快照事实表，就能轻松应对此类统计需求，而无需再对事务型事实表中大量的历史记录进行聚合了。对于空气温度、行驶速度这些状态型指标，由于它们的值往往是连续的，我们无法捕获其变动的原子事务操作，所以无法使用事务型事实表统计此类需求。而只能定期对其进行采样，构建周期型快照事实表。

累积型快照事实表

累计快照事实表是基于一个业务流程中的多个关键业务过程联合处理而构建的事实表，如交易流程中的下单、支付、发货、确认收货业务过程。累积型快照事实表通常具有多个日期字段，每个日期对应业务流程中的一个关键业务过程（里程碑）。

订单id	用户id	下单日期	支付日期	发货日期	确认收货日期	订单金额	支付金额
1001	3200038	2023-06-14	2023-06-14	2023-06-15	2023-06-17	10000	10000

累积型快照事实表主要用于分析业务过程（里程碑）之间的时间间隔等需求。例如统计用户下单到支付的平均时间间隔，使用累积型快照事实表进行统计，就能避免两个事务事实表的关联操作，从而变得十分简单高效。

维度表

事实表紧紧围绕业务过程进行设计，而维度表则围绕业务过程所处的环境进行设计。维度表主要包含一个主键和各种维度字段，维度字段称为维度属性。

确认维度

确认维度是 维度建模过程：选择业务过程→声明粒度→确认维度→确认事实 中的第三步。

1）确定维度（表）
在声明粒度时，已经确定了与每个事实表相关的维度，理论上每个相关维度均需对应一张维度表。需要注意到，可能存在多个事实表与同一个维度都相关的情况，这种情况需保证维度的唯一性，即只创建一张维度表。另外，如果某些维度表的维度属性很少，例如只有一个**名称，则可不创建该维度表，而把该表的维度属性直接增加到与之相关的事实表中，这个操作称为维度退化。

2）确定主维表和相关维表
此处的主维表和相关维表均指业务系统中与某维度相关的表。例如业务系统中与商品相关的表有 sku_info ， spu_info ， base_trademark ， base_category3 ， base_category2 ，base_category1 等，其中 sku_info 就称为商品维度的主维表，其余表称为商品维度的相关维表。维度表的粒度通常与主维表相同。在星型建模中会对主维表和相关维表进行合并，减少join操作。

3）确定维度属性
确定维度属性即确定维度表字段。维度属性主要来自于业务系统中与该维度对应的主维表和相关维表。维度属性可直接从主维表或相关维表中选择，也可通过进一步加工得到。
确定维度属性时，需要遵循以下要求：

尽可能生成丰富的维度属性，维度属性是后续做分析统计时的查询约束条件、分组字段的基本来源，是数据易用性的关键。维度属性的丰富程度直接影响到数据模型能够支持的指标的丰富程度。
尽量不使用编码，而使用明确的文字说明，一般可以编码和文字共存。
尽量沉淀出通用的维度属性

维度设计要点

规范化： 是指使用一系列范式设计数据库的过程，其目的是减少数据冗余，增强数据的
一致性。通常情况下，规范化之后，一张表的字段会拆分到多张表。
反规范化： 是指将多张表的数据冗余到一张表，其目的是减少 join 操作，提高查询性能。

在设计维度表时，如果对其进行规范化，得到的维度模型称为雪花模型，如果对其进行反规范化，得到的模型称为星型模型。

维度变化： 维度属性通常不是静态的，而是会随时间变化的，数据仓库的一个重要特点就是反映历史的变化，所以如何保存维度的历史状态是维度设计的重要工作之一。保存维度数据的历史状态最常用的做法就是全量快照表。离线数据仓库的计算周期通常为每天一次，所以可以每天从业务系统同步并保存一份全量的维度数据。优点是简单而有效，开发和维护成本低，且方便理解和使用。缺点是浪费存储空间，尤其是当数据的变化比例比较低时。

七，数据分层

数据仓库分层是一种组织数据仓库结构的方法，它将数据仓库划分为多个层次，每个层次负责不同的数据处理任务和数据访问需求。
常见的数仓分层规划：

分层的好处

分层可以清晰数据结构，使用时更好的定位和理解
方便追踪数据的血缘关系
规范数据分层，可以开发一些通用的中间层数据，能够减少极大的重复计算
把复杂的问题简单化
屏蔽原始数据的异常，下游任务没有感知异常

数据分层：

ODS层（Operational Data Store）
ODS层是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。本层的数据，总体上大多是按照源头业务系统的分类方式而分类的。
一般来讲，为了考虑后续可能需要追溯数据问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即可，至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。
DW层（Data Warehouse）
数据仓库层，从 ODS 层中获得的数据按照主题建立各种数据模型。DW层又细分为 DWD（Data Warehouse Detail）层、DWM（Data WareHouse Middle）层和DWS（Data WareHouse Servce）层。
- DWD层
  该层一般保持和ODS层一样的数据粒度，并且提供一定的数据质量保证。同时，为了提高数据明细层的易用性，该层会采用一些维度退化手法，将维度退化至事实表中，减少事实表和维表的关联。
  另外，在该层也会做一部分的数据聚合，将相同主题的数据汇集到一张表中，提高数据的可用性。
- DWM层（Data WareHouse Middle）
  该层会在DWD层的数据基础上，对数据做轻度的聚合操作，生成一系列的中间表，提升公共指标的复用性，减少重复加工。
  直观来讲，就是对通用的核心维度进行聚合操作，算出相应的统计指标。
- DWS层（Data WareHouse Servce）
  按照业务划分，如流量、订单、用户等，生成字段比较多的宽表，用于提供后续的业务查询，OLAP分析，数据分发等。
  一般来讲，该层的数据表会相对比较少，一张表会涵盖比较多的业务内容，由于其字段较多，因此一般也会称该层的表为宽表。
  在实际计算中，如果直接从DWD或者ODS计算出宽表的统计指标，会存在计算量太大并且维度太少的问题，因此一般的做法是，在DWM层先计算出多个小的中间表，然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定，也可以去掉DWM这一层，只留DWS层，将所有的数据在放在DWS亦可。
APP层（Application）
在这里，主要是提供给数据产品和数据分析使用的数据，一般会存放在 ES、PostgreSql、Redis等系统中供线上系统使用，也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据，一般就放在这里。
DIM层（Dimension）
最后补充一个维表层，维表层主要包含两部分数据：
- 高基数维度数据：一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。
- 低基数维度数据：一般是配置表，比如枚举值对应的中文含义，或者日期维表。数据量可能是个位数或者几千几万。

八，元数据

业务元数据

从业务角度描述数据仓库中的数据，提供介于使用者和实际系统之间的语义层，使不懂计算机技术的业务人员也能读懂数仓中的数据

技术元数据

存储关于数据仓库技术细节的数据，用于开发和管理数仓使用的数据

数据源元数据
例如：数据源的 IP、端口、数据库类型；数据获取的方式；数据存储的结构；原数据各列的定义。
ETL 元数据
根据 ETL 目的的不同，可以分为两类：数据清洗元数据；数据处理元数据。
- 数据清洗，主要目的是为了解决掉脏数据及规范数据格式；因此此处元数据主要为：各表各列的"正确"数据规则；默认数据类型的"正确"规则。
- 数据处理，例如常见的表输入表输出；非结构化数据结构化；特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。
数据仓库元数据
数据仓库结构的描述，包括仓库模式、视图、维、层次结构及数据集市的位置和内容；业务系统、数据仓库和数据集市的体系结构和模式等。
BI 元数据
汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、聚集、汇总、预定义的查询与报告。

管理元数据

管理领域相关，包括管理流程、人员组织、角色职责等。

元数据管理功能

数据地图：以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展示，并通过不同层次的图形展现。
元数据分析：血缘分析、影响分析、实体关联分析、实体差异分析、指标一致性分析。
辅助应用优化：结合元数据分析功能，可以对数据系统的应用进行优化。
辅助安全管理：采用合理的安全管理机制来保障系统的数据安全；对数据系统的数据访问和功能使用进行有效监控。
基于元数据的开发管理：通过元数据管理系统规范日常开发的工作流程（包括任务调度系统）。

你可能感兴趣的:(数据仓库)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
离线数仓VS实时数仓 james二次元数据仓库数据仓库大数据
离线数据仓库（OfflineDataWarehouse）和实时数据仓库（Real-timeDataWarehouse）的实施有一些相似之处，但也存在显著的差异。以下是两者在几个关键方面的对比：相同点：数据集成：都需要从多个数据源提取、转换和加载数据（ETL/ELT）。都需要处理数据清洗、去重和规范化，以保证数据的一致性和准确性。数据建模：都需要进行数据建模，设计数据仓库的星型或雪花模型，定义事实表
数仓建模之维度表&指标表锵锵锵锵~蒋数据研发数据仓库数据研发
在数据仓库中，维度和指标是两个重要的概念。维度（Dimension）：维度是一种描述业务过程中各种属性的方法，用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性，是数据分析的基础。指标（Measure）：指标是衡量业务过程效果的标准，是数据分析的重要指标。指标包括数量、金额、时间、比率、百分比等，用于衡量业务过程的各种结果。在数据仓库中，通常会使用维度表和指标表来进行
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
一文说清什么是数据仓库数据分析小兵数据中台系列 spark 大数据分布式数据分析数据挖掘数据仓库
01数据仓库的概念数据仓库的概念可以追溯到20世纪80年代，当时IBM的研究人员开发出了“商业数据仓库”。本质上，数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。目前对数据仓库（DataWarehouse）的标准定义，业界普遍比较认可的是由数据仓库之父比尔·恩门（BillInmon）在1991年出版的“BuildingtheDataWarehouse”（《建立数据仓库》）一书中所提
美团点评酒旅数据仓库建设实践大数据金猫数据仓库
美团点评酒旅数据仓库建设实践：https://tech.meituan.com/2017/05/26/hotel-dw-layer-topic.html
大数据平台--调度系统小瓶盖的猪猪侠
调度系统是数据仓库的重要组成部分，也是每个银行或公司一个基础软件或服务，需要在全行或全公司层面进行规划，在全行层面统一调度工具和规范，由于数据类系统调度作业较多，交易类系统批量优先级高，调度系统的整体架构如下：调度中心对调度批次和作业进行创建、管理、监控，它负责所有批量作业的调度和编排；在整个作业过程中，作业之间关系分为触发，依赖和互斥。1、触发触发关系表示一个作业完毕后，生成另一个作业的控制文件
数据库，数据仓库，数据湖，湖仓一体到底是什么区别大数据小尘数据库数据仓库 spark
昨天结束的一场面试，面试官问了下我对数据仓库和数据湖的理解，根据之前的理解我说了下数据湖是数据仓库某些时候的缓存，然后面试官反问说我确定这个用词对吗？没理解到位，所以去了解之后再整体输出下我自己的理解。先说下上面的答案，数据仓库和数据湖可以是互相独立存在的，不存在谁是谁的缓存一说，但是如果涉及到湖仓一体的时候，数仓是结构化的数据访问入口，而底层的数据湖是可以作为数仓的底层的存储支持。要了解各个概念
第八章外部数据和数据仓库晨磊的微博
[TOC]第八章外部数据和数据仓库8.0概述外部数据：产生于企业外部系统的数据（非企业内部系统）外部数据典型来源：商报、新闻、研究报告、分析报告等外部数据不能自由导入，需要统一进入仓库原因1：自由导入容易丢失源信息原因2：自由导入数据难以再次使用8.1数据仓库中的外部数据外部数据：出现没有固定频率，不便永久监控完全没有规则，必须格式化不可预测，任何时候可能来自于任何数据源8.2元数据和外部数据元数
数据仓库系列篇之基本概述小学僧来啦数据仓库数据仓库数据库大数据
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库及数仓平台的优势为什么要建立数据仓库大数据数仓平台的特点或优势数据仓库和数据集市的关系前言通过收集资料、个人经验总结整理了【数据仓库系列篇】，有不足之处多多包涵，可参考如下：《数据仓库系列篇之基本概述》《数据仓库系列篇之分
数据域VS主题域陈吉俊 spark 大数据分布式
数据域和主题域是数据仓库中两个重要的概念，他们在数据仓库建设和数据分析中扮演着不同的角色，两者有着明显的区别。数据域：以业务系统的角度，对业务过程进行归纳，抽象出来的数据域。它是自下而上的，通常在完成业务系统数据调研后就可以进行数据域的划分。数据域更侧重于从业务数据的角度进行划分，确保数据的完整性和准确性。主题域：从数据分析应用的角度进行划分的，通常是联系较为紧密的数据主题的集合。主题域是自上而下
MySQL数据库运维：深度解析与实践指南野老杂谈数据库 mysql 运维
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：+V:LAF20151116进行更多交流学习⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？蓦然_ 大数据面试题 hive 大数据开发面试题大数据面试
1、为什么要使用Hive？Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为
hive序列生成_Hive实现自增列的两种方法 weixin_39559804 hive序列生成
多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数(UDF)。用row_number()函数生成代理键INSERTOVERWRITETABLEmy_hive
数据仓库之【商品订单数据数仓】10：数据可视化工具：Zeppelin安装部署、Zeppelin使用做一个有趣的人Zz hadoop hive 数据仓库 hive big data
一、数据可视化数据可视化这块不是项目的重点，不过为了让大家能有一个更加直观的感受，我们可以选择一些现成的数据可视化工具实现。咱们前面分析过，想要查询hive中的数据可以使用hue，不过hue无法自动生成图表。所以我们可以考虑使用Zeppelin针对一些复杂的图表，可以选择定制开发，使用echarts、finebi组件实现。二、Zeppelin安装部署注意：不要使用Zeppelin0.8.2版本，这
关于Apache Hive 和 Apache Iceberg [听得时光枕水眠] apache hive hadoop
ApacheHive和ApacheIceberg都是大数据生态系统中的重要工具，但它们解决的问题和扮演的角色有所不同。我们可以用大白话来比喻它们之间的关系：ApacheHive可以想象成一个“数据仓库超市”，它的货架上摆满了各种商品（数据），并且提供了一个购物车（HiveQL，一种类SQL语言），让你可以方便地从这些商品中挑选你想要的，进行购买（查询）。Hive主要负责将Hadoop的数据组织成表
【GaussDB(DWS)】数仓部署架构与物理结构分析若兰幽竹 GaussDB DWS gaussdb
数仓架构与物理结构分析一、部署架构二、物理结构三、测试验证一、部署架构华为数据仓库服务DWS，集群版本8.1.3.x集群拓扑结构：上述拓扑结构为DWS单AZ高可靠部署架构，为减少硬件故障对系统可用性的影响，建议集群部署方案遵循如下原则：对于每组实例，其主、备部署在不同的节点上。例如：GTM的主、备分别部署在不同的节点上。DN的主、备、从备部署在不同的节点上。建议节点内存大于等于512G，每个节点部
hive学习记录 2302_80695227 hive 学习 hadoop
一、Hive的基本概念定义：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive将HQL（HiveQueryLanguage）转化成MapReduce程序或其他分布式计算引擎（如Tez、Spark）的任务进行计算。数据存储：Hive处理的数据存储在HDFS（HadoopDistributedFileSystem）上。执行引擎：Hive的
06 | 学数据分析要掌握哪些基本概念？张九日zx
商业智能BI、数据仓库DW、数据挖掘DM开头中的百货商店利用数据预测用户购物行为属于商业智能，他们积累的顾客的消费行为习惯会存储在数据仓库中，通过对个体进行消费行为分析总结出来的规律属于数据挖掘。元数据（MetaData）：描述其它数据的数据，也称为“中介数据”。通过元数据，可以很方便地帮助我们管理数据仓库。数据元（DataElement）：就是最小数据单元。数据挖掘：分类、聚类、预测和关联分析K
数仓分层架构：DWS 大连赵哥大数据大数据
在数据仓库的分层架构中，"DWS"通常指的是数据仓库的"服务层"或"汇总层"，但这个缩写可能根据不同的上下文有不同的含义。以下是几种可能的解释：1.**数据仓库服务层（DataWarehouseServices）**：-在一些云服务提供商的数据平台中，DWS可能指的是提供数据仓库功能的一组服务，这些服务可能包括数据存储、管理和分析工具。2.**数据仓库星型模式（DataWarehouseStarS
阿里云日志服务sls的典型应用场景阿里云天池体验场景云计算
日志服务的典型应用场景包括：数据采集与消费、数据清洗与流计算（ETL/StreamProcessing）、数据仓库对接（DataWarehouse）、日志实时查询与分析。云起实验室日志服务体验（活动期完成有机会参与100%中奖）：https://developer.aliyun.com/adc/series/activity/sls-1数据采集与消费通过日志服务LogHub功能，可以大规模低成本接
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要