左美美￣　　

数据仓库研发规范

本文将介绍数据仓库研发规范的阶段规划、角色职责和整体流程。

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会降低研发效率，增加成本与风险。

总而言之，数据资产管理实际上是对物的管理，而研发流程规范管理则是对人的行为的管理。只有落实了作为基础的后者，才能进一步实行数据资产管理方法论。

数据仓库研发规范旨在为广大数据研发者、管理者提供规范化的研发流程指导方法，目的是简化、规范日常工作流程，提高工作效率，减少无效与冗余工作，赋能企业、政府更强大的数据掌控力来应对海量增长的业务数据，从而释放更多人力与财力专注于业务创新。

阶段规划

鉴于对日常数据仓库研发工作的总结与归纳，本文将数据仓库研发流程抽象为如下几点：

需求阶段：数据产品经理应如何应对不断变化的业务需求。
设计阶段：数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素，更好地组织与存储数据。
开发阶段：数据研发者如何高效、规范地进行编码工作。
测试阶段：测试人员应如何准确地暴露代码问题与项目风险，提升产出质量。
发布阶段：如何将具备发布条件的程序平稳地发布到线上稳定产出。
运维阶段：运维人员应如何保障数据产出的时效性和稳定性。

角色职责

数据产品经理：负责承接、评估业务方提出的数据需求，并组织需求评审、产出产品需求文档，同时需要把控其它更为细化的技术评审。
设计人员：根据已定稿的产品需求文档所述需求，进行数据探查，了解数据形态（数据质量、数据分布），同时根据探查结果实现表设计、Mapping设计、调度设计等细分设计工作。
开发人员：根据设计人员产出的稿件，制定计划并实现代码，同时进行单元测试与代码评审。
测试人员：负责验证需求与结果的一致性，发现代码问题与项目风险。
运维人员：负责发布任务，并处理数据、程序、调度、监控告警等异常事件，保障数据产出时效、程序高效运行和生产稳定性。
信息安全与合规人员：在需求评审前期，负责需求实现的安全性与合规性。

数据仓库研发规范整体流程

下图为根据阶段规划与角色职责的内容，整理出的数据仓库研发规范的整体流程。

需求阶段

数仓的最基本职责是定义和发现在企业决策中使用的信息，随着企业战略方向的改变与业务方对行业判断的变化，需求会不断变化。该特性决定了数据仓库需求的多样性和迭代性。

作为承接业务方数据需求的数据产品经理，在需求阶段需要规范首次需求流程和迭代需求流程。

首次需求流程

对于业务方首次提出的需求，重点工作在于评估完成该需求的技术、数据、合规的可行性后，以细化需求的方式完成产品需求文档，并组织需求评审会议多方共同敲定需求最终实现方案。

首次需求流程包括以下步骤：

提出需求
- 外部沟通：数据产品经理主导，负责与外部门业务方充分沟通。力求获取并理解业务场景（背景）、目标和实现价值。
  
  说明
  
  此处不必与业务方讨论需求实现的途径或细节，双方只了解需要达到什么目标，而不讨论如何实现。
- 完成产品需求文档的初稿：得到充分信息后，按照数据仓库需求模板中的常规需求申请单，将需求转化为产品需求文档的初稿。
分析需求
- 可行性分析：数据产品经理主导，邀请设计、数据安全与合规人员，对需求进行评估。
  - 需求合理性：评估该需求的合理性。
  - 数据可行性：评估当前已有数据能否支撑需求开发，如果缺少数据，则需要另行规划缺失数据的抽取方案。
    
    同时建议进行深入的数据探查，包括但不限于数据完整性、字段离散值分布情况、空值、零值、重复值占比等情况。
  - 技术可行性：评估当前已有数据模型能否支撑需求开发，如果不能，则需要规划模型改造方案，并充分评估其影响。同时在测试环境进行模型测试。
    
    说明
    
    如果涉及资损、精确对账或其他关键模型的改造，测试人员必须进行测试。
  - 是否满足安全与合规要求：根据企业自身数据安全的要求，严格控制数据内部流向，划分研发过程中数据可流入的库、项目、表、字段等。对于流出外部的数据，更需要严格评估流出数据内容、流出目的地是否符合公司数据安全的要求。
    
    说明
    
    此项评估是不可跳过的步骤。
- 实现细节分析：数据产品经理主导，对实现需求的细节关键点进行确认，包括但不限于数据口径、接口格式、供数频率和需求优先级。
- 完善产品需求文档：完善产品需求文档的初稿。
评审需求

数据产品经理主导，邀请设计人员、测试人员发起需求评审会。会议内容主要包括：
- 各方提出对于产品需求文档中各细节的疑问。
- 共同达成对于疑问的解决方案。
  
  说明
  
  评审会议上不得遗留影响后续研发流程的关键问题，否则视为评审不通过。
确认需求

N个工作日（视各企业实际情况而定）内如果无异议，则产品需求文档定稿，并开始进入后续的设计与开发阶段。

迭代需求流程

对于同一需求，在完成首次需求评审并定稿产品需求文档后，业务方再次提出的需求，均属于迭代需求。

迭代需求的流程与首次需求流程类似，均需进行可行性分析、实现细节分析。分析完成后，视实际情况来定是否需要再次进行需求评审，最终将新老需求合并至产品需求文档终稿。

迭代需求流程包括以下步骤：

申请需求变更

数据产品经理完成业务方迭代需求对接后，将新的需求录入数据仓库需求模板的迭代需求申请单中。

说明

如果企业具备需求相关管理平台，建议通过平台+数据库形式规范化存储不断迭代的每个需求版本。
评审需求变更

原则上需求评审需由数据产品经理发起评审会议来完成，但如果需求迭代内容不多，评审方式可视情况而定选择邮件或现场会议方式，具体视变更内容由变更委员会决定。

评审内容仍为实现需求必须面对的技术可行性、数据可行性、安全与合规要求性展开讨论，如果多方有异议，则必须共同达成一致性解决方案。
确认并合并需求

数据产品经理将上一版本定稿的产品需求文档内容，与本次评审定稿的产品需求文档内容进行合并。

如果两个工作日内无异议，则视为需求确认。

设计阶段

完成需求阶段的工作后，数据产品经理会产出最终版本的产品需求文档，以供设计人员进行设计工作。

设计工作包含数据探查和系分设计两部分：

数据探查旨在了解来源数据的数据形态，例如数据质量、数据分布等。结合业务场景，帮助分析和判断需求实现的可行性以及找出潜在的数据问题和风险。
系分设计则包括表设计、Mapping设计和调度设计等最实际的设计工作。

设计完毕后，最终将产出供开发人员参照实施开发的ETL设计文档、数据探查文档、调度设计文档，为需求的有效实现打下坚实基础。

设计阶段的流程包括以下步骤：

数据探查

数据探查的目的是了解数据的形态，找到潜在问题与风险。数据探查是决定数据可靠性的关键步骤。数据探查报告可以为后续开发提供指导，并作为依据制定开发计划。

数据探查的内容主要包括但不限于以下内容：
- 源表数据主键字段重复数。
- 源表字段空值/异常值的统计数。
- 源表之间关联关系。
- 源表字段的数据格式。
- 源表增量规则。
探查完成后，最终产出数据探查报告。如果发现当前数据无法支撑需求的实现，则要将需求退回给数据产品经理，由数据产品经理发起迭代需求流程。

系分设计

系分设计包括表设计、Mapping设计和调度设计三部分。

表设计

表设计是指依据需求设计目标产出表、中间产出表。包含表名、表名解释、字段名、字段类型、字段注释以及字段安全等级等。表设计的步骤如下所示：

设计表名、字段名：要求相同的字段在不同表中的字段名相同。
设计主键和外键。
设计字段注释：通过标注字段注释、枚举值来表明字段含义，如果枚举值过多，建议为枚举值创建维表。
设计表分区：建议所有表都创建为分区表。

设计数据生命周期。

企业应根据自身实际情况来进行设置，也可以参考如下数值：

数仓分层	说明
ODS层	非去重数据：默认不保留。ETL临时表：保留14日。镜像全量表：重要数据建议采用极限存储。流水全量表：如果不可再生，则永久保存。
DWD层	维度表：按日分区的极限存储模式。事实表：按日分区且永久保留。周期性快照事实表：采用极限存储或根据自身情况设置生命周期。
DWS层	汇总指标：自行选择保留月初、特定日期数据。

设计加密技术：根据实际情况对敏感字段设计加密方案。

Mapping设计

Mapping设计采用图形化或伪代码的形式编写规划以下内容：
- 每个字段的生成逻辑。
- 表与表之间的关系。
- 目标字段与原字段间的算法逻辑。
将上述内容产出为ETL文档留存，ETL将作为后续开发流程的第一参考依据。

调度设计
1. 依赖设计
  
  将ETL抽象为多个相互依赖的代码节点形成上下游依赖关系，要求如下：
  - 一个节点仅产出一张表，一张表仅由一个节点产出。
  - 下游节点的输入数据来自于上游节点的产出数据。
  - 多并行、少串行（在分布式系统下可发挥其优势）。
2. 运行周期
  
  如果数据研发的场景是在常见T+1离线计算场景，则应将不同调度任务按照实际业务需求，赋予小时、日、周、月和季度等不同的调度粒度。
  
  说明
  - 程序必须支持重跑。
  - 如果SQL语句优化后，单次执行仍超过30分钟，建议拆表重新设计，建议每个节点运行时长不超过1小时。
3. 设置基线：在传统T+1（每日计算的是前一日产生的业务数据）的场景下，数据理应在第二天某个时间点按时产出以支撑BI或其他应用场景，因此应设置如下基线报警策略。
  - 最终产出任务基线：规定产出最终数据的任务必须在公司规定的X点X分完成，否则视为破线（同时推送相应报警）。
  - 中间任务报警：产出最终数据的任务的上游任务应稳定、按时运行完成。如果出现出错、变慢（运行时间明显长于历史过往平均运行时间）等可能影响最终任务完成时间的事件，则应第一时间推送报警给第一任务责任人。
4. 设置优先级：基于有限的计算资源来设置任务优先级，以保证在已有资源被充分调配利用的情况下，可以按照顺序产出数据，保证重要任务的准时产出。调度设计完成后，需要产出调度设计文档。
5. 数据流设计
  
  ETL过程中，数据流向有如下限制：
  - 数据流向仅支持由低到高，即ODS->DWD->DWS->ADS。
  - 数据不能跨层引用、逆向引用。
  - DWS层不同集市的数据不能相互引用，必须沉淀到DWD层。

开发阶段

在完成需求评审、模型与调度设计后，即可进入数据开发阶段。

开发阶段的主要任务是将设计阶段的产出转化为具体代码。开发过程中，开发人员必须保证代码的规范性、准确性。同时进行适当的单元测试，以便后续测试工作可以顺利开展。

开发阶段的流程包括以下步骤：

代码开发

编码时需要注意以下问题：
- 层次分明、结构化强。
- 增加必要注释，以增强代码的可读性。
- 充分考虑执行速度最优的原则。
- 四个空格为一个缩进量，所有缩进皆为一个缩进量的整数倍，按照代码层次对齐。
- 不建议使用select *操作，所有操作必须明确指定列名。
- 所有产出表都需要有物理主键或逻辑主键，并纳入周期性数据质量监控。
单元测试

代码开发完成后，开发人员需要对代码进行单元测试，单元测试阶段包括以下内容：
- 规范性检查。
- 代码质量检查：建议单条SQL执行时间不超过30分钟。
- 数仓特殊需求检查。
- 指标特性检查。
单元测试完成后，需整理输出单元测试报告和发布操作文档，以便开展后续发布工作，详情请参见单元测试报告和发布操作文档。
代码评审（Code Review）

单元测试完成后，需要由其它开发人员进行代码评审，最后查看代码评审报告，详情请参见代码评审报告。

代码评审包括数据一致性检查、数据完整性检查和指标间逻辑检查。

测试阶段

开发阶段已经完成了代码的实现，为了发现代码问题、暴露项目风险、提升产出质量，需要进入测试阶段，通过测试用例对代码进行分析，为最终发布提供决策的依据。

测试阶段的流程包括以下步骤：

测试分析

根据需求阶段、设计阶段的要求，结合来源数据的探查来明确整个测试流程的目标、方案、风险与难点：
- 测试范围
- 测试策略和方法
- 具体交付物、退出标准
- 预期风险
- 测试环境、测试数据的准备
此外，测试分析应经过企业内部评审或项目组评审，以保证测试的科学性。

测试分析完成后，需输出测试方案分析报告，详情请参见测试分析方案报告。
准备测试用例

测试方案明确后，需要编写测试用例、测试代码和准备数据。

测试用例编写需遵循结构有序、条理清晰、他人可执行的原则，同时各团队需有效维护和保存，以便日后进行复用、故障问题回溯。建议测试用例编写完成后组织公司内部评审。
执行测试
1. 交付测试：为了将问题在前期设计、研发和自测环节完成收敛，需进行交付测试，以便保障流入到测试执行环节的代码达到一定的质量标准。
  
  交付测试的标准包括编码是否符合规范、是否完成代码评审、是否提供数据探查报告、交付缺陷的严重程度和用例占比、选用测试用例集的执行通过率。
  
  测试完成后输出交付测试报告，详情请参见交付测试报告。
2. 数据测试
  
  测试期间需重点关注以下事项：
  - 代码规范性：命名规范、编码类型是否符合要求。
  - 数据规范性：命名规范、表结构规范、精度要求、空值处理方式、时间类型格式等是否符合要求。
  - 数据基础：主键唯一性，空值、重复值、无效值占比是否符合要求。
  - 业务正确性：各业务点是否被正确实现，可以通过划分边界值、等价类等样本数据进行验证。
  - 代码性能：验证代码是否可在业务要求产出的时间成功运行完成。
  测试期间，需要严格按照事前制定的测试策略和测试用例执行测试，建议将测试过程中的测试点修改补充到测试用例中，为今后线上问题进行回溯和排查提供参照和依据。
3. 测试报告：测试完成后需发布质量评估报告，报告中需表现当前项目缺陷修复情况、遗留问题排期评估、发布后的预期风险，以及最终关于发布或延期的结论。
  
  测试报告请参见质量评估报告模板。
UAT测试：交付测试、数据测试完成后，数据产品经理需要站在业务角度，对产出数据进行验收测试，最终提供验收测试报告。

UAT测试报告请参见验收测试报告模板。

发布阶段

发布是将具备发布条件的程序发布到线上系统，并以生产标准进行数据产出的过程。

发布分为正常发布和紧急发布：

正常发布：发布节奏在原则上是可预见性、周期性的，发布计划可提前制定和公布。正常列入排期计划的需求，都必须按照正常的节奏安排发布计划。
紧急发布：紧急发布是为应对突发性、紧急性状况而额外开启的可选发布，如线上BUG紧急修复、突发性需求等。

在接到紧急发布需求后，第一时间应评估是否可以随最近一次正常发布窗口期发布。如果不可以，则根据企业实际情况发起紧急发布申请。

发布阶段的流程主要包括发布申请、发布审批和发布执行。

发布申请：发布申请是发布工作的进入环节，该环节主要包括程序源代码、质量评估报告、UAT验收报告和发布版本。
发布审批：审批环节是对发布申请合法性的赋权和放行环节。在该环节，需要对发布申请的合规性、规范性和合理性进行审核，具体审批目的包括但不限于以下几点：
- 发布内容是否与原始需求一致。
- 发布内容是否与数据安全、合规要求有冲突。
- 发布内容是否会造成任务报错、脏数据写入等情况。
- 发布内容的发布时间段是否合理或需要调整。
- 紧急发布的必要性。
建议安排对业务逻辑、代码较为熟悉的人员把控审批流程。审批通过后即进入发布执行阶段。如果不通过，则发布立即终止，或驳回申请进行调整后重新申请。

审批环节是一个非常重要且不可或缺的环节，它关系到数据生产环境的稳定性和数据的可靠性、安全性。建议企业根据自身情况，安排经验丰富的相关人士来承担此项工作。
发布执行：审批通过后，由运维人员执行发布。

为保证将程序正确、完整地发布到线上，发布时应严格按照开发人员的发布操作步骤执行，且可以查询操作日志记录。

发布完成后，发布人员需要启动关联通知工作。
关联通知：发布人员需将发布变更信息及时通知包括但不限于以下关联方：
- 该代码所在节点的一级子节点责任人。
- 任务关联产出基线责任人。
数据质量监控与冒烟测试：发布完成后，开发人员根据数据与业务特点配置数据质量监控规则，并进行冒烟测试。

冒烟测试必须完成至少一个调度周期的运行，以验证新发布或者变更的任务节点可行性。如果冒烟测试不通过，则发布执行人员需根据情况，执行代码回滚或者通知开发人员进行紧急线上发布。

运维阶段

开发人员根据需求将代码发布上线后，还需要及时处理数据、程序、调度、监控告警等的异常事件，保障数据产出时效、程序高效运行和生产稳定性。

背景信息

数据开发人员主要需要处理以下事项：

程序异常处理、性能优化。
调度异常处理。
数据质量监控规则异常分析、规则优化。
数据异常的核查。

运维阶段的流程包括分析影响、制定与实施方案和验证实施方案。

操作步骤

分析影响。

运维人员或开发人员通过监控规则捕获、自主发现或其它方法获取关于数据产出时效性、数据准确性等指标的异常情况，并进行影响分析。异常情况包括但不限于：
- 任务运行失败。
- 任务运行时间过长。
- 产出表中出现脏数据。
开发人员根据影响分析的结果判断是否对线上的数据应用有影响。
- 如果有影响，需要开发人员及时推送告警信息至任务责任人，并判断原因、确定可行性解决方案。
- 如果无影响，则无需处理。
制定与实施方案。
1. 开发人员提交线上变更申请。
2. 审批人员（建议安排为对业务逻辑、代码较为熟悉的人员）审批允许发布变更。
3. 运维人员按照步骤实施发布，完成后通知数据开发人员进行验证。如果验证失败，则运维人员按照修改脚本的回滚方法进行回滚，并反馈结果至开发人员。
验证实施方案。

开发人员在收到运维人员实施成功的通知后，开始验证变更结果是否符合预期。
- 如果符合预期，则开发人员需要将此次变更的原因、内容及生效时间通知直接下游及关联方的人员。
- 如果未符合预期，则开发人员需要反馈给运维人员执行回滚。

附录

编码规范

编写原则
- 代码行清晰、整齐，具有一定的可观赏性。
- 代码编写要充分考虑执行速度最优原则。
- 代码行整体层次分明、结构化强。
- 代码中应有必要的注释以增强代码的可读性。
- 规范要求非强制性地约束代码开发人员的代码编写行为。在实际应用中，只要不违反常规要求，允许存在可理解的偏差。
基本要求
- 代码中应用到的所有SQL关键字、保留字都需使用全大写或小写，例如select/SELECT、from/FROM、where/WHERE、and/AND、or/OR、union/UNION、insert/INSERT、delete/DELETE、group/GROUP、having/HAVING、count/COUNT等。不能使用大小写混合的方式，例如Select或seLECT等方式。
- 代码中应用到的除关键字、保留字之外的代码，都要求使用小写。
- 四个空格为一个缩进量，所有的缩进均为一个缩进量的整数倍。
- 禁止使用SELECT *操作，所有操作必须明确指定列名。
- 通常要求对应的括号在同一列上。
数据类型
- 不推荐大量使用STRING类型，以免数据加工环节的数据质量问题无法及时暴露。
- 在对精度要求极其严格的场景下请使用DECIMAL类型。
- 关于货币类型
  - 中国货币单位统一为人民币元，国际货币单位统一为美元。
  - 除非模型有特殊说明，否则中间层金额相关的数据不执行任何四舍五入操作，以避免后续的汇总计算中出现不同口径的汇总结果不一致的情况。
- 字段排列要求
  - SELECT语句选择的字段按每行一个字段方式编排。
  - SELECT单字后面一个缩进量后应直接跟首个选择的字段，即字段离首起二个缩进量。
  - 其它字段前导二个缩进量再跟一个逗号（，）后放置字段名。
  - 两个字段之间的逗号（，）分割符紧跟在第二个字段的前面。
  - AS语句应与相应的字段在同一行，多个字段的AS建议尽量对齐在同一列上。
- SELECT子句排列要求
  
  SELECT语句中所用到的FROM、WHERE、GROUP BY、HAVING、ORDER BY、JOIN、UNION等子句，需遵循如下要求：
  - 换行编写。
  - 与相应的SELECT语句左对齐编排。
  - 子句后续的代码离子句首字母二个缩进量起编写。
  - WHERE子句下的逻辑判断符AND、OR等与WHERE左对齐编排。
  - 超过两个缩进量长度的子句加一空格后编写后续代码。例如ORDER BY、GROUP BY等。
- 运算符前后间隔要求
  
  算术运算符、逻辑运算符的前后要保留一个空格。
- CASE语句的编写
  
  SELECT语句中对字段值进行判断取值的操作将用到CASE语句，正确的编排CASE语句对加强代码行的可读性也是很关键的一部分。对CASE语句编排的约定如下：
  - WHEN子句在CASE语句的同一行并缩进一个缩进量后开始编写。
  - 每个WHEN子句单独一行编写，如果语句较长可换行编写。
  - CASE语句必须包含ELSE子语，ELSE子句与WHEN子句对齐。
- 子查询嵌套编写规范
  
  在数据仓库系统ETL开发中经常需要用到子查询嵌套，因此代码的分层编排变得非常重要。
- 表别名定义约定
  
  建议对所有的表加上别名。一旦在SELECT语句中对表定义了别名，在整个语句中对此表的引用都必须以别名替代。考虑到编写代码的便捷性，约定别名尽量简洁，同时避免使用关键字。表别名定义约定如下：
  - 表别名采用简单字符命名。
  - 多层次的嵌套子查询，在别名之前要体现层次关系。SQL语句别名或分层的命名，从第一层次至第四层次，分别用P、S、U、D表示，取意为Part，Segment，Unit，Detail。也可用a、b、c、d来表示第一层次到第四层次。对于同一层次的多个子句，可以在字母后加1、2、3、4区分。
  - 必要时，为表别名添加注释。
- SQL注释
  - 每条SQL语句均应添加注释说明。
  - 每条SQL语句的注释单独成行并置于语句前面。
  - 字段注释紧跟在字段后面。
  - 应为不易理解的分支条件表达式添加注释。
  - 应说明重要计算的功能。
  - 过长的函数实现，应将其语句按实现的功能分段加以概括性说明。
  - 常量及变量注释时，必须注释被保存值的含义，按需注释合法的取值范围。

其他命名规范

视图命名规范

视图命名规范如下：

ODS层直接以视图形式开放到CDM层：dwd_{ODS 表名}。
中间层视图命名规范：遵循中间层命名规范，且加上后缀

{dws/dwd}_{中间层表命名规范要求}。

脚本间可复用的中间表命名规范

因为所有表都是以分区表形式存在的，因此中间表不设置命名规范，全部以正式表方式处理。

临时表命名规范

不同场景下临时表命名规范不同：

测试、数据探查、临时取数等场景下产生的临时表命名规范为：tmp{工号/操作人名标识}{产出表表名}_{n}。
脚本内临时表命名规范：tmp{产出表表名}{n}。

下线表命名规范

一般生产任务下线后，不急于立马下线表，一般继续存放3个月，修改表名做标注，3个月后再下线表。下线表统一后缀 _retireyyyymmdd，生产任务下线后的表重命名为YYYYMMDD。三个月后需要与表拥有者确认是否能删除。

数据仓库需求模板

将为您介绍数据仓库需求模板、常规需求申请单和迭代需求申请单。

填写说明：

*为必填项目，其它可以选择性进行填写。
指标逻辑可以引用指标和术语（或指标库）中的定义。
如果数据范围、更新频率、时间窗口、数据提供形式和表头信息不一致，可以针对指标项单独说明。
如果涉及到数据提供或数据交互，数据验收人、待验收数据样本和数据验收方式为必填项，其它项并非强制需求。

数据仓库业务需求模板

数据仓库业务需求模板
需求申请	需求申请人*
需求使用方*
期望完成日期*
需求类型*
需求目的	需求背景*
期望目标*
应用系统名
应用系统联系人
需求内容	需求概览	需求范围*	描述此次需求涉及的范围（可以从人群特征，业务场景等维度定义数据范围、改造哪些表等）。
包含的指标	多个指标以逗号分隔。如果指标较多，可以在日常业务需求附表中的指标名称一栏填写。
数据交互方式	涉及到数据输出的，需要描述数据的交互方式、格式等。
附件说明	如果有附件需要补充的，请在此说明，并同步附加附件。
项目涉众	数据产品经理
设计人员
开发人员
测试人员
数据安全与合规人员
需求版本变更历史
版本号	版本确认日期	版本变更点	提交人

常规需求申请单

指标需求中通常会涉及到下表中的约定项，如果需要自定义约定项，可以在自定义格式列进行填写。

约定项	默认格式	自定义格式
日期	yyyymmdd
比率值	4位小数点
时间戳	yyyy-mm-dd hh24:mi:ss，格林尼治时间。
金额	单位为分。
时间粒度	日：T-1日的00:00~24:00。
周：周一到周日，对应指标仅周日有值。
月：自然月，对应指标仅月末最后一天有值。
年累计：自然年，1月1日到T-1。
财年累计：财年4月1日到T-1。

约定项	约定项	填写内容
时间窗口（历史数据要求）*	存储周期*
更新频率（日、周、月、小时、分钟、其它）*	期望数据更新时间*
数据验收人	待验收数据样本
数据验收方式	数据提供形式	物理表数据文件数据查询服务或接口
备注

NO.	粒度	目录	接口表	指标名称*	指标逻辑*	空值/异常值处理*	监控项	值是否唯一*	数据来源*	安全等级*	备注

迭代需求申请单

数据仓库需求变更申请单
需求变更申请	原始需求ID*
需求申请人*
需求使用方*
期望完成日期*
需求变更原因	需求变更背景*
是否可以在需求评审前预知*
如何避免此类变更发生*
需求变更内容	原始需求（对于新增的需求，填无）*	变更内容*	变更类型*

数据探查报告

数据探查报告模板，如下表所示。

字段顺序	字段名	字段注释	字段类型	总行数	空值个数

空值比例	唯一个数	均值（number）：：TOP1（string）	最小值：：TOP2	1%分位数：：TOP3	5%分位数：：TOP4

25%分位数：：TOP5	中位数：：BOT5	75%分位数：：BOT4	95%分位数：：BOT3	99%分位数：：BOT2	最大值：：BOT1

ETL文档

表总览

表名	说明
ods_raw_log_d	离源ODS层最近的数据
dwd_user_info_d	用户公共明细表
dws_user_info_d	用户公共汇总表
dm_user_info_d	用户数据集市表
rpt_user_info_d	用户分析汇总表

节点dwd_user_info_d

任务（节点）名称 dwd_user_info_d
字段名称	目标表字段	字段说明	源表	涉及源表字段	算法说明	备注
uid	用户ID	用户ID	ods_log_info_d	uid	抽取汇总
gender	性别	性别	ods_log_info_d	gender	抽取
region	地域，根据IP获取	地域，根据IP	ods_log_info_d	ip	转换，将IP地址转换为地域
device	终端类型	终端类型	ods_log_info_d	device	截取获得设备名称
identity	访问类型 crawler feed user unknown	访问类型 crawler feed user unknown	ods_log_info_d	identity	抽取
method	HTTP请求类型	HTTP请求类型	ods_log_info_d	request	截取获得请求类型
URL	URL	URL	ods_log_info_d	request	截取获得URL
protocol	protocol	协议	ods_log_info_d	request	截取获得协议
referer	来源URL	来源URL	ods_log_info_d	referer	抽取，获得更精准的URL
time	时间yyyymmddhh:mi:ss	时间yyyymmddhh:mi:ss	ods_log_info_d	time	抽取

调度设计文档

节点ID	节点名称	用途	数据输入表	数据产出表	调度周期
320170257	workshop_start	虚拟节点，用于管理下游节点	Null	Null	日
320170260	MySQL数据同步	拉取MySQL数据源数据	ods_user_info_d	ods_user_info_d	日
320170260	FTP数据同步	拉取FTP数据源数据	Null	ods_raw_log_d	日
320170261	ods_log_info_d	原始数据脏数据清理	ods_raw_log_d	ods_log_info_d320170259	日
320170262	dw_user_info_all_d	轻度汇总数据	ods_log_info_d	dw_user_info_all_d	日
320170263	rpt_user_info_d	统计汇总报表数据	dw_user_info_all_d	rpt_user_info_d	日

定时时间	预计运行时间	上游节点ID	上游节点名称	基线时间	优先级
00：01	5s	Null	Null	Null	1
00：03	1mins	320170257	workshop_start	Null	1
00：03	1mins	320170257	workshop_start	Null	1
00：05	10mins	320170260320170259	MySQL数据同步OSS数据同步	Null	1
00：20	5mins	320170261	ods_log_info_d	Null	1
00：30	30s	320170262	dw_user_info_all_d	00:40:00	1

单元测试报告

单元测试要求

用例小类	测试要点	说明
规范性	命名规范检查（表、视图、工作流、字段）	是否符合命名规范的表命名规范。
代码格式和注释规范性	是否符合编码规范。
表引用规范性	数据不允许跨层引用。
表更新策略规范	建议临时表均为非分区表，正式表均为分区表。
是否支持重跑	代码必须支持重跑。
源数据质量	非空值检查	检查所用字段是否存在空值，以及代码对空值处理的策略是否正确。
字段枚举值检查	字段的枚举值是否都在代码考虑范围内，是否有可能会出现新值。
主键检查	物理主键或逻辑主键是否成立。
数据完整性检查	代码中引用的数据能否支撑实际需求。
字段间逻辑检查	字段间的业务逻辑关系是否在数据上成立，例如余额=总的发放-总的回收。
代码质量/BUG检查	历史拉链表检查断链/交叉链	使用标准SQL进行检验。
数据倾斜检查	是否存在倾斜的情况，是否有大表join小表未用mapjoin等。
表分区选择检查	代码对表分区的选择是否正确。
关联条件检查	关联条件是否正确，是否会产生意料外的结果，例如多对多关联、笛卡尔积。
字段类型检查	字段类型是否正确，例如：金额字段必须为X数据类型，编号字段必须为X数据类型。
执行效率检查	单条SQL执行时间不超过30分钟，单个脚本执行时间不超过60分钟。
数仓特殊需求	脏数据检查	检查是否有脏数据。
增量/全量数据抽取规范	抽取时间大于X分钟的，则考虑更改为增量抽取。
数仓抽取时间点检查	数仓抽取时业务系统是否ready，抽取的数据是否完整。
指标特性检查	细分指标趋势检查	例如会员拉链表记录数相比前一天必须是正增长、当日累计值-上日累计值必须大于0。
不同粒度数据转换正确性	例如细粒度向粗粒度汇总，通常使用最大/最高/最小/最低等过滤条件，如：支用层逾期天数转换到客户层指标（最高逾期天数）。最高逾期天数 = Max（支用层逾期天数）。
值域范围检查	检查字段值的范围是否正确，如：金额>=0，比率<=1，天数<=业务起始日期至今，还款日期>=放款日期。
代码值分布检查	从业务逻辑考量字段值的分布情况是否合理。
可累加值与不可累加值检查	检查可累加值和不可累加值的处理逻辑正确性，如：计算客户数总计时需要做去重处理，金额则可以累加。

单元测试用例记录

序号	用例大类	测试要点	表	字段	自定义表达式	备注
1	规范性	命名规范检查（表、视图、工作流、字段）	jrcdm_agt_ovd_ins_detail_fact_dd
2	规范性	是否支持重跑	jrcdm_agt_ovd_ins_detail_fact_dd
3	源数据质量	主键检查	afclms_clms_loan_contract	contract_no
4	指标特性检查	值域范围检查	jrcdm_cust_drawndn_fact_ds	prin_max_ovd_days， inte_max_ovd_days	prin_max_ovd_days>=inte_max_ovd_days	检验逾期天数的业务逻辑。
5	指标特性检查	值域范围检查	x_jredw_da_drawndn_ovd_date_info	Prin_Ovd_Start_Dt	Prin_Ovd_Start_Dt<=Prin_Ovd_End_Dt, Inte_Ovd_Start_Dt <=Inte_Ovd_End_Dt	检查业务逻辑正确性。

测试结果	测试结果备注	是否转化监控	监控阈值	创建日期	创建人	所属项目名称
通过				2013/7/16	XXX	某项目
通过				2013/7/16	XXX	某项目
通过				2013/7/16	XXX	某项目
通过		是	<1	2013/7/16	XXX	某项目
未通过	开发代码中存在以下两个问题：未对期次还款日大于当前日期的记录进行过滤，这部分为未到期记录，需要排除。未对记录中创建时间小于期次还款日的、未结清的期次记录的逾期结束时间，赋予与逾期开始时间一致的处理。	是	<1	2013/7/16	XXX	某项目

发布操作文档

序号	节点ID	文件名	发布次序	是否需要生产冒烟	是否需要重跑历史数据	重跑历史时间段	发布验证是否通过
1	xxxxx	dw_user_log_info_d.sql	1	Y	Y	20190326-20190426	Y

代码评审报告

代码评审要求

用例小类	测试要点	说明	是否已检查
数据一致性测试	主键唯一性	产出表必须有物理主键或逻辑主键，且在数据上主键成立。	是
主键和外键逻辑关系	检查设计文档里关于主外键的设计是否在开发阶段得以实现，且在数据上成立，例如是否存在外键丢失。	是
系统/业务间格式和类型一致性检查	检查设计文档描述的字段定义是否与实际值一致。例如日期是否包含时分秒，金额字段是否为Double，单位为元/分，保留小数位数。	是
业务来源一致性检查	从同样业务来源的指标是否在数据上一致。例如同样是余额指标，数据来源是否一致或来自同一加工链路，如果不是，则结果是否一致。	是
同名逻辑定义检查	字段或逻辑定义相同，是否存在值不一样的情况。例如同样是贷款发放额，不同的表之间数据是否一致。	是
数据完整性	数据获取是否完整	代码中的数据获取逻辑是否完整。例如累计客户数，是否完整包含了历史上有效存在，但当前不存在的客户。	是
边界值检查	代码中对于边界值的处理是否正确。例如最近30天包含今天但不包含第前30天的。例如日期筛选是否为双闭区间。	是
过滤条件完整性	过滤条件是否完整。例如筛选当前有效会员需要加上会员状态的限制。	是
指标间逻辑检查	同表字段间逻辑检查	同表不同字段间在业务上存在的逻辑是否在数据上成立。例如贷款为结清状态，则结清日期一定非空；状态为逾期，则逾期金额一定大于0。	是
跨表/跨系统逻辑检查	跨表/跨系统间在业务上存在的逻辑是否在数据上成立。例如不良贷款余额>0，则该账户三级分类应为次级、可疑和损失。	是

代码评审测试用例记录

备注	测试结果	测试结果备注	是否转化监控	监控阈值	创建日期	创建人	所属项目名称
检查主键的唯一性	通过		是	<1	2019/3/16	XXX	订单主题分析

测试分析方案报告

产品概述

产品背景

描述该数据产品的业务背景，以便测试小组成员了解业务背景，划分测试场景，并站在用户的立场进行测试。
开发背景

描述该项目采用的技术背景。
产品目标

描述产品所需达到的预期目标，基于此可以评估当前架构设计是否能够支持该目标的实现。

项目整体分析

功能性需求测试分析

术语表

下表将为您介绍产品需求文档中的术语并给出定义，避免由于对术语理解不一致而导致漏测或错误。

名称说明

PRD、指标需求清单与测试功能对应列表

详细描述数据测试指标需求。

指标名称	字段来源	业务规则

系统架构分析

概括当前项目数据开发总体的流程和范围。

测试过程管理

测试版本控制

代码从测试环境发布至开发环境后，需描述此部分。

项目交付测试通过后，每天上午9点、下午3点接受开发提交的新版本，其他时间测试环境不接受变更。

版本号更新日期触发情况
测试环境描述

对测试环境给出逻辑图描述，分析问题和风险。

例如测试环境和线上环境不一致，可能导致的测试风险。测试环境在一些可能和开发公用的系统，存在的消息分发问题等。
测试进入退出准则

测试进入准则，下表仅描述项目个性化的准则。

任务角色验收标准

测试退出准则，下表仅描述项目个性化的准则。

任务角色验收标准
测试策略
- 测试设计策略
  
  描述需要进行的测试，例如功能测试、接口测试等，并分别描述原因。
- 测试执行策略
  
  描述测试执行需要进行多少轮、每轮的测试重点、每轮测试的优先级，并分别描述原因。
- 回归测试策略
  
  重点描述整个项目的回归测试策略，不仅包含项目本身，还需要包含其它关联产品线的配合方式等。
- 难点测试方案
缺陷管理

与项目组成员在缺陷处理问题上达成一致，避免测试执行时项目状态过于无序。

例如XX缺陷必须在两天内修复，如果有拖延，则整个测试依次顺延。

困难及风险

基于以上分析，判断项目内存在的风险与困难，并对这些风险和困难进行跟踪直到项目结束，可以参照如下表格：

风险描述	提出人	建议规避措施	备注

交付测试报告

代码交付情况

关键指标包括BUG（每轮测试发现的缺陷总数）、执行率和通过率。

文档交付情况

文档测试准入条件

交付测试遗留问题

记录交付测试通过后，遗留在功能测试阶段未解决的问题。

质量评估报告模板

测试情况说明

测试用例执行通过率：0%~100%。
每日发现故障趋势图。
线下缺陷严重程度分类。

需求实现说明

需求覆盖率（在测分文档中，需求与功能对应列表为准）：0%~100%。

需求变更情况：包括已走正式流程的需求变更，邮件通告的需求变更，以及当前功能改动了原有需求的说明。

阶段	说明	分类
测分阶段	增加老会员模式下添加银行卡的出错情况提示。	需求变更
老会员添加卡的流程中，增加生僻字用户的判断。	需求变更
增加推荐规则模板：推荐规则为空时的展示方式。	需求变更

未实现需求：请说明需求未实现的原因。

遗留问题列表

序号	问题描述	风险影响分析	风险等级	建议跟进负责人
Delay_1	由于XX API回参格式限制，XX字段返回结果无法适配计算引擎字段类型。	接口改造需花费X天，导致项目整体进度Delay X天。	高	XXX

质量评估结果

测试是否通过
保留建议

遗留的问题在本项目中可以接受，但Delay_1缺陷必须在XXX年X月X日之前启动升级包修复。

验收报告模板

测试验收点

序号	测试验证点（按实际情况增减）	是否通过
1	数据主键是否重复。
2	结果数据的明细分布，包括数据量、空值、均值及其他相关业务指标的分布。
3	抽样检查：与需求设定时的抽样样本进行对比，查看是否存在差异。
4	如果是迭代需求，需要与一期的结果进行对比，查看数据量差异、明细差异等。
5	某些数值型结果进行同比、环比，获得大概增长率和变化范围，判断数据的正确性。

需求实现情况

已实现内容。
未实现内容：需要说明未实现的原因。

发现问题列表

序号	问题描述	风险影响分析	风险等级	建议跟进负责人
Delay_1	由于XX API回参格式限制，XX字段返回结果无法适配计算引擎字段类型。	接口改造需花费X天，导致项目整体进度Delay X天。	高	张三

验收评估结果

业务方（数据产品经理）：通过/不通过。

验收通过。遗留的问题在本项目中可以接受，但Delay_1缺陷必须在xxxx年x月x日之前启动升级包修复。

你可能感兴趣的:(数据仓库)

数仓_数据口径 TTXS123456789ABC #XM1离线数仓_金融零售大数据
数仓_数据口径数据口径含义数据口径包含口径收敛数据口径含义在数据仓库（数仓）中，数据口径是指在数据统计和分析过程中，对数据的定义、计算方法、范围和标准等方面的详细规定。它确保了数据的一致性和准确性，避免因统计标准不一致导致的数据误解和混淆。数据口径包含具体来说，数据口径包括以下几个方面：数据定义：明确指标的具体含义。例如，“用户注册数”指的是在某一定时间内通过平台注册的新用户数量。计算方法：规定如
数据仓库和数据湖数据仓库和数据库 qq_25467441 数据仓库数据库
数据仓库和数据湖是两种不同的数据存储解决方案，它们在设计、用途和数据管理方式上有着显著的区别。以下是数据仓库和数据湖的主要区别：1.数据结构：•数据仓库：通常存储结构化数据，这些数据经过清洗、转换和加载（ETL）过程，以确保数据的一致性和准确性。数据仓库中的数据通常是预定义模式的，便于进行快速查询和分析。•数据湖：可以存储结构化、半结构化和非结构化数据。数据湖不需要预定义的模式，数据可以以其原始格
数据仓库、数据湖和数据湖仓阿湯哥数据仓库 spark 大数据
数据仓库、数据湖和数据湖仓是三种常见的数据存储和管理技术，各自有不同的特点和适用场景。以下是它们的详细比较：1.数据仓库（DataWarehouse）定义：用于存储结构化数据，经过清洗、转换和建模，支持复杂的查询和分析。特点：结构化数据：主要处理关系型数据。预定义模式：数据在加载前需要定义模式（Schema-on-Write）。高性能查询：优化用于复杂查询和报表生成。数据治理：提供强大的数据治理和
数据库MySQL 8.0.32安装包网盘资源下载（附教程）听风说雨的人儿数据库 mysql 百度云
如大家所熟悉的，MySQL是一个开源的关系型数据库管理系统（RDBMS）。它使用SQL（结构化查询语言）来管理数据，允许用户定义表、字段、索引和关系，并通过SQL语句来查询、更新和管理数据。MySQL支持多种操作系统，包括Windows、Linux和MacOS等，并且广泛用于各种应用程序中，如Web应用程序、数据仓库和电子商务系统等。MySQL的优势：成本效益与开源特性作为一个开源数据库，MySQ
数据仓库与数据湖的协同工作：智慧数据管理的双引擎 Echo_Wish 实战高阶大数据人工智能科技大数据
数据仓库与数据湖的协同工作：智慧数据管理的双引擎引言在数据驱动的今天，企业和组织收集和存储的数据量正以惊人的速度增长。如何高效管理和利用这些数据，成为了决策者和技术专家的共同难题。为了解决这一问题，数据仓库（DataWarehouse）和数据湖（DataLake）这两种技术应运而生，分别在不同的应用场景中发挥着重要作用。然而，随着数据管理需求的日益复杂，单一的数据仓库或数据湖并无法完全满足现代企业
MariaDB数据库部署 m0_修道成仙 Linux linux 数据库
MariaDB数据库·数据库介绍·MySQL与MariaDB·数据库部署1.安装MariaDB数据库2.重启mariadb服务并加入开机启动项3.!数据库初始化4.设置防火墙策略5.登录数据库·数据库常用语句·创建数据库·查询指定位置数据·数据库备份·彻底删除数据库·恢复数据·数据库介绍数据库：是指按照某些特定结构来存储数据资料的数据仓库数据库管理系统：是一种能够对数据库中存放的数据进行建立、修改
数据总线/一致性维度/总线矩阵 DouMiaoO_Oo 数据仓库
数据孤岛企业内部各个系统中的数据被隔离在不同的数据库中，无法进行共享和整合，严重影响了企业的决策能力和运营效率。数据仓库数据总线一种技术解决方案，旨在实现数据仓库与各个数据源之间的数据集成、交换和共享，通常做法是将所有的数据源连接到一条共享的数据总线上。数据总线通过建立数据集成层，实现了不同数据源之间的数据传输和转换，从而打破数据孤岛，实现数据共享。数据总线连接多个数据源，并将数据按照一定的规则进
Apache Iceberg 与 Apache Hudi：数据湖领域的双雄对决夜里慢慢行456 大数据大数据
在数据存储和处理不断发展的领域中，数据湖仓的概念已经崭露头角，成为了一种变革性的力量。数据湖仓结合了数据仓库和数据湖的最佳元素，提供了一个统一的平台，支持数据科学、商业智能、人工智能/机器学习以及临时报告等多种关键功能。这种创新的方法不仅促进了实时分析，还显著降低了平台成本，增强了数据治理，并加速了用例的实现。数据存储和处理的演变催生了被称为数据湖仓的现代分析平台。这些平台旨在解决传统架构的局限性
探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合窦育培
探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com/gh_mirrors/sp/spark-snowflake项目介绍在大数据处理的浩瀚宇宙中，Snowflake以其独特的云数据仓库能力闪耀，而ApacheSpark则是数据分析和
数据仓库与数据挖掘记录二匆匆整棹还数据仓库数据挖掘人工智能
1.数据仓库的产生从20世纪80年代初起直到90年代初,联机事务处理一直是关系数据库应用的主流。然而,应用需求在不断地变化,当联机事务处理系统应用到一定阶段时,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,进而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。把这种基于业务数据的决策分析
数据仓库与数据挖掘记录三匆匆整棹还数据挖掘
数据仓库的数据存储和处理数据的ETL过程数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换.加载与索引等数据调和工作,如图2.2所示。1）数据提取（Extract）从多个数据源中获取原始数据（如数据库、日志文件、API、云存储等）。数据源可能是结构化（如MySQL）、半结构化（如JSON）、非结构化（如文本）。关键技术：SQL查询、Web爬虫、日志采集工具（如Flume）
高聚合低耦合草藤木屋软件设计 Data Warehouse 软件工程高聚合低耦合高聚合低耦合
这是软件工程中的概念。首先要知道一个软件是由多个子程序组装而成,而一个程序由多个模块(方法)构成!内聚就是指程序内的各个模块之间的关系紧密程度。偶合就是各个外部程序(子程序)之间的关系紧密程度.。所以很易明白,为什么要高内聚?模块之间的关系越紧密,出错就越少!低偶合?子程序间的关系越复杂,就会产生更多的意想不到的错误!会给以后的维护工作带来很多麻烦!同样的，可以将这个思想用在建设企业数据仓库上。做
数据湖和数据仓库的区别？春风不会绿大地大数据数据仓库
简介数据湖这个概念和数据仓库这两个概念一直搞不清楚，之前感觉区别就是数据湖是数据仓库的父集。数据湖是个伪命题，平时生活中也用不到，然后今天听了我的一个师哥的讲解，然后简单总结下。常见的问题1数据湖和数据仓库的区别？相似点：都可以处理海量数据，都是为了得到有价值的数据。不同点：架构上，数仓基本要求符合DDL定义的结构，数据湖则湖纳百川。数据上，数仓为结构化数据设计，数据湖，湖纳百川。模块上，数仓一般
新型大数据架构之湖仓一体（Lakehouse）架构特性说明——Lakehouse 架构（一） m0_74825238 面试学习路线阿里巴巴大数据架构
文章目录为什么需要新的数据架构？湖仓一体（Lakehouse）——新的大数据架构模式同时具备数仓与数据湖的优点湖仓一体架构存储层计算层湖仓一体特性单一存储拥有数据仓库的查询性能存算分离开放式架构支持各种数据源类型支持各种使用方式架构简单数据共享schema过滤和推演时间回溯为什么需要新的数据架构？数据仓库和数据湖一直是实现数据平台最流行的架构，然而，过去几年，社区一直在努力利用不同的数据架构方法来
分布式架构设计全解：以银行系统为例聚合收藏
本文还有配套的精品资源，点击获取简介：分布式架构设计对于银行处理实时交易和数据分析至关重要，本文深入分析了Hadoop、F5、Dubbo和SpringCloud等技术在银行项目中的实际应用。Hadoop用于构建大数据仓库并支持数据分析，F5优化网络流量并确保高可用性，Dubbo和SpringCloud实现服务间的通信和微服务架构。通过这些技术的集成，银行可以建立高效且弹性的IT基础设施，满足快速变
hive数仓的分层与建模 korry24 hive hadoop 数据仓库
Hive数据仓库分层和数据建模是一种常见的数据仓库设计方法，旨在通过分层的方式组织数据，提高数据的可维护性、可复用性和查询性能。以下是关于Hive数据仓库分层和数据建模的详细知识：一、Hive数据仓库分层数据仓库通常采用分层架构，目的是将数据按照不同的处理阶段和用途进行划分，便于管理和优化。常见的分层架构包括以下四层：1.ODS（OperationalDataStore，操作数据存储层）作用：OD
HiveQL命令（三）- Hive函数 BigDataMagician HiveQL命令 hive hadoop 数据仓库
文章目录前言一、Hive内置函数1.数值函数2.字符串函数3.日期与时间函数4.条件函数5.聚合函数6.集合函数7.类型转换函数8.表生成函数(UDTF)前言在大数据处理和分析的过程中，数据的转换和处理是至关重要的环节。ApacheHive作为一种流行的数据仓库工具，提供了丰富的内置函数，帮助用户高效地处理和分析存储在Hadoop分布式文件系统（HDFS）中的数据。这些内置函数涵盖了数值计算、字符
企业智能分析BI：洞察数据，驱动未来用友协同与数据服务大数据
在数据驱动的今天，企业运营不再仅仅依赖于直觉和经验，而是越来越多地依赖于深入的数据分析和精准的商业洞察。企业智能分析BI（BusinessIntelligence）系统，作为企业数据管理的得力助手，正在以其卓越的数据分析能力，帮助企业解锁数据潜能，驱动业务增长。企业智能分析BI系统，是一种运用数据仓库、在线分析和数据挖掘技术来处理和分析数据的崭新技术，目的是帮助企业决策者做出更好的决策。它像一把钥
第十一章数据仓库和商务智能 joewdc DAMA-CDGA 数据仓库大数据
如有需要题库可私聊我，题库都会了话，cdga基本都能过,但是光刷题库有点囫囵吞枣，不建议。单选题（每题1分，共26道题）1、[单选]数据仓库建设的主要驱动力A：整合数据、减少冗余和提高信息一致性B：运营支持职能、合规需求和商务智能活动C：数据集成、分析应用和决策支持D：客户和消费者的剧增、分析的需求、企业统一管控的需求正确答案：B你的答案：B解析：290页11.1.1第一行，选B，AC与题干无关，
关于阿里云DataWorks的20道面试题编织幻境的妖阿里云云计算
1.请简要介绍阿里云DataWorks的基本概念和主要功能。阿里云DataWorks是一个全链路的大数据开发治理平台，其主要功能包括数据集成、数据建模与开发、数据地图、数据质量和数据服务等。DataWorks的基本概念围绕其作为一个大数据开发和治理的平台，它整合了多种大数据引擎如MaxCompute、Hologres、EMR、AnalyticDB、CDP等，旨在为数据仓库、数据湖及湖仓一体化解决方
掌握大数据--Hive全面指南纪祥_ee1 大数据 hive hadoop
1.Hive简介2.Hive部署方式3.Hive的架构图4.Hive初体验5.HiveSQL语法--DDL操作数据库1.Hive简介ApacheHive是建立在Hadoop之上的一个数据仓库工具，它提供了一种类似于SQL的查询语言，称为HiveQL，用于查询和分析存储在Hadoop分布式文件系统（HDFS）中的大规模结构化数据。以下是Hive的一些主要特点和介绍：1.类SQL查询语言：HiveSQ
BIEE7本中英书籍合集：商业智能学习提升全攻略含老司开挖掘机
本文还有配套的精品资源，点击获取简介：OracleBusinessIntelligenceEnterpriseEdition(BIEE)是一个强大的商业智能平台，涵盖了数据可视化、分析和决策支持。本套书籍资源包包括7本中英文资料，为初学者提供全面的BIEE理解和技能提升。内容涵盖基础概念、安装配置、用户界面操作、分析功能、报表发布、交互式仪表板设计、数据仓库管理和最新版功能介绍，是学习BIEE的理
【面试系列】后端开发工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试职场和发展后端开发工程师
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.请解释一下REST
关于ETL的两种架构（ETL架构和ELT架构）不会写代码的女程序猿 etl 架构数据仓库
ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。ETL在转化的过程中，主要体现在以
关于ETL的两种架构（ETL架构和ELT架构）不会写代码的女程序猿 etl 架构数据仓库
ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。ETL在转化的过程中，主要体现在以
【面试系列】软件架构师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试职场和发展软件构建
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：工重hao：野老杂谈⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐️构建全面的数据指标体系
2024-JAVA-大数据-面试汇总_大数据java部门面试(1) 2401_84141419 程序员 java 大数据面试
判断投票信息中的选举状态：就回答到这，后来下来百度了一下。。。32hive了解吗？Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能33.说说内部表和外部表的区别？内部表的数据是由Hive自身管理的，外部表的数据是由HDFS管理的；删除内部表会删除元数据和存储的数据；删除外部表只删除元数据不删除存储的数据34,你知道UDF吗？UDF就是H
HIVE常见面试题兔子宇航员0301 数据开发小白成长笔记 hive hadoop 数据仓库
1.简述hiveHive‌是一个构建在Hadoop之上的数据仓库工具，主要用于处理和查询存储在HDFS上的大规模数据。Hive通过将结构化的数据文件映射成表，并提供类SQL的查询功能，使得用户可以通过编写SQL语句来进行数据分析，而不需要编写复杂的MapReduce程序2.简述hive读写文件机制Hive读写文件机制主要依赖Hadoop的HDFS（分布式文件系统）和MapReduce（计算框架）。
为AI聊天工具添加一个知识系统之59 数据库和程序的并行设计一水鉴天人工语言软件智能智能制造人工智能数据库
本文要点要点数据系统有三级存储库：元对象设施库（资源库），元数据仓库（源码库）和数据库（数据库）三个库的分别管理的实体是（文档块Trunk的）模块，（程序块Block）组件和（数据块piece的）对象，需要提供不同的容器使用不同的机器完成这些实体的ETL.。容器包括三个不同时期的运行时容器，开发阶段的容器和生产过程的容器还要考虑各时期它们的测试。这里的测试应包括功能测试、能力评估和性能证明。另外还
【数据仓库】hadoop web UI 增加账号密码认证花菜回锅肉大数据数据仓库数据仓库 hadoop
升级了hadoop版本到3.3.6,未配置任何鉴权，默认端口98708088开放到了公网，结果没几天就被挖矿攻击了。通过开放的端口提交了很多非法任务到yarn上，并成功在服务器执行了恶意脚本。这次是真实真切的感受了，网络环境的险恶，以前仅仅是别人的案例来提高自己的安全意识，这次完完全全是自己的真实案例，让自己对网络完全有的更深切的认知。在研究了hadoop官方提供的安全方案后，发现是懵的，要么配置
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

名称	说明

版本号	更新日期	触发情况

任务	角色	验收标准

任务	角色	验收标准