练习时长两年半0

数仓建模理论与设计

1.什么是数据建模

数据建模就是基于对于业务的理解，将各种数据进行整合和关联，并最终使得这些数据可用性、可读性增强，让使用方法快速的获取到自己关系的有价值的信息并及时的作出相应，为公司带来效益。

2.为什么要建模

数据建模是一套方法论，主要对数据的存储和整合做一些指导，强调从各个角度合理的存储数据。

有合适的数据模型，带来的好处：

1、查询使用性能提升

2、用户效率提高，改善用户体验

3、提升数据质量

因此大数据系统需要数据模型方法来更好的组织和存储，以便在性能，成本，效率和质量之间取得平衡。

3.建模常用工具

PowerDesigner：

Power Designer 是Sybase公司的CASE工具集，使用它可以方便地对管理信息系统进行分析设计，他几乎包括了数据库模型设计的全过程。利用Power Designer可以制作数据流程图、概念数据模型、物理数据模型，还可以为数据仓库制作结构模型，也能对团队设计模型进行控制。他可以与许多流行的软件开发工具，例如PowerBuilder、Delphi、VB等相配合使开发时间缩短和使系统设计更优化。

power designer是能进行数据库设计的强大的软件，是一款开发人员常用的数据库建模工具。使用它可以分别从概念数据模型(Conceptual Data Model)和物理数据模型(Physical Data Model)两个层次对数据库进行设计。在这里，概念数据模型描述的是独立于数据库管理系统(DBMS)的实体定义和实体关系定义；物理数据模型是在概念数据模型的基础上针对目标数据库管理系统的具体化。

ER/Studio：

ER/Studio 是一个支持多平台环境的直观数据建模工具，并且本地集成了用于处理大数据平台，例如-MongoDB和Hadoop Hive。它能够进行正向和逆向工程，并且拥有“比较合并”功能，能够输出例如XML、PNG、JPEG等格式文档。内建自动执行任务功能支持当前流行数据库平台。ER/Studio功能非常强大，拥有直观的界面和很好的用户支持特别易于马上开始工作。

Datablau(数语科技)DDM：

国内商业版数据建模工具。由前Erwin全球研发团队打造。性价比高，所需建模功能齐全；支持完整的二次开发API，对接内部系统；且同样具备浮动许可证的服务。支持对关系型、NoSQL、ERP数据源的数据模型自动抽取。可视化ER图的方式设计数据库。支持应用数据标准到数据库设计。支持多人协作的数据建模跨部门共享数据模型。支持周期性监控实际数据库与数据模型的一致性，管理数据库中文界面全新设计，更适合国内企业现状和使用习惯。

4.业务系统和数据仓库建模的区别

在业务系统中，通常面对业务数据库的读写，目前采用三范式3NF模型存储数据。

而在数据仓库的建模过程中，由于主要是数据的批量读取操作，但是事务并不是我们所关心的，主要是关注数据的整合以及查询处理性能，因此会采用其他建模方法，以Kimball维度建模最为经典。

5.Kimball和Inmon架构

Inmon架构：

辐射状企业信息工厂(CIF) 方法由Bill Inmon及业界人士倡导的。在这个环境下，数据从操作性数据源中获取，在ETL系统中处理，将这一过程称为数据获取，从这一过程中获得的原子数据保存在满足第三范式的数据库中，这种规范化的原子数据的仓库被称为CIF架构下的企业级数据仓库(EDW)。

与Kimball方法相似，CIF强调企业数据协调与集成，但CIF认为要利用规范化的EDW承担这一角色，而Kimball架构强调具有一致性维度的企业总线的重要作用。

Inmon企业级数据仓库的分析数据库通常以部门为中心（而不是围绕业务过程来组织），而且包含汇总数据，并不是原子级别数据，如果ETL过程中数据所应用的业务规则超越了基本概要，如部门改名了或者其他的类似计算，要将分析数据库与EDW原子数据联系起来将变得很困难。

Kimball架构：

Kimball架构利用了CIF中处于中心地位的EDW，但是此次的EDW完全与分析与报表用户隔离，仅作为数据来源，其中数据是维度的，原子的，以过程为中心的，与企业级数据仓库总线结构保持一致。

架构对比：

1、流程

Inmon架构是自顶向下，即从数据抽取-->数据仓库-->数据集市，以数据源为导向，是一种瀑布流开发方式，模型偏向于3NF。

Kimball架构是自下向上，即从数据集市(主题划分)-->数据仓库-->数据抽取，是以需求为导向的，一般使用星型模型。

2、事实表和维表

Inmon架构下不强调维表和事实表的概念，因为数据源变化可能比较大，更加强调的数据清洗的工作。

Kimball架构强调模型是由维表和事实表组成，注重维表和事实表的设计。

3、数据集市

Inmon架构中，数据集市有自己的物理存储，是真实存在的。

Kimball数据仓库架构中，数据集市是一个逻辑概念，只是多维数据仓库中的主题域划分，并没有自己的物理存储，也可以说是虚拟的数据集市。是数据仓库的一个访问层，是按主题域组织的数据集合，用于支持部门级的决策。

4、中心

Inmon架构是以部门为中心，而Kimball架构是以业务过程为中心。

5、EDW访问

Inmon架构中用户可以直接访问企业数据仓库(EDW)。

Kimball架构中用户不可以直接访问企业数据仓库(EDW)，只能访问展现区数据。

总结：

企业开发中一般选择Kimball架构。

6.数据建模的几种方式

6.1、ER模型

ER模型是属于三范式，是企业级的主题抽象而不是单独描述某个业务。

6.1.1、什么是范式

当分类不可再分时，这种关系是规范化的，一个低级范式分解转换为更高级的范式时，就叫做规范化。数据表可以分为1-5NF，第一范式是最低要求，第五范式则是最高要求。最常用的范式有第一范式（1NF）、第二范式（2NF）、第三范式（3NF）

第一范式（1NF）：

表中的每一列都是不可拆分的原子项。

由上图可知，phone字段里面存了2个值，具有可分割性，不符合1NF，可以改成：

第二范式（2NF）:

满足第一范式，没有部分依赖。

上图可以看出，如果一个用户下了很多订单，则用户名，收获地址和手机号有重复出现的情况造成数据冗余，很明显不太符合第二范式，可以改成：

第三范式（3NF）：

第三范式要同时满足两个条件：满足第二范式，没有传递依赖。简单点说，关系重复，能互相推导出来。

如上图所示，如果知道了zip邮编，其实是能推出来省市区的，相反，知道了省市区，也是可以推出邮编的，有传递依赖，造成了冗余，不符合第三范式，需要改造:

6.1.2、小结

在关系数据模型设计中，一般需要满足第三范式的要求。如果一个表有良好的主外键设计，就应该是满足3NF的表。

规范化带来的好处是通过减少数据冗余提高更新数据的效率，同时保证数据完整性。然而，我们在实际应用中也要防止过度规范化的问题。规范化程度越高，划分的表就越多，在查询数据时越有可能使用表连接操作。

而如果连接的表过多，会影响查询的性能。关键的问题是要依据业务需求，仔细权衡数据查询和数据更新的关系，制定最适合的规范化程度。还有一点需要注意的是，不要为了遵循严格的规范化规则而修改业务需求。

6.2、维度建模

维度建模是一种将大量数据结构化的逻辑设计手段，包含维度和指标，它不像ER模型目的是消除冗余数据，维度建模是面向分析，最终目的是提高查询性能，所以会增加数据冗余，并且违反三范式。

维度建模也是重点关注让用户快速完成需求分析且对于复杂查询及时响应，维度建模一般可以分为三种：星型模型、雪花模型、星座模型。其中最常用的其实是星型模型。

6.2.1、背景

在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型，雪花型模型及星座模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型，雪花型模型还是星座模型进行组织。

6.2.2、星型模型

星形模型中有一张事实表，以及零个或多个维度表，事实表与维度表通过主键外键相关联，维度表之间没有关联，当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型。星形模型是最简单，也是最常用的模型。由于星形模型只有一张大表，因此它相比于其他模型更适合于大数据处理。其他模型可以通过一定的转换，变为星形模型。

星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一定的冗余，如在地域维度表中，存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录，那么国家 A 和省 B 的信息分别存储了两次，即存在冗余。

6.2.3、雪花模型

当有一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上时，其图解就像多个雪花连接在一起，故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化，原有的各维表可能被扩展为小的维度表，形成一些局部的 " 层次 " 区域，这些被分解的表都连接到主维度表而不是事实表。如图，将地域维表又分解为国家，省份，城市等维表。它的优点是 : 通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花型结构去除了数据冗余。

6.2.4、星座模型

星座模型是由星型模型延伸而来，星型模型是基于一张事实表而星座模式是基于多张事实表，并且共享维度表信息，这种模型往往应用于数据关系比星型模型和雪花模型更复杂的场合。星座模型需要多个事实表共享维度表，因而可以视为星形模型的集合，故亦被称为星系模型。

6.2.5、对比

属性	星型模型	雪花模型
事实表	一个或多个	集中式
维度表	一级维表	多级维表(子维表)
存储空间	多	少
数据冗余度	高	低
表宽度	宽	窄
扩展性	差	好
Join复杂度	低	高
查询逻辑	简单	难
查询性能	高	低
可读性	高	低
表个数	少	多

星型模型因为数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素，设计与实现都比较简单。

雪花型模型由于去除了冗余，有些统计就需要通过表的联接才能产生，所以效率比较低。正规化也是一种比较复杂的过程，相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。

6.2.6、小结

通过对比，我们可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表，通过大量的冗余来减少表查询的次数从而提升查询效率，星型模型对OLAP的分析引擎支持比较友好，这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL，Oracle中非常常见，尤其像电商的数据库表。在数据仓库中雪花模型和星座模型的应用场景比较少，但也不是没有，所以在具体设计的时候，可以考虑是不是能结合两者的优点参与设计，以此达到设计的最优化目的。

6.2.7、建模原则

1.高内聚低耦合：

将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型：将高概率同时访问的数据放一起，将低概率同时访问的数据分开存储。

2.核心模型与扩展模型分离：

建立核心模型与扩展模型体系，核心模型包括的字段支持常用的核心业务，扩展模型包括的字段支持个性化或少量应用的需要，不能让扩展模型的字段过度侵人核心模型，以免破坏核心模型的架构简洁性与可维护性。

3.公共处理逻辑下沉及单一：

越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现，不要让公用的处理逻辑暴露给应用层实现，不要让公共逻辑多处同时存在。

4.成本与性能平衡：

适当的数据冗余可换取查询和刷新性能，不宜过度冗余与数据复制。

5.数据可回滚：

处理逻辑不变，在不同时间多次运行数据结果确定不变。

6.一致性：

具有相同含义的字段在不同表中的命名必须相同，必须使用规范定义中的名称。

7.命名清晰、可理解：

表命名需清晰、一致，表名需易于消费者理解和使用。

星型模型设计步骤：

1.选择需要进行分析决策的业务过程。业务过程可以是单个业务事件，比如交易的支付、退款等；也可以是某个事件的状态，比如当前的账户余额等；还可以是一系列相关业务事件组成的业务流程，具体需要看我们分析的是某些事件发生情况，还是当前状态，或是事件流转效率。

2.选择粒度。在事件分析中，我们要预判所有分析需要细分的程度，从而决定选择的粒度。粒度是维度的一个组合。

3.识别维表。选择好粒度之后，就需要基于此粒度设计维表，包括维度属性，用于分析时进行分组和筛选。

4.选择事实。确定分析需要衡量的指标。

6.3、Data Vault模型

Data Vault Dan Linstedt 发起创建的一种模型，它是模型的衍生，其设计的出发点也是为了实现数据的整合，但不能直接用于数据分析决策。它强调建立一个可审计的基础数据层，也就是强调数据的历史性、可追溯性和原子性，而不要求对数据进行过度的一致性处理和整合；同时它基于主题概念将企业数据进行结构化组织，并引入了更进一步的范式处理来优化模型，以应对源系统变更的扩展性。Data Vault 型由以下几部分组成：

• Hub ：是企业的核心业务实体，由实体 key 、数据仓库序列代理键、装载时间、数据来源成。

• Link ：代表 Hub 之间的关系。这里与模型最大的区别是将关系作为一个独立的单元抽象，可以提升模型的扩展性。它可以直接描述 1:1 1:n n:n 的关系，而不需要做任何变更。它由 Hub 的代理键、装载时间、数据来源组成。

• Satellite ：是 Hub 的详细描述内容，一个 Hub 可以有多个 Satellite它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信息组成。

Data Vault 模型比 ER 模型更容易设计和产出，它的 ETL 加工可实现配置化。

7、模型分层

7.1、前言

数据仓库一般分为三层，自下而上分别为数据贴源层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。

7.2、ods层

贴源层，与业务库保持一致，不做任何处理。

7.3、cdm层

数据公共层CDM（Common Data Model，又称通用数据模型层），包括DIM维度表、DWD,DW和DWS，由ODS层数据加工而成。主要完成数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。

公共维度层（DIM）：基于维度建模理念思想，建立企业一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表，维度和维度逻辑表通常一一对应。
明细粒度事实层（DWD）：对数据进行规范化编码转换，清洗，统一格式，脱敏等，不做横向整合。
主题宽表层(DW) 对dwd各种信息进行整合，输出主题宽表(面向业务过程，不同业务过程的信息不冗余建设，采用外键形式)。
公共汇总粒度事实层（DWS）：以分析的主题对象作为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表，以宽表化手段物理化模型。构建命名规范、口径一致的统计指标，为上层提供公共指标，建立汇总宽表、明细事实表。公共汇总粒度事实层的表通常也被称为汇总逻辑表，用于存放派生指标数据。

7.4、ads层

数据应用层ADS（Application Data Service）：面向业务需求定制开发，存放数据产品个性化的统计指标数据。

7.5、逻辑分层架构

7.6、分层的好处

清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。
数据血缘追踪：简单来讲可以这样理解，我们最终给业务呈现的是一张能直接使用的张业务表，但是它的来源有很多，如果有一张来源表出问题了，我们希望能够快速准确地定位到问题，并清楚它的危害范围。
减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。
把复杂问题简单化：将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
驾校预约学习系统的设计与实现小蒜学长毕业设计学习
摘要伴随着信息技术与互联网技术的不断发展，人们进到了一个新的信息化时代，传统管理技术性没法高效率、容易地管理信息内容。为了实现时代的发展必须，提升管理高效率，各种各样管理管理体系应时而生，各个领域陆续进到信息内容管理时期。驾校预约学习系统管理系统的实现是信息内容时代浪潮时代的产物之一。一切系统都要遵循系统设计的最基本全过程，系统也是如此。它还要通过市场调查、需求分析报告、汇总设计、详尽设计、编号和
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python编写简单登录系统的完整指南 qq_35430208 python python 开发语言 Python编写简单登录系统登录系统
在现代应用中，用户认证和登录系统是一个非常重要的功能。通过登录系统，应用能够识别用户的身份，并为其提供相应的权限和服务。本文将介绍如何使用Python编写一个简单的登录系统，包括用户注册、登录验证、密码加密等功能。通过这一教程，将学习如何构建一个基本的用户登录系统，并理解其中的关键技术。系统需求分析一个基本的登录系统应该具备以下功能：用户注册：新用户可以创建账号，系统会将用户名和密码存储起来。登录
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
TinyReplaySystem回放系统设计和开发 W8023Y2014 Unity Unity
TinyReplaySystem回放系统设计和开发简单探讨和分析下游戏回放系统的设计和针对特定需求回放功能的TinyReplaySystem设计和具体实现需求分析在屏幕舞台中，玩家操控动画角色通过手势缩放，移动，修改角色颜色等属性，用户操控所需要的角色进行PlayAnimation，角色扮演。扮演结束，保存到本地，可以回放用户所扮演的动画。相当于录制屏幕指定区域，存储成视频，加载回放。记录用户通过
【60天备战软考高级系统架构设计师——第十天：软件设计与架构综合练习】冷风扇666 备战-软考系统架构架构
经过前十天的学习，我们已经了解了软件工程生命周期模型、需求分析与管理方法，以及软件设计与架构的核心内容。为了巩固这些知识点，今天我们将进行一个综合练习。前十天学习内容回顾第1-3天：软件工程概述学习了软件生命周期模型（如瀑布模型、迭代模型、敏捷模型等）、软件工程原则（如开闭原则、单一职责原则等），以及常用的工程方法。第4-6天：需求分析与管理需求分析与管理是软件开发的关键环节之一。我们掌握了需求获
测试面试问答题记录 XXX-17 软件测试软件测试面试题面试软件测试
一、面试问答题1.一套完整的测试应该由哪些阶段组成？先做计划，测试需求分析，用例编写，测试执行，测试报告的编写，最终进行测试的评估。2.Aplha测试和beta测试的区别？属于验收测试的两种类型，一般是先做Aplha测试，再做beta测试，Aplha测试把参与人员叫到开发方这边，测试环境是开发方控制，测试人员是比较集中的一般就是测试人员，开发方等一些人，beta测试一般是上线前进行的测试，测试环境
如何设计实现完成一个FPGA项目芯作者 D1：verilog设计 D1：VHDL设计 fpga开发
设计并完成一个FPGA项目是一个复杂但非常有价值的工程任务。以下是一个详细的步骤指南，帮助你从零开始完成一个FPGA项目。1.项目定义与需求分析确定项目目标：明确项目要实现的功能和性能指标。需求分析：列出所有功能需求、性能需求、接口需求等。可行性分析：评估技术可行性、成本和时间预算。2.硬件选择FPGA芯片选择：根据项目需求选择合适的FPGA芯片（如Xilinx、Intel/Altera、Latt
智能合约系统DAPP开发 I592O929783 智能合约区块链
智能合约系统DAPP（去中心化应用）的开发是一个复杂且综合性的过程，它结合了区块链技术、智能合约编程、前端开发以及安全性等多方面的知识和技能。以下是对智能合约系统DAPP开发过程的详细概述：一、需求分析明确应用场景：首先，需要明确DAPP的应用场景，如金融、游戏、社交等。功能需求：确定DAPP需要实现的具体功能，包括数据处理、用户交互等。用户群体：了解目标用户群体的需求和习惯，以便更好地设计DAP
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
一种E2E的架构设计流程 weixin_33796205
本文不是介绍架构设计方法，只是给出一种E2E的架构设计流程的实现，具体的架构设计方法需要参考相关的资料。架构设计流程分析：具体步骤说明：1、需求收集，包括从用户收集到的原始需求和项目通过友商的竞争分析得到的需求，需求分为功能需求和非功能需求两大类。2、需求分析，针对1中搜集到的需求，首先按类划分整理，再对原始需求进行分解，生成子业务需求，在根据业务需求做用例分析。用例分析中，需要对每个用例业务模型
软件设计师09-面向对象-用例图阿墨呦
感谢任铄老师滴视频用例图1）描述一组用例、参与者及它们之间的关系2）用例模型用于需求分析阶段3）关系（依赖关系）：1）包含（include）1）两个以上用例具有共同功能，可分解到单独用例2）箭头方向由基本用例指向被包含用例3）执行基本用例时，必须调用被包含用例4）被包含用例可以单独执行include2）扩展(extend)1）一个用例明显的混合了两种或两种以上的不同场景(类似主程序和if语句，不同
使用Spring Boot开发一个准妈妈交流平台 BABA8891 spring boot 后端 java
开发一个准妈妈交流平台涉及到许多不同的功能和组件。以下是一个使用SpringBoot来构建这样一个平台：1.项目规划需求分析：确定平台的核心功能，如用户注册、登录、论坛发帖、评论、消息通知等。系统设计：设计系统架构，包括前端、后端、数据库和可能的第三方服务集成。2.技术选型前端：可以选择React、Vue或Angular等现代JavaScript框架。后端：使用SpringBoot作为后端框架。数
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
手写Tomcat Fix12138
需求分析根据Tomcat的基本功能分析，基本需求包括：监听端口，接受外部请求多线程并发处理多个请求解析HTTP请求，根据URL找到对应的Servlet扫描Web目录，解析web.xml配置，加载开发者实现的Servlet类，生成对象并调用其service方法得到response返回给客户端代码实现接受请求的服务端通过scoket监听端口，将接受到的请求提交到线程池处理。线程池中的任务为具体的处理逻
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
从基础到进阶：利用EasyCVR安防视频汇聚平台实现高效视频监控系统的五步走 TSINGSEE EasyCVR 音视频人工智能安防视频监控边缘AI 边缘计算视频监控系统
随着科技的飞速发展，视频监控技术在社会安全、企业管理、智慧城市构建等领域扮演着越来越重要的角色。一个高效智能的视频监控管理系统不仅能够提升监控效率，还能在预防犯罪、事故预警、数据分析等方面发挥巨大作用。一、需求分析在设计视频监控管理系统之前，首要任务是进行全面的需求分析，以确保系统能够满足实际应用场景中的各项要求。需求分析包括但不限于以下几点：监控范围与目标：明确监控区域的大小、数量、重要性及需重
基于HarmonyOS NEXT开发智能提醒助手三掌柜666 HarmonyOS开发 harmonyos 华为
目录目录目录前言关于HarmonyOSNEXT智能提醒助手需求分析智能提醒助手设计1、系统架构2、功能模块智能提醒助手的应用场景智能提醒助手的竞争力具体技术实现未来展望结束语前言随着智能设备的普及和物联网技术的飞速发展，人们对于智能化、个性化服务的需求日益增加，智能设备已经深入到我们生活的方方面面。在这个智能化的时代，一款能够实时、精准地提供信息提醒的智能助手，在内卷严重的当下，对于提升个人工作效
离线数仓VS实时数仓 james二次元数据仓库数据仓库大数据
离线数据仓库（OfflineDataWarehouse）和实时数据仓库（Real-timeDataWarehouse）的实施有一些相似之处，但也存在显著的差异。以下是两者在几个关键方面的对比：相同点：数据集成：都需要从多个数据源提取、转换和加载数据（ETL/ELT）。都需要处理数据清洗、去重和规范化，以保证数据的一致性和准确性。数据建模：都需要进行数据建模，设计数据仓库的星型或雪花模型，定义事实表
连续发送多个数据（uart串口RS232协议/verilog详细代码+仿真）勇敢牛牛（FPGA学习版） fpga开发嵌入式硬件 matlab 智能硬件
写在前言以下内容详细源文件，已经上传个人主页资源，需要自取~目录写在前言需求分析UART简介整体架构流程小结需求分析使用串口（rs232协议）间隔1s连续发送16byte的数据。由于每次发送的数据只有8bit，16byte=128bit，所以要发送16帧。UART简介这里实验所使用的参数有：rs232通信协议+9600bps+quartus18.0+modelsim2020异步通信：UART是一种
软件开发的V型流程青草地溪水旁开发管理软件开发流程
目录0前言1.用户需求2.需求分析和系统分析3.概要设计4.详细设计5.编码0前言软件开发的V型流程其实非常使用，一些大型的软件企业都是遵循这样的开发过程，虽然有时候各个阶段的名称未必一样，但是大概流程是如此，V型流程如下：ps:虽然看起来简单，一旦你养成了这样一种开发素养，应该是收益匪浅的。1.用户需求9.验收测试\/2.需求分析和系统分析8.系统测试\/3.概要设计7.集成测试\/4.详细设计
数仓建模之维度表&指标表锵锵锵锵~蒋数据研发数据仓库数据研发
在数据仓库中，维度和指标是两个重要的概念。维度（Dimension）：维度是一种描述业务过程中各种属性的方法，用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性，是数据分析的基础。指标（Measure）：指标是衡量业务过程效果的标准，是数据分析的重要指标。指标包括数量、金额、时间、比率、百分比等，用于衡量业务过程的各种结果。在数据仓库中，通常会使用维度表和指标表来进行
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文