BigData_LYT

【平台数仓设计——2023】

平台数仓设计——2023

前言
一、选取大数据平台
- 1、CDH大数据平台
- 2、HDP大数据平台
- 3、CDP大数据平台
- 4、各种云数据中台
二、选取调度平台
- 1、DolphinScheduler(海豚调度)
- 2、AzKaban
- 3、Oozie
- 4、Airflow
- 5、corntab命令
三、选取数仓设计方案
- 1、离线数仓
- 2、实时数仓
- 3、离线实时一体化数仓（lambda架构）
四、选取数据采集方案
- 1、离线采集
- - 1）DataX
  - 2）Sqoop
  - 3）Kettle
- 2、实时采集
- - 1）Canal
  - 2）Flume
- 3、离线和实时采集
- - 1）Flinkx
五、选取数据可视化方案
- 1、FineBI
- 2、Superset
六、OLAP处理工具Kylin

前言

本篇仅是以现在的知识储备和项目经验来编写的这篇博客，如有错误，欢迎指正，三年后，2026年我会再写一篇类似的平台数仓设计的文章，希望自己在未来三年的时光里不断学习专业知识，提升自己的专业能力，一起加油吧！

一、选取大数据平台

市场上常见的大数据平台有四种

1、CDH大数据平台

CDH大数据平台分为收费版和免费版，收费版和免费版它们共有系统管理、自动化部署、快速检查、统一界面管理、资源管理、高可用（Zookeeper）、管理客户端配置、节点模板、多集群管理、服务主机活动的监控和广泛API等。可以集成hadoop、hive、spark和flink常见组件。
付费版独享的功能
- 当前历史磁盘的用量展示。
- 基于用户和组的配额设置。
- 记录配置历史及回滚。
- 保留所有活动及配置变化的痕迹档案，包括回滚到之前的能力。
- 自动化备份和灾难恢复。
- 集中配置和管理快照，复制HDFS、Hive、Hbase工作流。
总结：收费版本提供了7X24小时的技术支持，提供版本回滚，CDH免费版支持常见的大数据组件，可以使用。

2、HDP大数据平台

HDP是由美国大数据公司Hortonworks开发的企业级Hadoop平台，HDP是100%开源的，平台主要包括管制集成、工具、数据访问（MapReduce、Pig、Hive/Tez、NoSQL）、数据管理（HDFS、YARN）、安全性和运营等模块。
HDP和CDH比较
- 1、HDP是100%完全开源的，而CDH还不是100%完全开源。
- 2、支持的组件，HDP和CDH基本支持所有的开源大数据组件。
- 3、代码包依赖。如果是HDP平台，编写代码直接依赖Hadoop的版本即可，如果是CDH平台，编写代码需依赖CDH的版本。

3、CDP大数据平台

2019年由原cloudera公司和hortonworks公司合并而来，CDP源自各自企业数据云平台CDH和HDP的合并。CDP公有云支持AWS、Azure，GCP和国内的aliCloud。CDP数据中心类似于CDH和HDP，直接安装在硬件服务器上，目前支持市面上主流的X86服务器，包括国内海光服务器。
CDP是由CDH和HDP合作建在云数据库上的大数据平台，集成工具多，安全性高，价格较为昂贵，政府和大公司可以选择，对于初创公司不太友好，成本过高。

4、各种云数据中台

比如阿里云，腾讯云，袋鼠云，数梦工场等等数据中台，市场上有一定规模的公司，都会研究开发自己的数据中台，政府一般都会采用阿里云数据中台，一是安全有人维护，二是减少了运维和购买服务器的成本。

二、选取调度平台

市场上常见的调度平台有四种：

1、DolphinScheduler(海豚调度)

Docker-compose部署海豚调度
DolphinScheduler官网
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。
Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。 DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以及时监控任务的执行状态，支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
海豚调度是国内开发的调度工具，页面中文版，工作流中集成了shell脚本、数据库SQL、Spark、Flink、MapReduce、Python、HTTP、DataX和Sqoop等工具的调度。对初学者比较友好。

2、AzKaban

AzKaban官网
Azkaban是一套简单的任务调度服务，整体包括三部分webserver、dbserver、executorserver。
Azkaban是由Linkedin开源的一个Java项目，批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。
Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。
Azkaban的功能特点：
1)、 Web用户界面
2)、方便上传工作流
3)、方便设置任务之间的关系
4)、工作流调度
5)、认证/授权
6)、能够杀死并重启工作流
7)、模块化和可插拔的插件机制
8)、项目工作区
9)、工作流和任务的日志记录和审计

3、Oozie

Oozie官网
Oozie的特点
- 1. Oozie是管理hadoop作业的调度系统。
- 1. Oozie的工作流作业是一系列动作的有向无环图（DAG）。
- 1. Oozie协调作业是通过时间（频率）和有效数据触发当前的Oozie工作流程。
- 1. Oozie支持各种hadoop作业，例如:java、map-reduce、Streaming map-reduce、pig、hive、sqoop和distcp等等，也支持系统特定的作业，例如java程序和shell脚本。
- 1. Oozie是一个可伸缩，可靠和可拓展的系统。
CDH大数据平台中集成了Oozie调度器，可以在CDH平台打开Oozie页面，在Oozie平台上面设置工作流，Oozie调度器学起来较难。

4、Airflow

Airflow官网
Airflow 是一个 Airbnb 的 Workflow 开源项目，使用Python编写实现的任务管理、调度、监控工作流平台。Airflow 是基于DAG(有向无环图)的任务管理系统，可以简单理解为是高级版的crontab，但是它解决了crontab无法解决的任务依赖问题。与crontab相比Airflow可以方便查看任务的执行状况（执行是否成功、执行时间、执行依赖等），可追踪任务历史执行情况，任务执行失败时可以收到邮件通知，查看错误日志。

5、corntab命令

corntab菜鸟教程
crontab的服务进程名为crond，英文意为周期任务。顾名思义，crontab在Linux主要用于周期定时任务管理。通常安装操作系统后，默认已启动crond服务。crontab可理解为cron_table，表示cron的任务列表。类似crontab的工具还有at和anacrontab，但具体使用场景不同。
crontab的用途：
- 定时系统检测；
- 定时数据采集；
- 定时日志备份；
- 定时更新数据缓存；
- 定时生成报表；
  …

三、选取数仓设计方案

数仓主要分为3类，离线数仓、实时数仓和离线实时一体化数仓（lambda架构）

1、离线数仓

在大数据的背景下，会存在海量的数据且实时性要求不高，可以建立一个离线数据仓库，抽取历史数据到离线数仓中，经过数仓设计，数据开发，数据挖掘，并进行报表和数据可视化的展示。
离线数仓主要会用到Hadoop中的HDFS做数据存储和YARN做资源调度。
Hive做数据仓库权限的划分和数仓分层的设计。
Mapreduce、Spark rdd或者Hive on Spark作为计算引擎。
SparkML作为数据挖掘的工具。
Datax、Sqoop、Kettle作为数据采集工具。
FineBI和Superset做可视化。
Zabbix做集群监控。
Atlas做元数据管理。

2、实时数仓

随着社会对数据实时性要求的增加，抽取水流、订单等实时性很强的数据到实时数仓中，经过实时数仓设计，Source表，Chanel，Sink表，数据开发，数据挖掘，并进行报表和数据可视化的展示。
实时数仓主要会用到Hadoop中的HDFS做数据存储和YARN做资源调度。
Hive做数据仓库权限的划分和数仓分层的设计。
Sparkstreaming或者Flink作为计算引擎。
SparkML作为数据挖掘的工具。
Canal、Flume作为数据采集工具。
FineBI和Superset做可视化。
Prometheus做集群监控。
Atlas做元数据管理。

3、离线实时一体化数仓（lambda架构）

离线实时一体化数仓主要应用在即包含离线数据的开发，又包含实时数据的开发；主要相关的项目有用户画像项目、推荐算法和电商平台的数仓开发等等，市场上几乎很多数仓开发项目都是lambda架构，很少有纯离线数仓和纯实时数仓的开发。根据业务数据的开发需求，选择合适的数仓开发方案。

四、选取数据采集方案

1、离线采集

离线采集的工具有DataX，Kettle和Sqoop等工具

1）DataX

DataX官网
DataX 是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
设计理念
- 为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。
框架设计
- Reader：数据采集模块，负责采集数据源的数据，将数据发给FrameWork。
- Writer：数据写入模块，负责不断的向FrameWork取数据，并将数据写入到目的端。
- FrameWork：用于连接Reader和Writer，作为两者的数据传输通道，并处理缓存，流控，并发，数据转换等核心问题。
支持的数据源

2）Sqoop

Sqoop的安装和使用
Sqoop是一个用于Hadoop和结构化数据存储（如关系型数据库）之间进行高效传输大批量数据的工具。它包括以下两个方面：
- 可以使用Sqoop将数据从关系型数据库管理系统(如MySQL)导入到Hadoop系统(如HDFS、Hive、HBase)中
- 将数据从Hadoop系统中抽取并导出到关系型数据库(如MySQL)

3）Kettle

Kettle官网
kettle 是纯 java 开发，开源的 ETL工具，用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面，也有命令脚本还可以二次开发。

2、实时采集

实时采集的工具有Canal，Flume等工具

1）Canal

Canal的安装和使用

canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了MySQL（也支持mariaDB）。

2）Flume

Flume 是由 cloudera 软件公司产出的可分布式日志收集系统，后与 2009 年被捐赠了 apache 软件基金会，为hadoop 相关组件之一。
Flume 是一种分布式，可靠且可用的服务，用于高效地收集，汇总和移动大量日志数据。它具有基于流式数据流的简单而灵活的架构。它具有可靠的可靠性机制以及许多故障转移和恢复机制，具有强大的容错性和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。
Flume自定义拦截器的编写
Flume自定义拦截器-筛选出以某文本开头的内容

3、离线和实时采集

1）Flinkx

Flinkx官网
FlinkX是一款基于Flink的分布式离线/实时数据同步插件，可实现多种异构数据源高效的数据同步，其由袋鼠云于2016年初步研发完成，目前有稳定的研发团队持续维护，已在Github/Gitee上开源，并维护该开源社区。目前已完成批流统一，离线计算与流计算的数据同步任务都可基于FlinkX实现。
FlinkX将不同的数据源库抽象成不同的Reader插件，目标库抽象成不同的Writer插件，具有以下特点：
- 基于Flink开发，支持分布式运行；
- 双向读写，某数据库既可以作为源库，也可以作为目标库；
- 支持多种异构数据源，可实现MySQL、Oracle、SQLServer、Hive、Hbase等20多种数据源的双向采集。
- 高扩展性，强灵活性，新扩展的数据源可与现有数据源可即时互通。
Flinkx支持的数据源

五、选取数据可视化方案

数据可视化工具主要有FineBI、FineRepoart、Superset、Echarts、Sugar、QuickBI和DataV等可视化工具。

1、FineBI

FineBI是帆软软件有限公司推出的一款商业智能（Business Intelligence）产品，它可以通过最终业务用户自主分析企业已有的信息化数据，帮助企业发现并解决存在的问题，协助企业及时调整策略做出更好的决策，增强企业的可持续竞争性。
数据处理：数据处理服务，用来对原始数据进行抽取，转换，加载。为分析服务生成数据仓库FineCube。
即时分析：可以选择数据快速创建表格或者图表以使数据可视化、添加过滤条件筛选数据，即时排序，使数据分析更快捷。
多维度分析：OLAP分析实现，提供各种分析挖掘功能和预警功能，例如任意维度切换，添加，多层钻取，排序，自定义分组，智能关联等等。
Dashboard：提供各种样式的表格和多种图表服务，配合各种业务需求展现数据。
大数据引擎
- 使用Spider高性能计算引擎，以轻量级的架构实现数据分析。
- Spider引擎支持实时数据与抽取数据两种模式，可以实现无缝切换。
- Spider引擎的高性能可实现亿级以内的数据秒级呈现。
- Spider引擎支持灵活的数据更新策略，提高数据准备效率。
权限管理
数据建模
数据准备
数据可视化智能分析

2、Superset

Docker安装Superset
- Docker的安装链接: Docker的安装
- Docker部署Superset 链接: Docker部署Superset
Superset简介
- Superset是Airbnb开源BI数据分析与可视化平台（曾用名Caravel、Panoramix），该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化（导出）、用户/角色权限控制，还集成了一个SQL编辑器，可以进行SQL编辑查询等，原来是用于支持Druid的可视化分析，后面发展为支持很多种关系数据库及大数据计算框架，如：mysql, oracle, Postgres, Presto, sqlite, Redshift, Impala, SparkSQL, Greenplum, MSSQL。整个项目基于Python框架,它集成了Flask、D3、Pandas、SqlAlchemy等。
Github地址：https://github.com/airbnb/superset
官网地址：http://airbnb.io/projects/superset/
其他可视化工具仅供参考，市场上开源的可视化软件不多。

六、OLAP处理工具Kylin

flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
计算机系毕业生的前途在哪（一个牛人对计算机系的阐述）蚊子嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
值得未毕业的、刚毕业的、或想转行的朋友们揣摩参考。一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统如：ERP软件(企业资源规划)、CRM软件(客户关系管理)、SCM软件(供应链管理，即物流软件)，银行证券软件财务软件电子商务/政务(包括各种网站)，数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
数据湖与数据仓库在云平台的融合架构：Delta Lake实战指南 AI云原生与云计算技术学院 AI云原生与云计算数据仓库架构 ai
数据湖与数据仓库在云平台的融合架构：DeltaLake实战指南关键词：数据湖,数据仓库,云平台,融合架构,DeltaLake,湖仓一体,数据治理摘要：本文深入探讨数据湖与数据仓库在云平台的融合架构，以DeltaLake为核心技术载体，解析湖仓融合的技术原理、实施路径及最佳实践。通过对比传统数据架构的痛点，阐述DeltaLake如何通过ACID事务、Schema管理、时间旅行等特性实现非结构化数据湖
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
【面试系列】C++ 高频面试题野老杂谈全网最全IT公司面试宝典 c++面试编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录C++初级面试题及其详细解答1.解释C
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
Kafka 小熊哥^--^ kafka 分布式
一、什么是Kafka？Kafka的主要用途？Kafka是一个分布式流处理平台，是Apache的一个顶级项目，它被设计用于高吞吐量，分布式、持久性的数据流处理。Kafka实现了一套非常高效的一种发布订阅模型，应用场景非常广泛，比如日志聚合（收集日志）、数据流处理、数据仓库集成（传输数据到数据仓库）、应用程序集成（作为消息中间件来实现异步通信）、流媒体处理（列如实时监控，事件驱动的应用程序）二、top
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
数据编织趋势探秘
今天跟大家聊聊数据编织（DataFabric）的概念Gartner在2022年重要战略技术趋势中重点提到数据编织（DataFabric）这个概念，本质上是在谈怎么实现“数据找人而不是人找数据”的愿景为什么DataFabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？1、在传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式
浅谈数据管理架构 Data Fabric（数据编织）及其关键特征、落地应用 Aloudata Data Fabric 多源异构数据集成数据管理
伴随着企业从数字化转型迈向更先进的数智化运营新阶段，对看数、用数的依赖越来越强，但数据的海量增长给数据管理带来一系列难题，如数据类型和加工链路日益复杂，数据存储和计算引擎更加分散，数据需求响应与数据质量、数据安全风险难以兼顾，数据流通过程中的合规性冲突，以及混合多云环境下的“数据孤岛”等。简言之，进入数智化时代，企业数据管理正变得异常复杂和艰难，传统的数据管理架构往往依赖于单一、物理集中的数据仓库
数据仓库实时计算_如果您的云数据仓库没有分开存储和计算，为什么您会浪费金钱... weixin_26631359 python java 大数据算法 leetcode
数据仓库实时计算Notsolongago,establishinganenterprisedatawarehouseinvolvedaprojectthatwouldtakemonthsorevenyears.Thesedays,withcloudcomputing,youcaneasilyregisterforaSaaSorPaaSofferingprovidedbyoneofthecloudv
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
数据仓库之星型模型 james二次元数据仓库大数据数据仓库
星型模型（StarSchema）是一种常见的数据仓库建模技术，专门用于支持高效的查询和数据分析。它以其简单直观的结构得名，中心是一个事实表（FactTable），周围是多个维度表（DimensionTables），整体结构看起来像一颗星。星型模型的组成部分事实表（FactTable）定义：存储与业务过程相关的数值型度量数据（Measures），如销售额、数量等。特征：主键：由多个外键组成，这些外键
深入浅出地讲解数据仓库建设中的业务建模方法论，包括实体联系视图模式、维度建模、星型模型、雪花模型、主题建模等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介数据分析师经历了从小处收集数据到中大型互联网公司的数据，面对海量数据和种类繁多的数据源头，如何快速准确地进行分析、建模、报表，成为众多数据分析师的共同心愿。而数据建模则是数据分析师的基础功课之一。数据建模作为数据分析师的一项关键技能和素质要求，其目标是将分析获得的数据转化成有意义的信息，并最终呈现给用户，能够帮助企业实现科学管理、优化决策、提升效益和服务能力。随
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
SnowConvert：自动化数据迁移的技术解析与最佳实践 weixin_30777913 迁移学习数据库运维
SnowConvert是Snowflake生态系统的关键迁移工具，专为将传统数据仓库（如Oracle、Teradata、SQLServer等）的代码资产高效、准确地转换为Snowflake原生语法而设计。以下基于官方文档对其技术原理、工作流程及最佳实践进行深入分析：一、SnowConvert核心技术解析精准的语法映射引擎语言支持：深度解析源系统特有语法（OraclePL/SQL,TeradataB
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
解锁 AnalyticDB for PostgreSQL 的潜力：从数据仓库到矢量数据库 aehrutktrjk 数据库 postgresql 数据仓库 python
引言在大数据时代，快速分析大量数据已成为企业竞争的关键。AnalyticDBforPostgreSQL是阿里云提供的一个强大的并行处理数据仓库服务，适用于在线分析海量数据。本文将探讨其基本功能及在矢量数据库中的应用，包括如何与Langchain进行集成。主要内容AnalyticDBforPostgreSQL的核心功能大规模并行处理(MPP)：允许高效地处理和分析大量数据。兼容性：支持ANSISQL
针对数据仓库方向的大数据算法工程师面试经验总结巴基海贼王数据仓库大数据算法
⚙️一、技术核心考察点数据建模能力星型vs雪花模型：面试官常要求对比两种模型。星型模型（事实表+冗余维度表）查询性能高但存储冗余；雪花模型（规范化维度表）减少冗余但增加JOIN复杂度。需结合场景选择，如实时分析首选星型。建模实战题：例如设计电商销售数仓，需明确事实表（订单流水）、维度表（商品、用户、时间），并解释粒度选择（如订单级）。ETL流程与优化增量抽取方案：面试高频题。需掌握基于时间戳、CD
解锁阿里云AnalyticDB：数据仓库的革新利器云资源服务商阿里云云计算数据库服务器
AnalyticDB：云数据仓库新势力在数字化浪潮中，数据已成为企业的核心资产，而云数据仓库作为数据管理与分析的关键基础设施，正扮演着愈发重要的角色。阿里云AnalyticDB作为云数据仓库领域的佼佼者，以其卓越的性能、创新的架构和丰富的功能，为企业提供了强大的数据处理与分析能力，助力企业在数据驱动的时代中脱颖而出。AnalyticDB是阿里云自主研发的云原生数据仓库，采用存储计算分离+多副本架构
【面试系列】云计算工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试云计算职场和发展
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什么是云计算？2.
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出