数仓学习专栏

数据仓库介绍

数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统

阿龙的代码在报错·2024-09-15 16:08

数仓开发之DWD层完整使用 (第五章)

数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则

小坏讲微服务·2024-09-13 13:22

离线数仓VS实时数仓

离线数据仓库（OfflineDataWarehouse）和实时数据仓库（Real-timeDataWarehouse）的实施有一些相似之处，但也存在显著的差异。以下是两者在几个关键方面的对比：相同点：数据集成：都需要从多个数据源提取、转换和加载数据（ETL/ELT）。都需要处理数据清洗、去重和规范化，以保证数据的一致性和准确性。数据建模：都需要进行数据建模，设计数据仓库的星型或雪花模型，定义事实表

james二次元·2024-09-13 03:14

数仓建模之维度表&指标表

在数据仓库中，维度和指标是两个重要的概念。维度（Dimension）：维度是一种描述业务过程中各种属性的方法，用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性，是数据分析的基础。指标（Measure）：指标是衡量业务过程效果的标准，是数据分析的重要指标。指标包括数量、金额、时间、比率、百分比等，用于衡量业务过程的各种结果。在数据仓库中，通常会使用维度表和指标表来进行

锵锵锵锵~蒋·2024-09-12 20:01

一起走的学习之路(125)

最大的难题不知道大家有没有这个感受，最近由于没有学习专栏了，每天要写什么，成为了一大难题。

小米雨路·2024-09-11 00:27

数据库，数据仓库，数据湖，湖仓一体到底是什么区别

先说下上面的答案，数据仓库和数据湖可以是互相独立存在的，不存在谁是谁的缓存一说，但是如果涉及到湖仓一体的时候，数仓是结构化的数据访问入口，而底层的数据湖是可以作为数仓的底层的存储支持。要了解各个概念

大数据小尘·2024-09-10 14:46

实时数仓之实时数仓架构(Hudi)(1)

目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。

2401_84164527·2024-09-09 19:34

2024年大数据最新实时数仓之实时数仓架构(Hudi)

技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O

2401_84185556·2024-09-09 19:34

实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题

+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有

2401_84181221·2024-09-09 19:04

数据仓库系列篇之基本概述

@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录前言什么是数据仓库数据仓库与数据库的区别为什么要建立数据仓库及数仓平台的优势为什么要建立数据仓库大数据数仓平台的特点或优势数据仓库和数据集市的关系前言通过收集资料

小学僧来啦·2024-09-09 09:53

数仓还是湖仓？专家圆桌深度解析

近期，Databricks以超过10亿美元的价格收购了Tabular——ApacheIceberg的商业支持公司，这一动作加剧了Snowflake和Databricks在开放湖仓标准发展上的竞争。这起收购也突显了数据湖表格式在现代数据分析架构中的关键地位。在上月的StarRocksMeetup活动中，四位湖仓技术专家代表ApacheIceberg、ApacheHudi、ApachePaimon和S

StarRocks_labs·2024-09-08 19:49

python+re正则表达式匹配指定10位整数 \ 小数 \ 整数

一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击——>Python基础学习专栏求订阅

一晌小贪欢·2024-09-06 04:42

数据仓库之【商品订单数据数仓】10：数据可视化工具：Zeppelin安装部署、Zeppelin使用

一、数据可视化数据可视化这块不是项目的重点，不过为了让大家能有一个更加直观的感受，我们可以选择一些现成的数据可视化工具实现。咱们前面分析过，想要查询hive中的数据可以使用hue，不过hue无法自动生成图表。所以我们可以考虑使用Zeppelin针对一些复杂的图表，可以选择定制开发，使用echarts、finebi组件实现。二、Zeppelin安装部署注意：不要使用Zeppelin0.8.2版本，这

做一个有趣的人Zz·2024-09-05 15:45

【GaussDB(DWS)】数仓部署架构与物理结构分析

数仓架构与物理结构分析一、部署架构二、物理结构三、测试验证一、部署架构华为数据仓库服务DWS，集群版本8.1.3.x集群拓扑结构：上述拓扑结构为DWS单AZ高可靠部署架构，为减少硬件故障对系统可用性的影响

若兰幽竹·2024-09-03 20:06

数仓分层架构：DWS

在数据仓库的分层架构中，"DWS"通常指的是数据仓库的"服务层"或"汇总层"，但这个缩写可能根据不同的上下文有不同的含义。以下是几种可能的解释：1.**数据仓库服务层（DataWarehouseServices）**：-在一些云服务提供商的数据平台中，DWS可能指的是提供数据仓库功能的一组服务，这些服务可能包括数据存储、管理和分析工具。2.**数据仓库星型模式（DataWarehouseStarS

大连赵哥·2024-09-01 16:11

大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统

爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库

qq_79856539·2024-09-01 11:16

常见的实时数仓方案

常见的实时数仓架构有三种。第一种是Lambda架构，是目前主流的一套实时数仓架构，存在离线和实时两条链路。

北极冰雨·2024-08-30 05:27

Hive 数据模型切换后的数据验证方案

标签系统一般属于ads集市层加工的模型数据，如果上游（数仓/业务）表进行了切换，比如我们项目最近上游从fdl/gdl切换到了dwd/dws，切换完毕后的数据一般都会出现问题，如何进行数据验证是一个需要好好思考的问题

小菜菜1223·2024-08-29 19:16

数仓之TABLESAMPLE采样

数仓中的抽样方法有很多，这里主要介绍一下：随机抽样、块抽样、桶抽样、分组抽样这四种，话不多说，直接上干货。

Luckyforever%-·2024-08-29 00:39

（二十）Flink Paimon

从传统数仓到数据湖、湖仓一体架构，从流批一体计算到基于数据湖的流批一体存储，越来越多的企业基于开源技术，在集成、计算、存储、查询分析等方面不断优化，建设形成适合

springk·2024-08-27 16:38

谈一谈数据虚拟化的技术核心和应用架构

这一技术方案与过去面对传统数仓的弊端，业界过去经常采取的方式Presto方案有一定相似，但存在明显差别。

Aloudata·2024-08-22 21:31

数开中：SQL递归函数使用场景（70天）

数仓（DataWarehouse）中，SQL递归函数的使用场景多出现在需要处理具有层级或树状结构的数据时。这类数据可能包括商品分类、用户行为路径（如点击流中的页面跳转）、促销活动层级等。

大数据飞总·2024-08-21 20:29

某项目公司-——ETL工程师岗位——二面

1.自我介绍2.如果给你一个数仓项目，你应该从那些方面向你的上级汇报。3.对自己的未来职业生涯规划。4.平常下班之后做那哪些事情。5.对于写PPT,写文档这块是否可以。

劝学-大数据·2024-03-20 06:46

嵌入式驱动学习第三周——Linux网络基础调试命

嵌入式驱动学习专栏将详细记录博主学习驱动的详细过程，未来预计四个月将高强度更新本专栏，喜欢的可以关注本博主并订阅本专栏，一起讨论一起学习。现在关注就是老粉啦！

亭墨·2024-03-17 01:04

03hive数仓安装与基础使用

hiveHive概述Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件底层是将sql语句转换为MapReduce任务进行运行本质上是一种大数据离线分析工具学习成本相当低，不用开发复杂的mapreduce应用，十分适合数据仓库的统计分析hive可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop

daydayup9527·2024-03-14 13:39

ETL策略

ETL架构的datastage，informatica，以ELT为代表的ODI，再到后来的批处理方式，SQL编码方式，但是其本质还是抽取数据，处理，再加载到目标平台，常用的方式：1.初始化：当我们建立数仓平台时候

朱先生_hfm·2024-03-10 13:11

Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数

背景：在数仓任务中，经常要解决小文件的问题。

不想起的昵称·2024-03-02 15:03

EMR StarRocks实战——Mysql数据实时同步到SR

下文主要介绍如何使用Flink平台和E-MapReduceStarRocks，通过CTAS&CDAS功能实现实时数仓中TP（TransactionProcessi

爱吃辣条byte·2024-02-28 09:49

人工智能学习与实训笔记（六）：神经网络之智能推荐系统

人工智能专栏文章汇总：人工智能学习专栏文章汇总-CSDN博客本篇目录七、智能推荐系统处理7.1常用的推荐系统算法7.2如何实现推荐7.3基于飞桨实现的电影推荐模型7.3.1电影数据类型7.3.2数据处理

穿越光年·2024-02-20 17:30

Databend 开源周报第 132 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

·2024-02-20 10:50

透彻理解实时数仓的支撑技术：Upsert Kafka 和 Flink 动态表（Dynamic Table）

博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧二维码进入京东手机购书页面。动态表本质上是一条流（stream），upsert-kafka映射的数据表底层存储的

　Laurence·2024-02-20 10:23

JVS智能BI的ETL数据集实践：数据自动化分析的秘诀

数据集管理与界面介绍在整体的数仓架构中，数据集是在线加工的标准数据形态，数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程，建模完成后，可通过手动数据执行或者周期性的

jonyleek·2024-02-20 05:59

我该建数仓、大数据平台还是数据中台？看完脑子终于清醒了

一、层出不穷的新名词现在各种新名词层出不穷：顶层的有数字城市、智慧地球、智慧城市、城市大脑；企业层面的有数字化转型、互联网经济，数字经济、数字平台；平台层面的有物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱；技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等。总之是你方唱罢他登场，各种概念满天飞…在比拼新经济的过程中，其实比拼的是流量也就是用

zl1zl2zl3·2024-02-20 05:30

什么是onedata？如何使用onedata？

这是数仓构建的基

时代新人0-0·2024-02-19 21:54

mv: 无法获取“/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102.out.1“ 的文件状态(stat): 没有那个文件或目录

最近在回顾之前做过的离线数仓项目，在启动hadoop时出现了如下错误：hadoop102:mv:无法获取"/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102

时代新人0-0·2024-02-19 21:53

Apache DolphinScheduler数仓任务管理规范

前言：大数据领域对多种任务都有调度需求，以离线数仓的任务应用最多，许多团队在调研开源产品后，选择ApacheDolphinScheduler（以下简称DS）作为调度场景的技术选型。

DolphinScheduler社区·2024-02-19 16:16

Apache DolphinScheduler数仓任务管理规范

前言：大数据领域对多种任务都有调度需求，以离线数仓的任务应用最多，许多团队在调研开源产品后，选择ApacheDolphinScheduler（以下简称DS）作为调度场景的技术选型。

·2024-02-19 16:01

DDL 毫秒级同步，Light Schema Change 的设计与实现｜新版本揭秘

在OLAP的业务场景中，SchemaChange是一个相对常见的业务需求，当上游数据源维度发生变化时，通常需要将数仓中的表结构进行相应的变更。

·2024-02-19 15:19

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

数据系统架构-10.数仓开发平台

数仓开发平台1.背景数据仓库是存储各种数据的仓库，形同于现实当中存储货物的仓库，不可避免的存在“乱放”、“不方便存取”、“浪费空间”等情况。

·2024-02-19 11:45

揭秘JVS-智能BI数据集管理：让你的数据处理更高效！

数据集管理与界面介绍在整体的数仓架构中，数据集是在线加工的标准数据形态，数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程，建模完成后，可通过手动数据执行或者周期性的

·2024-02-19 11:41

Hive调优——count distinct替换

离线数仓开发过程中经常会对数据去重后聚合统计，而对于大数据量来说，count(distinct)操作消耗资源且查询性能很慢，以下是调优的方式。

爱吃辣条byte·2024-02-15 10:58

数仓面试

0.自我介绍答：1）.简单的自我介绍，突出自己优势2）.项目介绍3）.项目中承担的工作和模块。4）.长的帅或漂亮，前四条都可以忽略1.什么是数据仓库？如何构建数据仓库？可参考：漫谈|大牛带你从0到1构建数据仓库实战（如果这个问题回答的好，后面很多问题都不需要再问）答：数据仓库是一个面向主题的（SubjectOriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反

China_mr001·2024-02-14 21:46

设计模式学习专栏四--------装饰者模式

设计模式学习专栏四--------装饰者模式场景设计星巴兹咖啡,主体(DarkRoast等)+配料(摩卡,奶泡等),顾客在购买咖啡时,也可以要求在其中加入各种调料,如蒸奶(SteamedMilk),豆浆

你的头发真的好长·2024-02-13 12:52

【初中生讲机器学习】7. 交叉验证是什么？有哪些？怎么实现？来看！

创建时间：2024-02-10最后编辑时间：2024-02-10作者：Geeker_LStar你好呀~这里是Geeker_LStar的人工智能学习专栏，很高兴遇见你~我是Geeker_LStar，一名初三学生

Geeker · LStar·2024-02-11 23:37

ClickHouse常用表引擎

有点像数仓中的缓慢变化维度。创建TinyLog引擎表只需要在

寒暄·2024-02-11 22:23

clickhouse 21.x生产实践优化

clickhouse1时间字段类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全String类型在以Hive(hbase)为中心的数仓建设中常见，但ClickHouse环境不应受此影响。

架构师老狼·2024-02-11 18:28

Databend 开源周报第 131 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

·2024-02-11 18:59

离线数仓（一）【数仓概念、需求架构】

前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。

让线程再跑一会·2024-02-11 11:58

计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计

selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库

计算机毕业设计大神·2024-02-10 10:56

推荐频道

数仓学习专栏

数据仓库介绍

数仓开发之DWD层完整使用 (第五章)

离线数仓VS实时数仓

数仓建模之维度表&指标表

一起走的学习之路(125)

数据库，数据仓库，数据湖，湖仓一体到底是什么区别

实时数仓之实时数仓架构(Hudi)(1)

2024年大数据最新实时数仓之实时数仓架构(Hudi)

实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题

数据仓库系列篇之基本概述

数仓还是湖仓？专家圆桌深度解析

python+re正则表达式匹配指定10位整数 \ 小数 \ 整数

数据仓库之【商品订单数据数仓】10：数据可视化工具：Zeppelin安装部署、Zeppelin使用

【GaussDB(DWS)】数仓部署架构与物理结构分析

数仓分层架构：DWS

大数据毕业设计hadoop+spark+hive微博舆情情感分析 知识图谱微博推荐系统

常见的实时数仓方案

Hive 数据模型切换后的数据验证方案

数仓之TABLESAMPLE采样

（二十）Flink Paimon

谈一谈数据虚拟化的技术核心和应用架构

数开中：SQL递归函数使用场景（70天）

某项目公司-——ETL工程师岗位——二面

嵌入式驱动学习第三周——Linux网络基础调试命

03hive数仓安装与基础使用

ETL策略

Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数

EMR StarRocks实战——Mysql数据实时同步到SR

人工智能学习与实训笔记（六）：神经网络之智能推荐系统

Databend 开源周报第 132 期

透彻理解实时数仓的支撑技术：Upsert Kafka 和 Flink 动态表（Dynamic Table）

JVS智能BI的ETL数据集实践：数据自动化分析的秘诀

我该建数仓、大数据平台还是数据中台？看完脑子终于清醒了

什么是onedata？如何使用onedata？

mv: 无法获取“/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102.out.1“ 的文件状态(stat): 没有那个文件或目录

Apache DolphinScheduler数仓任务管理规范

Apache DolphinScheduler数仓任务管理规范

DDL 毫秒级同步，Light Schema Change 的设计与实现｜新版本揭秘

Flink 细粒度滑动窗口性能优化

数据系统架构-10.数仓开发平台

揭秘JVS-智能BI数据集管理：让你的数据处理更高效！

Hive调优——count distinct替换

数仓面试

设计模式学习专栏四--------装饰者模式

【初中生讲机器学习】7. 交叉验证是什么？有哪些？怎么实现？来看！

ClickHouse常用表引擎

clickhouse 21.x生产实践优化

Databend 开源周报第 131 期

离线数仓（一）【数仓概念、需求架构】

计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏 民宿推荐系统 民宿爬虫 民宿大数据 知识图谱 机器学习 大数据毕业设计

大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统

计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计