数仓数据湖第3页

Hive分区表增加字段新增字段为NULL解决方案

背景：数仓开发过程中，经常会有需求变更，添加字段的情况很难免，添加完了字段需要重新写数据，重新将这个字段的数据overwrite进去，但是会出现一个问题，就是加载的数据为NULL。

Lens5935·2024-02-06 10:11

Flink CDC 与 Kafka 集成：State Snapshot 还是 Changelog？Kafka 还是 Upsert Kafka？

我们知道，尽管FlinkCDC可以越过Kafka，将关系型数据库中的数据表直接“映射”成数据湖上的一张表（例如Hudi等），但从整体架构上考虑，维护一个Kafka集群作为数据接入的统一管道是非常必要的，

　Laurence·2024-02-06 08:52

k8s的Deployment部署策略线上踩坑

线上问题我们有个服务,专门做t-1日的增量数据入仓的.入仓流程:每日0点系统新建个csv文件,通过kafka监听增量数据,实时数据写入该csv文件,供下游数仓次日取数.每日产生数据50G(1.8亿条)左右

吴free·2024-02-06 07:41

数据湖Paimon入门指南

一、主键表（PrimaryKeyTable）MergeEnginessink-upsert-realize可能会导致不正常的现象。当输入乱序时，我们建议您使用序列字段来纠正无序。建议设置为Nonesettable.exec.sink.upsert-materialize=NONEDeduplicate（重复数据消除）如果用户建表时不指定merge-engine配置,创建的PK表默认的MergeEn

实时即未来·2024-02-05 21:18

DolphinScheduler数仓任务管理规范

目录一、DolphinScheduler调度数仓任务现状分析2.1一个任务流构建数仓所有的逻辑节点2.2每个逻辑节点构建一个任务流二、数仓任务管理调度需求分析三、DolphinScheduler数仓开发任务管理规范四

i7杨·2024-02-05 16:09

Hudi学习1：概述

1.小文件处理2.增加支持update、delete等操作3.实时数据写入以下是官方点介绍：ApacheHudi是一个支持插入、更新、删除的增量数据湖处理框架，有两种表类型：COW和MOR，可以自动合并小文件

hzp666·2024-02-05 14:59

flink实战--FlinkSQl实时写入hudi表元数据自动同步到hive

但是数据湖是通过追踪文件来管理元数据，一个目录中可以包含多个版本的文件。这一点和Hive元数据管理是不同的。所以说为了兼容Hivemetastore，Hudi需要实时从

阿华田512·2024-02-05 08:46

数仓建设规范

数仓建设规范一、数据模型架构原则1.数仓分层原则2.主题域划分原则3.数据模型设计原则二、数仓公共开发规范1.层次调用规范2.数据类型规范3.数据冗余规范4.NULL字段处理规范5.指标口径规范6.数据表处理规范四

长不大的大灰狼·2024-02-05 04:03

【读红宝书（一）】背景知识

最近，HDFS领域出现了另一个值得讨论的重点，即“数据湖”。HDFS集群（目前大多数企业已经投资并希望找到对他们有用的东西）的合理使用是作为已摄取的数据文件队列。

三半俊秀·2024-02-04 23:41

Fink CDC数据同步（六）数据入湖Hudi

数据入湖HudiApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

大数据_苡~·2024-02-04 16:21

基于Flink的实时数仓建设

目录：一.实时计算初期二.实时数仓建设三.Lambda架构的实时数仓四.Kappa架构的实时数仓五.流批结合的实时数仓一、实时计算初期虽然实时计算在最近几年才火起来，但是在早期也有部分公司有实时计算的需求

园陌·2024-02-04 12:48

第七章主管信息系统和数据仓库

[TOC]第七章主管信息系统和数据仓库7.0前言EIS是数仓之前的概念EIS没有注重基础结构（数据源、数据质量、数据流通等）DSS是现代的EIS，与数仓紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控

晨磊的微博·2024-02-04 04:53

数仓建模&维度建模理论知识

0.思维导图第1章数据仓库概述1.1数据仓库概述数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，企业可从数据中获得宝贵的信息进而改进决策。同时，随着时间的推移，数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2数据仓库核心架构第2章数据仓库建模概述2.1数据仓库建模的意义数据模型就是数据组织和存

韩顺平的小迷弟·2024-02-03 16:02

hadoop使用公平调度器

Stage1（默认调度器）大概在几年前，搭建的数仓集群中。数据量不大，做离线一个晚上就能轻松调度完，那时候使用的hadoop自带的调度器，容量调度器。但默认配置没有改，就会发生什么！

向他一样rap·2024-02-03 13:22

离线数仓-数据治理

目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性数据质量合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、数据仓库发展阶段2.1初始期2.2扩张期2.3缓慢发展期2.4变革期三、数据治理内容3.1元数据治理3.2数据质量治理3.3数据安全治理3.4计算资源治理3.5存储资源治理四、数据治理总结4.1模型合规治理4.2数据质量合规治理

爱吃辣条byte·2024-02-03 13:51

数仓治理-存储资源治理

存储资源治理的流程及思路三、治理前如何评估3.1无用数据表/临时数据表下线评估3.2表及分区的生命周期评估3.3存储及压缩格式评估3.4根据业务场景实现节省存储评估四、治理后的成效如何评估一、存储资源治理的背景由于早期数仓的存储资源比较充裕

爱吃辣条byte·2024-02-03 13:51

初识Apache Paimon

第0章前言0.1主流数据湖工具Delta：由Spark背后商业公司Databricks出品，因此很多功能强兼容Spark，对其他计算引擎不是很友好。

Racin_01·2024-02-03 12:30

Flink实时数仓同步：拉链表实战详解

一、背景在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。一项常见需求是，业务使用人员需要大数据分析平台中查看历史某一天的表数据，示例如下：[Mysql]业务数据-用户表全量数据：idnamephonegende

Light Gao·2024-02-03 10:15

Flink实时数仓同步：流水表实战详解

一、背景在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。一项常见需求是，大数据分析平台需要能够检索某张业务表的变更记录，并以每天为单位统计每条数据的变更频率。以下是示例：[Mysql]业务数据-用户表全量数据：

Light Gao·2024-02-03 10:15

深入数仓离线数据同步：问题分析与优化措施

一、前言在数据仓库领域，离线数仓和实时数仓是常见的两种架构类型。离线数仓一般通过定时任务在特定时间点（通常是凌晨）将业务数据同步到数据仓库中。

Light Gao·2024-02-03 10:14

数仓日常维护：剖析每日增量同步的内部机制

数仓日常维护：剖析每日增量同步的内部机制一、前言在现代企业中，离线仓库扮演着不可或缺的角色。它充当着一个数据的中心枢纽，存储和管理着海量的信息。

Light Gao·2024-02-03 10:14

Flink实时数仓同步：快照表实战详解

一、背景在大数据领域，初始阶段业务数据通常被存储于关系型数据库，如MySQL。然而，为满足日常分析和报表等需求，大数据平台采用多种同步方式，以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等，选择取决于业务需求和数据特性。一项常见需求是，业务使用人员需要大数据分析平台中查看历史某一天的表数据，示例如下：[Mysql]业务数据-用户表全量数据：idnamephonegende

Light Gao·2024-02-03 10:38

数据湖系列之一 | 你一定爱读的极简数据平台史，从数据仓库、数据湖到湖仓一体

从数据仓库、数据湖，到现在的湖仓一体，业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理，可以帮助企业更好地建设数据平台。

百度智能云技术站·2024-02-02 23:04

实时数仓到底是什么呢？与传统数仓有什么区别？如何建设实时数仓呢？

在本地生活服务领域的两大巨头，滴滴在自己的业务如顺风车、美团在自己的业务如团购外卖中进行实时数仓的建设，为消费者提供更好的服务，如我们在滴滴上可以更快的打到更便宜的车、在美团上可以更快的取到最想要吃的餐

盐城qn·2024-02-02 18:50

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3、Hive3.1.22.FlinkCDC写入HudiMySQL建表语句如下createtableusers(idbigintauto_incrementprimarykey,namevarch

王知无(import_bigdata)·2024-02-02 12:01

Flink CDC 详述实时数据湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖ApacheIceberg两种技术，来解决业务数据实时入湖相关的问题。

000X000·2024-02-02 12:01

使用 Flink Hudi 构建流式数据湖

摘要：本文介绍了FlinkHudi通过流计算对原有基于mini-batch的增量计算模型不断优化演进。用户可以通过FlinkSQL将CDC数据实时写入Hudi存储，且在即将发布的0.9版本Hudi原生支持CDCformat。主要内容为：背景增量ETL演示一、背景近实时从2016年开始，ApacheHudi社区就开始通过Hudi的UPSERT能力探索近实时场景的使用案例[1]。通过MR/Spark的

浪尖聊大数据-浪尖·2024-02-02 12:30

如何推动埋点管理项目的落地

一埋点管理常见痛点分析埋点数据作为三大数据来源之一，具有应用场景多、数据量级大等特点，上能影响数据分析、推荐、AB实验的准确性，下能影响数仓结构设计和维护成本，其重要性不言而喻。

一个数据人的自留地·2024-02-02 06:01

数据仓库表级血缘应用

数仓血缘应用（一）：表血缘热度文章目录数仓血缘应用（一）：表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度1、指标透传（应用层——>数仓）2、指标应用（热度）2.1、数仓血缘节点关系2.2

零壹Ture·2024-02-02 02:24

oracle数仓rac两个节点查询耗时不一致问题处理

问题描述数据库节点1查询比节点2查询慢。现场操作应用发现发现同一sql语句在节点2上只要2分钟左右，在节点1，该条sql执行要超过30分钟。处理过程根据问题，初步判断是由于错误的执行计划，导致性能问题，但实际上对两个节点做trace跟踪发现执行计划都一致，后续通过awr报告和10046事件跟踪发现由于“gccrmultiblock”耗时造成节点一慢，这是oracleRAC大事务处理特性，两边都查有

烟雨归来·2024-02-01 09:23

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

第1章：数据仓库概念数据仓库，是为企业指定决策，提供数据支持的，可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据：用户

Key-Key·2024-02-01 08:46

多表拆解 | 数据PM的工作内容

之前一篇文章介绍了我司数据体系搭建过程，见：埋点、数仓到中台：数据体系的从0到1为了区分数据产品和数据产品经理，下文会用数据产品和数据PM来区分。

PMCAFF产品社区·2024-01-31 21:47

数据建模分析与数仓维度建模规范

数据建模在数仓管理、数据库设计、算法模型训练等领域都有着重要的作用。

i7杨·2024-01-31 20:57

Python入门教程，30分钟玩转Python编程！

一、Python入门二、Python爬虫三、数据分析四、数据库与ETL数仓五、机器学

老-程序员·2024-01-31 18:50

大厂 5 年实时数据开发经验总结，Flink SQL 看这篇就够了！

本文摘编于《FlinkSQL与DataStream入门、进阶与实战》（500页、70万字）作者羊艺超，目前就职于快手，国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时数仓的丰富经验京东机械工业出版社旗舰店限时

zhisheng_blog·2024-01-31 15:29

Apache Paimon 介绍

FlinkTableStore是一个数据湖存储，用于实时流式Changelog写入(比如来自FlinkCDC的数据)和高性能查询。它创新性

zhisheng_blog·2024-01-31 15:58

数据湖技术Iceberg0.12预研文档

Iceberg0.12预研本次预研场景主要为kafka=>flinksql=>iceberg=>hive=>hdfs=>trino(presto)本次预研使用组件如下：名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中（更换jar升级替换）hadoop3.0.0cdh原生版本presto2.591开源版本trino36

我去探险了·2024-01-31 15:36

HBase表结构

一般我们从数仓中离线统计分析海量数据，将得到的结果插入HBase中用于实时查询。表结构hbase在表中组织数据。表名是字符串和字符的组合，可以在文件系统路径中使用这里以一个公

内向仓鼠·2024-01-31 07:55

Databend 开源周报第 130 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2024-01-31 04:28

Apache Doris 2.0.4 版本正式发布

亲爱的社区小伙伴们，ApacheDoris2.0.4版本已于2024年1月26日正式发布，该版本在新优化器、倒排索引、数据湖等功能上有了进一步的完善与更新，使ApacheDoris能够适配更广泛的场景。

SelectDB技术团队·2024-01-31 03:38

Apache Paimon基础记录

基本都是在官网的学习，简单记录一下其中的核心特点ApachePaimon官网ApachePaimon|ApachePaimon根据官网介绍去快速了解paimon是用来设计做什么，可以做什么，对比与其他数据湖有什么特点

orange大数据技术探索者·2024-01-30 20:07

数据仓库实践杂谈（十八）——关于报表

整体数据分层第三章：整体实现框架第四章：元数据第五章：ETL第六章：数据校验第七章：数据标准化第八章：去重第九章：增量/全量第十章：拉链处理第十一章：分布式处理增量第十二章：列式存储第十三章：逻辑数据模型（数仓模型

老程序员一叶知秋·2024-01-30 18:45

字节跳动二面经典题目

欢迎关注公众号：语数本期投稿本期语数精选来源于球友应对字节跳动二面时候的场景问题数仓工程师的职业规划做数仓工程师要具备哪些点，按照重要性排序gpt在数据分析中的应用实习项目的收益价值在哪里？

语兴数据·2024-01-30 15:31

一文掌握0基础如何体系化学习数仓

欢迎关注公众号：语数2本期精选问题如何校验开发好的数仓指标？如果你是公司的分析师，应该如何分析数据？0基础如何体系化学习数仓？

语兴数据·2024-01-30 15:01

当你要做数仓汇报时，应该怎么讲故事？

语数精选简介语数精选来源于语数社区星球球友提问，主要沉淀一些大家工作和学习过程中存在的一些共性问题，希望能够更好的帮助到球友和粉丝。欢迎关注公众号：语数本期精选问题提问背景：了解高效的学习方向和针对性的学习路线，利用业余时间修炼自己，希望2年后收入和职级能有所提高。当下应制定怎样的学习路线？有哪些模块应深入学习或者考证？什么是指标体系，如何推动？如何方便领导讲故事，证明我司是有数据能力一、高效制定

语兴数据·2024-01-30 15:01

揭秘：数仓开发面试真正需要注意的点

怎样保障数仓数据的一致性？

语兴数据·2024-01-30 15:30

以数仓视角切入学习路线，大数据真正需要学习的内容有哪些？

本期精选问题作为数仓开发，需要学习哪些大数据基础知识？当整个数据链路过长时，如何进行模型优化？

语兴数据·2024-01-30 15:30

数仓建设学习路线（四）-指标体系建设

指标体系建设目的与下游（风控/bi）达成合作，保障指标建设时口径的统一，完成指标覆盖，提升复用性，通过可视化方式提升查询效率指标中心图指标体系建设难点能否与下游达成共识（沟通）指标能否做到数仓收口

语兴数据·2024-01-30 15:00

我在面试时写了这个，面试官对我刮目相看

孟哥介绍前字节跳动高级开发，军工企业数仓某线负责人，曾面试过上百人，看过2000余份简历。

语兴数据·2024-01-30 15:00

数仓建设学习路线（五）-数据质量保障

也使得下游业务方对数据用的放心数据质量的痛点有哪些数据问题该如何上报修复，缺少流程化数据链路缺少卡点保障数据不能及时产出影响到下游用数用户无感知，除了发现的数据问题，隐藏的数据问题仍存在很多人会有一种想法，做了这么久的数仓为什么还存在质量问题

语兴数据·2024-01-30 15:00

推荐频道

数仓数据湖

Hive分区表增加字段新增字段为NULL解决方案

Flink CDC 与 Kafka 集成：State Snapshot 还是 Changelog？Kafka 还是 Upsert Kafka？

k8s的Deployment部署策略线上踩坑

数据湖Paimon入门指南

DolphinScheduler数仓任务管理规范

Hudi学习1：概述

flink实战--FlinkSQl实时写入hudi表元数据自动同步到hive

数仓建设规范

【读红宝书（一）】背景知识

Fink CDC数据同步（六）数据入湖Hudi

基于Flink的实时数仓建设

第七章 主管信息系统和数据仓库

数仓建模&维度建模理论知识

hadoop使用公平调度器

离线数仓-数据治理

数仓治理-存储资源治理

初识Apache Paimon

Flink实时数仓同步：拉链表实战详解

Flink实时数仓同步：流水表实战详解

深入数仓离线数据同步：问题分析与优化措施

数仓日常维护：剖析每日增量同步的内部机制

Flink实时数仓同步：快照表实战详解

数据湖系列之一 | 你一定爱读的极简数据平台史，从数据仓库、数据湖到湖仓一体

实时数仓到底是什么呢？与传统数仓有什么区别？如何建设实时数仓呢？

实时数据湖：Flink CDC流式写入Hudi

Flink CDC 详述实时数据湖

使用 Flink Hudi 构建流式数据湖

如何推动埋点管理项目的落地

数据仓库表级血缘应用

oracle数仓rac两个节点查询耗时不一致问题处理

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

多表拆解 | 数据PM的工作内容

数据建模分析与数仓维度建模规范

Python入门教程，30分钟玩转Python编程！

大厂 5 年实时数据开发经验总结，Flink SQL 看这篇就够了！

Apache Paimon 介绍

数据湖技术Iceberg0.12预研文档

HBase表结构

Databend 开源周报第 130 期

Apache Doris 2.0.4 版本正式发布

Apache Paimon基础记录

数据仓库实践杂谈（十八）——关于报表

字节跳动二面经典题目

一文掌握0基础如何体系化学习数仓

当你要做数仓汇报时，应该怎么讲故事？

揭秘：数仓开发面试真正需要注意的点

以数仓视角切入学习路线，大数据真正需要学习的内容有哪些？

数仓建设学习路线（四）-指标体系建设

我在面试时写了这个，面试官对我刮目相看

数仓建设学习路线（五）-数据质量保障

第七章主管信息系统和数据仓库