数仓第10页

幸福里基于 Flink & Paimon 的流式数仓实践

幸福里业务是一种典型的交易、事务类型的业务场景，这种业务场景在实时数仓建模中遇到了诸多挑战。

浪尖聊大数据-浪尖·2023-12-25 10:45

Flink实时电商数仓（五）

FlinkSQL的joinRegularjoin普通join，两条流的数据都时存放在内存的状态中，如果两条流数据都很大，对内存压力很大。IntervalJoin:适合两条流到达时间有先后关系的；一条流的存活时间短，一条流的存活时间长。LookupJoin：适合主流特别大，从流特别小的情况；主流数据没到达一条，就会去查询从流的每一条数据。主流数据不存储在内存中。语法：主流使用时必须有处理时间，pro

十七✧ᐦ̤·2023-12-25 02:27

Flink电商实时数仓（四）

日志数据结构业务数据：数据都是MySQL中的表格数据,使用FlinkSQL处理日志数据：分为page页面日志（页面信息，曝光信息，动作信息，报错信息）和启动日志（启动信息，报错信息），使用FlinkStreamAPI处理五种日志数据：“start”;启动信息“err”;错误信息“display”;曝光信息“action”;动作信息“page”;页面信息"actions":[{"action_id"

十七✧ᐦ̤·2023-12-25 02:57

【黑马甄选离线数仓day10_会员主题域开发_DWS和ADS层】

day10_会员主题域开发会员主题_DWS和ADS层DWS层开发门店会员分类天表:维度指标:指标：新增注册会员数、累计注册会员数、新增消费会员数、累计消费会员数、新增复购会员数、累计复购会员数、活跃会员数、沉睡会员数、会员消费金额维度:时间维度（天、周、月）涉及表:门店会员分类天表表字段的组成:维度字段+指标结果字段建表语句:CREATETABLEIFNOTEXISTSdws.dws_mem_

LKL1026·2023-12-25 01:58

2019-05-23

其他时间都在编写法院数仓重构项目建设方案。下午王伟离职，涉及到薪资结算不合理问题，他很生气，我建议他不要纠结这些小事，他貌似也没听进去。下午听了一个讲健康安全的课程，感觉很实用。晚11点半就寝。

bigtian·2023-12-24 15:11

电商数仓项目----笔记六(数仓ODS层)

ODS层的设计要点如下：（1）ODS层的表结构设计依托于从业务系统同步过来的数据结构。（2）ODS层要保存全部历史数据，故其压缩格式应选择压缩比较高的，此处选择gzip。（3）ODS层表名的命名规范为：ods_表名_单分区增量全量标识（inc/full）。同样的，需要将用户行为数据表和业务数据表放到ODS层。日志表DROPTABLEIFEXISTSods_log_inc;CREATEEXTERNA

zmx_messi·2023-12-24 12:38

电商数仓项目----笔记五(数仓架构和建模)

ODS：数据源DWD：加工数据DWS：统计数据ADS：分析数据DIM：维度层（大家都有可能用得上的部分）ER模型数据仓库之父BillInmon提出的建模方法是从全企业的高度，用实体关系（EntityRelationship，ER）模型来描述企业业务，并用规范化的方式表示出来，在范式理论上符合3NF。1）实体关系模型实体关系模型将复杂的数据抽象为两个概念——实体和关系。实体表示一个对象，例如学生、班

zmx_messi·2023-12-24 11:35

基于Hue，Dolphinscheduler，HIVE分析数据仓库层级实现及项目需求案例实践分析

目录一、数仓各个层级及作用1，ODS层（OperationDataStore-源数据层）2，DW层（DataWarehouse-数据仓库层）(1)DWD(DataWarehouseDetail-明细数据层

Len°·2023-12-24 11:32

技本功|Hive优化之监控（三）

Hive是大数据领域常用的组件之一，主要是大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的技能。

云掣YUNCHE·2023-12-24 03:15

技本功|Hive优化之Spark执行引擎参数调优（二）

Hive是大数据领域常用的组件之一，主要是大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点，因此掌握一些Hive调优是必不可少的一项技能。

云掣YUNCHE·2023-12-24 03:44

【数仓_01】用户行为采集平台

1、数仓基础知识1.1描述1.2需求分析1.3选型考虑因素1.4项目流程设计1.5具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块

温欣2030·2023-12-23 10:43

CloudCanal x Debezium 打造实时数据流动新范式

CloudCanal近期实现了从Kafka消费Debezium格式数据，将其同步到StarRocks、Doris、Elasticsearch、MongoDB、ClickHouse等12种数据库和数仓，补全其数据到达能力

ClouGence·2023-12-22 16:48

Hive的联级（cascade）- 修改分区表的字段类型或者增加新字段

一、问题描述踩坑：数仓的分区表，由于需求需要，要把int类型的字段改为bigint，我直接执行的以下语句：altertabletable_namechangecolumn字段字段bigint;出现的问题

大数据点滴·2023-12-22 14:34

数据仓库-数据治理小厂实践

一、简介数据治理贯穿数仓中数据的整个生命周期，从数据的产生、加载、清洗、计算，再到数据展示、应用，每个阶段都需要对数据进行治理，像有些比较大的企业都是有自己的数据治理平台或者会开发一些便捷的平台，对于没有平台的公司

大数据点滴·2023-12-22 14:03

一文读懂云原生一体化数仓

简介：阿里云云原生一体化数仓产品技术深度解读。

阿里云云栖号·2023-12-22 07:19

Impala 基于hive的交互式实时分析工具(二) 概念及原理介绍

impala和hive的区别概括：hive是【基于hadoop】的适合【离线批处理复杂sql分析的数仓工具】，impala是【基于hive】的适合【实时交互简单sql的数仓工具】执行计划1.hive：hive

章云邰·2023-12-22 01:34

本地数仓项目(三）—— 数据可视化和任务调度

1背景本文基于《本地数据仓库项目(一)——数仓搭建详细流程》和《本地数仓项目(二)——搭建系统业务数仓详细流程》数据为依托，实现数据可视化和任务调度2构造可视化数据在mysql中新建ads_uv_count

不以物喜2020·2023-12-21 21:37

天软高频时序数据仓库

1天软高频时序数仓方案架构天软高频时序数据仓库是深圳天软科技开发有限公司专为金融用户提供的专业高频行情数据处理方案，集数据接入、检查、处理、存储、查询、订阅、计算于一体。

Tinysoft_SH·2023-12-21 18:51

Flink电商实时数仓（三）

DIM层代码流程图维度层的重点和难点在于实时电商数仓需要的维度信息一般是动态的变化的，并且由于实时数仓一般需要一直运行，无法使用常规的配置文件重启加载方式来修改需要读取的ODS层数据，因此需要通过Flink-cdc

十七✧ᐦ̤·2023-12-21 18:48

基于 Flink 的典型 ETL 场景实现方案

话数Science·2023-12-21 11:59

数据中台之旅(五)数据开发介绍

功能介绍数据开发包含:作业开发(sqoop\hive\impala\python\shell)、实时开发(flink)、调度管理(工作流\定时调度\DAG查询)、日志管理(定时调度日志\作业运行日志)建设思路作业开发:数仓开发使用频率最高的一个功能

belialxing·2023-12-21 09:59

2019-05-24

周末取消钓鱼计划，继续学习数仓。晚上公司团建，吃了些垃圾食品，胃不舒服。晚12点就寝。

bigtian·2023-12-21 08:20

【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍

本次活动的核心议题为「Databend云数仓与DatabendPlayground扩展组件介绍」，此次分享由DatabendLabs的研发工程师尚卓燃担任主讲嘉宾，向与会者呈现了一场内容丰富的在线分享会

Databend·2023-12-20 13:02

Databend 开源周报第 123 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-12-20 13:32

Databend 开源周报第 124 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2023-12-20 13:31

Flink实时电商数仓（二）

GitLab的用户创建和推送在root用户-密码界面重新设置密码添加Leader用户和自己使用的用户使用root用户创建相应的群组使用Leader用户创建对应的项目设置分支配置为“初始推送后完全保护”设置.gitignore文件，项目配置文件等其他非通用代码无需提交安装gitlabproject2020插件点击shareprojectongitlab即可将项目上传到gitlab中Flink集群的搭

十七✧ᐦ̤·2023-12-20 08:50

数据分析--清洗分类

这种技术的不专业对于我们进行数据分析也造成了一些需求的无法实现，好在选择部门要及逆行规划，创建自己的数仓了，那就先来学习下数据清洗的分类吧。

黏小莲·2023-12-19 23:40

nodejs微信小程序＋python＋PHP基于大数据的银行信用卡用户的数仓系统的设计与实现-计算机毕业设计推荐

目录摘要IABSTRACTII目录II第1章绪论11.1背景及意义11.2国内外研究概况11.3研究的内容1第2章相关技术32.1nodejs简介42.2express框架介绍62.4MySQL数据库4第3章系统分析53.1需求分析53.2系统可行性分析53.2.1技术可行性：技术背景53.2.2经济可行性63.2.3操作可行性：63.3项目设计目标与原则63.4系统流程分析73.4.1操作流程7

QQ_511008285·2023-12-19 09:59

数据仓库架构-Lambda和Kappa

随着数据量的暴增和数据实时性要求越来越高，以及大数据技术的发展驱动企业不断升级迭代，数据仓库架构方面也在不断演进，分别经历了以下过程：早期经典数仓架构>离线大数据架构>Lambda>Kappa>混合架构

产品经理自我修养·2023-12-18 22:04

大数据技术4：Lambda和Kappa架构区别

随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。

Java架构何哥·2023-12-18 22:33

活动预告｜字节跳动基于DataLeap的DataOps最佳实践

随着数字化转型的推进以及业务数仓建设不断完善，大数据开发体量及复杂性逐步上升，如何保证数据稳定、正确、持续产出成为数据开发者核心诉求，也成为平台建设面临的挑战之一。

字节数据平台·2023-12-18 14:40

Flink实时数仓项目—项目初了解

Flink实时数仓项目—项目初了解前言一、实时数仓分层介绍1.普通的实时计算与实时数仓比较2.实时电商数仓分层规划二、实时数仓需求概览1.离线计算和实时计算的比较2.实时需求种类2.1日常统计报表或分析图中需要包含当日部分

自学大数据的菜鸡·2023-12-18 14:46

3、电商数仓（数仓数据同步策略）

实时数仓同步数据实时数仓由Flink源源不断从Kafka当中读数据计算，所以不需要手动同步数据到实时数仓。

tianyi6_6·2023-12-18 14:46

Flink电商实时数仓项目03-DWM层

1DWM层与DWS层的设计思路1.1设计思路用户行为日志：模拟日志jar->nginx->web日志服务器->kafka(ods_base_log)->flink(BaseLogApp)-分流->kafka(dwd_page_log

最佳第六六六人·2023-12-18 14:45

Flink电商实时数仓项目04-DWS层

1DWS层和DWM层的设计1.1DWS层前面的总结DWS层的定位是什么呢？轻度聚合，因为DWS层要应对很多实时查询，如果是完全的明细那么查询的压力非常大。将更多的实时数据以主题的形式组合起来便于管理，同时也能减少维度查询的次数。ODS层:--日志数据：nginx+日志采集服务器(3台)将数据采集到Kafka(ods_base_log)--业务数据：Maxwell监控MySQL(binlog)将数据

最佳第六六六人·2023-12-18 14:45

大数据Flink电商实时数仓实战项目流程全解（最终章）Flink SQL的简单应用以及数据接口设计思路

FlinkSql介绍在实际开发过程中，我个人是以StreamAPI为主，FlinkSql写的不多，这里主要是参考原本项目代码写的，具体的细节，我也不是很熟悉，建议大家可以单独去了解一下FlinkSql；简单来说就是就是先通过Sql语句从对应的数据表（这里主要就是DWM层的订单宽表）来获取所需要的字段数据，形成动态表，然后将动态表再转化为流的形式，再存到ClickHouse中去。要注意的点：1、Fl

大数据YYDS·2023-12-18 14:14

大数据项目之电商数仓、数据仓库概念、项目需求及架构设计

文章目录1.数据仓库概念2.项目需求及架构设计2.1项目需求分析2.1.1采集平台2.1.2离线需求2.1.3实时需求2.1.4思考题2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.3.1Apache框架版本2.2.4服务器选型2.2.4.1物理机：2.2.4.2云主机：2.2.4.3企业选择2.2.5集群规模2.2.6集群资源规划设计2.2.6.1生产集群

Redamancy_06·2023-12-18 14:14

大数据Flink电商实时数仓实战项目流程全解(三）

DWD层日志数据分离在数仓搭建过程中，对日志数据做分离是非常有必要而且有意义的，我们可以通过把日志分为启动、隔离、曝光、异常、页面等日志，可以计算获取访客数量、独立访客数量、页面跳转、页面跳出等统计指标数据

大数据YYDS·2023-12-18 14:44

大数据Flink电商实时数仓实战项目流程全解(五）

前提概要：之前我们已经实现了动态分流，即通过TableProcessFunction1类把维度数据和事实数据进行了分流处理，接下来就是把数据写入Hbase表和Kafka主题表中：hbaseDS.addSink(newDimSink());kafkaDS.addSink(kafkaSink);此时的动态分流后的2种数据类型大致为：在代码注释种我已经详尽地介绍了输出数据的情况和代码逻辑，接下来我会以代

大数据YYDS·2023-12-18 14:44

Flink实时电商数仓（一）

离线数仓最明显的特点是T+1模式，今天只能算昨天的数据，时效性不够优秀。实时数仓时效性：针对数仓大屏展示这个领域，10~15s刷新一次即可。

十七✧ᐦ̤·2023-12-18 14:14

大数据实时（4）-YDJ的FLink&Hologres的实时数仓实践

目录：1、场景与痛点2、技术选型3、应用最佳实践1）客户系统实践2）大屏实践3）实时数仓实践4、思考1、场景与痛点一家快速成长的公司，在短期内发展起来时，技术方面都会留下一些问题，比如从大单体到微服务的转型

天天沐沐·2023-12-18 03:39

Hive优化

一、问题背景Hive离线数仓开发，一个良好的数据任务，它的运行时长一般是在合理范围内的，当发现报表应用层的指标数据总是产出延迟，排查定位发现是有些任务执行了超10小时这样肯定是不合理的，此时就该想想如何优化

耗子背刀PK猫·2023-12-18 02:23

数仓、数据湖、湖仓一体、数据网格的探索与研究

整理不易，转发请注明出处，请勿直接剽窃！点赞、关注、不迷路！摘要：了解每一代数据存储的定义、数据类型、功能、总结。第一代：数据仓库定义为解决数据库面对数据分析的不足，孕育出新一类产品数据仓库。数据仓库（DataWarehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策和信息的全局共享。数据类型结构化数据功能数据仓库对于数据的处理可分为数据集成（装载）、数据加

五块兰州拉面·2023-12-18 02:51

数仓、数据湖、湖仓一体、数据网格概论

数仓、数据湖、湖仓一体、数据网格概论数据仓库定义为解决数据库面对数据分析的不足，孕育出新一类产品数据仓库。

互联网小白兔·2023-12-18 02:21

大数据架构（一）背景和概念

现在市场回归理性后：普通岗：大数据/数仓开发，实际上除超一线城市之外，尚存很多大型企业转型期信息化、互联网（物联网IOT）还在发展，数据还在爆发式增长，仍大有可为。精英岗/管理岗：大数

野生的狒狒·2023-12-18 02:50

大数据架构（二）大数据发展史

1.背景随着数据量的暴增和数据实时性要求越来越高，以及大数据技术的发展驱动企业不断升级迭代，传统数仓经历了以下发展过程：传统数仓架构->离线大数据架构->Lambda架构->Kappa架构->新一代实时数仓