数仓项目学习第4页

基于 Hologres+Flink 的曹操出行实时数仓建设

云布道师曹操出行创立于2015年5月21日，是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务，以“科技重塑绿色共享出行”为使命，将全球领先的互联网、车联网、自动驾驶技术以及新能源科技，创新应用于共享出行领域，以“用心服务国民出行”为品牌主张，致力于打造服务口碑最好的出行品牌。曹操出行业务背景介绍作为一家互联网出行平台，主要提供了网约车、顺风车、专车等一些出行服务。打车为其主要的一个业务场景

云布道师·2024-01-25 20:23

Go Web项目学习之项目结构

风离不摆烂学习日志Day4—GoWeb项目学习之项目结构创建项目配置代理下载加速go包代理GOPROXY=https://goproxy.cn,direct本项目学习自：[github.com](https

风离·2024-01-25 18:28

大数据分析组件Hive-集合数据结构

Hive常作为离线数仓的分析工具，当面临Json数据时，Hive需要用到其数据结构构建出一张

Aimyon_36·2024-01-25 15:15

Flink（十五）【Flink SQL Connector、savepoint、CateLog、Table API】

前言今天一天争取搞完最后这一部分，学完赶紧把Kafka和Flume学完，就要开始做实时数仓了。据说是应届生得把实时数仓搞个80%~90%才能差不多找个工作，太牛马了。

让线程再跑一会·2024-01-24 07:17

企业建数仓的第一步是选择一个好用的ETL工具

而选择合适的ETL工具是构建数仓的关键一步。因没有高灵活度的ETL就无法构建高质量的数仓。数据仓库的重要性数据仓库是企业将各个部门和系统中分散的数据进行整合、清洗和分析的基础

苛子·2024-01-23 20:36

用flinkcdc debezium来捕获数据库的删除内容

但是我现在情况是doris做为数仓，数据写到ods，ods的数据还会通过flink计算后写入dwd层，所以此时ods的数据是删除了，但是dwd甚至ads的都没删除，这样就会有脏数据。

后季暖·2024-01-23 11:17

学习让我成长

自从参加暑假2019兴成长计划班，觉得自己过得很充实，在假期也能不断的给自己充电，虽说不是本学科专业知识，但从学科整合及项目学习角度考虑，只要学习就会有收获，就会有帮助，这次培训班我选的课程是信息素养提升

通化市179张越·2024-01-23 10:41

【项目学习】记录segment-anything、SAM及衍生自动标注工具使用

本文章由三部分组成：1.SegmentAnythingModel(SAM)概述：是我学习概念做的记录可以不看直接跳过。2.SAM衍生的标注工具使用：试用了两个开源的SAM衍生的标注工具记录3.遇到的问题参考：1.segment-anything官方demo演示2.SA基础模型图像分割的介绍3.segment-anything项目一、SegmentAnythingModel(SAM)概述Segmen

甜苦酱汁·2024-01-23 09:17

pycharm创建vue项目

pycharm创建vue项目学习vue需要下载node.js链接:node.js安装淘宝npm镜像命令行输入：npminstall-gcnpm--registry=https://registry.npm.taobao.org

utoui·2024-01-23 07:19

Hive 拉链表详解及实例

拉链表版本迭代：hive0.14slowlychangingdimension=>hive2.6.0merge事务管理原来采用分区表，用户分区存储历史增量数据，缺点是重复数据太多定义：数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储

Byyyi耀·2024-01-23 06:45

Hive 数仓及数仓设计方案

数仓(DataWarehouse)数据仓库存在的意义在于对企业的所有数据进行汇总，为企业各个部门提供一个统一、规范的出口。做数仓就是做方案，是用数据治理企业的方案。

Byyyi耀·2024-01-23 06:34

flume案例

在构建数仓时，经常会用到flume接收日志数据，通常涉及到的组件为kafka，hdfs等。下面以一个flume接收指定topic数据，并存入hdfs的案例，大致了解下flume相关使用规则。

不加班程序员·2024-01-23 06:48

数仓建设 - 维度建模 - DIM维度

文章目录前置：准备数据库一、商品维度表1.1表结构设计1.2建表语句1.3ETL任务脚本二、优惠券维度表2.1表结构设计2.2ETL任务脚本三、活动维度表3.1表结构设计3.2ETL任务脚本四、地区维度表4.1表结构设计4.2ETL任务脚本五、日期维度表六、用户维度表6.1表结构设计6.2ETL任务脚本前置：准备数据库[[email protected]]$

m0_46218511·2024-01-23 05:14

Databend 开源周报第 128 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2024-01-23 03:01

Databend 开源周报第 129 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2024-01-23 03:31

Flink背景

数仓简介在信息爆炸的时代，为了从海量数据中洞察业务价值，驱动运营决策，企业通常会构建用于数据分析的数据仓库。

201001070·2024-01-22 08:31

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第1章：数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念：为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本，提高产品质量。数据仓库并不是数据的最终目的地，而是为数据最终的目的地做好准备，这些准备包括对数据的：清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括：业务数据、用户行为数据和爬虫数据等3、业务系统数据库

Key-Key·2024-01-22 07:29

数据仓库简介、数据仓库的发展、数仓理论简介

数仓理论简介数据仓库解决方案诞生至今，也有2、30年的发展历史了，在这个过程中，数仓理论不断被更新和完善，逐步形成了目前大家普通遵守的数仓开发理论（概念）。

yida&yueda·2024-01-21 11:48

数据仓库简介

一、数仓概念数据仓库，英文名称为DataWarehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

水坚石青·2024-01-21 11:46

django项目学习八

订单模块事务Django默认的事务行为Django默认的事务行为是自动提交。除非事务正在执行，每个查询将会马上自动提交>到数据库。Django自动使用事务或还原点，以确保需多次查询的ORM操作的一致性，特别是>delete()和update()操作。为什么需要事务？解释详情请见链接：https://blog.csdn.net/qq_24997655/article/details/78757347

qq_29254653·2024-01-21 06:58

网小鱼Java的bug小集锦0033-SpringBoot文件配置端口不生效

在项目学习的时候,配置一个bootstrap.yml文件的时候,发现端口写上是灰色的,而且bootstrap.yml文件也没有出现正常的绿色小叶子的标识,检查也一下配置文件,发现是配置文件中的依赖加入有问题

网小鱼的学习笔记·2024-01-20 22:25

Hologres V2.1版本发布，新增计算组实例构建高可用实时数仓

Highlight产品介绍Hologres是阿里云自研一站式实时数仓，统一数据平台架构，将OLAP查询、即席分析、在线服务、向量计算多个数据应用构建在统一存储之上，实现一份数据，多种计算场景。

阿里云大数据AI技术·2024-01-20 21:07

巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践

我们基于ApachePaimon(Incubating)构建StreamingLakehouse的落地实践主要分为三期：第一期是在调研验证的基础上进行数仓分层，并且上线一些简单的业务验证效果；第二期是实现流式数仓的基础设施建设

Apache Flink·2024-01-20 12:21

程序员必备的面试技巧——大数据工程师面试必备技能

目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位

Francek Chen·2024-01-20 11:22

超融合之道：亚信安慧AntDB 8.0版本引领数据库创新

在当今多变的数据应用场景中，AntDB作为行业领先的超融合流式实时数仓，秉承着“融合+实时”的研发理念，全面应对企业日益复杂的数据处理需求。

亚信安慧AntDB数据库·2024-01-20 01:00

华为外包数据库面试问题分享20211225

数仓的东西了解多少。数据库开发支持这方面你做过哪些。你现在的工作中的SQL开发，具体是作了哪些。你的工作意愿是哪个方向（这么问是因为知道了我没做过DBA）在数仓的设

钦䲹·2024-01-19 16:05

某小外包公司线上面试-大数据开发

1.数仓和数据库的区别2.数仓建模3.hive用到的函数4.rank,dense_rank,row_number的区别5.hive数据倾斜的原因有哪些7.如何理解数据质量？

劝学-大数据·2024-01-19 16:03

基于 Hologres+Flink 的曹操出行实时数仓建设

本文整理自曹操出行实时计算负责人林震基于Hologres+Flink的曹操出行实时数仓建设的分享，内容主要分为以下六部分：曹操出行业务背景介绍曹操出行业务痛点分析Hologres+Flink构建企业级实时数仓曹操出行实时数仓实践曹操出行业务成果分析未来展望一

Apache Flink·2024-01-19 08:54

FineBI实战项目一（25）：实战项目一总结

实在项目使用mysql做数仓库的ODS层，这仅仅是带领大家入门，用mysql做数仓存在很多问题。

不死鸟.亚历山大.狼崽子·2024-01-19 02:39

数仓架构图

阿里巴巴的数据团队把表数据模型分为三层：操作数据层（ODS）、公共维度模型层（DM）和应用数据层（DS），其中公共维度模型层包括明细数据层（DWD）和汇总数据层（DWS）。模型层次关系如9.9所示。image.png公共维度模型层（CDM）：存放明细事实数据、维表数据及公共指标汇总数据其中明细事实数据、维表数一般根据ODS层数据加工生成：公共指标汇总数据般根据维表数据和明细事实数据加工生成。CDM

liuxiaolin·2024-01-19 01:27

【大数据项目学习】第十章：HBase分布式集群部署与设计

第十章：HBase分布式集群部署与设计一个初学者的大数据学习过程文章目录第十章：HBase分布式集群部署与设计1.HBase安装前须知1.1必备条件1.1.1硬件1.1.2软件1.2运行模式2.HBase安装部署2.1集群规划2.1.1主机规划2.1.2软件规划2.1.3用户规划2.1.4目录规划2.2HBase安装步骤2.2.1下载2.2.1解压2.2.1创建软连接2.2.1修改配置文件2.2.

学不会K8S不改ID·2024-01-19 00:23

Hologres + Flink 流式湖仓建设

Flink流式湖仓建设1Flink+Hologres特性1.2实时维表Lookup1.3高性能实时写入与更新1.4多流合并1.5Hologres作为Flink的数据源1.6元数据自动发现与更新2传统实时数仓分层方案

Direction_Wind·2024-01-18 21:56

白山云基于StarRocks数据库构建湖仓一体数仓的实践

背景随着每天万亿级别的业务数据流向数据湖，数据湖的弊端也逐渐凸显出来，例如：数据入湖时效性差：数据湖主要依赖于离线批量计算，通常不支持实时数据更新，因此无法保证数据的强一致性，造成数据不及时、不准确；查询性能差：在传统架构下，数据湖的查询速度较差，小时粒度的数据查询往往需要数分钟才能得到响应，在多个业务方同时执行数据湖查询任务时，查询响应慢的劣势更加明显；查询体验差：数据存储在多个地方，在进行联邦

StarRocks_labs·2024-01-18 17:04

技术选型｜开源大数据OLAP引擎最佳实践

一、开源OLAP综述二、开源数仓解决方案三、ClickHouse介绍四、StarRocks介绍五、Trino介绍六、客户案例01开源OLAP综述如今的开源数据引擎多种多样，不同种类的引擎满足了我们不同的需求

浪尖聊大数据-浪尖·2024-01-18 08:14

数仓项目6.0配置大全（hadoop/Flume/zk/kafka/mysql配置）

配置背景我使用的root用户，懒得加sudo所有文件夹在/opt/module所有安装包在/opt/software所有脚本文件在/root/bin三台虚拟机：hadoop102-103-104分发脚本fenfa，放在~/bin下,chmod777fenfa给权限#!/bin/bash#1.判断参数个数if[$#-lt1]thenechoXXXXXXXXXNoArguementXXXXXXXXX!

Int mian[]·2024-01-18 06:57

如何设计实时数据平台（设计篇）

在上篇设计篇中，我们首先从两个维度介绍实时数据平台：从现代数仓架构角度看待实时数据平台，从典型数据处理角度看待实时数据处理；接着我们会探讨实时数据平台整体设计架构、对具体问

longLiveData·2024-01-18 05:11

离线数仓二

数据仓库维度模型设计维度建模基本概念维度模型是数据仓库领域大师RalphKimall所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典。

pauls·2024-01-18 00:26

尚硅谷离线数仓之采集平台

1.用户行为日志数据流向流程图如下，其中红框表示用户行为日志数据的流向图。1.1行为日志内容行为日志主要包括以下几个内容页面浏览记录动作记录曝光记录启动记录错误记录页面浏览记录动作记录曝光记录启动记录1.2用户行为日志格式页面日志启动日志页面日志，以页面浏览为单位，即一个页面浏览记录，生成一条页面埋点日志。一条完整的页面日志包含，一个页面浏览记录，用户在该页面所做的若干个动作记录，若干个该页面的曝

韩顺平的小迷弟·2024-01-17 21:56

数据仓库面试题

1思维导图&数仓常见面试题2题目1.数据仓库是什么？

韩顺平的小迷弟·2024-01-17 21:53

2024.1.16 用户画像day01 - 项目介绍

技术选型:技术架构:项目架构:二.名词解释一.项目介绍整体流程:项目介绍-elasticSearch-业务数据源导入-离线指标开发-Flume实时采集-Nginx日志埋点数据-结构化流实时指标-制作报表数仓开发用户画像实时开发

白白的wj·2024-01-17 15:40

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

行业亟需一个高效、统一的融合数仓，从海量数据中快速获取有效信息，从而洞察机遇、规避风险。

weixin_34075551·2024-01-17 15:31

数仓数据含有特殊字符，如何更方便的导出成excel文件

如果遇到数据中含有特殊字符,"\n","\r","\t",或者其他的特殊分隔符在数据导出时造成错位，都用sql替换，但是需求是导出的数据要保持原有内容格式，就不能替换剔除这些特殊字符，这种情况下使用json方式1，在hive数仓建一个临时的

第一次看海·2024-01-17 15:00

spark sql实践开发后端引擎

-------------“何以解忧，唯有暴富”需求开发一个系统，主要是将数仓中治理完用于检索的数据灌入Elasticsearch中，一般情况，开源的一些系

第一次看海·2024-01-17 14:28

Mr_HJ / form-generator项目学习-增加自定义的超融组件（二）

宁波阿成·2024-01-16 16:35

Hive使用shell调用命令行特殊字符处理

1.场景分析数据处理常用hive-e的方式，通过脚本操作数仓，过程中常常遇到特殊字符的处理，如单双引号、反斜杠、换行符等，现将特殊字符用法总结使用如下，可直接引用，避免自行测试的繁琐。

tuoluzhe8521·2024-01-16 07:17

ClickHouse - 01

批处理会将源业务系统中的数据通过数据抽取工具（例如Sqoop）将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理，也可以直接将数据抽取到Hive数仓中

ArthurHC·2024-01-16 02:17

数据库, 数据仓库, 数据集市，数据湖，数据中台

数据仓库和数据库的区别作者：南宫蓉出处：简书第一篇：数据仓库概述第二篇：数据库关系建模作者：穆晨出处：CNBLOS数据仓库、数据湖、数据集市、和数据中台的故事作者：Murkey学习之旅出处：csdn数据中台和数仓的关系作者

cxzhq2002·2024-01-16 01:26

mysql/oracle 数据库delete操作太慢（where ... in ...），不加索引，一招让性能提升百倍

比如在数仓项目中，软删虽然更快更安全，但是缺点也很多：1、软删造成数据冗余，甚至快速膨胀的后果。比如一些中间表，只是作为中转站，过两天数据就分配其他表了，不硬删的话就会造成数据快速膨胀。

大壮001·2024-01-15 23:30

亚信安慧AntDB-S流式数据库实现企业数智化转型

AntDB-S流式数据库是一项针对实时数仓等场景的创新技术，旨在取代传统的流式处理引擎，从而简化开发和测试过程。该流式数据库具备强大的ACID特性和高可用性，为企业降低了流式业务开发和维护的成本。

亚信安慧AntDB数据库·2024-01-15 14:11

国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器（上）

概述背景ApacheDoris官方地址https://doris.apache.org/ApacheDorisGitHub源码地址https://github.com/apache/incubator-dorisApacheDoris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。ApacheDoris的分布式架构非常简洁，易于运维，并且可以支持1

IT小神·2024-01-15 13:45

推荐频道

数仓项目学习

基于 Hologres+Flink 的曹操出行实时数仓建设

Go Web项目学习之项目结构

大数据分析组件Hive-集合数据结构

Flink（十五）【Flink SQL Connector、savepoint、CateLog、Table API】

企业建数仓的第一步是选择一个好用的ETL工具

用flinkcdc debezium来捕获数据库的删除内容

学习让我成长

【项目学习】记录segment-anything、SAM及衍生自动标注工具使用

pycharm创建vue项目

Hive 拉链表详解及实例

Hive 数仓及数仓设计方案

flume案例

数仓建设 - 维度建模 - DIM维度

Databend 开源周报第 128 期

Databend 开源周报第 129 期

Flink背景

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

数据仓库简介、数据仓库的发展、数仓理论简介

数据仓库简介

django项目学习八

网小鱼Java的bug小集锦0033-SpringBoot文件配置端口不生效

Hologres V2.1版本发布，新增计算组实例构建高可用实时数仓

巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践

程序员必备的面试技巧——大数据工程师面试必备技能

超融合之道：亚信安慧AntDB 8.0版本引领数据库创新

华为外包数据库面试问题分享20211225

某小外包公司线上面试-大数据开发

基于 Hologres+Flink 的曹操出行实时数仓建设

FineBI实战项目一（25）：实战项目一总结

数仓架构图

【大数据项目学习】第十章：HBase分布式集群部署与设计

Hologres + Flink 流式湖仓建设

白山云基于StarRocks数据库构建湖仓一体数仓的实践

技术选型｜开源大数据OLAP引擎最佳实践

数仓项目6.0配置大全（hadoop/Flume/zk/kafka/mysql配置）

如何设计实时数据平台（设计篇）

离线数仓二

尚硅谷离线数仓之采集平台

数据仓库面试题

2024.1.16 用户画像day01 - 项目介绍

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

数仓数据含有特殊字符，如何更方便的导出成excel文件

spark sql实践开发后端引擎

Mr_HJ / form-generator项目学习-增加自定义的超融组件（二）

Hive使用shell调用命令行特殊字符处理

ClickHouse - 01

数据库, 数据仓库, 数据集市，数据湖，数据中台

mysql/oracle 数据库delete操作太慢（where ... in ...），不加索引，一招让性能提升百倍

亚信安慧AntDB-S流式数据库实现企业数智化转型

国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器（上）