数仓数据湖第7页

数仓工作中的常见问题及解决方案

数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—IDMapping

大数据技术派·2024-01-04 16:34

【数据湖架构】数据湖101：概述

数据湖是非结构化和结构化数据池，按原样存储，没有特定的目的，可以建立在多种技术上，如Hadoop，NoSQL，AmazonSimpleStorageService，关系数据库或各种组合根据一份名为“什么是数据湖

架构师研究会·2024-01-04 10:08

实时数仓投放主备链路Diff测试工具落地实践

一、背景目前实时数仓提供的投放实时指标优先级别越来越重要，特别下游为规则引擎提供的数仓数据，直接对投放运营的广告投放产生直接影响，数据延迟或者异常均可能产生直接或者间接的资产损失；从投放管理平台的链路全景图投放全景图来看

得物技术·2024-01-04 08:02

尚硅谷大数据技术-数据湖Hudi视频教程-笔记01

大数据新风口：Hudi数据湖（尚硅谷&ApacheHudi联合出品）尚硅谷数据湖Hudi视频教程B站直达：https://www.bilibili.com/video/BV1ue4y1i7na百度网盘：

upward337·2024-01-04 08:52

docker搭建Dinky —— 筑梦之路

简介Dinky是一个开箱即用、易扩展，以ApacheFlink为基础，连接OLAP和数据湖等众多框架的一站式实时计算平台，致力于流批一体和湖仓一体的探索与实践。

筑梦之路·2024-01-04 03:40

某人寿保险公司基础架构云化与小机数仓下移实践

随着数据中心IT基础架构的不断演进，云计算、大数据、移动互联的需求日益高涨，快速敏捷、易于维护以及扩展性，逐渐成为金融机构在升级数据中心时重点考虑的方面。某人寿保险公司（以下简称“客户”）过往采用传统三层架构，即IBMPower/x86+FCSAN+集中式存储的组合，在使用多年后面临设备老旧、灵活性与性能无法及时满足业务变化等问题。另外，传统架构也存在使用专用硬件及网络、存储控制器集中、架构及运维

志凌海纳SmartX·2024-01-04 03:09

Doris 数仓使用规范（经验版）

第一部分：字符集规范【强制】数据库字符集指定utf-8，并且只支持utf-8。命令规范【建议】库名统一使用小写方式，中间用下划线（_）分割，长度62字节内【建议】表名称大小写敏感，统一使用小写方式，中间用下划线（_）分割，长度64字节内第二部分：建表规范【强制】确保每个tablet大小为1-3G之间。举例：假设表内单分区数据量在100G，按天分区,bucket数量100个。【强烈建议】不要使用Au

hf200012·2024-01-03 19:30

电商数仓可视化1--数据导入

1、数据来源介绍以及数据文件下载1、业务数据业务数据往往产生于事务型过程处理，所以一般存储在关系型数据库中，如mysql、oracle业务数据源：用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求，一般以日志形式存储于日志文件中，随后通过采集落地分布式存储介质中如hdfs、hbase用户行为日志：用户

bigdata从入门到放弃·2024-01-03 18:53

我的大数据之路：2023年度总结

2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。

话数Science·2024-01-03 18:07

【大数据】Doris 数仓使用规范原则

第一部分：字符集规范【强制】数据库字符集指定utf-8，并且只支持utf-8。命令规范【建议】库名统一使用小写方式，中间用下划线（_）分割，长度62字节内【建议】表名称大小写敏感，统一使用小写方式，中间用下划线（_）分割，长度64字节内第二部分：建表规范【强制】确保每个tablet大小为1-3G之间。举例：假设表内单分区数据量在100G，按天分区,bucket数量100个。【强烈建议】不要使用Au

奔向理想的星辰大海·2024-01-03 16:48

数睿通2.0：高效的数据处理，主数据与数据表功能全面升级

引言八天很短，七天很长，数睿通2.0数据中台也随之迎来了新一轮的版本迭代，本次更新主要包括：主数据模型（可视化建模）主数据派发（支持派发主数据到下游数据表，rabbitMq，kafka，接口）数据表（数仓分层表信息展示

小螺旋丸·2024-01-03 10:51

Flink实时电商数仓（十）

common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类，实现了StreamAPI中的通用逻辑，在其他子模块中只需编写关于数据处理的核心逻辑。BaseSQLApp:作为其他子模块中使用Flink-SQLAPI的父类。在里面设置了使用SQLAPI的环境、并行度、检查点等固定逻辑。bean：存放其他子模块中使用到的javaBean对象，因为如果一直使用json

十七✧ᐦ̤·2024-01-03 09:50

Hive自定义函数支持国密SM4解密

当前项目背景需要使用到国密SM4对加密后的数据进行解密，Hive是不支持的，尝试了华为DWS数仓，华为只支持在DWS中的SM4加密解密，不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到

4935同学·2024-01-03 08:03

Alluxio：2022年大数据五大趋势，多云下数据湖兴起，AI成为主流

Alluxio创始人兼CEO预测2022年大数据发展五大趋势：混合云和多云、人工智能和深度学习、服务、数据共享和新的数据湖存储格式成为关注重点。

CSDN云计算·2024-01-03 08:46

计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据机器学习大数据毕业设计

mapreduce对mysql中的医生数据进行数据分析，使用高德地图解析地理位置，并将结果转入.csv文件同时上传到hdfs文件系统；3.使用hive建库建表，导入.csv数据集；4.一半指标使用离线数仓

计算机毕业设计大神·2024-01-03 07:53

数据仓库命名规范详解

一、数仓中为什么要在数据开发过程中强调遵守数仓开发命名规范呢？

孤城暮雨@·2024-01-03 04:17

Azkaban+Spark资源调度

本文以利用Azkaban+Spark构建数仓的DWS层和ADS层为例！！！

孤城暮雨@·2024-01-03 04:46

全面解读数据中台、数据仓库和数据湖

随着大数据技术的不断更新和迭代，数据管理工具得到了飞速的发展，相关概念如雨后春笋一般应运而生，如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等，这些概念特别容易混淆，本文对这些名词术语及内涵

公众号:肉眼品世界·2024-01-03 00:44

Spark内容分享(二十)：网易基于 Kyuubi + Spark 内核优化以及实践

AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5.AQE–OptimizePlanKyuubi+Spark数仓类任务优化实践

之乎者也··2024-01-02 10:21

MongoDB学习红宝书 - MongoDB官网使用指南

进入网站首页后，会看到顶端简洁明了的导航栏：产品：包含云服务Atlas、MongoDBStich、Server、Compass，Charts以及最新推出的Atlas数据湖等MongoDB所有产品解决方案

MongoDB中文社区·2024-01-02 09:17

最容易出错的 Hive Sql 详解

前言在进行数仓搭建和数据分析时最常用的就是sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括hive，spark，flink等，所以sql在大数据领域有着不可替代的作用

奔跑者-辉·2024-01-02 07:30

Databricks中国启示录：一场蓄谋已久的技术与商业战 | 企服国际观察

图片来源：视觉中国ITValue6月底，刚刚结束的Data+AISummit上，Databricks宣布将数据湖表格式DeltaLake的API完全开源。

ITValue·2024-01-01 14:53

Flink的优势

主要应用场景包括实时数仓、实时大屏、实时推荐、实时报表、实时风控和实时监控，当然还有其他一些应用场景。总之，实时计算的业务需求，一般都会用Flink进行开发。

有味青年·2024-01-01 13:01

Impala导出csv文件

场景：当数仓环境为大数据集群（impala），临时从数仓取数导出为csv文件使用impala-shell命令把文件导出为本地csv文件--正常导出impala-shell-q"SELECT*FROMyour_table

n_avo7_i·2023-12-31 18:34

详解Lambda和Kappa架构的区别

二、架构详解1、随着大数据的发展，人们逐渐对系统的实时性提出了要求，为了计算一些实时指标，就在原来离线数仓的基础上增加了一个实时计

小枫@码·2023-12-31 18:55

数据湖三剑客，大数据时代的新范式？

随着互联网高速发展，大数据技术快速发展和迅速迭代，降低了用户处理海量数据的门槛，越来越多的应运场景出现在我们的身边存储和处理需求越来越多样化，逐渐呈现出数据仓库往数据湖方向发展、批处理往流式处理发展、本地部署往云模式发展的趋势

疯码牛·2023-12-31 15:33

Flink 内容分享(十八)：基于Flink＋Iceberg构建企业数据湖实战

的准备工作创建和使用CatalogIcebergDDL命令IcebergSQL查询IcebergSQL写入使用DataStream读取使用DataStream写入前言随着大数据存储和处理需求的多样化，如何构建一个统一的数据湖存储

之乎者也··2023-12-31 11:21

【为数据之道学习笔记】5-7五类数据主题联接的应用场景

目前，数据湖汇聚了大量的原始数据，用户不再需要到各个源系统调用数据，而是统一从数据湖调用。由于数据湖中的数据

码农丁丁·2023-12-31 09:36

实时数仓应用价值（下）

博客浅析研发支出费用化和资本化的区别-CSDN博客商业银行数据资产估值白皮书，推荐系统源码下载-CSDN博客用友BIP数据资产入表解决方案白皮书，推荐系统源码下载-CSDN博客六、具体五种方案的解析业界常见的实时数仓方案有这几种

Michael_Shentu·2023-12-31 00:46

Flink实时电商数仓（九）

用户注册汇总表需求分析统计各窗口的注册用户数，写入Doris思路分析读取kafka用户注册主题数据转换数据结构string->JSONObject->javaBean使用user_info表中的数据代表用户注册设置水位线开窗聚合写入Doris具体实现创建用户注册统计类继承BaseApp,设置端口，并行度，kafka消费者组，kafka主题（Topic_user_register）启动zookeep

十七✧ᐦ̤·2023-12-30 11:16

Flink实时电商数仓（八）

用户域登录各窗口汇总表主要任务：从kafka页面日志主题读取数据，统计七日回流用户：之前活跃的用户，有一段时间不活跃了，之后又开始活跃，称为回流用户当日独立用户数：同一个用户当天重复登录，只算作一个独立用户。思路分析读取kafka页面主题数据转换数据结构：String->JSONObject过滤数据，uid不为null登录的两种情况用户打开应用后自动登录用户打印应用后没有登录，浏览后跳转到登录页面

十七✧ᐦ̤·2023-12-30 09:55

读书笔记--构建数据湖仓阅读有感

为什么在数据治理过程中提出数据湖仓构建？数据湖如果没有分析基础设施的建设，就会形成数据沼泽或臭水沟，因为没有人用，也不知道数据之间的关系。

一马平川的大草原·2023-12-30 07:38

AI大模型时代下运维开发探索第二篇：基于大模型(LLM)的数据仓库

在SREWorks社区聚集了很多进行运维数仓建设的同学，大家都会遇到类似的挑战和问题：数仓中存储大量数据消耗成本，但很多存储的数据却并没有消费。

阿里云大数据AI技术·2023-12-30 07:39

数据中台-架构、构建与体系建设

构建与体系建设数据中台架构数据中台构建方法论技术体系数据体系服务体系运营体系数据中台功能架构数据中台技术架构企业构建数据中台评估统计分析阶段决策支持阶段数据驱动阶段运营优化阶段数据汇集-打破企业数据孤岛数据开发-提取数据价值数据体系建设贴源数据层ODS(OperationalDataStore)统一数仓层

Ybb_studyRecord·2023-12-30 03:53

Flink实时电商数仓之DWS层

需求分析关键词统计关键词出现的频率IK分词进行分词需要引入IK分词器，使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone手机，拆分为苹果，iphone,手机。org.apache.dorisflink-doris-connector-1.17com.janeluoikanalyzer测试代码如下：publicclassIkUtil{publicsta

十七✧ᐦ̤·2023-12-29 17:19

长文解读 "数据仓库" 面试必备知识

数仓分层数仓简介1.数据仓库和数据库的区别数据仓库：数据量特别的大，TB~PB级别会保留历史数据一般使用OLAP分析（On-LineAnalyticalProcessing），联机分析处理（聚合操作），

you的日常·2023-12-29 15:28

数据仓库-数仓优化小厂实践

大数据点滴·2023-12-29 09:25

大数据技术16：数据湖和湖仓一体

前言：近几年大数据概念很多，数据库和数据仓库还没搞清楚，就又出了数据湖，现在又开始流行湖仓一体。互联网公司拼命造高大上概念来忽略小白买单的能力还是可以的。

Java架构何哥·2023-12-29 04:05

巧妙实现四大实时功能 | Linkis与Hudi结合的数据湖构建实践

近段时间，我们也调研和实现了hudi作为我们数据湖落地的方案，他帮助我们解决了在hdfs上进行实时upsert的问题，让我们能够完成诸如实时ETL,实时对账等项目。hudi作为一个数据湖的实

康月牙·2023-12-28 20:02

分享7个Python实战项目代码，让你分分钟晋级大老！快收藏_python编程作品

听两个聊天机器人互相聊天：3、分析唐诗的作者是李白还是杜甫：4、彩票随机生成35选7：5、自动写检讨书：6、屏幕录相机，抓屏软件：7、制作Gif动图：一、Python入门二、Python爬虫三、数据分析四、数据库与ETL数仓五

老-程序员·2023-12-28 19:38

银行数仓建模方法论

随着金融行业的不断发展，银行业务越来越复杂，数据量也越来越大。为了更好地管理和利用这些数据，银行数据仓库体系应运而生。在前面的文章中，我们介绍了银行数据仓库体系的基础知识，本篇文章将重点介绍银行数据仓库体系实践（7）—数据模型设计及流程。一、数据模型设计数据模型设计是银行数据仓库体系的核心，它是对银行业务进行抽象和概括的过程。在设计数据模型时，需要考虑以下几个方面：业务需求：数据模型的设计必须符合

添柴少年yyds·2023-12-28 18:56

Hudi中MOR与COW区别，MOR表新建后ro/rt区别

近期在频繁与数据湖hudi打交道，将一些心得进行简要总结，供大家参考。

p1i2n3g4·2023-12-28 17:41

ODS DW APP DIM 数仓

ODS：通过ETL工具从源端系统抽取数据，存入ODS层；DW：从ODS层数据进行抽取并按主题进行分类存储；DWD（数据明细层）：会对ODS的数据做一定的清洗和汇总，然后生成DWM中间表；DWM（数据中间层）：对DWD中的数据按照一定维度进行汇总后，放到DWS中的一张表；DWS（数据服务层）：从DWM中间表中按主题进行高度汇总业务宽表，满足各项业务需要；APP：依据DWS中的宽表数据，进行应用（可视

p1i2n3g4·2023-12-28 17:41

数据仓库基本信息

数据仓库基本理论数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。

许一世流年绝不嵩手 cium·2023-12-28 11:46

ETL项目实战--学习笔记

Extract，数据抽取=>抽取的是其他数据源中的数据T:Transform，数据转换=>将数据转换为统一的格式,消除异常值,缺失值,对于错误的逻辑进行修改L:Load，数据加载=>将不同数据源的数据处理后加载到数仓或者输出到指定位置

祈愿lucky·2023-12-28 11:46

Hive 部署

HiveMetastore（HMS）提供了一个中央元数据存储库，可以轻松地进行分析，以做出明智的数据驱动决策，因此它是许多数据湖架构的关键组件。

有人看我吗·2023-12-27 23:54

知乎实时数仓架构演进

从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

yoku酱·2023-12-27 19:34

Flink实时电商数仓之Doris框架（七）

主要实现的功能有：实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建：替换了原来由Spark,Hive，Kudu,Hbase等旧框架数据湖联邦查询：通过外表的方式联邦分析位于

十七✧ᐦ̤·2023-12-27 16:47

DataFunSummit：2023年数据湖架构峰会-核心PPT资料下载

面对如此大规模的数据，无论是分析型场景、流批一体、增量数仓都得益于湖仓一体等数据湖技术的发展而变得越来越容易解决。从核心架构、性能优化、湖仓一体、最佳实践等方面带来数据湖的最新技术和内容实践经验总结。

百家峰会·2023-12-27 16:03

从报表需求到报表开发的流程

报表开发背后涉及到需求调研和数仓开发的支持。二、目标梳理从报表需求提出到报表需求实现整个生

qq_36120059·2023-12-27 12:55

推荐频道

数仓数据湖