E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
数据仓库(13)大数据
数仓
经典最值得阅读书籍推荐
从事
数仓
工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了
数仓
中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
·
2023-08-31 10:23
大数据大数据处理etl书籍
数据仓库(12)数据治理之
数仓
数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什
·
2023-08-31 10:23
大数据etl大数据处理数据
说说构建流批一体准实时
数仓
分析&回答基于Hive的离线
数仓
往往是企业大数据生产系统中不可缺少的一环。Hive
数仓
有很高的成熟度和稳定性,但由于它是离线的,延时很大。
学一次
·
2023-08-31 07:50
大数据
hive
数据库
电商
数仓
项目需求及架构设计
一、项目需求1.用户行为数据采集平台搭建2.业务数据采集平台搭建3.
数仓
维度建模4.统计指标5.即席查询工具,随时进行指标分析6.对集群性能进行监控,发生异常时报警(第三方信息)7.元数据管理8.质量监控
BigData_001_Lz
·
2023-08-31 05:28
数据仓库
融入数据浪潮,KaiwuDB 期待与您共赴 DTCC 2023
大会以“数智赋能共筑未来”为主题,设置2大主会场,20+技术专场,邀请超百位行业专家,重点围绕HTAP与多模数据库应用、图数据技术、云原生数据库、实时
数仓
等内容展开分享和探讨。
KaiwuDB
·
2023-08-30 23:10
KaiwuDB
DTCC
2023
Databend 开源周报第 108 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-08-30 09:33
开源
数据库
数据仓库_
数仓
常见的数据模型
转载自:大数据开发:
数仓
建模常见数据模型-腾讯云开发者社区-腾讯云在数据仓库搭建的过程当中,根据需求合理地选择数据模型,是非常关键的一个环节。
高达一号
·
2023-08-30 08:59
数仓设计
数据仓库
大数据
spark
数仓
设计_
数仓
中的三种事实表
一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法、对比)-腾讯云开发者社区-腾讯云事实表的三种类型,事务事实表,周期快照事实表,累计快照事实表事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。1、三种事实表概述事实表有三种类型:事务事实表、周期快照事实表和累积快照事实表。1.1事务事实表也称原子事实表,
高达一号
·
2023-08-30 08:59
数仓设计
大数据
数据仓库_数据仓库_缓慢渐变维度实现的几种思路
数仓
缓慢渐变维度表设计,另一篇比较好的文章结合实际案例
数仓
建设-缓慢变化维的10种处理方式_雾岛与鲸的博客-CSDN博客缓慢渐变维度:维度数据会随着时间发生变化,变化速度比较缓慢,这种维度数据通常称作缓慢渐变维
高达一号
·
2023-08-30 08:29
数仓设计
数据仓库
Hive/数据仓库_Hive 中如何生成代理键
前提:
数仓
中的维度,事实表技术提倡用代理键代替实体键,下面我们讲解下代理键的概念,以及Hive中如何生成代理键(自增列)代理键:维度表中必须有一个能够唯一标识一行记录的列,通过该列维护维度表与事实表之间的关系
高达一号
·
2023-08-30 08:28
Hive
数仓设计
数据仓库总结
1.为什么要做
数仓
建模数据仓库建模的目标是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。
袁奎
·
2023-08-30 08:27
数据仓库
国产开源优秀新一代MPP数据库StarRocks入门之旅-
数仓
新利器(中)
表设计列式存储StarRocks的表和关系型数据相同,由行和列构成.每行数据对应用户一条记录,每列数据有相同数据类型.所有数据行的列数相同,可以动态增删列.StarRocks中,一张表的列可以分为维度列(也成为key列)和指标列(value列),维度列用于分组和排序,指标列可通过聚合函数SUM,COUNT,MIN,MAX,REPLACE,HLL_UNION,BITMAP_UNION等累加起来.因此
IT小神
·
2023-08-29 23:52
数据库
大数据
分布式
数据库
大数据
136.如何进行离线计算-2
的设计模式存在着两种类型的表:事实表维度表事实表:主题的客观度量能够以记录主题为准信息多不精准维度表:看问题分析问题的角度信息精但是不全可跟事实表关系维度建模三种常见模型星型模型一个事实表带多个维度表维度之间没关系
数仓
发展建立初期
大勇任卷舒
·
2023-08-29 15:07
什么是数据仓库?
数据仓库:DATAWAREHOUSE,简称
数仓
、DW。是一个用于存储、分析、报告的数据系统。目的是构建面向分析的集成化数据环境,为企业提供决策支持。
BigData_001_Lz
·
2023-08-29 09:17
数据仓库
数据仓库
大数据
大厂
数仓
模型规范与度量指标有哪些?
在
数仓
建设中,模型质量评价体系是一种重要的方法,用于评估数据模型的规范程度、数据质量和可信度。随着数据驱动的决策在企业中的重要性日益增加,数据仓库作为数据沟通和业务系统之间的中介,扮演着关键的角色。
南极找南
·
2023-08-29 07:25
数据工厂
大数据
数据治理
大数据
维度建模:事实表
维度建模
数仓
领域中的事实表大致分以下三种:a.事务事实表b.周期快照事实表c.累计快照事实表一、事务事实表(稀疏表,相当于流水表)事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”
惊不意外
·
2023-08-28 14:39
数仓
--------简单了解
作者介绍:作者id:老秦包你会,简单介绍:喜欢学习C语言和python等编程语言,是一位爱分享的博主,有兴趣的小可爱可以来互讨个人主页::小小页面gitee页面:秦大大一个爱分享的小博主欢迎小可爱们前来借鉴
数仓
老秦包你会
·
2023-08-28 08:38
数据仓库
线上问诊:业务数据采集
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步文章目录系列文章目录前言一、环境安装1.DataX二、全量同步1.DataX配置文件生成2.启动hadoop测试一下。
超哥--
·
2023-08-28 07:33
线上问诊
数据仓库
flinksql实时
数仓
监听binlog上传到nsqnsq转kafka,flinksql获取kafkaTable聚合将结果写到hbaseimage.png--kafkacreatetabledw_dws_pay_stored_card_recharge(recharge_novarchar,kdt_idvarchar,hq_kdt_idvarchar,operator_namevarchar,recharge_timev
qwer__
·
2023-08-28 02:17
《阿里云实时
数仓
Hologres最佳实践合集》
简介:《阿里云原生实时
数仓
Hologres最佳实践合集》电子书将会首次拆解HSAP核心原理,并介绍其在阿里巴巴双11核心场景落地的最佳实践。
阿里云Hologres
·
2023-08-27 22:38
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris
apache/incubator-doris欢迎大家关注加星本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从Mysql数据库中监听数据并实时入库到Doris
数仓
对应的表中
hf200012
·
2023-08-27 15:08
Doris
mysql
flink
apache
QA:
数仓
中表的分层,怎样才合理?
由于没有正儿八紧地做过
数仓
开发,仅凭个人浅薄的理解来回答该问题。)在
数仓
中,对表进行分层,我理解有三层含义,其一是在物理资源上划分(存储资源&运算资源),其二是表名称上区隔,其三是使用权限上做切分。
老树之见
·
2023-08-27 13:53
伴鱼数据质量平台实践+DolphinScheduler调度
日常工作中,数据开发、
数仓
开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的BUG导致产出的数据结果不可信。
secretWHD
·
2023-08-27 13:34
数据质量
大数据
数据质量
dolphin
数据治理中的有趣发现(一)
数据治理,一般来说,涉及数据获取的治理、数据流程治理、
数仓
模型治理、数据权限治理、指标体系治理、数据应用能力提升、分析框架治理、数据可视化方案治理等范畴。
老树之见
·
2023-08-27 06:45
OceanMind海睿思签约常州市建筑科学研究院,打造检验检测行业数字化转型标杆
双方将依托OceanMind海睿思提供的业内领先的业务驱动数据工程建设理念,为建科股份提供数据中台、主数据平台、智能
数仓
等产品与服务,从检验检测行业重点关注的多个维度入手,解
海睿思
·
2023-08-27 00:01
检验检测行业数字化转型
数据中台
主数据
智能数仓
数仓
建模综述
数据建模是数据开发工作中的核心与基石,好的模型体系好处很多:•降低成本:优秀的模型设计能够提升数据复用性,减少计算/存储资源浪费•提升开发效率:优秀的模型设计能够降低数据使用门槛,减少工作量•提升质量:优秀的模型设计能够保证数据口径一致,降低bug率数据建模的实现方式有很多,常用的比如ER模型,DataVault模型等。目前业界使用最多的模型是RalphKimball在《数据仓库工具》中提出的维度
精品资料学习库
·
2023-08-26 23:31
网络
一键实现 Oracle 数据整库同步至 Apache Doris
在实时数据仓库建设或迁移的过程中,用户必须考虑如何高效便捷将关系数据库数据同步到实时
数仓
中来,ApacheDoris用户也面临这样的挑战。
SelectDB技术团队
·
2023-08-26 19:37
oracle
apache
数据库
大数据
doris
离线
数仓
搭建流程以及遇到的问题Hadoop3.3.1-hive3.1.2-spark 3.3.1
目录简言
数仓
选型前期准备更改三个节点主机名:新增用户组以及用户:配置互信JDK安装mysql安装Zookeeper3.8安装Hadoop3.3.1搭建Hive3.1.3搭建Spark3.3.1安装想在idea
有风入弦
·
2023-08-26 09:16
spark
分布式
hadoop
hive
数据仓库
采集项目和
数仓
项目的关系
1.介绍采集项目和
数仓
项目采集和
数仓
是企业数据管理平台的2个核心功能模块,相对独立,所以可以独立开发区别功能采集:数据的采集和传输
数仓
:数据的存储流程数据库->数据采集->数据仓库->可视化界面2.数据仓库什么是
数仓
叫我莫言鸭
·
2023-08-26 04:00
oracle
数据库
StreamingWarehouse的一些思考和未来趋势
具备一些传统的实时和离线
数仓
不具备的特性,主要有几个方面:这些存储引擎是天然统一的批流一体存储。
王知无(import_bigdata)
·
2023-08-25 23:11
性能全面飙升!StarRocks 在贝壳找房的极速统一实践
随着数据和业务规模的增长,传统
数仓
的分析能力面临很大的挑战,贝壳需要引入新兴的数据湖技术来支撑业务的发展。
StarRocks_labs
·
2023-08-25 19:45
数据库
贝壳找房
大数据
starrocks
java
c++
尚硅谷大数据项目《在线教育之离线
数仓
》笔记004
视频地址:尚硅谷大数据项目《在线教育之离线
数仓
》_哔哩哔哩_bilibili目录第9章
数仓
开发之DWD层P049P050P051P052P053P054P055P056P057P058P059P060P061P062P063P064P065P066P067P068P069P070
upward337
·
2023-08-25 17:16
#
大数据数仓
大数据
笔记
深入解析数据仓库的支架表
支架表的诞生支架表的诞生离不开经典的
数仓
模型之争——星型模型与雪花模型星型模型简单地说,所有的维度表都连在1个事实表上,就是星型模型星型模型星型架构是一种非规范化的结构,多维数据集的每一个维度都直接
秋夜雨凉
·
2023-08-24 23:52
Hive修改Parquet类型表字段几种问题处理
hive中的表数据存储类型可以使用parquet,优势在于列式存储方便压缩,加快查询速度,在实际生产环境中,往往不会有字段命名或类型修改的
数仓
宽表才会使用。
大地你王哥
·
2023-08-24 21:43
hive
hive
hadoop
大数据
离线
数仓
和实时
数仓
的区别
01
数仓
一个数据人的自留地
·
2023-08-24 20:25
【TiDB理论知识08】HATP概述
1HTAP技术OLTP在线事务支付转账高并发每次操作的数据量少,行存OLAP报表分析每次操作大量数据列存储2传统解决方案数据抽取到
数仓
或者数据湖ETL有延迟,一般会有T+1T+2数据多副本3HTAP的要求
DBA之路
·
2023-08-24 18:05
TiDB
数据库
数仓
4.0笔记——用户行为数据采集四
1日志采集Flume安装[zhang@hadoop102software]$tar-zxvfapache-flume-1.9.0-bin.tar.gz-C/opt/module/[zhang@hadoop102module]$mvapache-flume-1.9.0-bin/flume将lib文件夹下的guava-11.0.2.jar删除以兼容Hadoop3.1.3[zhang@hadoop102
丝丝呀
·
2023-08-24 17:24
大数据
flume
【学习笔记】尚硅谷大数据项目之Flink实时
数仓
---DWM层
DWM层第1章DWS层与DWM层的设计1.1设计思路1.2需求梳理第2章DWM层-访客UV计算2.1需求分析与思路2.2代码实现2.2.1从Kafka的dwd_page_log主题接收数据2.2.2核心的过滤代码2.2.3将过滤处理后的UV写入到Kafka的dwm_unique_visit2.2.4测试第3章DWM层-跳出明细计算3.1需求分析与思路3.1.1什么是跳出3.1.2计算跳出行为的思路
在学习的王哈哈
·
2023-08-24 17:52
大数据项目
学习
flink
大数据
报错-hive on spark执行数据导入脚本报错
背景CentOS7.5中三台机器(hadoop102、hadoop103、hadoop104)的hadoop集群问题描述
数仓
建设:dwd层向dws层导入数据时,脚本执行报错报错代码FAILED:SemanticExceptionFailedtogetasparksession
dyson不只是吹风机
·
2023-08-24 17:52
大数据报错
大数据
数据仓库
hadoop
数据仓库笔记
数据仓库笔记目录概念与数据库的对比数据仓库建模方法论ER模型维度模型维度建模理论之事实表概述特点维度建模理论之维度表维度设计要点数据仓库分层最近在学习离线数据仓库建设,学习资源:尚硅谷之
数仓
5.0(不得不说
·落魄书生·
·
2023-08-24 17:52
数据仓库
数据仓库
大数据
尚硅谷-离线
数仓
-笔记
尚硅谷-离线
数仓
-笔记一、
数仓
建模理论第一章
数仓
概述1.1
数仓
概念数据仓库是一个为数据分析而设计的企业级数据管理系统。
林子茗
·
2023-08-24 17:21
hive
sql
数据仓库
大数据
尚硅谷大数据项目《在线教育之离线
数仓
》笔记003
视频地址:尚硅谷大数据项目《在线教育之离线
数仓
》_哔哩哔哩_bilibili目录第8章
数仓
开发之DIM层P039P040P041P042P043P044P045P046P047P048第8章
数仓
开发之DIM
upward337
·
2023-08-24 17:51
#
大数据数仓
大数据
离线数仓
hadoop
hdfs
maxwell
hive
spark
美团增量
数仓
建设新进展
本篇内容主要分为四个部分:建设背景核心能力设计与优化业务实践未来展望点击查看原文视频&演讲PPT一、美团增量
数仓
的建设背景美团
数仓
架构的诞生是基于这样的技术假设:“随着业务数据越积越多,增量数据/存量数据的比值呈下降趋势
·
2023-08-24 16:36
后端flink大数据实时计算
基于大数据+django+mysql的银行信用卡用户的
数仓
系统
系统阐述的是银行信用卡用户的
数仓
系统的设计与实现,对于Python、B/S结构、MySql进行了较为深入的学习与应用。主要针对系统的设计,描述,实现和分析与测试方面来表明开发的过程。
zhulin1028
·
2023-08-24 14:25
毕业专区
毕设选题
开题报告
毕设
springboot
java
django
线上问诊:业务数据采集
Zookeeper3.Kafka4.Flume5.Mysql6.Maxwell二、业务数据采集1.数据模拟2.采集通道总结前言暑假躺了两个月,也没咋写博客,准备在开学前再做个项目找找感觉,由于之前做过广告
数仓
的案例
超哥--
·
2023-08-24 11:53
线上问诊
数据仓库
大数据数据仓库
一.在线教育1.数据采集1.
数仓
概念数据仓库是为企业制定决策,提供数据支持的。数据采集和存储、对数据进行计算和分析2.项目架构2.数据分类业务数据用户行为数据爬虫数据2.离线
数仓
3.实时
数仓
highly2009
·
2023-08-24 04:52
数据仓库
一键实现 Oracle 数据整库同步至 Apache Doris
在实时数据仓库建设或迁移的过程中,用户必须考虑如何高效便捷将关系数据库数据同步到实时
数仓
中来,ApacheDoris用户也面临这样的挑战。
·
2023-08-23 12:48
“
数仓
”-MPP与 MR的区别
5G场景网络数据延时的URLLCMPP:多数据快速,单点并行查询秒级。MR:分布式任务查询,海量数据小时级。mpp计算引擎--simd(单指令多源数)--ssvm(动态编译)--smp(算子并行)--llmp()一、大数据处理框架主流的大数据处理框架包括以下三类五种:1、仅批处理框架:ApacheHadoop2、仅流处理框架:ApacheStorm、ApacheSamza3、混合框架:Apache
西山创罪梦不觉
·
2023-08-23 11:05
数仓
华为云
无法形容的一天
#今日纪实1.上午梳理了一下
数仓
的流程,只是了解了个大概,剩下的时间不是在走神就是在漫无目的地浏览网页2.下午,宿舍打扫卫生,也算是今天比较大的收获了,毕竟看着干净整洁的宿舍,谁会不开心呢?
易younger
·
2023-08-23 09:05
【实践案例分享】Apache Doris在美团外卖
数仓
中的应用实践
本文将介绍Doris在美团外卖
数仓
的实践。序言本文侧重于以Doris引擎为“发动机”的
数仓
生产架构的改进与思考。
木东居士
·
2023-08-23 09:34
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他