E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
从数据仓库到大数据平台再到数据中台(内附13张架构图)
5G,人工智能,机器智能,深度学习,知识图谱…技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…今天结合“数据中台”,以作者从事
数仓
行业多年的实战经验来看
Leo.yuan
·
2023-07-27 14:42
报表开发
数据分析
数据仓库
big
data
数据库
助力工业物联网,工业大数据之
数仓
事实层DWB层构建【十七】
文章目录
数仓
事实层DWB层构建01:项目回顾02:项目目标03:分层回顾04:DWB层的设计
数仓
事实层DWB层构建01:项目回顾项目中有哪些主题域?
Maynor996
·
2023-07-27 13:43
#
大数据工业物联网项目
大数据
根据JsonSchema生成阿里云ClickHouse建表语句
mybatis对ClickHouse的支持不是很好,JPA又没有对应的方言,做
数仓
需要大批量解析JSON数据,希望能自动根据JSONSchema定义来自动建表,节省工作量,并且不用为了复杂JSON建对象
Run_the_ant
·
2023-07-27 08:35
JAVA
数据库
java
数据库
clickHouse
数仓
数仓
学习---15、数据仓库工作流调度
1、数据仓库工作流调度1.1调度工具部署工具部署链接1.2新数据生成1.2.1用户行为日志1、启动日志采集通道,包括Kafka、Flume等(1)启动Zookeeperzk.shstart(2)启动Kafkakf.shstart(3)启动Flumef1.shstartf2.shstart2、修改日志模拟器配置文件修改hadoop102和hadoop103两台节点中的/opt/module/appl
星光下的赶路人star
·
2023-07-27 08:34
数仓学习
学习
数据仓库
大数据
Hive数据仓库
数据仓库概念与起源发展由来
数仓
概念数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
火眼猊
·
2023-07-27 06:19
数据仓库
hive
hadoop
简述流计算的场景
典型场景:实时推荐、设备检测、欺诈检测、实时报表/
数仓
(构建)一般有三种方式,一种是基于物品:根据用户喜欢的物品标签,寻找相似标签下的物品推荐给用户。
夜丨雨
·
2023-07-27 05:56
大数据实时链路备战 —— 数据双流高保真压测 | 京东云技术团队
同时双流建设需要整条链路上的所有环节双机房部署,占用了双倍的物理资源;整个建设过程要协同上下游各环节(数据生产方、
数仓
加工方
京东云技术团队
·
2023-07-27 04:01
618技术实践
大数据
京东云
压测
数仓
--DW--Hadoop
数仓
实践Case-16-迟到的事实
迟到的事实概述数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时,就能够从容地首先维护维度键,然后在对应的事实表行中使用这些最新的键。然而,各种各样的原因会导致需要ETL系统处理迟到的事实数据。例如,某些线下的业务,数据进入操作型系统的时间会滞后于事务发生的时间。再或者出现某些极端情况,如源数
李小李的路
·
2023-07-26 20:52
review
2Flink实时
数仓
为何分层建模? 避免重复计算3Flink怎么优化内存?flink内存模型1.10做的最大的改动? 0.10版本之后重点4Flink任务挂了怎么办?有什么保证机制?
满床清梦覆星河
·
2023-07-26 17:20
Resume
大数据
数据仓库基础知识
数仓
,DataWarehouse,是一个面向主题的、集成的、稳定的、与时间相关的数据集合。而这个数据集合的建立,是为了支持管理者的决策过程。
产品经理自我修养
·
2023-07-26 14:22
spark
大数据
分布式
数仓
主题域与主题划分
一、前言数据仓库具有面向主题的特性,那么就会有主题的概念,
数仓
建设是遵循纵向分层开发,横向划分主题域设计,
数仓
分层就不在这次谈了,这次我会结合本人
数仓
工作实践总结的经验来聊聊
数仓
主题域划分,同时会引申出主题划分
产品经理自我修养
·
2023-07-26 14:52
spark
大数据
分布式
Databend 开源周报第 103 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-07-26 12:47
开源
数据工程师素养——开篇
接下来按照以下四个方面进行分享:1、数据建设脚本2、数据链路层级3、
数仓
模型建设4、数据库排错技巧因怕自己坚持不下来,立字为证。
朝思暮巷
·
2023-07-26 08:12
HBase
数仓
架构
HBase
数仓
架构1.整体架构选型主要有两个,第一个是实时,实时采集利用Maxwell,直接采集公司数据库MySQL,将数据直接以json格式发送到Kafka集群,
数仓
存储选型是HBase。
丿灬逐风
·
2023-07-26 06:35
spark
hadoop
数据仓库
HBase
Phoenix
2020-06-26 记一次和领导的battle
如今过了半年,我接手项目,发现主要覆盖范围均是与“账号”相关的,而且在与
数仓
RD交流过程中,我发现RD普遍对于“账户”还是“账号”没有明晰的认知。
猴精是马甲
·
2023-07-25 19:46
别再使用count distinct了
在
数仓
开发中经常会对数据去重后统计,而对于大数据量来说,count(distinct)操作明显非常的消耗资源且性能很慢。下面介绍我平时使用最多的一种优化方式,供大家参考。
王义凯_Rick
·
2023-07-25 07:58
#
数仓
优化
distinct
SQL
大数据
基于 DTS 同步 MySQL 全增量数据至 CKafka,构建实时
数仓
的最佳实践
背景介绍随着IT技术与大数据的不断发展,越来越多的企业开始意识到数据的价值,通过大数据分析,可以帮助企业更深入地了解用户需求、更好地洞察市场趋势。目前大数据分析在每个业务运营中都发挥着重要作用,成为企业提升市场竞争力的关键举措之一。通常企业会构建数据湖仓,将多个数据源通过数据集成技术,汇集一起进行数据分析。由此,数据集成成为了构建数据湖仓的必经之路,然而企业在数据集成过程中却面临很多棘手问题。全量
腾讯云中间件
·
2023-07-25 03:40
kafka
腾讯云
云原生
数仓
学习---13、报表数据导出
星光下的赶路人star的个人主页 莫见长安行乐处,空令岁月易蹉跎文章目录一、报表数据导出1.1MySQL建库建表1.1.1创建数据库1.1.2创建表1.2数据导出1.2.1DataX配置文件生成脚本1.2.2编写每日导出脚本一、报表数据导出为方便报表应用使用数据,需将ads各指标的统计结果导出到MySQL数据库中
星光下的赶路人star
·
2023-07-25 00:38
数仓学习
学习
数据库
大数据
数据仓库
数仓
学习---10、
数仓
开发之DWD层
星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里文章目录1、
数仓
开发之DWD层1.1交易域加购事务事实表
星光下的赶路人star
·
2023-07-25 00:37
数仓学习
学习
数据仓库
大数据
数仓
学习---11、
数仓
开发之DWS层
星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里文章目录1、
数仓
开发之DWS层1.1最近一日汇总表1.1.1
星光下的赶路人star
·
2023-07-25 00:37
学习
数据库
大数据
数据仓库
数仓
学习---12、
数仓
开发之ADS层
星光下的赶路人star的个人主页 知世故而不世故是善良的成熟文章目录1、
数仓
开发之ADS层1.1流量主题1.1.1各渠道流量统计
星光下的赶路人star
·
2023-07-25 00:36
数仓学习
学习
数据仓库
大数据
数据仓库表设计理论
数据仓库表设计理论
数仓
顾名思义是数据仓库,其数据来源大多来自于业务数据(例如:关系型数据库),当设计
数仓
中表类型时(拉链表、增量表、全量表、流水表、切片表)时,应先观察业务数据的特点再设计
数仓
表结构首先业务数据是会不断增长的
高世之智
·
2023-07-24 22:58
数据仓库
数据仓库
hive
拉链表
大数据
数据库
通过ETL自动化同步飞书数据到本地
数仓
一、飞书数据同步到数据库需求使用飞书的企业都有将飞书的数据自动同步到本地数据库、
数仓
以及其他业务系统表的需求,主要是为了实现飞书的数据与业务系统进行流程拉通或数据分析时使用,以下是一些具体的同步场景示例
苛子
·
2023-07-24 21:23
etl
自动化
飞书
数仓
建模方法论
1.
数仓
建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。
产品经理自我修养
·
2023-07-24 21:42
数据库
大数据
数仓
开发的10个陷阱
❝
数仓
归根结底是要解决业务问题的,狂拽酷炫的数据架构和层出不穷的新技术通常会比去了解用户需求更具有吸引力。其实,也没有完美的技术架构,只要是能够满足当下及未来可见的业务需求即可,合适就好。
产品经理自我修养
·
2023-07-24 21:42
数据库
oracle
数仓
建模本质到底是什么?为什么维度建能模脱颖而出?
1.什么是
数仓
建模本质?所谓的数据仓库建模,听着很高大,我们要透过现象看本质。
产品经理自我修养
·
2023-07-24 21:11
大数据
实时
数仓
实战项目(
数仓
分层)
实时
数仓
如何做数据分层我不喜欢搞什么花里胡哨的词汇,让粉丝听着挠头,我就想用大白话分享我自己的建设思路和方案。在开始分享之前,我想给兄弟们说一下
数仓
建设的方法论:“因地制宜,以业务为中心”。
产品经理自我修养
·
2023-07-24 21:04
数据库
Hive学习笔记
1、Hive概念Hive是一个构建在Hadoop上
数仓
框架,可以将HDFS上格式化文件映射成一张张表,本质就是将SQL转换成MapReduce任务进行运算。
NQ31
·
2023-07-24 12:24
大数据
hive
学习
笔记
数据仓库建设-
数仓
分层
数据仓库能够帮助企业做出更好的决策,提高业务效率和效益;在数据仓库建设时,绕不开的话题就是
数仓
分层。
小中.
·
2023-07-23 04:47
Hive
数据仓库
spark
大数据
hive
基于Apache doris怎么构建数据中台(八)-
数仓
管理
数仓
分层模型
数仓
分层模型的好处:1、数据结构化更清晰:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。
张家锋
·
2023-07-23 00:19
功能升级,数据同步更便捷!场景化数据同步助您提效60%!
在企业
数仓
建设初期,为了保障数字化转型的落地效果,需要提供充足的数据资源,除了基础的数据抽取、转换和加载等过程,数据的同步也是重要环节之一。
美林数据Tempodata
·
2023-07-22 18:13
大数据
数据处理
数据同步
数据分析
数字化转型
数仓
模型建设基本流程
一、
数仓
建设的基本原则高内聚低耦合公共逻辑下沉数据可回滚可扩展性规范一致性成本与性能平衡二、数据立方体的设计图三、
数仓
模型的设计过程四、
数仓
模型建设5要素(重点)1、主题域对当前业务场景或业务sop进行拆分完成对应主题建设
万里长江横渡
·
2023-07-22 14:23
数据仓库
离线
数仓
分层
一、
数仓
为什么要分层1、清晰数据结构:
数仓
每一层都有对应的作用,方便在使用时更好定位与了解2、数据血缘追踪:清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护3、减少重复开发
万里长江横渡
·
2023-07-22 14:52
数据仓库
数据库
数据挖掘
大数据_面试_数据仓库基础概念
问答列表答案
数仓
的主题与主题域?kimball,维度,范式建模?实时
数仓
与离线
数仓
的主要区别,应用场景?雪花模型,星型模型,星座模型?缓慢变化维与拉链表?数据质量?数据治理?
高达一号
·
2023-07-22 08:07
大数据
数据仓库
spark
2023/2/10 大数据实习日志
二、
数仓
数据分类数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。业务数据:在处理事务过程中产生的数据。
王祺灏
·
2023-07-22 07:47
大数据实习
大数据
大数据之就业岗位
数据仓库组从事基于HADOOP生态的大数据环境下的数据处理工作;负责大数据相关开发工作,包括数据处理/
数仓
等的设计及实现;
(YSY_YSY)
·
2023-07-22 06:20
大数据
#
Hadoop
大数据
一道SQL题
有个搞
数仓
的朋友不知道从哪儿弄了个题。。。做了做体验了一下。。。记录记录。
青青的无痕
·
2023-07-22 01:56
数据库
sql
数据库
如何做好
数仓
BI 项目的规划与建设?
BI项目规划和实施方案是保障BI项目顺利落地的首要环节。好的项目规划能有效提升开发人效,缩短项目周期,实现项目预期目标。构建运营数据的可视化是为企业运营管控提供有效的支撑,成为企业在大数据时代智慧运营的必然路径。在实际BI项目的建设中,做好规划再进行建设是十分重要的,小亿今天就想与大家聊聊这个话题。一、BI的概念1996年,分析师HowardDresner提出了商务智能(即BI)并描述了一系列的概
辰哥爱学习
·
2023-07-21 23:40
大数据
大数据-你投的简历真的是你认为的工作么?
我的个人主页个人主页我的B站视频B站视频
数仓
岗位jd钱途⭐⭐⭐⭐⭐看内容是否包含模型建设、etl、调度、监控、数据质量、数据治理、阿里云组件、spark/flink、熟悉一门语言等这些关键词例负责数据体系的研发设计和建设
辉常努腻
·
2023-07-21 17:28
大数据
人工智能
数仓
-零基础小白到入土-学习路线
数仓
-零基础小白到入土-学习路线铺垫一下下讲在前面涉及基础技术栈:中级:全部掌握之后:去刷面试题:初级中级高级博主独家面试题:
数仓
名词:催更我戳戳个人主页:[up自己的网站](https://liyahuigithub.github.io
辉常努腻
·
2023-07-21 17:56
大数据
学习
数据仓库
大数据
Hudi-数据湖
数据湖数据仓库数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
迷雾总会解
·
2023-07-21 17:21
大数据
数据库
数据仓库
数据库
hudi
大数据实验报告总结体会_建设大数据中台架构思考与总结
数据中台定义:集成离线
数仓
与实时
数仓
,并以多数据源统一整合采集到kafka,再通过kafka进行离线数据仓库及实时数据仓库,并集用户标签,统一数据资产管理(对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示
weixin_39800387
·
2023-07-21 14:43
大数据实验报告总结体会
建设数据中台的主要目的
通过开发一系列数据工具(元数据中心、数据指标中心、
数仓
模型中心、数据资产中心、数据服务中心),规范数据供应链的各个环节,以一种标准的、安全的、统一的、共享的、服务化的方式支撑前端的数据应用。
能得
·
2023-07-21 13:01
数据仓库之【商品订单数据
数仓
】08:拉链表:什么是拉链表、创建拉链表
一、什么是拉链表针对订单表、订单商品表,流水表,这些表中的数据是比较多的,如果使用全量的方式,会造成大量的数据冗余,浪费磁盘空间。所以这种表,一般使用增量的方式,每日采集新增的数据。在这注意一点:针对订单表,如果单纯的按照订单产生时间增量采集数据,是有问题的,因为用户可能今天下单,明天才支付,但是Hive是不支持数据更新的,这样虽然MySQL中订单的状态改变了,但是Hive中订单的状态还是之前的状
做一个有趣的人Zz
·
2023-07-21 00:28
hadoop
hive
数据仓库
hive
big
data
Nifi + Kafka + mysql构建实时
数仓
标题Nifi+Kafka+mysql构建实时
数仓
Nifi安装Nifi安装Kafka安装kafka安装一Nifi简介Nifi最重要的就是Processor(数据处理单元)和FlowFlie(数据流)FlowFile
weixin_41734687
·
2023-07-20 18:27
nifi
bigdata
CloudCanal x StarRocks 在医疗大健康实时
数仓
领域的落地与实践
希望文章内容对各位读者使用CloudCanal构建实时
数仓
带来一些帮助。业务背景大健康背景下,用户对报表和数据大屏的实时性能要求越来越高。
ClouGence
·
2023-07-20 18:57
CloudCanal
数据迁移
数据同步
canal
Mysql+ETLCloud CDC+Doris实时
数仓
同步实战
业务需求及其痛点很多大型企业需要对各种销售及营销数据进行实时同步分析,例如销售订单信息,库存信息,会员信息,设备状态信息等等,这些统计分析信息可以实时同步到Doris中进行分析和统计,Doris作为分析型数据库特别适合于对海量数据的存储和分析,我们只需要把MySQL的表单数据实时同步到Doris即可以实现实时数据分析能力。ApacheDoris介绍ApacheDoris是一个现代化的MPP分析型数
苛子
·
2023-07-20 17:24
mysql
数据库
Mysql+ETLCloud CDC+StarRocks实时
数仓
同步实战
一、业务需求及其痛点大型企业需要对各种业务系统中的销售及营销数据进行实时同步分析,例如库存信息、对帐信号、会员信息、广告投放信息,生产进度信息等等,这些统计分析信息可以实时同步到StarRocks中进行分析和统计,StarRocks作为分析型数据库特别适合于对海量数据的存储和分析,我们只需要把MySQL的表单数据实时同步到StarRocks即可以实现实时数据分析能力。二、StarRocks介绍St
苛子
·
2023-07-20 17:23
mysql
数据库
「Hive进阶篇」HQL 高级巧用
函数的高级用法,作为Hive进阶系列文章第四篇,其中有些SQL题目还是面试的重点考察用法,话不多说,分享下,若觉得有帮助,可以公众号搜索关注《大数据阶梯之路》,获取大数据相关学习资料一同成长,持续加成大数据
数仓
开发相关技能点
大数据阶梯之路
·
2023-07-20 14:39
GBASE又双叒叕获奖啦!数交会“创新竞争力产品奖”Get
在大会组织的中国数字和软件服务业评选中,GBASE南大通用旗下分布式逻辑
数仓
GBase8aMPPCluster荣获「创新竞争力产品奖」。
GBASE数据库
·
2023-07-20 11:14
数据库
GBASE南大通用
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他