E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
河北幸福消费金融基于 Apache Doris 构建实时
数仓
,查询提速 400 倍!
基于此,公司决定搭建数据中台,从基于TDH的离线
数仓
再到基于ApacheDoris的实时
数仓
,最终统一了数据出口,提升了数据质量,并实现查询速度近400倍的提升。
SelectDB技术团队
·
2023-07-20 09:27
金融
apache
大数据
doris
数据分析
数据库
ELT太慢怎么行,试试PolyBase?
传统的
数仓
项目,我们会用ETL把数据ExtractTransform然后再Load到目标数据平台。
Kele_73b1
·
2023-07-20 02:58
描述性统计理论学习
在看了大部分他的公众号(、微信公众号同名:木东居士)之后深有感触,越来越觉得自己在数据这块懂的是真的浅薄,人与人之间的差距还是很大的,就像数据仓库在平时工作中以为就那回事,其实如果公司规模小,是并不具备做
数仓
的土壤的
KeKe_W
·
2023-07-19 21:48
实时
数仓
|架构设计与技术选型
下面我就来讲解下我做的项目(实时
数仓
)是如何进行选型的。一、技术选型当我们在选择技术时需要根据客户的需求来进行选择。
大数据老哥
·
2023-07-19 19:25
Databend 开源周报第 102 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-07-19 08:19
开源
物联网大数据存储利器IoTDB介绍
非物联网场景下的大数据应用通常是从业务库比如关系数据库同步数据到
数仓
,然后进行离线分析处理和展示。
咬定青松
·
2023-07-18 10:55
大数据
hadoop
数据库
java
分布式
基于 ByteHouse 构建实时
数仓
实践
实时计算起源于对数据加工时效性的严苛需求:数据的业务价值随着时间的流逝会迅速降低,因此在数据产生后必须尽快对其进行计算和处理,从而最大效率实现数据价值转化,对实时
数仓
的建设需求自然而
qw_6918966011
·
2023-07-18 10:18
java
大数据
网络
离线
数仓
16—— DolphinSchedule工作流调度
文章目录第13章数据仓库工作流调度13.1调度工具部署13.2新数据生成13.2.1用户行为日志13.2.2业务数据13.3工作流调度实操13.3.1DolphinScheduler集群模式13.3.2DolphinScheduler单机模式第13章数据仓库工作流调度13.1调度工具部署13.2新数据生成13.2.1用户行为日志1)启动日志采集通道,包括Kafka、Flume等(1)启动Zooke
就是这个范~
·
2023-07-18 07:14
离线数仓
数据库
大数据
一百三十、海豚调度器——用DolphinScheduler定时调度HiveSQL任务
一、目标用海豚调度器对Hive
数仓
各层数据库的SQL任务进行定时调度。
天地风雷水火山泽
·
2023-07-18 07:31
大数据开发工具
Hive
海豚调度器
hive
大数据
数据湖:存储全量数据,快速实现洞察
“
数仓
出局,中台已凉,数据湖将称王!”目前,市场上出现了这样一种说法,估计大多数人很难评断真伪。既便是专业人士,也不会武断地做出这样的研判,毕竟数据湖并不是为了取代
数仓
而生的。
Z1Y492Vn3ZYD9et3B06
·
2023-07-17 23:05
数据仓库
大数据
编程语言
hadoop
人工智能
数据平台之
数仓
模型设计
维度建模三种模式2.1星型模型2.2雪花模式2.3星座模式三、ChatGPT代替SqlBoy3.1简单案例3.2复杂案例四、总结前言看到几篇不错的文章,自己总结合并了分享给小伙伴金博尔和恩门共同开创的
数仓
建模的设计方法
大数据指北
·
2023-07-17 22:48
#
---
数据仓库
大数据
spark
分布式
数仓
常见问题以及解决方案yyds
文章目录01数据仓库现状业务系统侧【上游】
数仓
内部数据应用测【下游】02如何解决问题业务系统侧【上游】
数仓
内部03体系化架构设计一致性维度一致性事实数据应用侧【下游】建设可视化的取数平台大家好,我是脚丫先生
大数据指北
·
2023-07-17 22:48
#
---
数据仓库
大数据
spark
分布式
腾讯云对象存储联合DataBend云
数仓
打通数据湖和数据仓库
随着数字化进程不断深入,数据呈大规模、多样性的爆发式增长。为满足更多样、更复杂的业务数据处理分析的诉求,湖仓一体应运而生。在Gartner发布的《HypeCycleforDataManagement2021》中,湖仓一体(Lakehouse)首次被纳入到技术成熟度曲线中。伴随多场景的成功落地,腾讯云对象存储打造基于云技术的湖仓一体解决方案。将数据仓库构建在数据湖上,打通数据仓库和数据湖两套体系,构
云存储小天使
·
2023-07-17 15:54
腾讯云
数据仓库
spark
oracle connect by很强,但是要慎用,不然有你哭的时候
前言:第四次工业革命,带来了科技的巨大变更,同时带来了很多半结构化数据,很多数据会做成集合、JSON的形式存储到数据库中,通过ETL工具我们将这些数据抽取到
数仓
里面,我们怎么进行分析呢?
他们叫我技术总监
·
2023-07-17 14:30
Oracle
大数据的108种玩法
oracle
数据库
数仓
报表数据导出——Hive数据导出至Clickhouse
1.Clickhouse建表创建databasecreatedatabasead_report;usead_report;创建tabledroptableifexistsdwd_ad_event_inc;createtableifnotexistsdwd_ad_event_inc(event_timeInt64comment'事件时间',event_typeStringcomment'事件类型',
YuannaY
·
2023-07-17 06:41
大数据
hive
clickhouse
hadoop
聊聊 HTAP 的前世今生
技术上,由于传统的
数仓
ETL链路长,延迟大,很难满足业务快速多变的诉求,业务场景的变化也掀起了一股HT
MoMoSQL666
·
2023-07-16 18:13
数据库
架构
etl
实时
数仓
详解
前言本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据理论体系背景伴随着社会的发展,用户对数据仓库的要求越来越高。关于数据仓库请参考我的博客——数据仓库是什么?越来越多的用户希望数据仓库能够做到:分析实时数据和最新数据和历史数据跨数据域的相关性,即使它们传统上不存储在一起(例如,实时客户事件数据与CRM数据
Shockang
·
2023-07-16 17:18
大数据理论体系
数据仓库
实时数仓
数据中台Citus集群压测报告
作者简介:迪颉科技是专注于企业数字化转型数据价值及数据治理,并在大数据、数据中台(零售、制造行业)、dataops/
数仓
以及数据驱动的应用等,提供专业解决方案的团队。
PGCCC
·
2023-07-16 15:31
数据库
sqllineage解析FineBI数据集导入Datahub生成血缘
需求当前
数仓
架构流程图如下图所示,不支持端到端数据血缘,数据异常排查及影响分析比较被动,需要端到端数据血缘及元数据管理。
DawsonSally
·
2023-07-16 14:13
数仓建模
数据仓库
大数据
finebi
大数据
数据库
元数据管理
datahub
SQLLineage.com(分析SQL的数据血缘关系)
而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑,分层
数仓
的设计简化了单层数据模型的设计,但增加了额外的计算资源消耗,当出现数据质量问题时更是质控者的噩梦。
ding__lin
·
2023-07-16 14:36
数据血缘关系
SQL解析
etl
sql
js
数据仓库的分层
离线
数仓
一、
数仓
分层源数据层(ODS)数据仓库层(DW)1.明细层(DWD)2.中间层(DWM)3.业务层(DWS)公共维度层(DIM)数据展示层(DA层)数据仓库(DataWarehouse),是为企业制定决策
Aimyon_36
·
2023-07-16 11:21
数据仓库
数据库
大数据
apache doris数据库搭建(一)
基于此,ApacheDoris能够较好的满足报表分析、即席查询、统一
数仓
构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、
Hello.Reader
·
2023-07-16 10:11
apache
数据库
大数据
BI-SQL丨WITH NOLOCK
WITH(NOLOCK)企业在搭建
数仓
的时候,对于
数仓
的负载性能和运行速度都是纳入考量标准的。特别是并发性较高的情况下,如何规避因用户使用量较多而导致死锁卡死的问题呢?
PowerBI丨白茶
·
2023-07-16 08:00
PowerBI丨SQL
sql
数据库
java
BI-SQL丨行列转换
无论是搭建
数仓
,还是通过PowerBI进行数据分析,我们总会接触到各式各样的数据源,而在这些数据源中,除了标准的大型
数仓
外,我们很少能够拿到标准规范的数据表结构。
PowerBI丨白茶
·
2023-07-16 08:30
PowerBI丨SQL
sql
数据库
BI-SQL丨角色和用户
角色和用户在
数仓
的运维工作中,经常需要为用户开通不同权限的账号,使用户可以正常访问不同的数据,那么这就需要我们了解SQLServer的权限体系。
PowerBI丨白茶
·
2023-07-16 08:30
PowerBI丨SQL
sql
sqlserver
数据库
数仓
|大数据时代,维度建模过时了吗?
20世纪80年代末期,数据仓库技术兴起。自RalphKimball于1996年首次出版TheDataWarehouseToolkit(Wiley)一书以来,数据仓库和商业智能(DataWarehousingandBusinessIntelligence,DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术--维度建模(dimensionalmodelling),该方法是在实践观察的基础
大数据技术与数仓
·
2023-07-16 07:08
软件测试二十载
我当时主要从事报表、
数仓
和电子计费项目。2003年6月底,当我参与的第一个Java项目完成时,便主动接受了公司测试职位的面试,并成为公司两个大型测试项目成员之一。
软件质量保障
·
2023-07-16 00:21
python
实时
数仓
-DWS层
理论依据:指标体系如果表有相似,可以抽取成一张表轻度聚合:比如聚合10秒的先放到DWS,这样ADS在计算的时候,会更快
青云游子
·
2023-07-15 13:56
实时数仓
大数据
flink
大数据常见面试题
hive优化2.数据倾斜3.小文件问题4.项目中用到的重点指标(至少3个),要非常熟悉,能说出怎么建的表,怎么算的5.MySQL事务底层原理,MVCC6.拉链表,累积型事务事实表7.数据治理项目,离线
数仓
青云游子
·
2023-07-15 13:56
大数据面试题
大数据
数据仓库常用名词汇总
数仓
为了支撑企业或组织的决策和业务分析,而从各个业务系统中抽取数据集成到一个数据存储中心,这样的数据存储中心称为数据仓库(DataWarehouse),而在搭建数据仓库时,通常会采用一些命名规范,常见的有
dkjhl
·
2023-07-15 12:59
大数据
spark
大数据
分布式
Spring Boot集成ElasticsearchRepository
springboot操作elasticsearch(简易版)中,我们使用了elasticsearchRestTemplate操作索引及数据,本文主要是介绍elasic媲美数据库连接框架hibernate的
数仓
童懵
·
2023-07-15 10:27
ElasticSearch
spring
boot
后端
elasticsearch
【活动回顾】Data + AI 时代下的云
数仓
设计 @Qcon
此前,由InfoQ中国举办的QCon全球软件开发大会在广州圆满落幕。本次大会有近百位国内外技术大咖现场分享前沿技术案例与创新实践,共有十二个专题,近五十余场分享。DatabendCloud联合创始人张雁飞受邀参与了此次技术盛宴,并在新型数据库专场进行了一次主题为《Databend:大模型时代的CloudWarehouse设计探索》的演讲。演讲嘉宾:张雁飞Databend:GitHub-datafu
Databend
·
2023-07-15 05:19
人工智能
Databend 开源周报第 101 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-07-15 05:18
开源
阿里云实时
数仓
AnalyticDB PG版新一代计算引擎Odyssey技术解析
本文作者:吕政、长别、知数等目的随着数字经济时代的到来,越来越多的应用依赖数据分析来挖掘数据的价值。作为大数据存储、在线分析的重要基础系统,分析型数据库(OLAP)为数据价值的在线化提供重要的技术平台。阿里巴巴OLAP团队经过调研发现,现有的OLAP数据库执行引擎往往是在已有的OLTP执行引擎的基础之上,进行二次开发而来,存在性能损耗大、历史包袱重、未充分利用最新优化技术、未充分发挥新硬件优势等问
阿里云数据库
·
2023-07-14 14:43
SQL server + Dinky + doris 数据导入demo
1、SQLserver+Dinky+doris+flinkcdc导入plugins的jar包离线
数仓
部分希望可以1、一次性导入整张表(全量历史数据)2、实时增量导入通过flinkcdc方式要开启MySQLbinglog
wangqiaowq
·
2023-07-14 07:23
服务器
大数据
[
数仓
]事实表:周期快照 | 累计快照 | 无事实的事实表 | 迟到的事实表 | 累积度量
一、事实表概述除数字类型的度量值外,事实表总是包含所引用维度表的外键,也可能包含可选的退化维度键或时间戳。数据分析的实质就是基于事实表开展计算和聚合操作。二、周期快照事实表周期快照事实表中的每行汇总了发生在某一标准周期,如一天、一周或一月的多个度量。其粒度是周期性的时间段。周期快照是在一个给定的时间对事实表进行一段时期的总计。订单事实表的数据量很大,如果每当需要月销售统计数据时,都从最细粒度的事实
胖胖学编程
·
2023-07-14 04:30
数据库
Clickhouse入门(一)
一般做实时
数仓
https://clickhouse.com/docs/zh/第二章Clickhouse的特点2.1列式存储以下面的表为例:采用行式存储时,数
molecule_jp
·
2023-07-14 03:00
大数据
clickhouse
数据库
3.SparkSQL
结构化数据处理学习SparkSQL主要有2点:1.SparkSQL本身十分优秀,支持SQL语言、性能强、可以自动优化、API简单、兼容HIVE等2.企业大面积使用SparkSQL处理业务数据:离线开发、
数仓
搭建
hutc_Alan
·
2023-07-14 00:06
spark
【PostgreSQL 数据库技术峰会(成都站)】云原生虚拟
数仓
PieCloudDB Database 的架构和关键模块实现
2023年6月17日,中国开源软件推进联盟PostgreSQL分会在成都举办了数据库技术峰会。此次峰会以“新机遇、新态势、新发展”为主题,结合当下信创热潮、人工智能等产业变革背景,探讨PostgreSQL数据库在这些新机遇下的发展前景。峰会邀请众多行业大咖、学术精英、技术专家、技术爱好者等参加本次盛会,分享PostgreSQL数据库未来的发展机遇、新技术和新方向,推动PostgreSQL在中国的发
·
2023-07-13 15:54
腾讯看点基于 Flink 的实时
数仓
及多维实时数据分析实践
当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本文将介绍信息流场景下,腾讯看点的实时数据仓库和多维实时数据分析系统的技术架构。1、可解决的痛点可以先看一下,多维实时数据分析系统可以解决哪些痛点
·
2023-07-13 15:24
flink
Databend 开源周报 第 98 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-06-24 05:54
weekly
广告
数仓
:全流程调度
系列文章目录广告
数仓
:采集通道创建广告
数仓
:
数仓
搭建广告
数仓
:
数仓
搭建(二)广告
数仓
:全流程调度文章目录系列文章目录前言一、ClickHouse安装1.修改环境2.安装依赖3.单机安装4.修改配置文件5
超哥--
·
2023-06-24 02:59
广告数仓
服务器
数据库
linux
数据仓库分层设计——分层定义
数据分层设计
数仓
分层设计可以按照以下层次来划分:数据源层(SourceLayer):该层是
数仓
的数据来源,包含一些原始系统、外部数据源,这些数据需要进行ETL处理后才能被加载到
数仓
中。
卢延吉
·
2023-06-23 18:15
数据
(Data)
Hadoop
数据仓库
Apache Doris 在约苗数据平台的实时
数仓
建设实践
本文导读:约苗平台是国内目前最大的成人预防接种管理服务平台。近年来,随着各功能的不断完善,用户数量不断增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积累,如何有效利用这些数据进行处理分析,对于约苗提高工作效率、优化运营决策有着不容小觑的作用。基于此约苗平台历经三代架构演进,最终通过ApacheDoris重构了数据平台架构,统一了数据源出口,实现了近300倍的查询提速,目前已在
SelectDB技术团队
·
2023-06-23 11:06
apache
java
人工智能
构建离线
数仓
:实现数据驱动决策的关键步骤和挑战
摘要:本文将介绍构建离线
数仓
的关键步骤、技术选择和面临的挑战。我们将讨论数据采集、数据清洗、数据存储和数据分析等方面的内容,帮助您构建一个可靠、可扩展和高效的离线
数仓
。
张家老院子
·
2023-06-23 08:01
大数据
大数据就业路线
数仓
:主要以SQL语言为主离线
数仓
(目前基本状态)和实时
数仓
(趋势)SQL语法包括mysql中的sql、hive中的hivesql(重点),spark中的sparksql,flink中的flinksql
烟雨孤舟
·
2023-06-23 06:25
大数据
datayi(数易)离线
数仓
文章目录技术选型
数仓
分层行为域odsdwddimdwsads业务域数据抽取ods拉链表dwddwsads任务调度数据治理数据服务项目亮点围绕项目的面试准备项目介绍怎么做?
想很赚比的小星在摩拳擦掌
·
2023-06-23 06:18
求职
大数据
hadoop
分布式
数据治理(数据模型,数据规范,数据安全,数据成本,元数据,数据质量等)
数据治理无论是在
数仓
建设过程中还是
数仓
建设完成之后都是及其重要的,是数据部门基础建设的必经之路,是降本提效,形成企业数据资产的关键一环一数据质量管理1.1数据质量基本概念●数据质量管理(DataQualityManagement
大数据私房菜
·
2023-06-23 01:23
数据治理
人工智能
数据库
大数据
数据血缘分析
引入做过大数据或者接触过
数仓
的同学,相信都有听到过数据治理、血缘分析的专业术语。不知道大家有没有思考过以下几个问题:1、什么是血缘分析?主要分析什么东西?
大数据私房菜
·
2023-06-23 01:48
数据治理
大数据
火山引擎DataLeap:如何构建一套完整、易用的数据标准体系
一方面,统一的数据标准可以在复杂的业务场景下,帮助团队对齐数据口径,提升数据在分析、诊断等场景的质量与效率;另一方面,
数仓
团队与分析师团队也需要沉淀一套敏捷、可控的数据标准指标管理流程,以便后续在指标口径的增加
字节数据平台
·
2023-06-22 22:34
大数据
数据仓库
数据库架构
数据库开发
数据库
上一页
20
21
22
23
24
25
26
27
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他