E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
「Hive进阶篇」万字长文超详述hive企业级优化
更多精彩好文,首发在微信公众号《大数据阶梯之路》,欢迎关注文章字数:13271字预计阅读需:20分钟一、问题背景hive离线
数仓
开发,一个良好的
大数据阶梯之路
·
2023-06-13 17:00
hive
大数据
hadoop
详述Hive企业级优化
一、问题背景hive离线
数仓
开发,一个良好的数据任务,它的运行时长一般是在合理范围内的,当发现报表应用层的指标数据总是产出延迟,排查定位发现是有些任务执行了超10小时这样肯定是不合理的,此时就该想想如何优化数据任务链路
产品经理自我修养
·
2023-06-13 17:58
hive
hadoop
数据仓库
快手流批一体数据湖构建实践
主要内容包括以下四大部分:1.数据湖架构2.基于Hudi构建快手数据湖3.快手的实践案例4.快手的发展规划01数据湖架构:从离线
数仓
到湖仓一体的转变数据建设的核心目标一般为:①标准统一;②可共享;③简单易用
Openlab.cosmoplat
·
2023-06-13 17:56
大数据
数据库
运维
大数据项目实战之数据仓库:电商数据仓库系统——第9章
数仓
开发之DWD层
文章目录第9章
数仓
开发之DWD层9.1交易域加购事务事实表9.2交易域下单事务事实表9.3交易域取消订单事务事实表9.4交易域支付成功事务事实表9.5交易域退单事务事实表9.6交易域退款成功事务事实表9.7
yiluohan0307
·
2023-06-13 16:10
大数据项目实战之数据仓库
大数据
数据仓库
dwd
尚硅谷大数据项目【电商
数仓
5.0】学习笔记
尚硅谷大数据项目【电商
数仓
5.0】学习笔记大数据学习基础基础shell编程:大数据之基础shell集群快速安装教程:大数据集群快速安装教程注:如果您已经有大数据学习基础,可以通过上面教程快速搭建学习环境
yiluohan0307
·
2023-06-13 16:40
大数据项目实战之数据仓库
大数据
学习
笔记
数据仓库
尚硅谷
小米基于 Flink 的实时
数仓
建设实践
本篇内容主要分为四个部分:小米
数仓
架构演变Flink+Iceberg架构升级实践流批一体实时
数仓
探索未来展望点击查看原文视频&演讲PPT一、小米
数仓
架构演变1.1
数仓
架构现状在介绍演变前,我们先来了解下小米当前的技术现状
·
2023-06-13 16:44
后端flink大数据实时计算
快手基于 Apache Flink 的实时
数仓
建设实践
本篇内容主要分为四个部分:快手实时
数仓
的发展实时
数仓
建设方法论实时
数仓
场景化实战未来规划点击查看直播回放和演讲PPT一、快手实时
数仓
的发展作为短视频领域的领头羊,快手APP一直致力于视频、直播技术的迭代
·
2023-06-13 16:10
后端flink大数据实时计算
Flink SQL 在美团实时
数仓
中的增强与实践
摘要:本文整理自美团数据系统研发工程师董剑辉&美团数据系统研发工程师张彬,在FlinkForwardAsia2022平台建设专场的分享。本篇内容主要分为五个部分:FlinkSQL在美团SQL作业细粒度配置SQL作业变更支持从状态恢复SQL正确性问题排查能力建设未来展望点击查看直播回放和演讲PPT一、FlinkSQL在美团目前FlinkSQL在美团已有100+业务方接入使用,SQL作业数也已达到了5
·
2023-06-13 16:09
后端flink大数据实时计算
BIGO 使用 Flink 做 OLAP 分析及实时
数仓
的实践和优化
本文整理自BIGOStaffEngineer邹云鹤在FlinkForwardAsia2021的分享。主要内容包括:业务背景落地实践&特色改进应用场景未来规划FFA2021直播回放&演讲PDF下载一、业务背景BIGO是一家面向海外的以短视频直播业务为主的公司,目前公司的主要业务包括BigoLive(全球直播服务),Likee(短视频创作分享平台),IMO(免费通信工具)三部分,在全球范围内拥有4亿用
·
2023-06-13 16:29
美团买菜基于 Flink 的实时
数仓
建设
摘要:本文整理自美团买菜实时
数仓
技术负责人严书,在FlinkForwardAsia2022实时湖仓专场的分享。
·
2023-06-13 16:48
后端flink大数据
深入解读:获得 2021 Forrester 全球云
数仓
卓越表现者的阿里云数据仓库
本文针对Forrester的报告,结合阿里云的以MaxCompute为核心的云
数仓
产品,做一个详细的技术解读。
·
2023-06-13 15:31
数据库阿里云
实时
数仓
建设第3问:Lookup维表缓存数据TTL不需要设置几个小时,数据一被访问就更新生命周期生命周期?
同事说维表缓存,当缓存项在指定的时间段内没有被读就会被回收,如果被读就会延长ttl时间。如果关联的维表数据变动就会导致无法获取最新维度数据,这种场景必须关闭缓存。在flink1.16之前缓存的创建方式如下:CacheBuilder.newBuilder().expireAfterWrite(cacheExpireMs,TimeUnit.MILLISECONDS).maximumSize(cache
暴躁IT老绵羊
·
2023-06-13 12:51
Flink
SQL实时数仓建设512点
flink
数据孤岛下的新破局 Real Time DaaS:面向 AP+TP 业务的数据平台架构
从传统
数仓
,到大数据平台,再到数据中台和湖仓一体新数据平台,在日益加重的数据孤岛困扰下,面向AP场景的解决方案可谓浩如烟海。
·
2023-06-13 12:49
数据库工具大数据
转行大数据该怎么学
为什么大数据行业,大部分岗位都是做离线
数仓
的工作,写HiveSQL的?我在大数据实习的第一份工作就是大数据分析,目前很多实习生来了也都是安排数据分析工作。因为这一块
qq^^614136809
·
2023-06-13 11:43
大数据
spark
hadoop
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
随着业务的发展,多个服务在一个DB去做数据的汇总,以及一些微服务架构的产生,使得数据逐渐走向分裂,很难在MySQL里完成统一的
数仓
。
·
2023-06-13 11:49
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
随着业务的发展,多个服务在一个DB去做数据的汇总,以及一些微服务架构的产生,使得数据逐渐走向分裂,很难在MySQL里完成统一的
数仓
。
·
2023-06-13 10:09
数仓
设计规范
数据模型设计数据模型基本原则高内聚低耦合核心模型与扩展模型分离公共初处理逻辑下沉成本与性能平衡数据可回滚数据一致性命名清晰易于理解分层规范分层设计是架构设计的产出之一,在模型设计阶段作为强制规范遵守ODS:OperationalDataStore,数据贴源层
只会写demo的程序猿
·
2023-06-13 01:02
spark
数仓
数据仓库
基于DataHub元数据血缘管理实施方案
目录1.元数据管理实施方案总览2.元数据分类2.1技术元数据2.2业务元数据3.元数据标签体系基础标签
数仓
标签业务标签潜在标签4.表元数据4.1基于pull机制抽取元数据web端ui方式cli端yml方式
只会写demo的程序猿
·
2023-06-13 01:02
大数据
探究核心技术&最佳实践,云原生OLAP论坛火热开启!
2023/06/11,09:00-12:30,在DataFunSummit2023:OLAP引擎架构峰会上,由阿里云资深技术专家,实时
数仓
Hologres研发负责人姜伟华老师出品的云原生OLAP论坛讲邀请来自阿里云
阿里云大数据AI技术
·
2023-06-12 23:22
云原生
大数据
揭秘阿里云Flink智能诊断利器——Fllink Job Advisor
丰富而复杂的上下游系统让它能够支撑实时
数仓
、实时风控、实时机器学习等多样化的应用场景。
阿里云大数据AI技术
·
2023-06-12 23:22
阿里云
flink
大数据
数仓
项目之数据采集实战及ODS层数据初步导入和flume日志采集过程中问题监控及解决方案
在实际生产开发当中,适当的设计agent的数量和模式,并很好的将数据采集过来,是我们分析数据的第一步,即先要有数据业务系统那边进行埋点,记录日志,到服务器本地磁盘当中考虑使用高可用模式,并使用级联模式,上游一个agent,下游两个agent,因为要对数据进行简单的清洗、处理,所以需要一个自定义拦截器上游agent高可用模式1个sourcetaildir类型1个channelfile类型高可用:2个
菜鸟周星星
·
2023-06-12 20:40
项目
flume
hive
大数据
hadoop
spark
数据仓库ods层是啥意思_一文读懂大数据仓库建设
文章标签:数据仓库ods层是啥意思版权从传统
数仓
到大数据平台,MPP数据集市,Hadoop集群,还有混合架构
数仓
,一直在不断演进,但是万变不离其宗,大框架和方法论终归是那一套。
zxfBdd
·
2023-06-12 20:10
flink
大数据
ods层如何保证和Mysql镜像一致
1.分层机制及分区字段如何分层:
数仓
在ods层之前有一层ods_binlog层,存放所有Mysql同步过来的binlog按天为分区放入表中,其中的数据和Ods层合并后以ctime的日期作为分区字段,动态分区发往指定分区的
不会Hive的啊扬
·
2023-06-12 20:09
数据仓库
hive
揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor
丰富而复杂的上下游系统让它能够支撑实时
数仓
、实时风控、实时机器学习等多样化的应用场景。
·
2023-06-12 17:45
后端flink大数据实时计算
亚马逊云科技Serverless构建的实时
数仓
解决方案,助力猎豹降低30%成本
借助亚马逊云科技Serverless数据分析服务构建的端到端实时
数仓
解决方案,猎豹移动旗下的App用户埋点分析负载上的成本节省相较于之前减少30%,成功构建实时
数仓
。
Discovering_
·
2023-06-12 14:10
科技
serverless
人工智能
亿级大表毫秒关联,荔枝微课基于Apache Doris 统一实时
数仓
建设实践
本文导读:ApacheDoris助力荔枝微课构建了规范的、计算统一的实时
数仓
平台,目前ApacheDoris已经支撑了荔枝微课内部90%以上的业务场景,整体可达到毫秒级的查询响应,数据时效性完成T+1到分钟级的提升
·
2023-06-12 14:30
实时
数仓
建设第1问: 一直使用top N,为何duplicate状态和rank状态的TTL执行策略不一样?
在1.16之前rank为了提高效率,会使用缓存降低对状态的访问。缓存就是一个普通的MAP集合,如果不适应定时器在状态过期后删除缓存数据就会导致缓存数据一直增大导致OOM。kvSortedMap=newLRUMapextendsLinkedHashMappublicvoidonTimer(longtimestamp,OnTimerContextctx,Collectorout)throwsExcep
暴躁IT老绵羊
·
2023-06-12 12:16
Flink
SQL实时数仓建设512点
flink
实时
数仓
建设第2问:怎样使用flink sql快速无脑统计当天下单各流程(已发货,确认收货等等)状态的订单数量
实时统计当天下单各流程状态(已支付待卖家发货,卖家通知物流揽收,待买家收货等等)中的订单数量。订单表的binlog数据发送到kafka,flink从kafka接受消息进行指标统计。因为每笔订单的状态会发生变化,比如上午为【已支付待卖家发货】,这个时候【已支付待卖家发货】指标数要+1,下午订单的状态变更为【卖家通知物流揽收】,这个时候【卖家通知物流揽收】指标数要+1,而【已支付待卖家发货】指标数要-
暴躁IT老绵羊
·
2023-06-12 12:45
Flink
SQL实时数仓建设512点
flink
sql
数据库
各大厂应用实践 — 大数据
大厂应用实践美团美团外卖流量数据的采集加工和应用:点击这里美团外卖实时
数仓
建设实践:点击这里美团外卖离线
数仓
建设实践:点击这里美团Flink实时
数仓
应用经验分享:点击这里DruidSQL和Security
菜鸟也学大数据
·
2023-06-12 06:17
菜鸟也学大数据
大数据
hadoop
实时大数据
flink
hive
顺丰科技数据治理实践
十年前,我们就已经建了
数仓
,同步做了元数据管理,数据质量管理,以及数据安全的管理。顺丰数据治理的演进路线分3个阶段。第一阶段:2020年前,我们主要在进行数据平台的搭建,关键领域能力的建设。
产品经理自我修养
·
2023-06-12 06:09
大数据
人工智能
区块链
从
数仓
到数据中台,谈技术选型最优解
文章摘自https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650787725&idx=1&sn=673a0ac485e776dcd51667549f08628a&chksm=f3f97a18c48ef30e7adc3fe6c34c7fc644edde95443997188514742417eb4b7d0d1bad3f4baa&scene=
时光漫步de大数据之路
·
2023-06-12 05:26
数据仓库为什么要分层 ? 怎么分层?
1序说到数据仓库,大家应该都有一定的了解,越来越多的企业在做数字化转型,业务数据化,数据业务化,数据仓库是其中必不可少的一环.在
数仓
中有一个很基础、重要,但又很容易被忽略的内容,那就是数据仓库中的数据分层
塔城就是个弟弟
·
2023-06-12 01:24
数据仓库
数据建模
数据仓库
大数据
快速开始 PieCloudDB Database:数据实例演示
新一代云原生虚拟
数仓
PieCloudDB「云上云」版(CloudonCloud)已于2023年3月14日重磅发布。
OpenPie|拓数派
·
2023-06-11 10:14
PieCloudDB
Database
拓数派
大数据
数据库
云原生
数据挖掘
数据分析
解锁云原生虚拟
数仓
PieCloudDB Database 『第一期』
拓数派旗下旗舰产品PieCloudDB,采用领先的
数仓
虚拟化技术,为企业构建高安全,高可靠,高在线「坚如磐石」的云原生虚拟
数仓
。
OpenPie|拓数派
·
2023-06-11 10:14
PieCloudDB
Database
拓数派
云原生
拓数派发布新一代云原生虚拟
数仓
PieCloudDB
3月14日,2023拓数派「InfinitePossibilities」战略暨新产品发布会在上海圆满落幕,拓数派创始人兼CEO冯雷(RayVon)重磅发布基于新一代云原生
数仓
虚拟化打造的全新PieCloudDB
OpenPie|拓数派
·
2023-06-11 10:12
OpenPie|拓数派
PieCloudDB
Database
拓数派
云原生
数据库
数据中台及数据仓库设计
数据中台建设深度好文文章目录1:数据中台介绍1.1:概述1.2:架构2:数据中台建设2.1:业务和数据资产调研2.2:数据架构设计2.2.1:技术选型2.2.2:数据仓库建设1:主题设计2:
数仓
建模3:
猿来如此dj
·
2023-06-11 07:23
hive专栏
数据仓库
数据库
数据挖掘
第一章 数据中台架构总体设计
层:基础设施层数据采集:flume、sqoop、datax、flinkcdc、canel数据计算:MR、Spark、flink数据存储:HDFS、Hbase、TIDB、Mysql…1.2、DaaS层:
数仓
层主要包括
随缘清风殇
·
2023-06-11 07:17
大数据架构师专题
架构
big
data
数据仓库
大数据任务调度和数据同步组件初探
数据的同步过程是必不可少的图片来源传统的数据同步方式主要是基于定时任务的模式,通过任务调度服务,每天定时将原始数据提取(extract),进行清洗处理,比如过滤掉重复数据(transform),最后存入
数仓
xiaoliizi
·
2023-06-11 02:48
大数据
大数据
emr
数仓
总结题
面试可能会遇到的问题
数仓
怎么设计?
数仓
分为ODS层,DW层和DM层,ODS层从数据源抽取数据,对数据进行清洗,并将数据加载到中间表。
添柴少年yyds
·
2023-06-10 22:37
excel
数据分析
数据挖掘
国产开源优秀新一代MPP数据库StarRocks入门之旅-
数仓
新利器(上)
优质资源分享学习路线指引(点击解锁)知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统概述背景ApacheDoris官方地址https://doris.apache.org/ApacheDorisGitHub
李自提
·
2023-06-10 18:30
it
数据库
flask
database
计算机
全球分布式云大会:AntDB超融合流式实时
数仓
,打造分布式数据库新纪元
日前,全球分布式云大会北京站在北京金茂万丽酒店举办,亚信科技AntDB数据库受邀参会,会上技术负责人北陌发表以“AntDB超融合流式实时
数仓
,打造分布式数据库新纪元”为主题的演讲,通过分享AntDB在数据库前沿技术的研发实践
亚信安慧AntDB数据库
·
2023-06-10 18:11
AntDB
AISWare
AntDB
数据库
antdb
antdb数据库
亚信科技AntDB数据库荣膺第十二届数据技术嘉年华(DTC 2023)“最具潜力数据库”大奖
亚信安慧副总裁张桦先生受邀参会,并发表了《AntDB数据库通信行业核心系统应用与创新》的主题演讲,分享了AntDB数据库在大规模数据管理项目上的实战经验,讲述了AntDB在“超融合”与“流式实时
数仓
”方向上的最新研发与技术能力
亚信安慧AntDB数据库
·
2023-06-10 18:10
AISWare
AntDB
国产数据库
AntDB
antdb数据库
antdb
数据库
助力工业物联网,工业大数据之
数仓
维度层DWS层构建【十二】
文章目录
数仓
维度层DWS层构建01:项目回顾02:项目目标03:维度建模回顾:建模流程04:维度建模回顾:维度设计05:维度建模回顾:维度模型
数仓
维度层DWS层构建01:项目回顾ODS层与DWD层的功能与区别是什么
Maynor996
·
2023-06-10 17:58
#
大数据工业物联网项目
大数据
hadoop
spark
数据常用名词解释,
数仓
表设计
数据平台相关任务(Task)任务是对数据执行的操作的定义,示例如下:通过数据同步节点任务,将数据从RDS同步至
数仓
。通过SQL节点任务,运行SQL来进行数据的转换。
榛西
·
2023-06-10 15:16
大数据
数据库
java
【Apache-Flink零基础入门】「入门到精通系列」手把手+零基础带你玩转大数据流式处理引擎Flink(基础概念解析)
架构及原理Flink应用服务Streams有限数据流和无限数据流的区别StateTimeAPIFlink架构体系Flink操作处理Flink的应用场景Flink的应用场景:DataPipeline实时
数仓
搜索引擎推荐
浩宇天尚
·
2023-06-10 11:37
【全方位技术攻关】浩宇天尚
apache
flink
大数据
Hadoop数据仓库的主要特征有哪些?
数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
传智教育
·
2023-06-10 08:51
数据仓库
hadoop
数据库
Kylin
一、
数仓
回顾1.1核心概念数据仓库,OLAP和OLTP,维度和度量,事实表和维度表。星形模型和雪花模型。
爱过java
·
2023-06-10 05:22
kylin
数据仓库
数据挖掘
大数据面试题总结
1.说一下最近做的项目(1)我把实时简单说了一下,说的一般2.说一说为什么要
数仓
分层(1)把维度建模随便说了下,又扯了一下分层3.说一下数据倾斜(1)没回答好,hive只说了groupbyflink说了一下
添柴少年yyds
·
2023-06-10 04:03
大数据
hive
hadoop
大数据面试题
1.说一下最近做的项目(1)我把实时简单说了一下,说的一般2.说一说为什么要
数仓
分层(1)把维度建模随便说了下,又扯了一下分层3.说一下数据倾斜(1)没回答好,hive只说了groupbyflink说了一下
添柴少年yyds
·
2023-06-10 04:02
大数据
hadoop
java
一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比
我们先回顾一下数据仓库的发展历程:传送门-数据仓库发展历程写在前面咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代,数据仓库架构方面也在不断演进,分别经历了以下过程:早期经典
数仓
架构
张家的鱼摆摆
·
2023-06-09 21:32
lambda
数据仓库
上一页
23
24
25
26
27
28
29
30
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他