E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
菜鸟实时
数仓
2.0进阶之路
作者:张庭(菜鸟数据工程师)导读:供应链物流场景下的业务复杂度高,业务链路长,节点多,实体多,实时
数仓
建设难度高。
ApacheFlink
·
2020-12-22 11:38
流计算
flink
Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12
什么是HiveCatalog如何使用HiveCatalog什么是HiveDialect如何使用HiveDialect公众号『大数据技术与
数仓
』,
大数据技术与数仓
·
2020-12-22 09:25
Flink
flink
hive
菜鸟实时
数仓
2.0进阶之路
作者:张庭(菜鸟数据工程师)导读:供应链物流场景下的业务复杂度高,业务链路长,节点多,实体多,实时
数仓
建设难度高。
ApacheFlink
·
2020-12-21 23:18
流计算
flink
数仓
建设生命周期_最最最全数据仓库建设指南,速速收藏 | 数澜科技
开讲之前,我们先来回顾一下数据仓库的定义。数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。这个概念最早由数据仓库之父比尔·恩门(BillInmon)于1990年在《建立数据仓库》一书中提出,近年来却被愈发广泛的提及和应用,不信看下图:到底是什么,让一个从上世纪90年代提出的概念,在近几年确越来越热?带着这个问题,我们来了解一下产
weixin_39820136
·
2020-12-21 20:24
数仓建设生命周期
Flink 1.11 与 Hive 批流一体
数仓
实践
本文主要分享在Flink1.11中对接Hive的新特性,以及如何利用Flink对Hive
数仓
进行实时化改造,从而实现批流一体的目标。
ApacheFlink
·
2020-12-21 11:08
flink
网易云音乐基于 Flink + Kafka 的实时
数仓
建设实践
简介:本文由网易云音乐实时计算平台研发工程师岳猛分享,主要从以下四个部分将为大家介绍Flink+Kafka在网易云音乐的应用实战:背景Flink+Kafka平台化设计Kafka在实时
数仓
中的应用问题&改进直播回放
ApacheFlink
·
2020-12-21 11:36
flink
kafka
当 TiDB 与 Flink 相结合:高效、易用的实时
数仓
利用实时
数仓
,企业可以实现实时OLA
ApacheFlink
·
2020-12-21 11:36
flink
tidb
数据仓库高级工程师面试(转载)
思想和方法论:如何建设
数仓
,如何构建主题域缓慢变化维几种处理方式什么是维度建模,星型模型与雪花模型的区别
数仓
的好处分层的好处怎么做数据质量,怎么保证及时性和准确性什么是维度,什么是度量如何数据治理?
扎西的德勒
·
2020-12-21 09:14
existed hive ods_数据仓库之Hive快速入门 - 离线&实时
数仓
架构
数据仓库VS数据库数据仓库的定义:数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境数据仓库VS数据库:数据库是面向事务的设计,数据仓库是面向主题设计的数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计
weixin_39658474
·
2020-12-21 04:20
existed
hive
ods
电商
数仓
——项目需求及架构设计
目录项目需求项目框架技术选型系统数据流程设计框架版本选型服务器选型集群资源规划设计项目需求一、项目需求➢1、数据**采集平台搭建**➢2、实现**用户行为数据仓库的分层搭建➢3、实现业务数据仓库的分层搭建➢4、针对数据仓库中的数据进行,留存、转化率、GMV、复购率、活跃等报表分析**二、思考题➢1、项目技术如何选型?➢2、框架版本如何选型(Apache、CDH、HDP)➢3、服务器使用**物理机还
bzxb1188
·
2020-12-19 13:59
flink
kafka
spark
mapreduce
hadoop
面试总结
会不断的问为什么2.考察底层原理3.语言表达能力很重要,需要把原理背景说清楚下面是题目,欢迎大家把想到的答案写在评论区一起讨论题目:简单介绍一下
数仓
的业务场景
数仓
分为4层,共有多少个主题?分别是什么?
颜渊月和F
·
2020-12-19 12:01
mapreduce
spark
hadoop
面试
hive增量表和全量表_大数据开发
数仓
拉链表概述,以及如何迭代或者回滚
1.背景拉链表是什么,在
数仓
建立时候,一种重要的表数据处理方式,可以将数据结构于算法,类比于拉链表于
数仓
,旨在解决
数仓
建立里面的SCD需求,那么什么是SCD,就是缓慢变化维,随着时间流逝,数据相对事实表发生缓慢变化
weixin_39578197
·
2020-12-19 11:49
hive增量表和全量表
滴滴大数据安全权限实践
桔妹导读:在滴滴,数据是非常重要的资产,基于数据的
数仓
建设,数据分析、数据挖掘、数据科学等构建了滴滴的数据体系,支撑着滴滴的业务快速发展。
滴滴技术
·
2020-12-17 21:09
运维
大数据
分布式
hadoop
数据库
性能高1倍,价格低3/4!数据库实时同步新选择!
2020年双11,云原生实时
数仓
首次在阿里巴巴双11核心数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力。
阿里云云栖号
·
2020-12-17 12:26
es6
大数据开发-
数仓
ads层指标计算
ads层数据往往是最终的结果指标数据,在大屏展示,或者实时流处理时候使用,通过下面两个例子来练习业务大屏展示sql该怎么写。1.会员分析案例1.1数据准备表结构如下,其中此表是dws层以天为维度的会员表,比如每天的会员信息汇总,usedws;droptableifexistsdws.dws_member_start_day;createtabledws.dws_member_start_day(`
Hoult丶吴邪
·
2020-12-14 03:47
大数据
大数据开发---
数仓
拉链表概述,以及如何迭代或者回滚
1.背景拉链表是什么,在
数仓
建立时候,一种重要的表数据处理方式,可以将数据结构于算法,类比于拉链表于
数仓
,旨在解决
数仓
建立里面的SCD需求,那么什么是SCD,就是缓慢变化维,随着时间流逝,数据相对事实表发生缓慢变化
Hoult丶吴邪
·
2020-12-14 03:47
大数据
大数据开发---
数仓
拉链表概述,以及如何迭代或者回滚
1.背景拉链表是什么,在
数仓
建立时候,一种重要的表数据处理方式,可以将数据结构于算法,类比于拉链表于
数仓
,旨在解决
数仓
建立里面的SCD需求,那么什么是SCD,就是缓慢变化维,随着时间流逝,数据相对事实表发生缓慢变化
Hoult丶吴邪
·
2020-12-14 03:11
大数据
大数据开发-
数仓
ads层指标计算
ads层数据往往是最终的结果指标数据,在大屏展示,或者实时流处理时候使用,通过下面两个例子来练习业务大屏展示sql该怎么写。1.会员分析案例1.1数据准备表结构如下,其中此表是dws层以天为维度的会员表,比如每天的会员信息汇总,usedws;droptableifexistsdws.dws_member_start_day;createtabledws.dws_member_start_day(`
Hoult丶吴邪
·
2020-12-14 03:11
大数据
Hadoop大数据数
数仓
之“买菜做饭”
能不能用【买菜做饭】的流程将Hadoop大数据生态的技术体系串联起来?笔者笃信:不管是学习抽象的商业逻辑,还是硬核的计算机技术,都需要将知识转换成“工作流程”,这样所学才能落地,否则都是瞎忙。"买洗烧"是现代男人的乐趣,会做饭可以防脱发,让娘家人放心。笔者往后的日子,会以上面的思维导图为框架完善各个模块。
猫有九条命*
·
2020-12-11 17:58
数据仓库
Hive引擎Spark优化配置参数
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣科技
·
2020-12-10 21:38
大数据
hive
spark
Go 大数据生态迎来重要产品 CDS
不过要想使用ClickHouse搭建起
数仓
用于数据分析,一个重要的问题就是数据如何进入ClickHouse?
kevinwan
·
2020-12-10 14:32
golang
数据系统架构-6.BI数据展示平台
6.BI数据展示平台一、序在有了
数仓
、实时、离线的数据之后,我们需要一个数据展示分析的平台。
叶之城
·
2020-12-08 21:31
大数据
数据可视化
数据系统架构-6.BI数据展示平台
6.BI数据展示平台一、序在有了
数仓
、实时、离线的数据之后,我们需要一个数据展示分析的平台。
叶之城
·
2020-12-08 20:20
大数据
数据可视化
实时抽hbase数据_合集 大厂大数据应用实践
“文章出自公众号【DataFunTalk】美团▪美团外卖流量数据的采集加工和应用▪美团外卖实时
数仓
建设实践▪美团外卖离线
数仓
建设实践▪美团Flink实时
数仓
应用经验分享▪DruidSQL和Security
weixin_39829166
·
2020-12-07 17:07
实时抽hbase数据
首次揭秘云原生Hologres存储引擎
概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时
数仓
首次在核心数据场景落地,为大数据平台创下一项新纪录。
阿里云云栖号
·
2020-12-07 15:15
react.js
一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比
我们先回顾一下数据仓库的发展历程:传送门-数据仓库发展历程写在前面咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代,数据仓库架构方面也在不断演进,分别经历了以下过程:早期经典
数仓
架构
明月十四桥
·
2020-12-07 02:44
数据仓库
数仓架构
Kappa
Lambda
Flume-接入Hive
数仓
搭建流程
实时流接入
数仓
,基本在大公司都会有,在Flume1.8以后支持taildirsource,其有以下几个特点,而被广泛使用:1.使用正则表达式匹配目录中的文件名2.监控的文件中,一旦有数据写入,Flume
Hoult丶吴邪
·
2020-12-06 18:56
大数据
Flume-接入Hive
数仓
搭建流程
实时流接入
数仓
,基本在大公司都会有,在Flume1.8以后支持taildirsource,其有以下几个特点,而被广泛使用:1.使用正则表达式匹配目录中的文件名2.监控的文件中,一旦有数据写入,Flume
Hoult丶吴邪
·
2020-12-06 18:39
大数据
数仓
建模—
数仓
初识
什么是
数仓
数据仓库(DataWarehouse),一般缩写成DW、DWH。
不二人生
·
2020-12-05 19:45
数据仓库
数据建模
数据仓库
大数据
数据建模
数仓
建模—建模流程
建模流程其实就是业务模型->概念模型->逻辑模型->物理模型的这样一个流程,下面我们详细解释一下各个模型阶段都要做什么业务建模(需求沟通)根据业务部门进行划分,理清部门之间的关系,然后将各个部门的具体业务程序化,与业务部门开会协商出需求的指标、保存年限、维度等等。总体来讲,就是要知道他们需要哪些指标以及他们能提供哪些数据。业务建模的时间最长,而且与公司实际的业务环境息息相关,因此在这里需要根据实际
不二人生
·
2020-12-05 19:32
数据建模
数据仓库
数据仓库
大数据
数据建模
数仓
建模—分层建设理论
就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、总结
数仓
的建模或者分层
不二人生
·
2020-12-05 19:03
数据仓库
数据建模
hive
数据建模
数据仓库
DW层更新:HIVE脚本三步实现“缓慢变化维2更新”--保留历史数据
已经好几个月没有接触HIVE了,之前也提到我们的人力项目的HIVE
数仓
被替换成了oracle
数仓
。在项目结束之际,“经营驾驶仓”的源浩大佬善意提醒:“你之前的‘缓慢变换维’
猫有九条命*
·
2020-12-05 11:12
数据仓库
数仓
建模 项目_滴滴实时
数仓
逐层剖解:实时与离线数据误差<0.5%
主要从事实时数据仓库建设,专注实时和离线
数仓
技术,对
数仓
建模、数据研发和
数仓
中间层建设有一定的积累。
黄小秋
·
2020-12-05 11:11
数仓建模
项目
hive增量表和全量表_基于 Flink+Hive 构建流批一体准实时
数仓
基于Hive的离线
数仓
往往是企业大数据生产系统中不可缺少的一环。Hive
数仓
有很高的成熟度和稳定性,但由于它是离线的,延时很大。
weixin_39805851
·
2020-12-04 08:05
hive增量表和全量表
用户画像之标签查询(附源码)
转自:https://blog.csdn.net/appearb...目录1.简介2.架构图3.表结构4.标签筛选人群1.请求格式2.人群筛选1.简介通过处理
数仓
中的业务数据和埋点数据,生成用户对应的标签
ostarsier
·
2020-12-04 01:49
java
SQL经典面试题-连续3天登陆用户 机会终于来了系列
反正就是确实在
数仓
中还是用的比较多的,比较实际的需求。需求:编写hql,统计连续3天登陆的用户分析:如何判断连续,这个是本题的关键可以对us
留歌36
·
2020-12-03 21:14
机会终于来了
大数据
sql
用户画像之标签查询(附源码)
目录1.简介2.架构图3.表结构4.标签筛选人群1.请求格式2.人群筛选1.简介通过处理
数仓
中的业务数据和埋点数据,生成用户对应的标签,运营人员通过标签筛选出人群,然后发送营销短信。
xianbin.yang
·
2020-12-03 20:10
用户画像
大数据
java
elasticsearch
【文末有惊喜!】Hive SQL血缘关系解析与应用
本文字数:7860字预计阅读时间:20分钟+1研究背景随着企业信息化和业务的发展,数据资产日益庞大,数据仓库构建越来越复杂,在
数仓
构建的过程中,常遇到数据溯源困难,数据模型修改导致业务分析困难等难题,此类问题主要是由于数据血缘分析不足造成的
Mo_mo???
·
2020-12-03 07:00
大数据
编程语言
数据库
java
人工智能
首次揭秘云原生Hologres存储引擎
概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时
数仓
首次在核心数据场景落地,为大数据平台创下一项新纪录。
阿里云云栖号
·
2020-12-02 11:23
react.js
大数据应用领域与关键技术
BI报表商业/投资/经济分析金融风控系统安全用户画像相关推荐其它机器学习任务上游主要用到的技术,解决的问题ETL:数据摸底、补全、清洗、归一化、标准化
数仓
建模:三层
数仓
、维度模型数据挖掘:等同、相似、相关
老吴学技术
·
2020-12-01 17:00
Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏
概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)+实时计算Flink搭建的云原生实时
数仓
首次在核心数据场景落地,为大数据平台创下一项新纪录。
阿里云云栖号
·
2020-12-01 14:49
jquery
数仓
搬迁:从方法到实践,带你解决数据一致性对比
摘要:数据仓库建设过程中,总是会涉及到不同平台、同一平台物理环境搬迁,由于数据仓库数据量庞大,往往数据搬迁不可能在一个短周期内完成,会涉及数据同步、校验、追批并跑、再校验过程。本文主要阐述数据校验过程设计,供相关人员借鉴。数据一致性校验最核心内容项校验手段根据常见数据存储类型,主要完成对象级记录一致性校验,字段级数值、时间、字符类型的数据一致性校验,即常规提到的表级count、字段级数值的sum、
华为云开发者社区
·
2020-11-30 16:39
数据
数据仓库
校验
存储过程
Hologres助力飞猪双11实时数据大屏秒级响应
简介:本文重点介绍Hologres如何落地阿里巴巴飞猪实时
数仓
场景,并助力飞猪双11实时数据大屏3秒起跳,全程0故障。
阿里云云栖号
·
2020-11-30 11:08
react.js
Hologres助力飞猪双11实时数据大屏秒级响应
简介:本文重点介绍Hologres如何落地阿里巴巴飞猪实时
数仓
场景,并助力飞猪双11实时数据大屏3秒起跳,全程0故障。
阿里云云栖号
·
2020-11-30 10:06
react.js
Go 大数据生态迎来重要产品 CDS
不过要想使用ClickHouse搭建起
数仓
用于数据分析,一个重要的问题就是数据如何进入ClickHouse?
kevinwan
·
2020-11-27 12:41
golang
Hologres是如何完美支撑双11智能客服实时
数仓
的?
简介:本文重点介绍Hologres如何帮助阿里巴巴客户体验部(CCO),构建集实时化、自助化、系统化于一体的用户体验实时
数仓
,完美助力双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。
阿里云云栖号
·
2020-11-26 13:03
javascript
数仓
维度建模系列-
数仓
规范篇
本系列将持续更新
数仓
建模相关知识,将学习到的理论知识和工作实践结合起来,总结沉淀下来,积跬步成千里。上一篇介绍了维度建模体系的搭建,这次来分享下搭建数据仓库涉及的各种规范。
NetEaseResearch
·
2020-11-26 10:23
大数据
大数据
数据仓库
数据分析
数仓建模
数据系统架构-3.数据仓库设计
目标数据仓库设计的目标,就是把过去已经发生的非结构化的日志数据转成结构化的数据与后端关系型的数据库里的数据资源进行有效的整合和存储;数据按照特定的逻辑生成不同层级的数据表,以供业务分析人员低成本的使用数据;良好的
数仓
设计可以保证逻辑的复用
叶之城
·
2020-11-24 21:29
大数据
数据仓库
系统设计
技本功|Hive优化之监控(三)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的技能。
云掣科技
·
2020-11-24 21:28
运维
mysql
大数据
优化
云服务
技本功|Hive优化之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣科技
·
2020-11-24 21:24
大数据
hive
spark
上一页
59
60
61
62
63
64
65
66
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他