E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
行为
数仓
分层案例ODS& DWD& DWS&DM& ADS
一、
数仓
分层ODS:OperationDataStore原始数据DWD(数据清洗/DWI)datawarehousedetail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表PS:DWB:
清平の乐
·
2020-08-25 16:22
大数据开发
数仓设计和数据处理
实时计算 Flink 版 最佳实践
解决方案金融行业的实时
数仓
建设实践IoT行业行业背景物联网(Internet
阿里云云栖号
·
2020-08-25 14:04
我是程序员
云栖号技术分享
自然语言处理
自动驾驶
游戏
广告
芯片
基于 Flink 的实时
数仓
典型 ETL场景实现方案
本文将从
数仓
诞生的背景、
数仓
架构、离线与实时
数仓
的对比着手,综述
数仓
发展演进,然后分享基于Flink实现典型ETL场景的几个方案。
GOD_WAR
·
2020-08-24 21:45
Flink
flink
ETL
实时数仓
数仓
构建步骤
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建
o.o沧海一粟
·
2020-08-24 20:45
数仓
数据仓库介绍与实时
数仓
案例(转载)
**数据仓库介绍与实时
数仓
案例(转载)**https://yq.aliyun.com/articles/691541?
huang_w_z
·
2020-08-24 19:17
大数据
基于 Flink 的典型 ETL 场景实现方案
作者:买蓉·美团点评高级技术专家整理:赵阳(Flink社区志愿者)校对:苗浩冲(Flink社区志愿者)本文将从
数仓
诞生的背景、
数仓
架构、离线与实时
数仓
的对比着手,综述
数仓
发展演进,然后分享基于Flink
Ververica
·
2020-08-24 19:48
数据仓库
数据库
大数据
编程语言
java
精打细算使用MaxCompute搭建
数仓
MaxCompute是一套阿里自主研发的数据仓库解决方案。产品除了功能、性能、简单等优势外,还能在费用上节省下一大笔前。墨迹天气使用MaxCompute,除了性能和稳定性也有提升外,整体存储和计算的费用比之前节省70%。这是如何做到的呢,这里有一些常用的规则。在讨论如何做到之前,我们先看下MaxCompute是如何计费的。根据目前的文档,目前的计费方式包含数据的存储、数据的下载以及计算费用。其中计
weixin_34221276
·
2020-08-24 19:40
canal反向同步
数仓
方案
canalCanal是阿里巴巴开源的一款主要用于数据库同步业务的项目,基于数据库的日志解析,获取增量变更进行同步,由此衍生出了Canal增量订阅&消费的实时数据库同步。目前阿里内部版本已经支持mysql和oracle部分版本的日志解析,当前的canal开源版本支持mysql5.7及以下的版本。基本原理:canal模拟mysqlslave的交互协议,伪装自己为mysqlslave,向mysqlmas
SCOFIELD_e4ab
·
2020-08-24 18:01
字节跳动基于Flink的MQ-Hive实时数据集成
在数据中台建设过程中,一个典型的数据集成场景是将MQ(MessageQueue,例如Kafka、RocketMQ等)的数据导入到Hive中,以供下游
数仓
建设以及指标统计。
ApacheFlink
·
2020-08-24 17:38
flink
Hive_数据仓库_数据类型的选择
Hive有很多的基础数据类型,在实际构建
数仓
的这么多数据类型,我们该如何选择呢?
高达一号
·
2020-08-24 16:21
Hive
数仓设计
Hive迁移Presto的技术实践
欢迎关注我们的公众号:OPPO_techhive设计之初,就被定位一款离线
数仓
产品,虽然Hortonworks喊出了MakeApacheHive100xFaster的牛逼口号,也在上面做了大量的优化,然而性能提升依旧不大
OPPO互联网技术
·
2020-08-24 16:42
数据仓库
大数据
hive
presto
shell执行hive sql 中文乱码,hue执行中文正常
在CDH集群搭建完成后开始搭建
数仓
部分,首先是在HUE下执行sql等,一个产品线由ods->dwb->dwd->dws就绪后开始配置脚本,可是在脚本中有些是对中文字段的处理,定时执行后的脚本中文全部乱码
xuewen_1008
·
2020-08-24 12:22
hive
shell
Shell脚本中执行Hive语句插入中文数据乱码
问题描述通过shell脚本插入数据到hive
数仓
,出现中文乱码。
月正明
·
2020-08-24 12:21
Hive
基于用户SparkALS推荐系统
①基于用户SparkALS数据源数据源来自
数仓
平台,shopcar表记录登录用户购物车及商品信息;collect表记录登录用户收藏记录,收藏类型(1商品2品牌);browse表记录登录用户浏览记录,收藏类型
天狗白浪
·
2020-08-24 01:21
大数据
Apache Pulsar 在 BIGO 的性能调优实战(上)
随着业务的迅速增长,BIGO消息队列平台承载的数据规模出现了成倍增长,下游的在线模型训练、在线推荐、实时数据分析、实时
数仓
等业
·
2020-08-24 00:00
dev
数据仓库 — 10_
数仓
建模理论(基本分层模型、关系建模和维度建模、事实表和维度表)
文章目录1
数仓
分层1.1基本分层模型1.2数据集市和数据仓库2
数仓
理论2.1范式理论2.2关系建模和维度建模2.2.1关系建模2.2.2维度建模2.2.2.1维度建模的三种模型2.3维度表和事实表2.3.1
文泽路小男孩
·
2020-08-23 21:05
大数据
数据仓库 — 09_Hive的安装与配置(linux环境下Hive的安装、Hive集成Tez)
测试2.4注意事项2.4.1集成tez后,插入数据失败2.4.2解决方法欢迎访问笔者个人技术博客:http://rukihuang.xyz/学习视频来源于尚硅谷,视频链接:尚硅谷大数据项目数据仓库,电商
数仓
文泽路小男孩
·
2020-08-23 21:04
大数据
地理位置数据逆编码解析
文章目录前言数据从Hive中导出到MySQL调用百度地图的第三方API对经纬度信息进行逆编码解析前言应用场景:Hive
数仓
中有一张近三千万条数据的地理位置参考表A,但是表A中原来的数据字段中仅仅包含了国家信息
提灯寻梦在南国
·
2020-08-23 20:54
数据库
地理位置逆编码
百度地图API
limit分页查询
SQL查询的底层运行原理深入分析
如果你是做
数仓
开发的,那么写SQL可能占据了你的大部分工作时间。我们在理解SELECT语法的时候,还需要了解SELECT执行时的底层原理。只有这样,才能让我们对SQL有更深刻的认识。
·
2020-08-23 17:28
SQL查询的底层运行原理分析
如果你是做
数仓
开发的,那么写SQL可能占据了你的大部分工作时间。我们在理解SELECT语法的时候,还需要了解SELECT执行时的底层原理。只有这样,才能让我们对SQL有更深刻的认识。
西贝木土
·
2020-08-23 11:37
java
mysql
sql
SQL查询的底层运行原理分析
如果你是做
数仓
开发的,那么写SQL可能占据了你的大部分工作时间。我们在理解SELECT语法的时候,还需要了解SELECT执行时的底层原理。只有这样,才能让我们对SQL有更深刻的认识。
西贝木土
·
2020-08-23 09:39
java
mysql
sql
基于 Flink 的实时
数仓
平台
我们组目前负责部门的大数据平台,既搭建平台,也是数据开发,还是业务开发。当前数据链路大概如下:埋点数据,日志-》kinesis-》s3-》presto-》mysql-》报表。还有机器学习等。这些全是依赖aws提供的服务来构建的。为了不影响后续的开发,需要从新梳理流程,优化流程。经过分析,我们目前主要是统计分析性质的,使用presto、flink处理数据,然后汇总到mysql上。从这里可以看出,我们
zhdan~
·
2020-08-23 04:32
flink
数仓
项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)(上)
hdfsredishbase/elasticsearchkafkamysql数据的运算hiveMRSparkcore/sql/streamingflink算法基本统计算法图计算SparkGraphix机器学习
数仓
Logan_Yang
·
2020-08-23 03:02
电商
数仓
项目总结
1.3.3.22,Sqoop-1.4.6,Mysql,HDFS,Hive-1.2.1,Tez-0.9.1,Presto0.196,yanagishima-18.0,azkaban-2.5.0,Ganglia整体架构
数仓
分层
老菜啦
·
2020-08-23 03:53
数据仓库实战(一):
数仓
分层分域规范
接下来的文章中逐步介绍以下内容:数据仓库实战(一):
数仓
分层分域规范数据仓库实战(二):
数仓
表命名规范数据仓库实战(三):
数仓
大大大侠er
·
2020-08-23 02:55
数仓
CUBE操作术语备忘
SLICE(切片)将某一个(或多个)维度上的值锁定,只观察当这个维度取这个值时的情形,相当于将一个立方体做了一个切片。DICE(切块)将某一个(或多个)维度上的值固定在一个区间内,观察这个取值区间内cube的情形,相当于将一个立方体做了一个切块。ROLLUP(上卷)沿着某一个(或多个)维度进行聚合,观察聚合后其他维度上的汇总数据,相当于将一个立方体沿着某个维度压缩(聚合)在一起。DRILLDOWN
bluishglc
·
2020-08-23 01:21
数仓
知识02_相关名词解释(英文缩写)
随着大数据的到来,经常听到相关的词汇,维度、指标、BI、PV、UV等等,今天整理了这些词汇。1.DWDW是DataWarehouse的缩写,即数据仓库。DW要区别于普通数据库,数据仓库用于支持决策,面向分析型数据处理;而普通数据库主要服务于软件/网站,对于一致性/事物要求较高。数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据
清平の乐
·
2020-08-23 01:57
数仓设计和数据预处理
数仓设计和数据处理
数仓
架构设计方法论
数仓
之父比尔·恩门(BillInmon)在1991年出版的《BuildingtheDataWarehouse》一书中所提出的定义被广泛接受:数据仓库是一个面向主题的(SubjectOriented)、集成的
互联网工匠
·
2020-08-23 01:39
程序员
大数据
数仓
www.cnblogs.com/drjava/p/10465814.html码表案例https://blog.csdn.net/m0_37294838/article/details/89575917
数仓
建模
高级大数据工程师
·
2020-08-23 00:14
浅谈
数仓
什么叫数据仓库?数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,它用于支持企业或组织的决策分析处理。数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。首先,用于支持决策,面向分析型数据处理,它不同于
毛凯民
·
2020-08-23 00:30
数据仓库
大数据和云计算技术周报(第154期)
本期会给大家奉献上精彩的:微服务、Flink、
数仓
、Hbase、spark、hive、MongoDB、ES。全是干货,希望大家喜欢!!!
大数据和云计算技术
·
2020-08-22 20:43
HBase 的MOB压缩分区策略介绍
社区系列文章:新
数仓
系列:HBase关键能力和特性梳理HBase和Cassandra的浅谈新
数仓
系列:Hbase周边生态梳理(1)HBase设计之rowkey设计介绍HBase中等对象(MOB---MediumObject
大数据和云计算技术
·
2020-08-22 20:43
大数据与云计算技术周报(第152期)
本期会给大家奉献上精彩的:TensorFlow、Flink、Binlog、MVP、spark、知识图谱、
数仓
、Hudi。全是干货,希望大家喜欢!!!
大数据和云计算技术
·
2020-08-22 20:42
数据库
编程语言
知识图谱
人工智能
微软
大数据分析中使用关系型数据库的关键点
在我们正式的大数据团队,
数仓
(数据仓库Hive+HBase)的数据收集同样来自Oracle或MySql,处理后的统计结果和明细,尽管保存在Hive中,但也会定时推送到Oracle/MySql,供前台系统读取展示
weixin_34319640
·
2020-08-22 19:56
OLAP
数仓
进阶:主流开源OLAP系统的分类及核心技术点
前一篇文章从OLTP出发,通过对比引出OLAP,进一步介绍了
数仓
的基本概念,包括多维数据模型、数据立方体及其典型操作等。本篇再进一
大数据星球-浪尖
·
2020-08-22 18:41
数据库
大数据
编程语言
hadoop
人工智能
数仓
|大数据时代,维度建模过时了吗?
20世纪80年代末期,数据仓库技术兴起。自RalphKimball于1996年首次出版TheDataWarehouseToolkit(Wiley)一书以来,数据仓库和商业智能(DataWarehousingandBusinessIntelligence,DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术--维度建模(dimensionalmodelling),该方法是在实践观察的基础
西贝木土
·
2020-08-22 16:30
数据仓库
直播 | 即将发版的 Flink 1.11 有哪些重大变更?
Meetup精华看点Flink1.11、Spark3.0、Alink1.1.1等大数据热门开源软件核心开发者帮你圈出最新版本重点实时
数仓
、数据湖、HSAP架构能干啥一次讲清楚更有一线生产环境
ApacheFlink
·
2020-08-22 15:19
flink
大数据
大数据处理
实时计算
流计算-storm
数仓
系列 | Flink 窗口的应用与实现
主要内容如下:整体思路与学习路径应用场景与编程模型工作流程与实现机制Tips:点击「下方链接」可查看更多
数仓
系列直播视频~
数仓
系列直播:http
ApacheFlink
·
2020-08-22 15:01
flink
实时计算
流计算-storm
大数据处理
大数据
Java代码访问hive
数仓
1、增加hdfs的配置,在core-site.xml文件中添加如下配置hadoop.proxyuser.hadoop.hosts*hadoop.proxyuser.hadoop.groups*其中配置中的第二个hadoop是登陆主机的用户名2、启动hive的服务,包括启动元数据服务和hiveserver2服务器,执行如下两条命令hive--servicemetastore&hive--servic
sunqingok
·
2020-08-22 13:06
hive
java
hive
数仓
规范|使SQL更易于阅读的几个小技巧
无论是
数仓
开发还是数据分析,写一手好的SQL是一项基本的技能。毋庸置疑,编写性能较好的SQL是非常重要的,但是,SQL的可读性同样是不容小觑的。
西贝木土
·
2020-08-22 13:49
数据仓库
如何设计实时数据平台(技术篇)
在上篇(设计篇)中,我们从现代
数仓
架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手,介绍RTDP
宜信技术学院
·
2020-08-22 12:32
大数据
数据建模
Blink 有何特别之处?菜鸟供应链场景最佳实践
阿里妹导读:菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时
数仓
的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?
阿里云云栖号
·
2020-08-22 12:02
blinker
性能
配置
基于MaxCompute的
数仓
数据质量管理
随着业务的增加,数据的应用越来越多,企业在创建的
数仓
过程中对数据的管理也提出了更高的要求,而数据质量也是
数仓
建设过程不容忽视的环节。本文针对MaxCompute
数仓
建设过程中如何
阿里云云栖号
·
2020-08-22 12:43
监控
配置
数据仓库
数据管理
从数据整理到业务计算的最佳工具
在企业里数据通常是由IT人员负责,统一组织数据抽取、数据变换和加载
数仓
的流程,即ETL,之后再提供给业务人员或可视化系统,数据从RawStage到RefinedStage再到ProductionStage
ertyee42
·
2020-08-22 00:08
hive
数仓
里建立日期维表
2019独角兽企业重金招聘Python工程师标准>>>生成日期维表和数据当然会想到要用存储过程procedure,但hive还不支持,所以通用的方法就是在mysql或oracle里生成好在导入hive,或者需要手动集成HPL/SQL–ProceduralSQLonhadoop,下为集成方法:1.什么是hpsql目前版本的hive中没有提供类似存储过程的功能,使用Hive做数据开发时候,一般是将一段
weixin_33690367
·
2020-08-21 22:14
时间维度表-
数仓
中最重要的维度之日期维度
日期维度是我们最常用的维度,平台初始,最先初始化的可能就是日期维度,这里我们就简单介绍下日期维度。什么是日期维度我们日常生活,数据的产生都和日期有关,每一分、每一秒都会产生数据,数据分析也离不开日期。日期维度就是一张固化的日历,一年365天,每一天都有,我们打开电脑中的日历:日历这里面有的,我们都可以固化下来,像周几、农历、年、月、日、节假日,我们都可以固化下来,方面我们分析的时候使用。日期维度的
JNSimba
·
2020-08-21 21:52
数据仓库
数据仓库日期维表怎么做
最近终于有点时间了,东拼西凑的设计了一个日期维表,也是
数仓
设计时比较常用的。
任乌拉
·
2020-08-21 21:01
大数据总线平台DBus设计思路与工作原理
一、背景企业中大量业务数据保存在各个业务系统数据库中,过去通常的同步数据的方法有很多种,比如:各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)由统一的
数仓
平台通过sqoop
宜信技术学院
·
2020-08-21 19:39
大数据
数据采集
数仓
中的缓慢变化维
所以合理处理缓慢变化维也是
数仓
中模型设计比较关键的。举个栗子:每个公司都会有销售人员或者是市场推广人员。在
红色绿豆糕
·
2020-08-21 19:48
数据仓库
大数据实战(三十三):电商
数仓
(二十六)之用户行为数据仓库(十二)用户新增主题
0用户新增主题首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。1DWS层(每日新增设备明细表)1)建表语句hive(gmall)>droptableifexistsdws_new_mid_day;createexternaltabledws_new_mid_day(`mid_id`
秋华
·
2020-08-21 18:00
上一页
63
64
65
66
67
68
69
70
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他