E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
你知道什么是数据湖吗?数据湖正在成为新的数据仓库
这种趋势基本上始于十年前标准设备进入数据仓库主流,然后随着市场向新一代云
数仓
转移逐渐获得了新
yoku酱
·
2020-03-25 11:38
这么设计实时数据平台,OLAP再也不是个事儿
一、相关概念背景1、从现代
数仓
架构角度看实时数据平台现代
数仓
由传统
数仓
发展而来,对比传统
数仓
,现代
数仓
既有与其相同之处,也有诸多发展点。首先我们看一下传统
数仓
帆软商业智能技术
·
2020-03-23 11:23
大数据
数据分析
数据仓库
BI
五步帮你实现用户画像的数据加工
转自公众号:云栖社区数据融合加工-
数仓
开发大数据仓库特殊引擎提供我们一站式的PB级大数据仓库解决方案,那么,我们如何基于MaxCompute去构建仓库,如何去帮数据进行清洗加工,然后去挖掘出有价值的信息
番茄吵西红柿
·
2020-03-23 01:21
励志仓鼠的养成记
大多
数仓
鼠的寿命在2年半左右,也有长寿的鼠鼠活到3年以上,但毕竟还
小固然思密达
·
2020-03-23 00:56
建设实时
数仓
之前的思考与方案记录
前言随着这次新冠疫情带来的机遇,我司业务飞速增长,实时
数仓
的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。
LittleMagic
·
2020-03-21 18:13
Flume 运维 - Tips
简单粗暴,直入主题,最近
数仓
StreamingETL强依赖Flume作为异构同步手段,开一个帖子专门记录踩过的坑,以及如何爬上来。
大数据之心
·
2020-03-21 03:09
数据管理平台(DMP)创建
写在前面在一年多的数据产品的工作经历中,工作涉及业务范围很广包括广告项目、品牌分析、DMP构建、C端产品的数据相关工作(埋点、
数仓
、数据平台(看板))等,但是都没有过去系统的总结过,接下来将对这些项目做下复盘吧
萌新产品小霸王
·
2020-03-20 14:51
一次Hive数据倾斜优化
背景公司最近在利用hive构建
数仓
,听同事们说在构建一个超宽的维度表时运行时长超6000s,这个时长肯定是不能接受的,不过倒是引起了我的兴趣,让同事把sql发过来看看。
蒋破荒
·
2020-03-19 07:11
数仓
基础概念
数据仓库什么是数据仓库?数据仓库,英文名称为DataWarehouse,关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定
爱喝白开shui
·
2020-03-15 17:22
Remind-You Part2. setup.py打包代码, socket通讯
内容完成dictplugin的服务端启动socket监听将Project使用setuptools进行打包生成客户端程序save_word使用argparse解析命令行参
数仓
库代码中的day2分支https
带不动明少
·
2020-03-15 09:48
2018-12-24 每日原则记录
周一的早上还是参加了常规的
数仓
早会。早会结束后,又到了公司内部的领平安果以及抽奖的活动。活动结束后,已经到了上午11点,时间过的如此的快,快得还没有来
张公子在这等你
·
2020-03-12 08:18
如何建设数据中台?
OneData要求
数仓
所有数据只加工一次,对应到
数仓
的设计层面,要求有统一的维度,对于明细层数据,相同粒度的度量只加工一次,对于汇总层的数据,相同粒度的指标只存在一份。
网易云
·
2020-03-11 16:00
传统数据仓库在大数据平台上的进化
模型的进化一、传统
数仓
的3NF模型&维度模型数据仓库建模中维度建模和3NF建模并不是OR的关系,它们更像是上下层的关系。
iHoneyBadger
·
2020-03-10 23:25
历程剖析:阿里云自研HTAP数据库的技术发展之路
摘要:在阿里云数据库技术峰会上,阿里云高级数据库技术专家队皓庭分享了高度兼容MySQL,并且能免去传统
数仓
ETL过程实现数据分析,同时支持高并发、大吞吐量的在线事务处理的PB级数据存储数据库是如何实现的
阿里云云栖号
·
2020-03-10 22:11
实时
数仓
建设
随着近些年大数据相关技术的飞速发展,数据的在助力业务的发展方面越发重要;数据仓库为企业的决策提供所有数据类型支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。基于hive的离线数据仓库模型已经发展了很多年,市面的优秀参考实践已比较多,但是数据本身的价值随着时间的流逝逐步减弱,因此在数据发生后必须尽快的达到
liujianhuiouc
·
2020-03-10 20:34
tensorflow基础篇
(---茂强)tensorflow的一般建模步骤:数据的输入(这个有很多方法,读取本地文件,或者爬虫网络数据,或者
数仓
都可以)数据的标准化(主要是数据转换成tensorflow能接受的格式)把数据分成训练数据和测试数据设置模型参数
夜尽天明时
·
2020-03-09 19:50
集算器行业案例汇总
B.银行业自助分析前置服务器方案【案例领域】自助分析【案例说明】自助分析要求及时响应,当
数仓
复用严重,前置数据库又不能满
raqsoft
·
2020-03-02 14:25
SPL
集算器
大数据监控平台之解决方案
大数据计算平台大数据采集平台大数据
数仓
建设大数据olap平台大数据流式计算平台大数据业务系统(web_serverservice_api)。。。。以上系统都需要一个良好的数据监控平台。
星星之火在心中
·
2020-02-29 14:17
数据仓库建模教程 数据仓库架构教程 数据仓库分层教程 数据仓库实现教程 建立数据仓库实例教程 独一无二的数据仓库建模指南系列教程升级版(两个系列)
系列一:大讲台——2019数据仓库建模教程精品解析(视频+源码+课件)
数仓
实时场景中的应用.pdf│├─(第一节课)数据仓库的概念和ER实体模型│数据仓库的概念和ER实体模型1.mp4│数据仓库的概念和
java20192019
·
2020-02-28 06:43
golang 简单的读负责均衡
2.在
数仓
拉取数据的时候经常对产线DB造成影响,所以会独立一个从库专门用来拉取,但是这个从库的利用率非常低。
数仓
拉取数据
王清培
·
2020-02-23 16:51
golang
golang
Golang 简单的读负责均衡
2.在
数仓
拉取数据的时候经常对产线DB造成影响,所以会独立一个从库专门用来拉取,但是这个从库的利用率非常低。
数仓
拉取数据
王清培
·
2020-02-23 15:00
数仓
--Hive-面试之Hive设置配置参数的方法,列举8个常用配置
Hive设置配置参数的方法Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。方法一:hive-site.xml配置参数在Hive中,所有的默认配置都在"{HIVE_HOME}/conf/hive-default.xml"文件中,如果需要对默认的配置进行修改,
李小李的路
·
2020-02-22 20:52
Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)
作者:李劲松(之信)如今的大数据批计算,随着Hive
数仓
的成熟,普遍的模式是Hivemetastore+计算引擎。
ApacheFlink
·
2020-02-21 22:44
flink
实时计算
流计算-storm
大数据
大数据处理
Spark难点解析:Join实现原理
首先,我们需要知道
数仓
中表格的分类:按照是否会经常涉及到Join操作,可以
追寻者的小憩书铺
·
2020-02-21 19:35
Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案
包括硬盘上的历史数据,用户网页的点击,传感器等等存储:以各种适合计算的模式集中式存储数据,其中既包含大规模的存储系统(例如
数仓
),也有例如临时的存储(例如Kafka类消息中间件
肆虐的悲傷
·
2020-02-21 16:46
携程机票数据仓库建设之路
作者简介华智,携程高级研发经理,现负责数据仓库技术架构、性能优化、
数仓
规范制定、数据模型设计以及数据应用开发。
·
2020-02-21 00:00
dev
首发|《Apache Flink 年度最佳实践》,揭秘一线大厂实时平台构建实践
甄选ApacheFlink及大数据领域顶级盛会FlinkForwardAsia大会嘉宾精彩分享,覆盖国内外一线大厂实时平台构建的经验分享与实时
数仓
的应用实践,为你揭秘实时计算平台从无到有到有、持续优化的详细细节
ApacheFlink
·
2020-02-20 23:47
flink
大数据
大数据处理
实时计算
流计算-storm
阿里云“数加”是什么鬼?两张大图给你详解
数加是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,覆盖了企业
数仓
、商业智能、机器学习、数据可视化等领域,助力企业在DT时代更敏捷、更智能、更具洞察力。
阿里云云栖号
·
2020-02-17 11:18
数据仓库系统的运维优化
该认证解决通过优化数据抽取过程或数据加工处理过程提升
数仓
系统的数据应用
阿里云大学百科
·
2020-02-17 08:18
数仓
设计标准
1.编码命名规范表命名(根据数据仓库的层级架构确定不同的命名):(1)维度层:说明:定义数据仓库公用的维度表,例如城市维度、用户状态等硬编码维表。DIM_维表业务描述(2)源数据层:说明:直接获取埋点、源系统mysql等数据,做些简单的解析工作,保证和源数据一致。ODS_源系统描述源表名(3)基础层数据:当前表:DW主题域表描述[h|d]历史表:DW_主题域表描述[h|d]HIS(4)集市层数据:
奉先
·
2020-02-14 04:13
Flink 实时
数仓
-思考与总结
1,什么是Flink实时
数仓
。大家做离线开发是的时候数据存储在hdfs或者hive,基于此,不管用什么组件,数据源都是hive,然后定时执行脚本,跑离线任务啥的。
黄瓜炖啤酒鸭
·
2020-02-12 22:56
Flink
实时数仓总结
Flink实时数仓
实时数仓
flink数据仓库
大数据知识点总结
不用写代码Canal对了数据怎么办数据库表的权限管理
数仓
日活、周活、月活比例Java&ScalaJVM运行时数据区JVM的GC机制JVM调优Scala于Java语言相比较,有什么优势?
Mr_WangZz
·
2020-02-09 15:23
金鱼
金鱼温暖显得多余记忆从未巩固怎能历历在目愠怒中了娇嗔的毒误入歧途唏嘘何时肃清流毒高瀑深潭在沐金鱼前方无路水草已枯相遇风尘仆仆寒冷无度冻结水中云雾吞吞吐吐气泡在飞舞灰飞烟灭无
数仓
促流水激荡如故留步难敌美人迟暮鱼目何以混珠如此谬误倾诉不言不语中了沉默的毒吝惜字字句句孤独风雅难附付诸尘土红色的瞳孔麻木眼泪簌簌鱼服残杀相互任人摆布鱼尾被拘涸辙之鲋风骨招惹杀戮名垂千古沐风栉雨落叶遍布深红金鱼酒樽难举
马娜娜
·
2020-02-09 05:30
hadoop-2.10.0安装hive-2.3.6
公司建立
数仓
,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程1.下载hive安装包,下载地址
七星6609
·
2020-02-07 23:00
2019-06-02
跟生才一起梳理ppt,后权家鹏加入,生才毕竟在大公司呆过,对于
数仓
调度机制有一定的研究,在调度,质检等问题的处理上提出不少有用的思路。也一并纳入到重构方案中。
bigtian
·
2020-02-07 05:32
数仓
沉淀-前言
抛开具体的项目,我觉得需要总结沉淀的内容包括:1.技术类,包括
数仓
采用的平台,sql技能,分布式计算的调优等。这些是硬功夫,很容易体现表达出来。
EpsilonDelta
·
2020-02-06 21:00
解决Spark Streaming写入HDFS的小文件问题
在我们的
数仓
体系中,有一部分业务的日志数据来源是RocketMQ。我们
LittleMagic
·
2020-02-06 16:39
数仓
基础入门-10-实践篇
有不少没涉及过
数仓
的同学问我一些比较基础的问题,为了更好的理解前面讲到的一些理论,写一个小小的demo体会一下~~我们要构建一个订单主题,构建订单明细,订单sku,订单粒度三张表。
乌拉乌拉儿
·
2020-02-06 01:17
数仓
数据质量检查
对于从上游数据得到的同一维度字段,在
数仓
数据表的同一层只检查一遍即可。
黄阿喜_IRSA
·
2020-02-01 03:46
Greenplum简介
数仓
/OLAP/即席查询混合负载/HTAP流数据集成数据分析数据库内嵌机器学习现代SQL核心架构架构图MasterHost:主节点,负责协调整个集群没有数据,只有用户的元数据StandbyMaster:
wellDoneGaben
·
2020-01-18 14:00
HyPer: A Hybrid OLTP&OLAP Main Memory Database System Based on Virtual Memory Snapshots
HyPer也是内存数据库传统数据库基本都是TP,后续出现BI的需求,即AP的需求,传统数据库满足不了所以出现了
数仓
,但是需要ETL把TP的数据同步到
数仓
中,进行AP哪怕基于列存的实时
数仓
,也要针对Tp和
fxjwind
·
2020-01-17 20:00
美团点评基于 Flink 的实时
数仓
平台实践
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而Flink实时
数仓
在数据链路中扮演着极为重要的角色。
ApacheFlink
·
2020-01-10 21:18
flink
大数据
大数据处理
实时计算
流计算-storm
从数据整理到业务计算的最佳工具
在企业里数据通常是由IT人员负责,统一组织数据抽取、数据变换和加载
数仓
的流程,即ETL,之后再提供给业务人员或可视化系统,数据从RawStage到RefinedStage再到ProductionStage
raqsoft
·
2020-01-09 17:42
etl
集算器高性能计算汇总
高性能计算数据库-文件型
数仓
New!
raqsoft
·
2020-01-09 17:47
性能优化
美团点评基于 Flink 的实时
数仓
平台实践
一、美团点评实时计算演进美团点评实时计算演进历程在2016年,美团点评就已经基于Storm实时计算引擎实现了初步的平台化。2017年初,我们引入了SparkStreaming用于特定场景的支持,主要是在数据同步场景方面的尝试。在2017年底,美团点评实时计算平台引入了Flink。相比于Storm和SparkStreaming,Flink在很多方面都具有优势。这个阶段我们进行了深度的平台化,主要关注
阿里云云栖号
·
2020-01-04 10:53
美团
flink
实时计算
大数据
流计算-storm
读懂这本书,才算读懂阿里大数据
今年双11,阿里巴巴MaxCompute大数据云
数仓
服务,单日数据吞吐量接近EB级别,任务数达到千万级,而我们所有重保高优先级任务,却都做到了按时产出;同时,我们还通过在离线混部,
阿里云云栖号
·
2020-01-03 02:28
大数据
数据处理
性能
分布式
架构
显微看
数仓
数据仓库一、什么是数据仓库数据仓库,英文名称之为DataWarehouse,可以简写成DW或者DWH。是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它处于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进,监视时间、成本、质量以及控制。二、数据仓库的特点数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库是面向主题进行组织的主题
つ〆以往的誓言゛
·
2020-01-02 16:00
FFA 2019 day-1
StreamComputePlatformFlinkSQL|Streaming|FlinkBatchYARN规模1w+machine100+YarnCluster100+User1k+Streaming1w+flinkbatch应用场景
数仓
平台风控和安全机器学习视频广告核心关注图片
MisterCH
·
2020-01-01 17:11
##[开源]HIVE
数仓
数据血缘分析工具-SQL解析
HIVE
数仓
数据血缘分析工具-SQL解析-thomas0yang的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/thomas0yang/article/details/49449723sql
葡萄喃喃呓语
·
2020-01-01 13:14
物理统一的数据中台
先行行业从BI、
数仓
开始,一点点积累起来全公司的数据,这个过程非常漫长,而且过程中会有多个领域或子公司造的多个
数仓
。
gwm_tyc
·
2019-12-30 14:32
上一页
76
77
78
79
80
81
82
83
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他