E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
数据仓库架构及模型设计基础
注:本文所有内容摘自《Hadoop构建数据仓库实践》1.
数仓
架构1.1数据集市架构数据集市是按主题域组织的数据集合,用于支持部门级的决策。有两种类型的数据集市:独立数据集市和从属数据集市。
大数据私房菜
·
2020-07-06 14:46
数据仓库
Hadoop
TiDB 慢查询排查和优化
而对于OLTP业务,同样存在着类似的卡点,即业务慢查询会对实时
数仓
的服务能力产生很大影响。
desYang
·
2020-07-06 10:42
数据库
深入解析数据仓库中的缓慢变化维
前言最近公司在招聘
数仓
开发,笔者负责技术方面的一些问题,缓慢变化维自然是不可缺少的环节。
杏仁技术站
·
2020-07-06 09:31
HAWQ取代传统
数仓
实践(十九)——OLAP
一、OLAP简介1.概念OLAP是英文是On-LineAnalyticalProcessing的缩写,意为联机分析处理。此概念最早由关系数据库之父E.F.Codd于1993年提出。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合和组织整理后的数据。以此为标准,OLAP作为单独的一类技术同联机事务处理(On-LineTransactionProcessing,OLTP)得以明显区分。在
wzy0623
·
2020-07-06 08:23
BI
电商
数仓
:用户行为数据仓库(一)数据仓库建设和技术选型
文章目录数据仓库概念项目需求分析架构设计技术选型系统结构设计数据流程设计框架和版本选型集群资源规划设计数据仓库概念数据仓库(DataWareHouse),简写为DW或DWH,为企业决策制定过程,提供所有系统数据支持的战略集合,通过对数据仓库中的数据分析,帮助企业改进业务流程,控制成本,提高产品质量数据仓里不是数据的最终目的地,而是为数据最终目的地做好准备,这些准备对数据:清洗,转义,分类,重组,合
_张不帅
·
2020-07-06 08:07
电商数仓:用户行为数据仓库
实时
数仓
与离线
数仓
在开发上的区别
离线方案的调度周期决定了其使用场景,及时性及准确性可以按照产出批次进行监控,如果数据出错存在修复的可能。实时任务是常驻任务,一旦出现错误,就将直接被用户感知,且刷掉错误数据较为麻烦,因此对数据质量,及其监控手段的要求更高。且大屏等高级场景需要进行压测、并进行多链路搭建来保障数据及时可用。实时计算不能完全照搬离线层级,应该合并计算单元,降低拓扑层级,在降低资源占用的同时提高可用性。离线存储空间巨大,
冬熊夏狗
·
2020-07-06 07:28
实时数仓
OPPO 实时
数仓
揭秘:从顶层设计实现离线与实时的平滑迁移
摘要:单日总数据处理量超10万亿,峰值大概超过每秒3亿,OPPO大数据平台研发负责人张俊揭秘OPPO基于ApacheFlink构建实时
数仓
的实践,内容分为以下四个方面:建设背景顶层设计落地实践未来展望重要
Ververica
·
2020-07-06 06:16
如何设计RTDP(上篇)
在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代
数仓
架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。
敏捷大数据
·
2020-07-06 03:22
敏捷大数据
数据仓库、数据库的对比介绍与实时
数仓
案例
2019独角兽企业重金招聘Python工程师标准>>>数据仓库和数据库的区别一、数据仓库什么是数据仓库?数据仓库(DataWarehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业,为需要指导业务流程改进、监视时间,成本,质量以及控制等;数据仓库能干什么?(举几个栗子)年度
weixin_34306593
·
2020-07-06 01:36
美团点评实时
数仓
实践
主要内容如下:实时
数仓
建设目的如何建立实时
数仓
仓库质量保证实时
数仓
建设目的解决传统
数仓
的问题实时
数仓
是一个很容易让人产生混淆的概念。
过往记忆
·
2020-07-05 19:47
数仓
岗位常见面试问题
1.自我介绍2.说下最近的项目,你当时负责的哪个岗位?是甲方还是乙方,就是IT部门是吧,你负责的前台处理还是后台etl的处理?3.你主要用的一些etl工具有哪些?调度呢?自己有没有配置调度文档之类的?4.从原系统的数据抽过来到我们数据仓库这个系统,一般分哪几种场景去抽这个数据?是每天调,还是一个月调,还是一次性调完?5.那你在抽数的过程中有没有碰到过哪些数据问题或者性能问题?比如数据量变少,或者数
Sql Boy
·
2020-07-05 17:48
SQL
Hive
关于OLAP
数仓
,这大概是史上最全面的总结!(万字干货)
文|温正湖源|知乎有哪些类型的OLAP
数仓
?按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对
数仓
产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所
大数据技术架构
·
2020-07-05 16:41
专治
数仓
疑难杂症!美团点评 Flink 实时
数仓
应用经验分享
主要内容如下:实时
数仓
建设目的如何建立实时
数仓
仓库质量保证Tips:点击「阅读原文」链接可查看作者原版PPT及分享视频~实时
数仓
建设目的解决传统
数仓
的问题实时
数仓
是一个很容易让人产生混淆的概念。
大数据技术架构
·
2020-07-05 16:10
Flink实时计算
美团点评基于 Flink 的实时
数仓
平台实践
摘要:数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而Flink实时
数仓
在数据链路中扮演着极为重要的角色。
大数据技术架构
·
2020-07-05 16:09
Flink实时计算
大数据实时数仓
Flink
实时数仓
实时平台
维度建模简介
1、维度建模VS范式(3NF)建模建模方法开发周期开发成本数据冗余维护成本维度建模(Kimball)短低有高范式建模(Inmon)长高无低在
数仓
模型架构设计中,维度建模以星型模型为主。
sexy_orange
·
2020-07-05 11:51
数据仓库
大数据
数仓
项目总结(一)需求、技术选型、框架版本、服务器、集群规模
文章目录一.需求描述1)项目大致需求2)需考虑的问题二.项目框架及选型1.技术选型2.项目架构与数据流程3.框架版本选择1)Hadoop发行版本选择2)Apache框架版本具体型号4.服务器选型5.集群资源规划设计6.测试集群规划一.需求描述数据仓库(DataWaehouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本
PassionZheng
·
2020-07-05 11:07
大数据
离线
数仓
-数据增量采集与同步
方式1:1、流水性数据:写入数据库后不再发生变化的日志流水数据每日可以按照数据时间进行增量采集,采集后放入
数仓
的ods--query"select...from...where...andupdated_time
qq_36039236
·
2020-07-05 05:48
离线数仓
flink学习笔记-flink实时
数仓
-实时同步msql数据到hbase(mysql->max-well->kafka->flink->hbase)
为了解决公司数据统计,数据分析等各种问题,我们可以有很多手段,最常用的手段就是通过构建数据仓库的手段来实现我们的数据分析,数据挖掘等,其中,数据仓库基本上都是统计前一天的数据,或者最近一段时间的数据,这就决定了数据仓库一般都是使用离线的技术来实现,通过离线的技术手段,来实现前一天或者近一段时间的数据统计功能,为了解决数据统计的时效性问题,我们也可以通过实时的手段来构建数据仓库,通过流式API,结合
小猿学习笔记
·
2020-07-05 03:59
fiink
新一代数据仓库HAWQ的体系架构
从首次提出到发展至今,数据仓库大概可以分为三个阶段,第一阶段是采用共享架构的传统数据仓库,这类
数仓
主要是面向传统的BI分析,可扩展性较差,大概是十几个节点;第二阶段是无共享架构的MPP,这类
数仓
主要是面向有复杂需求的传统
偶数科技
·
2020-07-05 01:44
漫谈 | 大牛带你从0到1构建数据仓库实战
本文从
数仓
架构之流派之争,
数仓
建设之三步调研,划分主题域和总线矩阵,
数仓
架构之美,数据治理和数据质量等全局展开。
仙子紫霞
·
2020-07-05 00:44
数据仓库
数据中台
基本
数仓
建设(含最详细步骤)
最简单
数仓
建设,原理:将所有源数据抽取到同一个地方,建模,加工处理。需求:将不同mysql库数据,抽取到同一个pg库,对抽取数据进行加工,生成报表。如:在B机器上抽取A机器上数据到C机器上。
仙道Bob
·
2020-07-04 20:54
数据仓库
#
DataX
电商
数仓
项目
文章目录一.
数仓
采集1.
数仓
的概念2.项目需求及框架3.数据生成模块4.数据采集模块二.用户行为数据仓库1.
数仓
分层概念2.
数仓
搭建环境准备3.
数仓
环境之ODS层4.
数仓
搭建之DWD层5.业务知识储备6
iimpact
·
2020-07-04 18:00
用Flink取代Spark Streaming,知乎实时
数仓
架构演进
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
千与千寻之前
·
2020-07-04 13:37
数据仓库实践杂谈(六)-数据校验
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2020-07-04 12:08
数据仓库实践
数据仓库实践杂谈-(一)-概述
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2020-07-04 12:37
数据仓库实践
新
数仓
系列:Hbase周边生态梳理(1)
概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新
数仓
”。
言射手
·
2020-07-04 12:37
项目:数据采集 概念架构
文章目录数据仓库概念项目需求及架构设计项目需求分析项目框架技术选型系统数据流程设计框架版本选型服务器选型服务器选型集群资源规划设计数据生成模块目标数据页面事件曝光启动错误数据埋点主流埋点方式(了解)埋点数据日志结构数据仓库概念对数据存储管理给bi提供支持bi从数据中挖掘数据的价值指导企业做决策
数仓
给后续提供支持可视化自己写加密项目或使用第三方可视化框架项目需求及架构设计项目需求分析维度建模一定要掌
VanasWang
·
2020-07-04 09:46
数据采集项目
项目:
数仓
采集(三)(业务数据采集模块Mysql+sqoop+hive 总结)
文章目录MysqlMySQL安装安装包准备安装MySQL配置MySQL业务数据生成连接MySQL生成业务数据sqoopsqoop使用场景Sqoop安装Mysql-hdfs传输应用同步策略(mysql—数据仓库导数据)全量同步策略增量同步策略新增及变化策略特殊策略业务数据导入HDFS分析表同步策略脚本编写项目经验HiveHive安装部署Hive元数据配置到MySQL启动Hive初始化元数据库启动hi
VanasWang
·
2020-07-04 09:45
数据采集项目
尚 大数据项目之开发电商
数仓
01_
数仓
项目介绍.avi02_
数仓
采集_用户行为采集课程介绍.avi03_
数仓
采集_
数仓
的概念.avi04_
数仓
采集_项目需求.avi05_
数仓
采集_项目技术选型.avi06_
数仓
采集_系统数据流程设计
T13187074755
·
2020-07-04 08:49
数据中台与传统数据仓库对比
1、传统数据仓库的特点1、业务主题性:传统的
数仓
要求解决服务问题,比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。
Jmayday
·
2020-07-04 06:09
ETL
数仓
相关
数仓
为什么要分层?在实际项目中,常常根据业务需求的频繁性来确
Fri_ay
·
2020-07-04 05:57
有赞大数据实践: 敏捷型数据仓库的构建及其应用
有赞大数据实践:敏捷型数据仓库的构建及其应用有赞大数据实践:敏捷型数据平台的构建及其应用前言数据仓库设计总体架构数据仓库实例基础指标层分层的好处
数仓
工具数据仓库与数据分析即席查询系统多维分析系统搜索分析系统固定报表系统数据仓库在信息检索中的应用小结前言互联网公司一般发展迅速
Daisy_b2014
·
2020-07-04 05:55
JVM 从入门到精通(二)JVM和Java体系结构
如果你也对数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/
数仓
开发感兴趣,可以关注我的动态https://blog.csdn.net/BeiisBei,让我们一起挖掘
云 祁
·
2020-07-04 04:22
#
----
JVM
从入门到精通
电商
数仓
用户行为数据采集-需求分析和架构设计
电商
数仓
-用户行为数据采集数据仓库的概念数据仓库(DataWarehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。
让优秀成为你的习惯
·
2020-07-04 03:29
大数据实战
实时
数仓
| 你想要的
数仓
分层设计与技术选型
数据仓库概念的提出都要追溯到上世纪了,我们认为在大数据元年之前的
数仓
可以称为传统
数仓
,而后随着海量数据不断增长,以及Hadoop生态不断发展,主要基于Hive/HDFS的离线
数仓
架构可以兴起并延续至今,
大数据技术架构
·
2020-07-04 02:37
Flink实时计算
大数据学习路线(完整详细版)
大数据学习路线大数据开发一共几个流程,大概概括起来有:收集、清洗、
数仓
(建模)、OLAP、可视化这里边:收集一般的技术是:Kafka、Flume、高性能HTTP开发(可能)、Avro协议(可能)、Thrift
✾ ͡冷೨夏ʚɞ͜✿
·
2020-07-04 01:19
大数据学习
大数据开发
Hadoop
大数据
大数据开发
大数据学习
编程语言
程序员
大数据分析利器——clickhouse的简介与应用
大数据分析利器——clickhouse的简介与应用背景介绍公司原有的
数仓
技术架构是基于传统的Hadoop的
数仓
体系,使用任务调度,通过不同的hive的任务调度解决不同的业务主题。
flyinthesky111
·
2020-07-04 00:32
大数据
大数据
clickhouse
CarbonData:大数据融合
数仓
新一代引擎
以CarbonData为融合
数仓
的大数据解决方案,为金融转型打造新一代
数仓
引擎。
华为云
·
2020-07-04 00:31
技术交流
美团点评基于 Flink 的实时
数仓
建设实践
引言近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过Flink引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架Flink与Storm的性能对比》,对Flink和Storm俩个引擎的计算性能进行了比较。本文主要阐述使用Flink在实际数据生产上的经验。实时平台初期架构在实时数据系统
weiqing687
·
2020-07-02 17:01
flink
数仓
分层 数据库仓库实战
回到顶部
数仓
分层ODS:OperationDataStore原始数据DWD(数据清洗/DWI)datawarehousedetail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表
飄落
·
2020-07-02 13:56
数仓
1、
数仓
血缘关系:首先ods表数据是
数仓
源表数据,然后通过一些sql操作ods层数据A,得到表数据B,再通过一些sql操作ods层数据B,得到C这个A,B,C之间就存在血缘关系。
laogooooog
·
2020-07-02 07:35
Apache Doris 在美团点评的实践
https://blog.bcmeng.com/post/meituan-doris.html技术选型背景用户需求WhyNotOtherROLAPWhyDoris典型应用变化维表Join明细+聚合外卖准实时
数仓
small&snail
·
2020-07-02 05:16
java
实战|使用Spark结构化流写入Hudi
https://zhuanlan.zhihu.com/p/133316667欢迎关注微信公众号:ApacheHudi1.项目背景传统
数仓
的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用
吃鱼的羊
·
2020-07-02 02:46
SPARK
Hadoop
实时
数仓
中flink异步io补维操作
在实时数据仓库中,事实表可以通过flink实时清洗到操作数据层ods层。操作基础数据到dw明细数据层需要对一些维度进行补充,形成一个宽表。本文通过异步io的方式对mysql数据库的维度信息进行抽取,同时使用缓存对维度数据进行缓存。线上使用发现这种方式非常稳定。需要注意的是要注意对数据库的连接数需要设置,避免连接数被用尽的情况。packagecom.mgtv.data.dimension;impor
haungtan07
·
2020-07-02 02:07
大数据平台安全建设实践
大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持
数仓
建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。
数据工程师陈晨
·
2020-07-01 21:27
大数据
大数据
人工智能
机器学习
数据挖掘
数据分析
贾扬清明日发布新一代云原生
数仓
与数据湖产品 | 凌云时刻
凌云时刻·极鲜速递6月16日阿里云合作伙伴峰会,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清深度解读飞天大数据与AI平台生态战略,重磅发布新一代云原生
数仓
与数据湖产品,以及飞天大数据与AI
凌云时刻
·
2020-07-01 18:34
Blink 有何特别之处?菜鸟供应链场景最佳实践
阿里妹导读:菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时
数仓
的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?
阿里技术_
·
2020-07-01 17:58
如何高效计算用户留存率
如何高效计算用户留存率简单介绍留存率的概念,说明
数仓
建设中对留存率计算的优化思路什么是留存率在互联网行业中,用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户,被认作是留存用户。
a_void
·
2020-07-01 16:40
数据仓库
推荐大数据排名前六的公众号
从传统
数仓
到大数据,从离线到实时,涵盖
数仓
建模、数据分析、实战经验、ETL、BI、Python爬虫、SQL优化。这儿是
数仓
大佬们的集结地,在这里你会找到
无精疯
·
2020-07-01 16:51
hive离线
数仓
数据采集——基于canal的binlog数据同步方案
目录1.简介2.方案架构3.离线还原数据3.1.数据落盘至hdfs3.2Merge操作3.3Mergesql代码3.3.1首先创建一个快照表来存放test库的binlog日志3.3.2创建一个待还原的ods层hive表3.3.3在hive中还原出与mysql相同的数据(binlog+历史数据)3.3.3.1binlogdemo3.3.3.2全量数据合并3.3.3.3写入数据(同时过滤掉mysql中
IT届的井柏然
·
2020-07-01 11:31
sql
hive
hadoop
上一页
71
72
73
74
75
76
77
78
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他