E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
大数据开发,聊聊离线
数仓
和实时
数仓
数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时
数仓
,而实时
数仓
又分为批数据+流数据、批
加米谷大数据张老师
·
2022-02-28 09:39
大数据
数据仓库
大数据
离线
数仓
云上数据仓库解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse云上数据集成解决方案:https://www.aliyun.com/solution/datavexpo/cdp
哎呦不错呦
·
2022-02-28 09:09
数仓
离线
数仓
项目之数据采集
一、采集数据1.准备工作:hadoop安装zookeeper安装kafka安装flume安装sqoop安装2.思想架构:3.架构解析1.使用flume->kafka->flume的原因?在生产环境中我们使用架构不能局限于当下,在采集日志数据的时候采用flume->kafka->flume架构的好处有以下几点(1)如果直接使用flume,按照现在来说也是可以的,但是公司需要发展,使用flume->k
qq_45688530
·
2022-02-28 09:08
kafka
zookeeper
etl
分布式
hadoop
实时
数仓
与离线
数仓
总结(一)
>>>今天主要聊聊
数仓
的基础知识,分为两篇文章介绍,这是第一篇。主要内容:
数仓
基本概念
数仓
架构演变实时
数仓
和离线
数仓
的区别
数仓
基本概念首先说一下数据仓库的概念,以下简称
数仓
。
程序员小陶
·
2022-02-28 09:08
数据仓库
数据库
大数据
python
数据分析
离线
数仓
搭建——集群准备
大数据集群搭建文章目录大数据集群搭建一、虚拟机环境准备(1)系统以Centos-7.5-x86-1804为例最小化安装后,使用yum安装基本的工具,安装epel-release(2)安装net-tools:工具包集合包含很多命令(3)关闭防火墙以及防火墙开机自启(4)创建用户(5)配置flink用户具有root权限,方便后期加sudo执行root权限命令(6)在/opt目录下创建module(后面
Lucky&Hawk
·
2022-02-28 09:07
hadoop
centos
linux
big
data
离线
数仓
(四)离线
数仓
架构
1.需求分析2.Lambda架构&Kappa架构2.1.Lambda架构Lambda架构总共由三层系统组成的:批处理层(BatchLayer),速度处理层(SpeedLayer),以及用于响应查询的服务层(ServingLayer)。更详细的架构图:批处理层:使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的,能
Yuan_CSDF
·
2022-02-28 09:06
#
离线数仓
kafka
big
data
离线
数仓
和实时
数仓
的区别
01
数仓
数据掘金者
·
2022-02-28 09:05
数据仓库
数据挖掘
数据分析
从百万年薪大佬那里获得的数据仓库面试标准
要点:基础能力
数仓
建模数据治理原理理解工程能力业务能力Q:1.基础能力如何划分级别?
心有猛虎_xy
·
2022-02-27 07:43
数据仓库
大数据
编程语言
人工智能
python
阿里云云原生一体化
数仓
正式发布 助力企业数据驱动业务创新
简介:云原生一体化
数仓
是集阿里云大数据产品MaxCompute、DataWorks、Hologres三种产品能力于一体的一站式大数据处理平台。
·
2022-02-25 17:22
云原生
【理论+实战知识】数据仓库建设保姆级5W字教程2
大数据封面.png上一篇:https://www.jianshu.com/p/beeb4c87db26二、离线
数仓
建设核心数据仓库的核心是展现层和提供优质的服务。
笔名辉哥
·
2022-02-24 14:06
【理论+实战知识】数据仓库建设保姆级5W字教程1
大数据封面.png文档大纲一、
数仓
基本概念1、数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
笔名辉哥
·
2022-02-24 14:42
美团 Flink 大作业部署与状态稳定性优化实践
相关背景大作业部署优化Checkpoint跨机房副本状态稳定性相关优化未来规划FFA2021直播回放&演讲PDF下载一、相关背景美团Flink的应用场景覆盖了社区定义的三种场景:应用比较多的是数据管道场景,比如
数仓
·
2022-02-24 12:21
数仓
建模—数据集市
数据仓库系列文章(持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
—IDMapping
大数据技术派
·
2022-02-23 21:00
数据仓库——数据仓库基础
*
数仓
中是如何划分主题的?主题(Subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。
锦超风采
·
2022-02-23 12:01
面试题
大数据
大数据分析利器之Hive(一):
数仓
与数据库的区别以及hive的各种DDL语法
系列文章目录大数据分析利器之Hive(一)文章目录系列文章目录前言1.数据仓库(15分钟)1.1数据仓库的基本概念1.2数据仓库的主要特征1.3数据仓库与数据库区别1.4数据仓库分层架构2.Hive2.1Hive的概念2.2Hive与数据库的区别2.3Hive的优缺点2.4Hive架构原理3.Hive的交互方式3.1Hive交互shell3.2HiveJDBC服务3.3Hive的命令4.Hive的
BB侠的大数据之旅
·
2022-02-23 12:56
大数据
数据仓库
hive
hdfs
hive
数仓
建模—数据集成
数据仓库系列文章(持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
—IDMapping
大数据技术派
·
2022-02-22 22:00
万字详解数据仓库、数据湖、数据中台和湖仓一体
、前言数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”……50000字详解
数仓
建设保姆级教程
·
2022-02-22 10:24
数据仓库数据中台数据湖
MindsDB—写SQL就能建模的数据库
0、一般建模姿势一般我们根据业务场景进行建模,按以下模块进行处理(这里只讨论机器学习建模):数据预处理:获取所需数据(from数据库or
数仓
)、数据清洗并标签化、特征
·
2022-02-21 18:18
机器学习数据分析数据挖掘数据库
看SparkSQL如何支撑企业级
数仓
企业级
数仓
架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、安全这几个纬度思考。
·
2022-02-21 12:54
数据库字节跳动
看SparkSql如何支撑企业
数仓
企业级
数仓
架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、安全这几个纬度思考。
字节跳动数据平台
·
2022-02-21 12:00
dolphinscheduler docker容器
简介dolphinscheduler是一个开源的调度平台,经常用于
数仓
的ETL场景中,查看官方的源码发现dolphinscheduler已经开始准备docker容器了,但是到docker.hub网站上去看
Nick_4438
·
2022-02-21 07:24
数据仓库与
数仓
建模
u=3186997546,1762170182&fm=26&gp=0.jpg1.数据仓库1.1什么是数据仓库数据仓库,英文名为DataWarehouse,简写为DW或DWH。数据仓库,是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持[1]。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、
鄙人王道长
·
2022-02-21 02:10
数仓
--Hive--面试题准备
数仓
--Hive-面试之Hive与HBase的区别
数仓
--Hive-面试之Hive架构原理
数仓
--Hive-面试之Hive的数据模型及各模块的应用场景
数仓
--Hive-面试之Hive支持的文件格式和压缩格式及各自特点
数仓
李小李的路
·
2022-02-20 09:55
谈数据:微服务环境下,数据如何治理? - 墨天轮
我这哥们儿有过多年的
数仓
架构经验,并参考了业界主流的数据中台架构,很快就“照猫画虎”的搞了一个数据中台架构图出来。当他拿走自己的“得意之作”,找老板汇报的时候,
·
2022-02-19 20:00
数据库VS
数仓
VS数据平台VS数据中台,7000字详解数据平台的演进
目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用。为了统一大家的认知,更加清晰的认识数据中台出现的意义。本文将从数据平台进化演变的角度,对数据中台进行深入的介绍。前言在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀
大数据的那些事
·
2022-02-19 12:26
说说
数仓
(10)-任务注释
数仓
总结目录:说说
数仓
(1)-什么是
数仓
说说
数仓
(2)-传统
数仓
与互联网
数仓
说说
数仓
(3)-
数仓
架构说说
数仓
(4)-指标字典说说
数仓
(5)-最重要的维度之日期维度说说
数仓
(6)-关于命名规范说说
数仓
(7
橘猫吃不胖
·
2022-02-18 18:18
大数据实习生的年终总结,2022继续与CSDN同行
这是我第一次写年终总结,写一写大学学习生活和这一年的成长和经历吧,希望能帮助想走大数据、数据开发、ETL开发、
数仓
,还有需
小袁ITSuper
·
2022-02-18 15:44
实习问题总结
面试
数据开发
大数据
Presto在大数据领域的实践和探索
小编在去年的时候,写过一篇轰动全网的文章《你需要的不是实时
数仓
|你需要的是一款强大的OLAP数据库》,这篇文章当时被各大门户网站和自媒体疯狂转载,保守阅读量也在50万+UV,在这篇文章中提到过Preto
王知无
·
2022-02-18 09:45
新东方基于Hologres实时离线一体化
数仓
建设实践
业务介绍新东方教育科技集团定位于以学生全面成长为核心,以科技为驱动力的综合性教育集团。集团由1993年成立的北京新东方学校发展壮大而来,拥有短期培训系统、基础教育系统、文化传播系统等业务。在互联网大潮中,新东方在IT技术上也不断重构,持续投入大数据建设,研发大数据的相关技术和应用,从而快速而精准地响应业务需求,并用数据为集团各级领导提供决策依据。新东方的大数据应用主要包括两部分:企业应用端的业务场
·
2022-02-17 15:41
云原生一体化
数仓
重磅发布
云原生一体化
数仓
是集阿里云大数据产品MaxCompute、DataWorks、Hologres三种产品能力于一体的一站式大数据处理平台。
·
2022-02-17 12:56
云原生
现场填坑系列:使用bulk操作提高性能,解决mongoshake 向ES同步延迟。
由于在系统中ES类似于
数仓
,很多统计和第三方接系统都需要从ES获取数据,所以也影响了一些其他依赖ES数据的功能和业务。
yizhu2000
·
2022-02-16 22:49
高性能架构
现场填坑
mongodb
elasticsearch
mongoshake
oplog
2022年最强大数据面试宝典(全文50000字)
本文目录:一、Hadoop二、Hive三、Spark四、Kafka五、HBase六、Flink七、
数仓
业务方面八、算法本文因内容较多,带目录的PDF版查看是比较方便的:2022年最强大数据面试宝典PDF
·
2022-02-16 14:16
大数据面试
当 TiDB 遇上 Flink:TiDB 高效入湖“新玩法” | TiLaker 团队访谈
数据湖是大数据领域近年来非常火热的技术,传统
数仓
无法实现增量数据的实时更新,也无法支持灵活的元数据格式,数据湖技术便在这一背景下诞生了。
·
2022-02-15 16:46
数据库
技术揭秘:实时
数仓
Hologres如何支持超大规模部署与运维
通过该评测,证明了阿里云实时
数仓
Hologres能够作为数据仓库和大数据平台的基础设施,可以满足用户建设大规模数据仓库和数据平台的需求,具备支撑关键行业核心业务数据平台的能力。
·
2022-02-14 10:23
运维数据库
电商
数仓
架构介绍
1.
数仓
分层概述数据仓库分为三层,自下而上为:数据引入层(ODS,OperationDataStore)数据公共层(CDM,CommonDataModel)数据应用层(ADS,ApplicationDataService
全力以赴8
·
2022-02-13 11:48
基于 Flink + Hive 构建流批一体准实时
数仓
基于Flink+Hive构建流批一体准实时
数仓
基于Hive的离线
数仓
往往是企业大数据生产系统中不可缺少的一环。Hive
数仓
有很高的成熟度和稳定性,但由于它是离线的,延时很大。
GOD_WAR
·
2022-02-13 10:13
Flink
flink
实时数仓
基于FlinkSql1.10.0 搭建实时
数仓
一、数据同步方案图片.png二、技术选型2.1开源框架与阿里云架构对比分类阿里云架构开源架构数据采集DTS、DataHubcanal、flume数据传输DTS、DataHubkafka数据存储Rds、AnalyticDBMysql、HBase数据计算阿里云实时计算Flink、spark2.2Binlog数据采集CanalCanal项目地址:https://github.com/alibaba/ca
卡戎li
·
2022-02-13 01:38
数仓
--DW--Hadoop
数仓
实践Case-09-杂项维度
杂项维度概述杂项维度就是一种包含的数据具有很少可能值的维度。事务型商业过程通常产生一系列混杂的、低基数的标志位或状态信息。与其为每个标志或属性定义不同的维度,不如建立单独的将不同维度合并到一起的杂项维度。这些维度,通常在一个模式中标记为事务型概要维度,一般不需要所有属性可能值得笛卡尔积,但应该至少包含实际发生在源数据中得组合值。例如,在销售订单中,可能存在很多离散数据(yes-no这种开关类型得值
李小李的路
·
2022-02-12 18:59
专治
数仓
疑难杂症!美团点评 Flink 实时
数仓
应用经验分享
实时
数仓
建设目的解决传统
数仓
的问题实时
数仓
是一个很容易让人产生混淆的概念。实时
数仓
本身似乎和把PPT黑色的背景变得更白一样,从传统的经验来讲,我们认为
数仓
有一个很重要的功能,即能够记录历史。
Flink中文社区
·
2022-02-12 09:55
数仓
-概念的理解和方法论
数仓
-概念的理解和方法论大数据相关概念什么是大数据大数据主要涉及的行业对
数仓
相关概念的初步理解
数仓
数据集市数据中台(数据仓库和数据中台区别)数据湖olap区别前置知识-分析、事实、维度、度量、指标、指标体系
zdkdchao
·
2022-02-11 11:16
数据仓库
big
data
大数据面试题集
史上最全大数据面试题V3.1(特辑)目录:一数据仓库1.维表和宽表的考查(主要考察维表的使用及维度退化手法)2.
数仓
表命名规范3.拉链表的使用场景4.数据库和数据仓库有什么区别5.有什么维表时间维表、用户维表
hzp666
·
2022-02-11 11:45
数据库
Hadoop
hive
hdfs
hadoop
大数据
面试题
一、指标体系搭建
①搭建指标体系的目的1、指导
数仓
建设 ETL数据清洗治理2、统一指标口径 在不同业务场景、不同部门,统一口径3、对内衡量业务发展 指标建设的最终目的还是为了辅助产品迭代,而衡量业务的发展现状;
风图莫
·
2022-02-11 09:14
BIGO 使用 Flink 做 OLAP 分析及实时
数仓
的实践和优化
本文整理自BIGOStaffEngineer邹云鹤在FlinkForwardAsia2021的分享。主要内容包括:业务背景落地实践&特色改进应用场景未来规划FFA2021直播回放&演讲PDF下载一、业务背景BIGO是一家面向海外的以短视频直播业务为主的公司,目前公司的主要业务包括BigoLive(全球直播服务),Likee(短视频创作分享平台),IMO(免费通信工具)三部分,在全球范围内拥有4亿用
·
2022-02-09 18:23
关于实时
数仓
在开源盛世的今天,实时
数仓
的建设业界已经有了成熟的方案。技术选型上实时计算、消息队列都有最优解,唯独在OLAP领域,百家争鸣,各有所长。
夜丨雨
·
2022-02-09 15:49
StreamingFileSink压缩与合并小文件
另一个是Flink-HdfsConnector,这两种connector实现的Exectly-Once都是基于Flinkcheckpoint提供的hook来实现的两阶段提交模式来保证的,主要应用在实时
数仓
Flink实战剖析
·
2022-02-08 18:28
cdh6.3.2安装
1.
数仓
之ClouderaManager1.1CM简介1.1.1CM简介ClouderaManager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内
coderKeNan
·
2022-02-07 14:35
大数据
数据库
big
data
运维
hive性能调优详解系列之hive语法和参数层面调优_
数仓
工程师必备hive调优方案
hive作为
数仓
工程师必不可缺少的计算组件,在工作中经常遇到一些调优问题,本篇文章是hive性能调优详解系列之第二篇hive语法层面调优。
老姜的数据江湖
·
2022-02-06 11:59
大数据数仓
hive
hadoop
数据仓库
2019-05-25
阿里云maxcompute
数仓
建设规范学习,极客时间大数据课程学习等。
bigtian
·
2022-02-06 07:06
说说
数仓
(9)-上下游约定
数仓
总结目录:说说
数仓
(1)-什么是
数仓
说说
数仓
(2)-传统
数仓
与互联网
数仓
说说
数仓
(3)-
数仓
架构说说
数仓
(4)-指标字典说说
数仓
(5)-最重要的维度之日期维度说说
数仓
(6)-关于命名规范说说
数仓
(7
橘猫吃不胖
·
2022-02-06 01:15
汤楚熙:美团实时
数仓
架构演进与建设实践
分享嘉宾:汤楚熙美团编辑整理:李瑶DataFun出品平台:DataFunTalk导读:大家好,我叫汤楚熙,来自美团数据平台中心的计算平台团队,当前主要工作内容是实时
数仓
平台的研发。
·
2022-02-06 00:00
dev
上一页
50
51
52
53
54
55
56
57
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他