E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
阿里云云原生实时
数仓
升级发布,助力企业快速构建一站式实时
数仓
9月14日,阿里云云原生实时
数仓
升级发布。阿里云计算平台的产品专家分享了实时计算Flink版和Hologres构建企业级一站式实时
数仓
的核心能力升级及新功能解读。
·
2022-09-15 16:58
大数据flink数据挖掘
数据治理浅析
数仓
建设真正的难点不在于
数仓
设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,包括资产治理、数据质量监控、数据指标体系的建设等。
ZHAOHUODIAN888
·
2022-09-15 13:27
后端
大数据
java
开发语言
安全
容器
数据仓库建设之
数仓
架构
大家好,不管是离线
数仓
与实时
数仓
,建设的时候都少不了架构设计,今天来学习一下常见的架构及发展演变过程。一、离线
数仓
大数据架构1.
数仓
架构下面详细说明图中的各个组件及其所起的作用。
chimchim66
·
2022-09-15 12:13
数据仓库
数据仓库
big
data
etl
数据仓库建设之主题划分
今天聊一下
数仓
主题设计,其实不同行业不同领域模型设计的都有些不同,本次主要整理一下工作以来遇到的几种典型案例。
chimchim66
·
2022-09-15 12:43
数据仓库
数据仓库
big
data
etl
Databend 特性系列(1)|Databend 数据生命周期
Databend是一个使用Rust研发、开源、完全面向云架构的新式
数仓
,提供极速的弹性扩展能力,致力于打造按需、按量的DataCloud产品体验。
·
2022-09-15 12:14
大数据
智能湖仓架构实践:利用 Amazon Redshift 的流式摄取构建实时
数仓
AmazonRedshift是一种快速、可扩展、安全且完全托管的云数据仓库,可以帮助用户通过标准SQL语言简单、经济地分析各类数据。相比其他任何云数据仓库,AmazonRedshift可实现高达三倍的性能价格比。数万家客户正在借助AmazonRedshift每天处理EB级别的数据,借此为高性能商业智能(BI)报表、仪表板应用、数据探索和实时分析等分析工作负载提供强大动力。我们很激动地为Amazon
·
2022-09-15 09:58
[MIT 6.830 SimpleDB] Lab1 Exercise 1-3
如果你是想走后端开发、大数据方向、传统
数仓
等有关数据库内容方向的,此Lab将会让你成长很多!所以此实验
三金C_C
·
2022-09-15 06:12
MIT
6.830
数据库
java
mysql
数据仓库(08)
数仓
事实表和维度表技术
所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发。事实表,就是一个事实的集合。事实来自业务过程的度量,基本上以数量值表示。事实表行对应一个事实,一个事实对应一个物理可以观察的事件,例如,再零售事件中,销售数量与总额是数据事实,与销售事件不相关的度量不可以放在同一个事实表里面,如员工的工资。事实表是实际发生的度量,
·
2022-09-13 15:53
大数据
数仓
经典最值得阅读书籍推荐
从事
数仓
工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了
数仓
中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
张飞的猪大数据
·
2022-09-11 20:04
Hive数据仓库工具基本架构和入门部署详解
Hive是一个建立在HadoopHDFS架构至上的
数仓
工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式
itxiaoshen
·
2022-09-10 11:00
SAP RFC 接口基于 SeaTunnel 开发实践,打通企业内部数据采集的最后一个壁垒
点亮⭐️Star·照亮开源之路GitHub:https://github.com/apache/inc...无论是甲方还是乙方,我们在采集数据进行
数仓
模型建设时,企业的ERP一旦切换到SAP系统中,就会遇到较高的安全挑战
·
2022-09-09 19:13
终于有人把不同标签的加工内容与落库讲明白了丨DTVision分析洞察篇
一般来说数据开发团队会主导此过程,但我们需要关心以下几个问题:·标签如何快速创建和实现标签逻辑的在线化管理·业务人员怎么参与到标签建设流程中·百万级别的标签如何落表一、加工方式:传统VS在线当企业无标签系统时,一般由数据开发在离线
数仓
中完成标签的加工和运行
·
2022-09-08 16:15
大数据
数据湖统一元数据与权限
点击查看直播回放一、元数据与权限背景介绍开源元数据体系由来、演进及问题开源大数据体系是指以Hadoop为中心的生态系统,而目前Hive是开源
数仓
的事实标准。
·
2022-09-08 11:26
大数据面试常见问题(三)——Hadoop部分
2、传统
数仓
和大数据
数仓
的区别3、你们使用的hadoop是什么环境什么版本的?4、分桶的作用是什么?5、分桶的数量你是如何决定的?6、hive里面经常用到的函数有哪些?
大数据求学路
·
2022-09-08 10:11
大数据面试私藏题
大数据
面试
hive
hadoop
金三银四——大数据/Java面试集锦
下列文章链接请阅读:《金三银四——面试集锦》高级大数据研发工程师面试题总结海量大数据处理面试题和思路总结大数据之数据仓库面试题一文概览数据仓库知识和面试
数仓
相关面试题经典的SparkSQL/Hive-SQL
大数据学习与分享
·
2022-09-08 10:35
面试
工作
大数据
大数据
spark
hadoop
面试
数据仓库
Flink保姆级教程,超全五万字,学习与面试收藏这一篇就够了
运行架构四、Flink算子大全五、流处理中的Time与Window六、Flink状态管理七、Flink容错八、FlinkSQL九、FlinkCEP十、FlinkCDC十一、基于Flink构建全场景实时
数仓
十二
数据人生coding
·
2022-09-08 10:19
大数据
Flink
flink
big
data
大数据
史上最全
数仓
学习(一)环境搭建
文章目录1.环境安装1.1准备三台虚拟机,分别是hadoop102、hadoop103、hadoop1041.1.1vagrant虚拟机配置1.1.2虚拟机安装1.2修改root用户密码1.3修改host配置文件1.4新增hadoop用户1.5配置免密登录1.6配置xsync脚本1.6创建工作目录1.6JDK安装1.7bash脚本配置路径说明1.8生成模拟数据1.9xcall脚本2.安装分布式群集
奔向大数据的凡小王
·
2022-09-07 20:00
vagrant
虚拟机
hadoop
hdfs
big
data
Failed to create Spark client for Spark session/30041Code
记录排错历程问题简介:根据尚硅谷
数仓
4.0学习集群运行了一段时间,可以正常使用spark运行,出现阶段运行情况的红色框,但是不知道为什么突然有一次,返回30041code,无法运行创建sparksession
栗条米
·
2022-09-07 20:24
大数据
spark
大数据
HIve
on
Spark
30041
Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践
孙方彬中国移动云能力中心软件开发工程师编辑整理:HohXil出品平台:DataFunTalk导读:在云原生+大数据的时代,随着业务数据量的爆炸式增长以及对高时效性的要求,云原生大数据分析技术,经历了从传统
数仓
到数据湖
·
2022-09-06 17:33
大数据
Flink 实践 | B站流式传输架构的前世今生
01背景Lancer是B站的实时流式传输平台,承载全站服务端、客户端的数据上报/采集、传输、集成工作,秒级延迟,作为
数仓
入口是B站数据平台的生命线。
·
2022-09-06 15:47
后端flink架构java编程
个推TechDay直播回顾 | 分享基于Flink的实时
数仓
搭建秘诀,附课件下载
来自每日互动(个推)的资深数据研发工程师为大家详细解读了实时
数仓
架构演进,分享了实时
数仓
的技术选型要点,并结合实战案例详细剖析实时
数仓
搭建秘诀。
·
2022-09-05 16:06
直播预告 | 8月24日晚19:30,实时
数仓
搭建保姆级教程开课,个推TechDay治数训练营第二期来了
相比离线
数仓
,实时
数仓
有哪些特性?如何进行实时
数仓
的技术选型?个推TechDay“治数训练营”系列直播课第二期来了!
个推技术
·
2022-09-05 14:26
治数训练营
每日治数平台
数据中台
数据仓库
大数据
flink
个推TechDay直播回顾 | 分享基于Flink的实时
数仓
搭建秘诀 附课件下载
来自每日互动(个推)的资深数据研发工程师为大家详细解读了实时
数仓
架构演进,分享了实时
数仓
的技术选型要点,并结合实战案例详细剖析实时
数仓
搭建秘诀。
个推技术
·
2022-09-05 14:26
治数训练营
数据仓库
实时数仓
数据库
java
大数据
离线
数仓
搭建_04_zookeeper-flume-kafka框架配置
点击右下方:专栏目录查看全文文章目录4.3Zookeeper安装(48-49)4.3.1安装ZK4.3.2ZK集群启动停止脚本4.4Kafka安装(50-52)4.4.1Kafka集群安装4.4.2Kafka集群启动停止脚本4.4.3Kafka常用命令4.4.4项目经验之Kafka机器数量计算4.4.5项目经验之Kafka压力测试4.4.6项目经验值Kafka分区数计算4.5采集日志Flume(5
Fang GL
·
2022-09-05 07:28
#
离线数仓搭建
kafka
java-zookeeper
zookeeper
数据仓库
离线
数仓
搭建_03_Hadoop的配置与优化测试
HDFS存储多目录(了解)4.2.2集群数据均衡4.2.3项目经验之支持LZO压缩配置4.2.4项目经验之LZO创建索引4.2.5项目经验之基准测试4.2.6项目经验之Hadoop参数调优上文访问:离线
数仓
搭建
Fang GL
·
2022-09-05 07:58
#
离线数仓搭建
hadoop
hdfs
大数据
数据仓库
阿里云 Flink+Hologres:构建企业级一站式实时
数仓
企业最常见的做法就是通过构建实时
数仓
来满足对数据的快速探索。
阿里云大数据AI技术
·
2022-09-02 20:35
阿里云
flink
大数据
数仓
项目拉链表
一、拉链表的功能和使用场景拉链表专门用于解决在数据仓库中数据发生变化如何实现数据存储的问题,如果直接覆盖历史状态,会导致无法查询历史状态,如果将所有数据单独切片存储,会导致存储大量非更新数据的问题。拉链表的设计是将更新的数据进行状态记录,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认
万里长江横渡
·
2022-09-01 12:15
大数据
hive
数据仓库
大数据
离线
数仓
(总结)
一:数据仓库(概述)所有的表设计都要参照业务总线矩阵三:维度建模理论之事实表事实表通常比较“细长”,即列较少,但行较多,且行的增速快。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用(维度表外键)以及该业务过程的度量(通常是可累加的数字类型字段)。事实表主要包含维度外键和度量事务事实表,周期快照事实表,累计快照事实表选择业务过程→声明粒度→确认维度→确认
爱上攻城狮2021
·
2022-08-31 12:20
数据仓库
big
data
hadoop
三、离线
数仓
—数据仓库
离线
数仓
—数据仓库前言一、数据仓库概述1.数据仓库概念2.数据仓库核心架构二、数据仓库建模概述1.数据仓库建模的意义2.数据仓库建模的理论(思想)2.1ER模型(了解)2.2维度模型(重要)二、维度建模理论之事实表
自学大数据的菜鸡
·
2022-08-31 12:49
离线数仓
数据仓库
big
data
2.1离线
数仓
—业务数据数据同步规划
离线
数仓
—业务数据数据同步规划前言一、业务数据同步概述1.数据同步策略概述2.数据同步策略1)全量同步2)增量同步3.数据同步策略选择4.各表同步策略规划5.数据同步工具概述前言要进行业务数据采集,就要确定采用什么样的同步方式
自学大数据的菜鸡
·
2022-08-31 12:49
数仓同步工具
离线数仓
数据仓库
big
data
1.离线
数仓
—数据仓库设计
离线
数仓
—数据仓库设计前言一、数据仓库设计1.数据仓库分层规划2.数据仓库构建流程2.1数据调研2.2明确数据域2.3构建业务总线矩阵2.4明确统计指标2.5维度模型设计2.6汇总模型设计三、各表同步策略的回顾前言前面对数据仓库做了简要介绍
自学大数据的菜鸡
·
2022-08-31 12:49
离线数仓
数据仓库
big
data
离线
数仓
与实时
数仓
的比较
01
数仓
架构演变20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则
000X000
·
2022-08-31 12:48
数据仓库
数据分析
实战
数据仓库
离线数仓与实时数仓的比较
离线
数仓
项目:自定义UDAF函数
参考官网:GenericUDAFCaseStudy-ApacheHive-ApacheSoftwareFoundationhttps://cwiki.apache.org/confluence/display/Hive/GenericUDAFCaseStudypackagecomxxx.hive;importorg.apache.commons.lang.StringUtils;importorg
常小白_J
·
2022-08-31 12:48
hive
hadoop
big
data
数据仓库
java
实时
数仓
和离线
数仓
的概念
目录1、数据仓库的发展趋势1.1数据仓库的趋势1.2数据仓库的发展2、数据仓库架构的演变2.1传统
数仓
架构2.2离线大数据架构2.3Lambda架构2.4Kappa架构2.5混合架构3、三种大数据数据仓库架构
灵境旅行家
·
2022-08-31 12:18
知识小记
数据仓库
big
data
离线
数仓
——T+1处理数据
离线
数仓
(基于Hadoop体系)
数仓
建模
数仓
为什么建模?
数仓
建模发展
数仓
建模理论有哪些?你是怎么建模的?
日月交辉
·
2022-08-31 12:48
数仓
数据仓库
大数据学习-hive(四:离线
数仓
搭建流程)
一:接需求需求通常是其他部门提过来的。我们要和其他部门人员进行沟通,核实需求是否能完成,如果能完成最后要形成一个excl文档,把想要的字段都写在excl中,并和对方核对任务完成日期。如果完不成,提前告知对方。二:查看所需数据1.所需数据在维表中。这种情况直接写sql,将结果放在dm层即可。2.所需数据在ods层或者dwd层。这些数据并没有在维表中,我们要想是否要建立一个新的维度,进行维度建模,如果
宇智波云
·
2022-08-31 12:47
big
data
hive
学习
数据仓库
大数据
大数据项目离线
数仓
(全 )一(数据采集平台)
搭建用户行为数据采集平台、搭建业务数据采集平台、搭建数据仓库系统、制作可视化报表本篇博客包括搭建用户行为数据采集平台、搭建业务数据采集平台搭建数据仓库系统在大数据项目离线
数仓
(全)二制作可视化报表在大数据项目离线
数仓
一个人的牛牛
·
2022-08-31 12:16
项目
数据仓库
etl
数据挖掘
离线
数仓
应用架构
小节一:
数仓
介绍小节二:离线
数仓
应用应用架构本小结介绍下离线
数仓
的一个应用架构一个简单的离线
数仓
架构图如下这里粗粒度的划分了异构数据源、数据传输、数据仓库、应用分析、及整体管理几层。
七月√
·
2022-08-31 12:16
数据仓库
大数据
数据仓库
架构
尚硅谷_尚硅谷离线数据仓库项目(阿里云离线
数仓
)_笔记
网址:https://www.bilibili.com/video/BV1AJ411Q7ox?p=29&spm_id_from=pageDriver一、项目架构设计1.1阿里云技术框架1.2技术选型1.3系统数据流程设计二、数据生成模块
风满楼i
·
2022-08-31 12:15
大数据
大数据
数据仓库
离线
数仓
(一)认识数据仓库
1.数据管理中心1.1.数据库引用百度百科的解释:数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起。具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。1.2.数据仓库数据
Yuan_CSDF
·
2022-08-31 12:15
#
离线数仓
数据库
数据结构
离线
数仓
(1):什么是数据仓库
目录0.相关文章链接1.数据仓库概念2.
数仓
仓库为何而来2.1.操作型记录的保存2.2.分析型决策的制定2.3.OLTP环境开展分析可行吗?
电光闪烁
·
2022-08-31 12:44
#
离线数仓
数据仓库
大数据
bigdata
离线数仓
实时
数仓
Workshop · 广州站 9.15 邀您参加!
数据的时效性,成为数据仓库建设中必不可少的一环,企业最常做的就是通过实时
数仓
建设,满足对数据的快速探索。
·
2022-08-26 18:53
阿里云实时计算 Flink 版 x Hologres: 构建企业级一站式实时
数仓
企业最常见的做法就是通过构建实时
数仓
来满足对数据的快速探索。
·
2022-08-26 18:52
数仓
第6篇:大数据可视化BI工具
目录导读:开源BI工具SupersetRedashmetabaseCBoardDavinciSpagoBIPentaho商业BI工具FineBIQlikViewTableauPowerBISmartBIQuickBI传统重BI工具导读:大数据时代商业智能(BI)和数据可视化诉求更为强烈,淘宝大屏更是风靡全球!数据可视化是大数据『最后一公里』,BI唤醒沉睡的数据。传统型BI力求大而全的统一综合型报表
浊酒南街
·
2022-08-26 14:00
数仓建设
大数据
数仓
设计之订单模型
这一篇整理下订单域的
数仓
设计。
·
2022-08-25 21:25
数据仓库表设计订单表
Hive
数仓
建表该选用ORC还是Parquet,压缩选LZO还是Snappy?
因为上一篇文章中提到我在
数仓
的ods层因为使用的是STOREDASINPUTFORMAT'com.hadoop.mapred.DeprecatedLzoTextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
_Kafka_
·
2022-08-25 10:49
OceanBase&ChunJun联合Meetup丨邀您齐聚杭州,共享开源盛会
ChunJun社区的开发者们请您查收一份来自杭州的邀请函8月27日下午14:00-17:00杭州·方远海智中心8号楼ChunJun将联合OceanBase举办线下Meetup《构建新型的企业级
数仓
解决方案
·
2022-08-24 15:18
大数据
2022-02-09大数据学习日志——PySpark——Spark框架概述
#第1部分、离线分析(BatchProcessing)分布式协作服务框架Zookeeper大数据基础框架Hadoop(HDFS、MapReduce和YARN)大数据
数仓
框架Hive大数据辅助框架:FLUME
成长的小狮子
·
2022-08-24 15:11
big
data
spark
大数据
阿里云 Flink+Hologres:构建企业级一站式实时
数仓
企业最常见的做法就是通过构建实时
数仓
来满足对数据的快速探索。
·
2022-08-24 14:15
大数据
直播预告 | 基于Flink的实时
数仓
建设,明晚19:30就在个推TechDay治数训练营
相比离线
数仓
,实时
数仓
有哪些特性?如何进行实时
数仓
的技术选型?个推TechDay“治数训练营”系列直播课第二期来了!
·
2022-08-23 17:14
flink数据仓库大数据
上一页
43
44
45
46
47
48
49
50
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他