E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库hadoop大数据
hive总结
Hive是基于Hadoop的
数据仓库
工具,提供了类似SQL的查询功能,可查询存储在HDFS中的数据。Hive的架构和组件包括用户接口、驱动、元数据存储和存储处理层。Hive将HQL转
墨苏玩电脑
·
2023-11-28 18:26
hive
hadoop
数据仓库
细说
数据仓库
上篇
用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此
数据仓库
会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
派可数据
·
2023-11-28 18:53
数据仓库
数据要素
商业智能
spark
大数据
分布式
商业智能BI
数据仓库
数据仓库
建模下篇
在实际业务中,给了我们一堆数据,我们怎么拿这些数据进行数仓建设呢,数仓工具箱作者根据自身多年的实际业务经验,给我们总结了如下四步。数仓工具箱中的维度建模四步走:维度建模四步走这四步是环环相扣,步步相连。下面详细拆解下每个步骤怎么做1、选择业务过程维度建模是紧贴业务的,所以必须以业务为根基进行建模,那么选择业务过程,顾名思义就是在整个业务流程中选取我们需要建模的业务,根据运营提供的需求及日后的易扩展
派可数据
·
2023-11-28 18:10
商业智能
数据要素
数据仓库
数据仓库
大数据
信息可视化
数据库
HDFS与Hive实战 + 滴滴出行数据分析
HDFS与Hive实战+滴滴出行数据分析1.HDFS1.1分布式文件系统1.2HDFS的Shell命令行1.3启动Hadoop集群1.4大数据环境清单2.
数据仓库
2.1
数据仓库
与数据库区别3.Hive3.1
jialun0116
·
2023-11-28 16:41
大数据
Hive
数据仓库
数据库
数据仓库
数据挖掘
hadoop
大数据
大数据开发:实时数仓架构层次设计
在大数据实时计算处理领域,
数据仓库
提供重要的支持,从传统的离线数仓到实时数仓,大数据带动了相应的市场需求,而从架构层次来说,实时数仓也有新的值得挖掘的技术点。
成都加米谷大数据
·
2023-11-28 16:52
ODPS SQL优化总结
本文结合作者多年的数仓开发经验,结合ODPS平台分享
数据仓库
中的SQL优化经验。背景
数据仓库
,是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合。
小二上酒8
·
2023-11-28 14:09
odps
sql
hive
java
开发语言
StarRocks 的学习笔记
StarRocks的学习笔记文章目录StarRocks的学习笔记1.介绍1.1StarRocks特性1.2使用场景1.3OLAP多维分析1.4实时
数据仓库
1.5高并发查询1.6统一分析2.系统架构2.1StarRocks
白居不易.
·
2023-11-28 11:36
StarRocks
hive
数据仓库
-Hive1.
数据仓库
1.1.基本概念英文名称为DataWarehouse,可简写为DW或DWH。
淳●简蜡基●茨德
·
2023-11-28 10:14
hive
hive
为啥说用了Hbase速度会变快???
都知道
数据仓库
现在一般来说是Hive和kafka,数据平台目前还使用的是hive,但是hive的查询是很慢的,所以为了效率我们引入了Kylin,Kylin并没有大数据存储功能,它所做的只是将
数据仓库
里的数据预计算
AceCream佳
·
2023-11-28 06:44
详解数仓中的数据分层:ODS、DWD、DWM、DWS、ADS
何为数仓DWDatawarehouse(可简写为DW或者DWH)
数据仓库
,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。
禅与计算机程序设计艺术
·
2023-11-28 00:17
在
数据仓库
中拉链表的使用
使用场景:在
数据仓库
中,拉链表可以用于处理维度表的历史时间变化优点:使用拉链表的优势在于能够有效地追踪维度属性的历史变化使用方法:设计拉链表结构:在维度表中添加拉链表所需字段,如开始日期,结束日期,这些字段用来表示维度属性历史变化情况初始化拉链表
linbokang
·
2023-11-27 19:15
数据仓库
数据分析
hadoop
insert overwrite table:
数据仓库
和数据分析中的常用技术
一、介绍:INSERTOVERWRITETABLE是用于覆盖(即替换)目标表中的数据的操作。它将新的数据写入表中,并删除原有的数据。这个操作适用于非分区表和分区表。二、使用场景:1、数据更新:当您需要更新表中的数据时,可以使用覆写操作。通过覆写,您可以将新的数据写入表中,替换原有的数据。这在需要定期更新或替换表中数据的情况下非常有用。2、数据重载:如果您需要重新加载表中的数据,覆写操作可以清空表并
linbokang
·
2023-11-27 19:45
数据仓库
数据分析
hive
大数据
数据仓库
,Sqoop--学习笔记
数据仓库
介绍1.
数据仓库
概念
数据仓库
概念创始人在《建立
数据仓库
》一书中对
数据仓库
的定义是:
数据仓库
(DataWarehouse)是一个面向主题的(SubjectOriented)、数据集成的(Integrated
祈愿lucky
·
2023-11-27 16:38
大数据
大数据
数据仓库
sqoop
CDP体系化建设1-CDP综述
当中会涉及到数据的集成和加工,包含对埋点、
数据仓库
的数据重定义和应用。包含标签开发管理、人群创建、人群同步等。会基于数据底层提供的查询服务,
数据产品小lee
·
2023-11-27 12:13
大数据
产品经理
数据建模
数仓分层能减少重复计算,为啥能减少?如何减少?这篇文章包懂!
很多时候,看一些数据领域的文章,说到为什么做
数据仓库
、
数据仓库
要分层,我们经常会看到一些结论:因为有ABCD…等等理由,比如降低开发成本、减少重复计算等等好处然后,多数人就记住了ABCD。
数据产品小lee
·
2023-11-27 12:42
大数据
数据仓库
数据建模
产品经理
hive杂谈
数据仓库
是一个面向主题的、集成的、非易失的、随时间变化的,用来支持管理人员决策的数据集合,
数据仓库
中包含了粒度化的企业数据。
数据仓库
的主要特征是:主题性、集成性、非易失性、时变性。
灵海之森
·
2023-11-27 06:25
hive
hadoop
数据仓库
StarRocks与ClickHouse
现在ROLAP计算存储一体的
数据仓库
主要有三种,即StarRocks(DorisDB),ClickHouse和ApacheDoris。应用最广的数据查询系统主要有Druid,Kylin和HBase。
Yuan_CSDF
·
2023-11-26 19:11
数据库
OLAP
大数据
火山引擎 ByteHouse 的增强型数据导入技术实践
作为一款OLAP引擎,火山引擎云原生
数据仓库
ByteHouse源于开源ClickHouse,在字节跳动多年打磨下,提供更丰富的能力和更强性能,能为用户带来极速分析体验,支撑实时数据
字节跳动技术团队
·
2023-11-26 13:04
火山引擎
HADOOP大数据
之HDFS数据安全与隐私保护
HDFSTrash垃圾桶功能概述HDFSTrash机制,叫做回收站或者垃圾桶。Trash就像Windows操作系统中的回收站一样。它的目的是防止你无意中删除某些东西。默认情况下是不开启的。启用ITrash功能后,从HDFS中删除某些内容时,文件或目录不会立即被清除,它们将被移动到回收站Current目录中(/user/$(username}/.Trash/current)。.Trash中的文件在用
奋斗的韭菜汪
·
2023-11-26 08:24
数据仓库
:简要理解
数据仓库
是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
宅家学算法
·
2023-11-26 08:45
cdh亲测2022/11/12
一、
Hadoop大数据
平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP:在Cloudera和Hortonworks
Tian.Mrs
·
2023-11-25 14:18
大数据
hadoop
spark
CDH6安装教程(亲自测试越坑版)
一、
Hadoop大数据
平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP:在Cloudera和Hortonworks
inrgihc
·
2023-11-25 14:14
Hadoop
big
data
hadoop
spark
Hive
数据仓库
数据仓库
的介绍
数据仓库
的基本概念
数据仓库
,英文名称为DataWarehouse,可简写为DW或DWH。
程序猿小1z
·
2023-11-25 09:49
hive
数据仓库
Hive
Hive3.1.2目录Hive3.1.21、
数据仓库
概念1.2、传统仓库面临的挑战2、Hive简介2.1、Hive的特点2.2、Hive的优缺点2.3、Hive与Hadoop生态系统中的关系2.4、Hive
忄凝^
·
2023-11-25 09:48
大数据
hadoop
大数据
hive
Hive
数据仓库
工具基本架构和入门部署详解
优质资源分享学习路线指引(点击解锁)知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统@目录*概述+定义+本质+特点+Hive与Hadoop关系+Hive与关系型数据库区别+优缺点+其他说明架构组成部分数据模
虚幻私塾
·
2023-11-25 09:15
python
数据仓库
hive
架构
计算机
分布式数据恢复-hbase+hive分布式存储误删除如何恢复数据?
hbase+hive分布式存储数据恢复环境:16台某品牌R730XD服务器节点,每台物理服务器节点上有数台虚拟机,虚拟机上配置的分布式,上层部署hbase数据库+hive
数据仓库
。
北亚数据恢复
·
2023-11-25 09:37
服务器数据恢复
数据恢复
存储数据恢复
北亚数据恢复
数据恢复
服务器数据恢复
hbase
hive
DTCC专访:南大通用GBase云上逻辑
数据仓库
助力行业数字化转型升级
日前,在第十二届中国数据库技术大会(DTCC2021)期间,南大通用数据智能产品经营部总经理张绍勇受邀围绕《GBase云上逻辑
数据仓库
助力行业迎接数字化转型新挑战》的演讲主题进行专题访谈。
GBASE数据库
·
2023-11-25 09:23
GBASE新闻
sql
数据库
人工智能
(二)大数据---Hadoop组件介绍,区别
分布式资源管理MapReduce、Spark、Flink:分布式计算框架Yarn/Mesos:分布式资源管理器zookeeper:分布式协作服务sqoop:数据同步工具hive/Impala基于Hadoop的
数据仓库
(─__─)
·
2023-11-25 07:37
Hadoop
hadoop
big
data
大数据
常用数据存储格式介绍:Excel、CSV、JSON、XML
然而,在提取数据之后,并将其加载到数据库或
数据仓库
之前,需要将数据转化为可用的数据存储格式。
PDF Reader Pro
·
2023-11-24 19:06
excel
json
xml
csv
数据库
大数据之Hadoop流存储
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及
数据仓库
工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
陌名_9b41
·
2023-11-24 18:01
熵简技术谈 | 熵简科技在资管数据中台的探索与实践
本文将从
数据仓库
建设、数据管理和开发和数据服务体系三个维度介绍数据中台在资管场景下的落地规范和方案。作者信息:熵简科技Airworks团队,团队致力于打
熵简科技Value Simplex
·
2023-11-24 17:46
数据中台
科技
数据仓库
big
data
数据挖掘
数据分析
【黑马甄选离线数仓day03_数仓设计和维度域开发】
1.数仓基本概念1-什么是
数据仓库
呢?存储数据的仓库,主要用于存储过去历史发生过的数据,面向主题,对数据进行统计分析的操作,从而能够对未来提供决策支持2-
数据仓库
最大的特点是什么呢?
LKL1026
·
2023-11-24 16:37
数据仓库
大数据
笔记
AnalyticDB for PostgreSQL 实时
数据仓库
上手指南
AnalyticDBforPostgreSQL实时
数据仓库
上手指南2019-04-016601版权本文涉及的产品云原生
数据仓库
ADBPostgreSQL,4核16G50GB1个月推荐场景:构建的企业专属
行走在云端z
·
2023-11-24 16:05
postgresql
数据仓库
etl
猿创征文|Apache Doris物化视图介绍
众所周知ApacheDoris是一款MPP分析型
数据仓库
,仅需压秒级就可以快速响应用户的查询需求。
码猿小站
·
2023-11-24 16:59
Doris
数据库
数据仓库
big
data
【文档笔记】doris
数据仓库
-数据表设计:Rollup 与查询
Rollup与查询基本概念Aggregate和Unique模型中的ROLLUPDuplicate模型中的ROLLUPROLLUP使用说明基本概念ROLLUP在多维分析中是“上卷”的意思,即将数据按某种指定的粒度进行进一步聚合。Rollup可以理解为Table的一个物化索引结构。物化是因为其数据在物理上独立存储,而索引的意思是,Rollup可以调整列顺序以增加前缀索引的命中率,也可以减少key列以增
KevinBrain
·
2023-11-24 16:44
大数据
数据仓库
doris
大数据
数据库架构
etl工程师
数据仓库
建设体系
数据仓库
概念:英文名称为DataWarehouse,可简写为DW或DWH。
数据仓库
的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。
000X000
·
2023-11-24 12:00
数据仓库
实战
数据分析
数据仓库建设体系
数据仓库
数据仓库建设
大数据
数据仓库
建设流程概述
数据仓库
的逻辑分层架构:想看懂
数据仓库
的逻辑分层架构,必须先弄懂以下4大概念。
000X000
·
2023-11-24 12:00
数据中台
数据仓库
实战
数据仓库
big
data
hadoop
大数据基础中台-
数据仓库
建设
一、数据模型架构原则数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看到内在的规律,不能为了分层而分层,没有最好的,只有适合的。分层是以解决当前业务快速的数据支撑为目的,为未来抽象出共性的框架并能够赋能给其他业务
SmartBrain
·
2023-11-24 12:22
大数据平台架构设计
数据仓库
big
data
hadoop
数据仓库
建模理论及实践-从0到1
目录1.
数据仓库
的概念1.1
数据仓库
的核心架构1.2
数据仓库
建模的意义1.2
数据仓库
建模方法论1.2.1ER模型1.2.2维度模型1.3维度建模之事实表1.3.1事务事实表1.3.2快照事实表1.3.3
OhTango
·
2023-11-24 12:21
数据仓库建模
数据仓库
大数据
数据分析
数据挖掘
3、如何从0到1去建设
数据仓库
1、数仓实施过程1.1数据调研数据调研包括:业务调研、需求调研业务调研需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据是怎样存储的业务调研完后的产出:业务调研表、各个业务流程图需求调研主要调研分析师、运营人员的数据需求和现有报表系统中的数据需求1.2数仓架构设计数据域(主题域)的划分进行数据调研后,需要对业务过程
广阔天地大有可为
·
2023-11-24 12:50
数据仓库建设与企业案例
数据仓库
spark中write算子和format算子详解
在spark中,想要往数据库或者某sink路径里面写数据,存到外部存储系统,如文件系统、数据库或
数据仓库
,经常会用到write算子。
后季暖
·
2023-11-24 11:02
spark
大数据
分布式
MySQL 日期表制作
日期维度表是
数据仓库
设计中的重要部分,它在数据分析和商业智能领域有着很广泛的应用:数据完整性和一致性:日期维度表提供了一系列连续的日期值,确保
数据仓库
中时间维度的完整性和一致性。
有请小发菜
·
2023-11-24 09:06
Mysql
mysql
数据库
数据中台建设方法论
2、
数据仓库
中的常见的模型:1、心型模型:中间是一张事实表,周围都是维度表。
新手小农
·
2023-11-24 02:08
数据仓库
大数据
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个
数据仓库
系统,在各大公司都有广泛的应用。美团
数据仓库
也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。
数仓大山哥
·
2023-11-24 02:00
hive
hive
mapreduce
sql执行原理
代码思路分享 计算机毕业设计Python+Hadoop+Spark+Hive旅游可视化 旅游数据分析
数据仓库
旅游推荐系统 旅游大数据 大数据毕业设计 大数据毕设
涉及技术hadoophiveazkabanpython爬虫huesqoopmysql运行截图
haochengxu2022
·
2023-11-24 00:09
推荐系统
机器学习
数据分析
大数据
hive
hadoop
大数据-数仓-数据采集-业务数据(三):增量同步采集【MySQL-(Maxwell)->Kafka-(Flume)->HDFS】【每日增量:每天只将业务数据中新增及变化的数据同步到
数据仓库
】
增量同步策略解释:每日增量,就是每天只将业务数据中的新增及变化的数据同步到
数据仓库
中,适用:表数据量大,且每天只会有新的数据插入的场景,特点:采用每日增量的表,通常会在首日先进行一个全量同步。
u013250861
·
2023-11-23 18:41
#
大数据
2023.11.22 -
数据仓库
的概念和发展
spm=1001.2014.3001.55011经典传统数仓架构2离线大数据数仓架构3
数据仓库
三层数据运营层,源数据层(ODS)(OperationalDataStore)
数据仓库
层(DW)(DataWarehouse
白白的wj
·
2023-11-23 16:16
数据仓库
hdfs
hadoop
大数据
sql
database
2023.11.22
数据仓库
2-维度建模
目录1.数仓建设方案2.数仓结构图,项目架构图2.1项目架构图2.2数仓结构图3.建模设计4.维度建模什么是事实表:什么是维度表:数据发展模式y以及对应的模型5.数仓建设规范数据库划分规范表命名规范表字段类型规范1.数仓建设方案ODS:源数据层(临时存储层)贴源层作用:对接数据源,用于将数据源的数据完整的导入到ODS层中,一般ODS层的数据和数据源的数据保持一致,类似于一种数据迁移的操作,一般在O
白白的wj
·
2023-11-23 16:14
数据仓库
大数据
数据库
hadoop
hive
sql
big
data
2、数仓理论概述与相关概念
1、问:
数据仓库
建设过程中经常会遇到那些问题?
广阔天地大有可为
·
2023-11-23 12:39
数据仓库建设与企业案例
大数据
20.大数据---Hive基础介绍
Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
学无止境的大象
·
2023-11-23 12:07
#
大数据
hive
big
data
hadoop
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他