E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库数据中台数据湖
insert overwrite table:
数据仓库
和数据分析中的常用技术
一、介绍:INSERTOVERWRITETABLE是用于覆盖(即替换)目标表中的数据的操作。它将新的数据写入表中,并删除原有的数据。这个操作适用于非分区表和分区表。二、使用场景:1、数据更新:当您需要更新表中的数据时,可以使用覆写操作。通过覆写,您可以将新的数据写入表中,替换原有的数据。这在需要定期更新或替换表中数据的情况下非常有用。2、数据重载:如果您需要重新加载表中的数据,覆写操作可以清空表并
linbokang
·
2023-11-27 19:45
数据仓库
数据分析
hive
Apache Iceberg核心原理分析文件存储及数据写入流程
第一部分:Iceberg文件存储格式ApacheIceberg作为一款新兴的
数据湖
解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parquet、
王知无(import_bigdata)
·
2023-11-27 19:25
大数据
hive
java
android
spark
大数据
数据仓库
,Sqoop--学习笔记
数据仓库
介绍1.
数据仓库
概念
数据仓库
概念创始人在《建立
数据仓库
》一书中对
数据仓库
的定义是:
数据仓库
(DataWarehouse)是一个面向主题的(SubjectOriented)、数据集成的(Integrated
祈愿lucky
·
2023-11-27 16:38
大数据
大数据
数据仓库
sqoop
CDP体系化建设1-CDP综述
当中会涉及到数据的集成和加工,包含对埋点、
数据仓库
的数据重定义和应用。包含标签开发管理、人群创建、人群同步等。会基于数据底层提供的查询服务,
数据产品小lee
·
2023-11-27 12:13
大数据
产品经理
数据建模
数仓分层能减少重复计算,为啥能减少?如何减少?这篇文章包懂!
很多时候,看一些数据领域的文章,说到为什么做
数据仓库
、
数据仓库
要分层,我们经常会看到一些结论:因为有ABCD…等等理由,比如降低开发成本、减少重复计算等等好处然后,多数人就记住了ABCD。
数据产品小lee
·
2023-11-27 12:42
大数据
数据仓库
数据建模
产品经理
”敏捷知识“分享
分享主题主要是
数据中台
项目的敏捷实践目录1、排期表2、SprintPlanning1、明确价值观,每个人对自己的产出物负责,对应敏捷价值观“承诺”2、明确迭代周期,迭代预期交付物,也就是“Sprint目标
张熙_430d
·
2023-11-27 10:05
【
数据中台
】开源项目(1)-LarkMidTable
LarkMidTable是一站式开源的
数据中台
,实现中台的基础建设,数据治理,数据开发,监控告警,数据服务,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
码农丁丁
·
2023-11-27 09:38
后端技术
#
大数据
数据中台
hive杂谈
数据仓库
是一个面向主题的、集成的、非易失的、随时间变化的,用来支持管理人员决策的数据集合,
数据仓库
中包含了粒度化的企业数据。
数据仓库
的主要特征是:主题性、集成性、非易失性、时变性。
灵海之森
·
2023-11-27 06:25
hive
hadoop
数据仓库
【
数据中台
】开源项目(2)-Dbus数据总线
1背景企业中大量业务数据保存在各个业务系统数据库中,过去通常的同步数据的方法有很多种,比如:各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)由统一的数仓平台通过sqoop到各个系统中抽取数据(缺点是sqoop抽取方法时效性差,一般都是T+1的时效性)基于trigger或时间戳的方式获得增量的变更(缺点是对业务方侵入性大,带来性能损失等)这些方案都不能算完美,我们在了解
码农丁丁
·
2023-11-27 00:44
后端技术
#
大数据
开源
数据中台
【
数据中台
】开源项目(2)-Wormhole流式处理平台
Wormhole是一个一站式流式处理云平台解决方案(SPaaS-StreamProcessingasaService)。Wormhole面向大数据流式处理项目的开发管理运维人员,致力于提供统一抽象的概念体系,直观可视化的操作界面,简单流畅的配置管理流程,基于SQL即可完成的业务逻辑开发方式,并且屏蔽了流式处理的底层技术细节,极大的降低了数据项目管理运维门槛,使得大数据流式处理项目的开发管理运维变得
码农丁丁
·
2023-11-27 00:44
后端技术
#
大数据
数据中台
【
数据中台
】开源项目(2)-Moonbox计算服务平台
Moonbox是一个DVtaaS(DataVirtualizationasaService)平台解决方案。Moonbox基于数据虚拟化设计思想,致力于提供批量计算服务解决方案。Moonbox负责屏蔽底层数据源的物理和使用细节,为用户带来虚拟数据库般使用体验,用户只需通过统一SQL语言,即可透明实现跨异构数据系统混算和写出。此外Moonbox还提供数据服务、数据管理、数据工具、数据开发等基础支持,可
码农丁丁
·
2023-11-27 00:44
后端技术
#
大数据
开源
数据中台
【
数据中台
】开源项目(2)-Dbus系统架构
大体来说,Dbus支持两类数据源:RDBMS数据源日志类数据源1RMDBMS类数据源的实现以mysql为例子.分为三个部分:日志抽取模块(最新版DBus已经废弃该模块,使用canal直接输出到kafka)增量转换模块全量拉取模块1.1日志抽取模块(Extractor)(0.6.1版本废弃)mysql日志抽取模块由两部分构成:canalserver:负责从mysql中抽取增量日志。mysql-ext
码农丁丁
·
2023-11-27 00:07
后端技术
#
大数据
开源
系统架构
数据中台
StarRocks与ClickHouse
现在ROLAP计算存储一体的
数据仓库
主要有三种,即StarRocks(DorisDB),ClickHouse和ApacheDoris。应用最广的数据查询系统主要有Druid,Kylin和HBase。
Yuan_CSDF
·
2023-11-26 19:11
数据库
OLAP
大数据
火山引擎 ByteHouse 的增强型数据导入技术实践
作为一款OLAP引擎,火山引擎云原生
数据仓库
ByteHouse源于开源ClickHouse,在字节跳动多年打磨下,提供更丰富的能力和更强性能,能为用户带来极速分析体验,支撑实时数据
字节跳动技术团队
·
2023-11-26 13:04
火山引擎
数据仓库
:简要理解
数据仓库
是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
宅家学算法
·
2023-11-26 08:45
MQTTC数据桥接上云
私有化部署已经不能满足当前的发展趋势了,因此dgiot在原有基础上进行创新,将私有化部署的区域数控一体机上的数据通过mqtt桥接的方式上传到云服务器上,完成数据的实时同步备份场景解析:工厂设备的数据如何稳定的传输到
数据中台
以便后续的数据分析一直是各大企业头痛的问题之一
DGIOT物联网平台
·
2023-11-25 23:31
Apache Doris 在拈花云科的统一
数据中台
实践,One Size Fits All
作者|NearFarXLab团队洪守伟、陈超、周志银、左益、武超整理|SelectDB内容团队导读:无锡拈花云科技服务有限公司(以下简称拈花云科)是由中国创意文旅集成商拈花湾文旅和北京滴普科技有限公司共同孵化组建的。拈花云科以数字化思维为导向,致力于成为文旅目的地数智化服务商。2022年底,拈花云科NearFarXLab团队在数据需求的驱动下,开始调研并引进ApacheDoris作为新架构下的数据
SelectDB技术团队
·
2023-11-25 13:29
apache
大数据
数据库
后端
Hive
数据仓库
数据仓库
的介绍
数据仓库
的基本概念
数据仓库
,英文名称为DataWarehouse,可简写为DW或DWH。
程序猿小1z
·
2023-11-25 09:49
hive
数据仓库
Hive
Hive3.1.2目录Hive3.1.21、
数据仓库
概念1.2、传统仓库面临的挑战2、Hive简介2.1、Hive的特点2.2、Hive的优缺点2.3、Hive与Hadoop生态系统中的关系2.4、Hive
忄凝^
·
2023-11-25 09:48
大数据
hadoop
大数据
hive
Hive
数据仓库
工具基本架构和入门部署详解
优质资源分享学习路线指引(点击解锁)知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统@目录*概述+定义+本质+特点+Hive与Hadoop关系+Hive与关系型数据库区别+优缺点+其他说明架构组成部分数据模
虚幻私塾
·
2023-11-25 09:15
python
数据仓库
hive
架构
计算机
分布式数据恢复-hbase+hive分布式存储误删除如何恢复数据?
hbase+hive分布式存储数据恢复环境:16台某品牌R730XD服务器节点,每台物理服务器节点上有数台虚拟机,虚拟机上配置的分布式,上层部署hbase数据库+hive
数据仓库
。
北亚数据恢复
·
2023-11-25 09:37
服务器数据恢复
数据恢复
存储数据恢复
北亚数据恢复
数据恢复
服务器数据恢复
hbase
hive
DTCC专访:南大通用GBase云上逻辑
数据仓库
助力行业数字化转型升级
日前,在第十二届中国数据库技术大会(DTCC2021)期间,南大通用数据智能产品经营部总经理张绍勇受邀围绕《GBase云上逻辑
数据仓库
助力行业迎接数字化转型新挑战》的演讲主题进行专题访谈。
GBASE数据库
·
2023-11-25 09:23
GBASE新闻
sql
数据库
人工智能
(二)大数据---Hadoop组件介绍,区别
分布式资源管理MapReduce、Spark、Flink:分布式计算框架Yarn/Mesos:分布式资源管理器zookeeper:分布式协作服务sqoop:数据同步工具hive/Impala基于Hadoop的
数据仓库
(─__─)
·
2023-11-25 07:37
Hadoop
hadoop
big
data
大数据
常用数据存储格式介绍:Excel、CSV、JSON、XML
然而,在提取数据之后,并将其加载到数据库或
数据仓库
之前,需要将数据转化为可用的数据存储格式。
PDF Reader Pro
·
2023-11-24 19:06
excel
json
xml
csv
数据库
大数据之Hadoop流存储
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及
数据仓库
工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
陌名_9b41
·
2023-11-24 18:01
COS
数据湖
最佳实践:基于 Serverless 架构的入湖方案
数据湖
(DataLake)概念自2011年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,
数据湖
也从单一数据存储池概念演进为包括ETL分析、数据转换及数据处理的下一代基础数据平台。
Serverless
·
2023-11-24 17:19
熵简技术谈 | 熵简科技在资管
数据中台
的探索与实践
导读:
数据中台
是熵简科技数据智能解决方案中的核心部分。引入
数据中台
可以打破数据与数据的界限、技术与业务的界限,为业务层的迭代提供更快的数据响应,真正做到业务数据化、数据资产化。
熵简科技Value Simplex
·
2023-11-24 17:46
数据中台
科技
数据仓库
big
data
数据挖掘
数据分析
【黑马甄选离线数仓day03_数仓设计和维度域开发】
1.数仓基本概念1-什么是
数据仓库
呢?存储数据的仓库,主要用于存储过去历史发生过的数据,面向主题,对数据进行统计分析的操作,从而能够对未来提供决策支持2-
数据仓库
最大的特点是什么呢?
LKL1026
·
2023-11-24 16:37
数据仓库
大数据
笔记
AnalyticDB for PostgreSQL 实时
数据仓库
上手指南
AnalyticDBforPostgreSQL实时
数据仓库
上手指南2019-04-016601版权本文涉及的产品云原生
数据仓库
ADBPostgreSQL,4核16G50GB1个月推荐场景:构建的企业专属
行走在云端z
·
2023-11-24 16:05
postgresql
数据仓库
etl
猿创征文|Apache Doris物化视图介绍
众所周知ApacheDoris是一款MPP分析型
数据仓库
,仅需压秒级就可以快速响应用户的查询需求。
码猿小站
·
2023-11-24 16:59
Doris
数据库
数据仓库
big
data
【文档笔记】doris
数据仓库
-数据表设计:Rollup 与查询
Rollup与查询基本概念Aggregate和Unique模型中的ROLLUPDuplicate模型中的ROLLUPROLLUP使用说明基本概念ROLLUP在多维分析中是“上卷”的意思,即将数据按某种指定的粒度进行进一步聚合。Rollup可以理解为Table的一个物化索引结构。物化是因为其数据在物理上独立存储,而索引的意思是,Rollup可以调整列顺序以增加前缀索引的命中率,也可以减少key列以增
KevinBrain
·
2023-11-24 16:44
大数据
数据仓库
doris
大数据
数据库架构
etl工程师
数据仓库
建设体系
数据仓库
概念:英文名称为DataWarehouse,可简写为DW或DWH。
数据仓库
的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。
000X000
·
2023-11-24 12:00
数据仓库
实战
数据分析
数据仓库建设体系
数据仓库
数据仓库建设
大数据
数据仓库
建设流程概述
数据仓库
的逻辑分层架构:想看懂
数据仓库
的逻辑分层架构,必须先弄懂以下4大概念。
000X000
·
2023-11-24 12:00
数据中台
数据仓库
实战
数据仓库
big
data
hadoop
大数据基础中台-
数据仓库
建设
一、数据模型架构原则数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看到内在的规律,不能为了分层而分层,没有最好的,只有适合的。分层是以解决当前业务快速的数据支撑为目的,为未来抽象出共性的框架并能够赋能给其他业务
SmartBrain
·
2023-11-24 12:22
大数据平台架构设计
数据仓库
big
data
hadoop
数据仓库
建模理论及实践-从0到1
目录1.
数据仓库
的概念1.1
数据仓库
的核心架构1.2
数据仓库
建模的意义1.2
数据仓库
建模方法论1.2.1ER模型1.2.2维度模型1.3维度建模之事实表1.3.1事务事实表1.3.2快照事实表1.3.3
OhTango
·
2023-11-24 12:21
数据仓库建模
数据仓库
大数据
数据分析
数据挖掘
3、如何从0到1去建设
数据仓库
1、数仓实施过程1.1数据调研数据调研包括:业务调研、需求调研业务调研需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据是怎样存储的业务调研完后的产出:业务调研表、各个业务流程图需求调研主要调研分析师、运营人员的数据需求和现有报表系统中的数据需求1.2数仓架构设计数据域(主题域)的划分进行数据调研后,需要对业务过程
广阔天地大有可为
·
2023-11-24 12:50
数据仓库建设与企业案例
数据仓库
spark中write算子和format算子详解
在spark中,想要往数据库或者某sink路径里面写数据,存到外部存储系统,如文件系统、数据库或
数据仓库
,经常会用到write算子。
后季暖
·
2023-11-24 11:02
spark
大数据
分布式
MySQL 日期表制作
日期维度表是
数据仓库
设计中的重要部分,它在数据分析和商业智能领域有着很广泛的应用:数据完整性和一致性:日期维度表提供了一系列连续的日期值,确保
数据仓库
中时间维度的完整性和一致性。
有请小发菜
·
2023-11-24 09:06
Mysql
mysql
数据库
数据中台
建设方法论
2、
数据仓库
中的常见的模型:1、心型模型:中间是一张事实表,周围都是维度表。
新手小农
·
2023-11-24 02:08
数据仓库
大数据
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个
数据仓库
系统,在各大公司都有广泛的应用。美团
数据仓库
也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。
数仓大山哥
·
2023-11-24 02:00
hive
hive
mapreduce
sql执行原理
【案例篇】
数据中台
的行业应用场景
数据中台
的理念和核心技术是通用的,但是其价值主要体现在具体行业业务的提升上,因此其应用场景与行业是紧密相关的。
LinkTime_Cloud
·
2023-11-24 00:05
大数据
人工智能
编程语言
java
数据分析
代码思路分享 计算机毕业设计Python+Hadoop+Spark+Hive旅游可视化 旅游数据分析
数据仓库
旅游推荐系统 旅游大数据 大数据毕业设计 大数据毕设
涉及技术hadoophiveazkabanpython爬虫huesqoopmysql运行截图
haochengxu2022
·
2023-11-24 00:09
推荐系统
机器学习
数据分析
大数据
hive
hadoop
大数据-数仓-数据采集-业务数据(三):增量同步采集【MySQL-(Maxwell)->Kafka-(Flume)->HDFS】【每日增量:每天只将业务数据中新增及变化的数据同步到
数据仓库
】
增量同步策略解释:每日增量,就是每天只将业务数据中的新增及变化的数据同步到
数据仓库
中,适用:表数据量大,且每天只会有新的数据插入的场景,特点:采用每日增量的表,通常会在首日先进行一个全量同步。
u013250861
·
2023-11-23 18:41
#
大数据
2023.11.22 -
数据仓库
的概念和发展
spm=1001.2014.3001.55011经典传统数仓架构2离线大数据数仓架构3
数据仓库
三层数据运营层,源数据层(ODS)(OperationalDataStore)
数据仓库
层(DW)(DataWarehouse
白白的wj
·
2023-11-23 16:16
数据仓库
hdfs
hadoop
大数据
sql
database
2023.11.22
数据仓库
2-维度建模
目录1.数仓建设方案2.数仓结构图,项目架构图2.1项目架构图2.2数仓结构图3.建模设计4.维度建模什么是事实表:什么是维度表:数据发展模式y以及对应的模型5.数仓建设规范数据库划分规范表命名规范表字段类型规范1.数仓建设方案ODS:源数据层(临时存储层)贴源层作用:对接数据源,用于将数据源的数据完整的导入到ODS层中,一般ODS层的数据和数据源的数据保持一致,类似于一种数据迁移的操作,一般在O
白白的wj
·
2023-11-23 16:14
数据仓库
大数据
数据库
hadoop
hive
sql
big
data
【数字化转型方法论读书笔记】-
数据中台
角色解读
同样,
数据中台
对于企业内部不同角色的价值也不同,下面分别从董事长、CEO、CTO/CIO、IT架构师、数据分析师这5个角色的视角详细解读
数据中台
。
码农丁丁
·
2023-11-23 15:32
#
大数据
大数据
数据中台
读书笔记
【数字化转型方法论读书笔记】-
数据中台
五要素
数据中台
的五要素是数据、业务、算法、应用和组织,这五要素是做好
数据中台
的基本要求,也是帮助企业合理运用数字化平台的重点。
码农丁丁
·
2023-11-23 15:52
#
大数据
大数据
数据中台
2、数仓理论概述与相关概念
1、问:
数据仓库
建设过程中经常会遇到那些问题?
广阔天地大有可为
·
2023-11-23 12:39
数据仓库建设与企业案例
大数据
20.大数据---Hive基础介绍
Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
学无止境的大象
·
2023-11-23 12:07
#
大数据
hive
big
data
hadoop
大数据开发之Hive优化篇6-Hive on spark
备注:Hive版本2.1.1一.HiveonSpark介绍Hive是基于Hadoop平台的
数据仓库
,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。
只是甲
·
2023-11-23 12:06
大数据和数据仓库
#
Hive
hive
on
spark
hadoop
hive
spark
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他