E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库数据中台数据湖
基于hadoop生态圈的
数据仓库
实践 —— OLAP与数据可视化(二)
二、Hive、SparkSQL、Impala比较Hive、SparkSQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关于这三款产品的性能对比报告。1.SparkSQL简介S
xuzhichao1231
·
2023-09-17 19:33
hadoop生态圈
hadoop
spark
数据可视化
数据仓库
生态圈
复杂SQL查询和可视化报表构建
更多AnalyticDBMySQL相关至阿里云体验实验室简介目标是让云上
数据仓库
用户及开发者通过简单的步骤体验基于AnalyticDBMySQL版和DMS构建云原生
数据仓库
的主要流程,活动将通过实例的开通
阿里云云起实验室
·
2023-09-17 19:02
体验场景
可视化
数据仓库
数据库
大数据
mysql
数据仓库
模型设计(收藏版)
一、
数据仓库
构建需要考虑的问题与数据库的单表基于ER模型构建思路不同,其面向特定业务分析的特性,决定了它的构建需要整合多套数据输入系统,并输出多业务条线的、集成的数据服务能力,需要考虑更全面的因素,包括
000X000
·
2023-09-17 15:13
数据仓库
实战
数据建模
数据仓库
数据库
系统架构
Flink CDC 2.0 详解
CDC技术的应用场景非常广泛:数据同步:用于备份,容灾;数据分发:一个数据源分发给多个下游系统;数据采集:面向
数据仓库
/
数据湖
的ETL数据集成,是非常重要的数据源。CDC的技术方案非常
000X000
·
2023-09-17 15:43
实战
Apache
Flink
实时数仓
flink
big
data
hive
数据仓库
之ODS层设计概要
常常被作为
数据仓库
的过渡,也是
数据仓库
项目的可选项之一。而Kimball的定义:操作型系统的集成,用于当前、历史以及其它细节查询(业务系统的一部
000X000
·
2023-09-17 15:12
数据仓库
实战
数据建模
数据仓库
ODS层
(三十一)大数据实战——一键式DolphinScheduler高可用工作流任务调度系统部署安装
前言DolphinScheduler(DolphinScheduler)是一个分布式、易扩展的开源DAG(有向无环图)工作流任务调度系统,可用于构建大规模数据处理、
数据仓库
、ETL等复杂的数据处理和数据分析场景
北溟溟
·
2023-09-17 10:12
大数据
大数据
火山引擎 ByteHouse:ClickHouse 如何保证海量数据一致性
基于高性能、分布式特点,ClickHouse可以满足大规模数据的分析和查询需求,因此字节研发团队以开源ClickHouse为基础,推出火山引擎云原生
数据仓库
ByteHouse。
字节跳动技术团队
·
2023-09-17 10:02
火山引擎
clickhouse
企业级
数据仓库
-理论知识
D3AM大数据中间件Hive:将SQL转化成分布式Map/Reduce进行运算,也支持转换成Spark,需要单独安装Hive集群才能访问Spark,支持60%的SQL,延迟比较大。SparkSQL:属于Spark生态圈,HiveonSqark。HBase:NoSQL,高并发读,适合表结构频繁变动。Impala:MPP架构的数据查询引擎,低层兼容Hive、SparkSQL,快速交互查询服务。HAWQ
beyond_champion
·
2023-09-17 03:39
数据仓库
大数据
数据分析
数据仓库
企业级
数据仓库
-数仓实战
数仓实战安装包大小安装清单环境搭建一、环境搭建01(机器准备)准备好三台虚拟机,并进行修改hostname、在hosts文件增加ip地址和主机名映射。1、设置每个虚拟机的hostnamevi/etc/sysconfig/network修改HOSTNAME=node02修改hostnamehostnamectlset-hostnamenode022、设置每个虚拟机的ip地址和主机名映射cat>>/e
beyond_champion
·
2023-09-17 03:06
数据仓库
数据仓库
数据库
hadoop
big
data
文本数据清洗(小技巧)
今天80%的数据是非结构化的——或者存在于
数据仓库
里,或者分散在不同的存储设备中。数据就像我们说话一样,一直在产生——从社交媒体中我们进行的每次对话,到从新数据源生成的每个内容。
马力_Panotech
·
2023-09-17 02:01
PostgreSQL 物化视图快速入门
主要用于需要快速访问数据的场景,如
数据仓库
和商务智能应
梦想画家
·
2023-09-17 00:50
PostgreSQL
浅谈
数据仓库
体系(2)
如上文所说,一个基本的
数据仓库
分为贴源层,历史层,数据模型层本文主要来讲一下贴源层(ODS),重点是如下三个方面1.贴源层的数据清洗2.贴源层的数据存储3.贴源层的数据校验一.数据清洗贴源层,一般来说抽取的是源系统的数据
半个程序员
·
2023-09-16 23:38
数据仓库
模型设计V2.0
一、数仓建模的意义数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。高性能:良好的数据模型能够帮助我们快速查询所需要的数据。低成本:良好的数据模型能减少重复计算,实现计算结果的复用,降低计算成本。高效率:良好的数据模型能极大的改善用户使用数据的体验,提高使用数据的效率。高质量:良好的数
000X000
·
2023-09-16 21:46
数据仓库
数据建模
实战
数据仓库
spark
大数据
数据仓库模型设计V2.0
Hive参数与性能调优-V2.0
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级
数据仓库
时使用最多的框架之一。
000X000
·
2023-09-16 21:54
数据仓库
HIVE
大数据
hive
数据仓库
Hive参数与性能调优
Spark sql 数据迁移
一、迁移一张表查看表结构:desctabletb1;查看建表sql语句:showcreatetabletb1;1.同一个
数据仓库
中复制表和数据,使用CTAS语句;常用的三种方案:a.完全复制拷贝:createtabletb2assele
LuoZhao
·
2023-09-16 20:49
Hive
Hive产生背景MapReduce编程的不便性HDFS上的文件缺少SchemaHive是什么1)由Facebook开元,最初用于解决海量结构化的日志数据统计问题2)构建在Hadoop之上的
数据仓库
3)Hive
捕猎者
·
2023-09-16 16:51
Data Lakehouse的未来-开放
Cloudera客户运行着地球上一些最大的
数据湖
。这些
数据湖
为关键任务大规模数据分析、商业智能(BI)和机器学习用例(包括企业
数据仓库
)提供动力。
大数据杂货铺
·
2023-09-16 09:22
大数据之Hive
Hive入门Hive是FaceBook开源,基于Hadoop的一个
数据仓库
工具,可以将结构化的数据映射为一张表,并提供类SQL查询功能。
十七✧ᐦ̤
·
2023-09-16 08:18
大数据
hive
hadoop
数据仓库
介绍及应用场景
数据仓库
(DataWarehouse)是一个用于存储、管理、检索和分析大量结构化数据的集中式数据库系统。
今晚务必早点睡
·
2023-09-16 08:42
数据仓库
离线数仓和实时数仓割裂的痛点,
数据湖
方案
离线数仓和实时数仓割裂的痛点:1)离线加工数据产出时效性不足2)实时加工可观测性,可运维性较弱3)批流双链路,双份资源开销4)全天计算资源高峰集中在凌晨
数据湖
方案:数据入湖增量计算,提升时效流表二像性,
秉寒-CHO
·
2023-09-16 08:53
大数据
一封来自江苏省电力设计院的表扬信
不仅通过数据工程的整体咨询帮助江苏院明确了经营管理域数字化转型的方向和路径,而且还通过
数据中台
的搭建,帮助江苏院打破了原本的部门墙、数据孤岛现象。
海睿思
·
2023-09-16 00:21
经营管理数字化咨询
数据中台建设项目
江苏省电力设计院公司
数据湖
是什么?
数据湖
的关键技术(二)
数据探索数据的异构性特征导致了从
数据湖
中获取数据价值存在难度。主要问题体现在多种数据模型的查询、模式不确定的关键字搜索、数据访问的有效性以及个性化数据的探索等方面。
白牛DATA
·
2023-09-15 18:47
大数据
数据湖
是什么?
数据湖
架构及应用(完)
数据湖
架构
数据湖
架构主要描述了各组件以及组件之间的关系,说明了数据的存储、处理和访问过程。
白牛DATA
·
2023-09-15 18:15
大数据
【数据网格架构】分布式数据网格作为集中式数据单体的解决方案
随着数据变得越来越普遍,传统的
数据仓库
和
数据湖
架构变得不堪重负,无法有效扩展。Dehghani认为,分布式数据网格方法可以通过采用面向领域的数据所有权来克服这些固有的低效率。“我建议下一个企业数据平台
架构师酒馆
·
2023-09-15 18:41
架构
分布式
数据网格架构
数据架构
一文了解袋鼠云在实时
数据湖
上的探索与实践
近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时
数据湖
上的探索与实践》主题分享,帮助大家能了解到什么是实时
数据湖
、如何进行
数据湖
选型及数据平台建设
数据湖
的经验。
袋鼠云数栈
·
2023-09-15 15:35
大数据
就算做亿级数据分析,BI系统照样秒分析
数据中台
:统一分析口径,为数据秒匹配创造条件BI系统秒分析
qq_43696218
·
2023-09-15 12:55
数据分析
数据可视化
大数据
中台架构与实现:基于DDD领域驱动设计和微服务笔记
2.1中台能力总体架构2.2业务中台2.3
数据中台
2.4技术中台第3章微服务设计为什么要选择DDD。3.1软件架构演进史3.3为什么DDD适合微服务第7
HELLO XF
·
2023-09-15 11:40
分布式及微服务
架构
微服务
云原生
大数据开发:Hive DDL操作入门
Hive针对于数据管理操作,提供了类SQL语言HQL,在Hadoop生态当中,Hive定位为
数据仓库
工具,对于数据的各种操作,也就是使用HQL来完成。
成都加米谷大数据
·
2023-09-15 11:31
开箱即⽤!HashData 云数仓上线华为蓝鲸应⽤商城
近⽇,经过华为对企业技术、产品和服务能⼒的综合评估,酷克数据企业级云原⽣
数据仓库
HashData通过与华为OceanStorPacific分布式存储的适配与优化,形成⼀体化解决⽅案,成功上线华为蓝鲸应⽤
HashData酷克数据
·
2023-09-15 08:47
华为
数据仓库
数据库
数据治理-数据管理角色
无论是直接角色(如设计
数据仓库
的数据架构师),还是间接角色(如开发网站的Web开发人员),所有IT角色都可以映射到数据生命周期的某个点,因此他们都会影响数据管理。
世润
·
2023-09-15 07:02
数据治理
大数据
数据治理
数据仓库
主题一(宽表模型设计)
一、典型的
数据仓库
建模思想一般主流分为两种第一种ER模型是
数据仓库
之父父Billlnmon提出的建模方法是从全企业的高度设计3NF模型,用实体关系(EntityRelationship,ER)模型描述企业业务
lianchaozhao
·
2023-09-15 07:04
数据仓库
hive
数据建模
大数据
GaussDB(DWS)云原生数仓技术解析:湖仓一体,体验与大数据互联互通
文章目录前言一、关于
数据仓库
需求场景分类二、
数据仓库
线下部署场景2.1、线下部署场景介绍及优劣势说明2.2、线下部署场景对应的客户需求三、
数据仓库
公有云部署场景3.1、公有云部署场景介绍及优劣势说明3.2
白鹿第一帅
·
2023-09-15 07:56
企业级开发业务解决方案
大数据入门与高阶开发(Big
Data)
白鹿第一帅
gaussdb
云原生
云原生数仓技术解析
湖仓一体
DWS
大数据
BI与数据治理以及
数据仓库
有什么区别
你可能已经听说过BI、数据治理和
数据仓库
这些术语,它们在现代企业中起着重要的作用。虽然它们都与数据相关,但它们之间有着明显的区别和各自独特的功能。
qingyunliushuiyu
·
2023-09-15 06:42
数据仓库
数据治理
BI
T-ETL和ELT区别
ETLETL,即抽取、转换、加载,是从不同的数据源抽取信息,将其转换为根据业务定义的格式,然后将其加载到其他数据库或
数据仓库
中。
ELI_He999
·
2023-09-15 06:38
2023ARTS打卡
大数据
etl
数据仓库
arts挑战
今年高考人数剧增,湖南复读学校有推荐?
一、2021年湖南高考报名人
数据湖
南省教育考试院统计,湖南有56.84万人报名参加2021高考,较202
郡雅复读
·
2023-09-15 05:49
数据中台
:让数据用起来
“一切业务数据化,一切数据业务化”,回顾几十年的中国企业信息化发展历程,就是“业务数据化”的过程——企业持续在IT方面进行投入和建设,不断将发展过程中业务和经营管理端的各种能力以数据形态沉淀下来。而接下来的“数据业务化”则是将已经成为资产的数据作为生产资料融入业务价值的创造过程,使之持续产生价值。但是随着DT时代的来临,一路高歌、突飞猛进的企业信息化建设却开始出现诸多发展瓶颈和痛点。首先,随着信息
橙子喝啤酒
·
2023-09-15 04:53
火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术
作为一款OLAP引擎,火山引擎云原生
数据仓库
ByteHouse源于开源ClickHouse,在字节跳动多年打磨下,提供更丰富的能力和更强性能,能为用户带来极速分析体验,支撑实时数据分析和海量离线数据分析
字节数据平台
·
2023-09-14 19:28
火山引擎
大数据
数据研发
云原生
数据湖
是什么?
数据湖
关键技术(一)
随着
数据湖
的发展,目前面临着诸多技术方面的挑战,必须不断完善并解决各种技术难题。
数据湖
是当前大数据技术研究的一种范例,研究人员通过该范例来应对大数据技术所遇到的各种挑战。
白牛DATA
·
2023-09-14 08:21
大数据
大数据-Hive
Hive简介Hive是基于Hadoop的一个【
数据仓库
工具】,可以将结构化和半结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。
HikZ.919
·
2023-09-14 06:35
hadoop
大数据
hive
hadoop
【
数据仓库
设计基础1】关系数据模型理论与
数据仓库
Inmon方法论
关系数据模型中的结构1.关系2.属性3.属性域4.元组5.关系数据库6.关系表的属性7.关系数据模型中的键二.关系完整性1.空值(NULL)2.关系完整性规则3.业务规则4.关系数据库语言三.规范化四.关系数据模型与
数据仓库
关系模型被广泛应用于数据处理和数据存储
roman_日积跬步-终至千里
·
2023-09-14 05:26
数据仓库
数据仓库
Hive
数据仓库
实战
Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的
数据仓库
,分布式机器学习的训练数据和数据处理也经常用它来处理,下面介绍下它的常用功能。
充电了么
·
2023-09-14 02:28
尚硅谷大数据项目《在线教育之实时数仓》笔记001
P002P003P004第2章
数据仓库
建模概述第3章维度建模理论之事实表第4章维度建模理论之维度表
数据仓库
系列:星型模型和雪花型模型-知乎P005第5章数据
upward337
·
2023-09-13 13:00
#
大数据数仓
大数据
数据仓库
实时数仓
数仓相关知识集合
数仓建模说到数仓建模,就得提下经典的2套理论:范式建模Inmon提出的集线器的自上而下(EDW-DM)的
数据仓库
架构。维度建模Kimball提出的总线式的自下而上(DM-DW)的
数据仓库
架构。
zjy997
·
2023-09-13 11:37
大数据之路
数据中台
产品经理初探四
从事
数据中台
PD近九个月了,从蛮荒开荒到目前初步搭建了一定的规模,一路走来,还是前面几个月比较辛苦,最近逐渐涉及到对外项目的对接和商业化,有一些感悟,和大家分享。
Frank舟
·
2023-09-13 09:13
【大数据】美团 DB 数据同步到
数据仓库
的架构与实践
美团DB数据同步到
数据仓库
的架构与实践1.背景2.整体架构3.Binlog实时采集4.离线还原MySQL数据5.Kafka2Hive6.对Camus的二次开发7.Checkdone的检测逻辑8.Merge9
G皮T
·
2023-09-13 06:51
大数据
大数据
数据库
数据仓库
数据同步
Hive调优(SQL)
文章目录SQL优化SQL优化Hive作为大数据领域常用的
数据仓库
组件,在设计和开发阶段需要注意效率;影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对
飞越石之海
·
2023-09-13 04:39
数据治理
hive
sql
hadoop
浅谈
数据仓库
体系(3)-历史层
如上文所说,一个基本的
数据仓库
分为贴源层,历史层,数据模型层本文主要来讲一下历史层(his),重点是如下三个方面1.历史层的数据清洗2.历史层的数据存储3.历史层的数据校验历史层,顾名思义,就是保存所有的历史数据
半个程序员
·
2023-09-13 03:11
使用Data Transfer Hub迁移MaxCompute数据至S3
数据湖
实践
一.概述随着对象存储使用得到广泛普及,越来越多的企业客户从其他云对象存储迁移到AmazonS3时对实时性,安全性,稳定性,易用性和同步效率有不同的要求。其次,数据存储如关系型/非关系型数据库,Elasticsearch,Redis等皆可通过导出文件或快照进行数据导入,使数据迁移变为基于文件的迁移。本文以迁移阿里MaxCompute数据为示例,通过阿里OSS对象存储实时事件触发,部署DataTran
红彤软件
·
2023-09-13 02:25
阿里云
云计算
什么是
数据湖
?
数据湖
的概念及发展历程
随着云计算、社交媒体、物联网、短视频等新一代互联网技术的快速发展,数据的数量和复杂性不断增加。许多企业和组织已经积累了大量的各种类型的数据,对于如何存储和管理这些海量数据,以及如何高效地分析和利用这些数据,是每个组织当前面临的重要挑战。对于企业来说,有效处理和分析海量数据,对于数字化转型过程中的各种决策,具有至关重要的作用。大数据的兴起给数据库研究带来了诸多挑战。大数据通常具有四个典型特征,包括数
白牛DATA
·
2023-09-13 02:31
大数据
窥探企业
数据中台
的秘密-下
数据资源规划与建设前言随着时代的发展,全球性经济处于低速增长阶段,为了解决增长困境带来的问题,经济学界提出了新经济的概念。原因有两方面:一方面,传统产业与金融行业的发展模式迫切需要寻找新的突破、新的变革与新的增长点;另一方面,粗放式、无节制的生产经营方式与消费模式,让整个行业感到万分焦虑,使得整个焦化行业暴露出各种无节制问题,变成在无效益中空忙,从而导致社会资本的严重浪费。如何在变局下的经济新探索
言射手
·
2023-09-12 23:25
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他