E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库高级技术
3、如何从0到1去建设
数据仓库
1、数仓实施过程1.1数据调研数据调研包括:业务调研、需求调研业务调研需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据是怎样存储的业务调研完后的产出:业务调研表、各个业务流程图需求调研主要调研分析师、运营人员的数据需求和现有报表系统中的数据需求1.2数仓架构设计数据域(主题域)的划分进行数据调研后,需要对业务过程
广阔天地大有可为
·
2023-11-24 12:50
数据仓库建设与企业案例
数据仓库
spark中write算子和format算子详解
在spark中,想要往数据库或者某sink路径里面写数据,存到外部存储系统,如文件系统、数据库或
数据仓库
,经常会用到write算子。
后季暖
·
2023-11-24 11:02
spark
大数据
分布式
MySQL 日期表制作
日期维度表是
数据仓库
设计中的重要部分,它在数据分析和商业智能领域有着很广泛的应用:数据完整性和一致性:日期维度表提供了一系列连续的日期值,确保
数据仓库
中时间维度的完整性和一致性。
有请小发菜
·
2023-11-24 09:06
Mysql
mysql
数据库
数据中台建设方法论
2、
数据仓库
中的常见的模型:1、心型模型:中间是一张事实表,周围都是维度表。
新手小农
·
2023-11-24 02:08
数据仓库
大数据
HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个
数据仓库
系统,在各大公司都有广泛的应用。美团
数据仓库
也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。
数仓大山哥
·
2023-11-24 02:00
hive
hive
mapreduce
sql执行原理
代码思路分享 计算机毕业设计Python+Hadoop+Spark+Hive旅游可视化 旅游数据分析
数据仓库
旅游推荐系统 旅游大数据 大数据毕业设计 大数据毕设
涉及技术hadoophiveazkabanpython爬虫huesqoopmysql运行截图
haochengxu2022
·
2023-11-24 00:09
推荐系统
机器学习
数据分析
大数据
hive
hadoop
大数据-数仓-数据采集-业务数据(三):增量同步采集【MySQL-(Maxwell)->Kafka-(Flume)->HDFS】【每日增量:每天只将业务数据中新增及变化的数据同步到
数据仓库
】
增量同步策略解释:每日增量,就是每天只将业务数据中的新增及变化的数据同步到
数据仓库
中,适用:表数据量大,且每天只会有新的数据插入的场景,特点:采用每日增量的表,通常会在首日先进行一个全量同步。
u013250861
·
2023-11-23 18:41
#
大数据
2023.11.22 -
数据仓库
的概念和发展
spm=1001.2014.3001.55011经典传统数仓架构2离线大数据数仓架构3
数据仓库
三层数据运营层,源数据层(ODS)(OperationalDataStore)
数据仓库
层(DW)(DataWarehouse
白白的wj
·
2023-11-23 16:16
数据仓库
hdfs
hadoop
大数据
sql
database
2023.11.22
数据仓库
2-维度建模
目录1.数仓建设方案2.数仓结构图,项目架构图2.1项目架构图2.2数仓结构图3.建模设计4.维度建模什么是事实表:什么是维度表:数据发展模式y以及对应的模型5.数仓建设规范数据库划分规范表命名规范表字段类型规范1.数仓建设方案ODS:源数据层(临时存储层)贴源层作用:对接数据源,用于将数据源的数据完整的导入到ODS层中,一般ODS层的数据和数据源的数据保持一致,类似于一种数据迁移的操作,一般在O
白白的wj
·
2023-11-23 16:14
数据仓库
大数据
数据库
hadoop
hive
sql
big
data
2、数仓理论概述与相关概念
1、问:
数据仓库
建设过程中经常会遇到那些问题?
广阔天地大有可为
·
2023-11-23 12:39
数据仓库建设与企业案例
大数据
20.大数据---Hive基础介绍
Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
学无止境的大象
·
2023-11-23 12:07
#
大数据
hive
big
data
hadoop
大数据开发之Hive优化篇6-Hive on spark
备注:Hive版本2.1.1一.HiveonSpark介绍Hive是基于Hadoop平台的
数据仓库
,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。
只是甲
·
2023-11-23 12:06
大数据和数据仓库
#
Hive
hive
on
spark
hadoop
hive
spark
大数据最佳实践-hive on spark
它最初是作为
数据仓库
(DW)工具构建的,现在它具有轻松交换执行引擎的功能,因此更具吸引力。简而言之,使用HiveonSpark,您的查
WakeUpCcc
·
2023-11-23 12:33
大数据
hive
spark
hadoop
数据仓库
数据仓库
岗面试
1.自我介绍2.求用户连续登录3天,要讲出多种解法解法1(使用SQL):SELECTuseridFROMloginrecordWHEREDATEDIFF(day,time,LAG(time)OVER(PARTITIONBYuseridORDERBYtime))=1ANDDATEDIFF(day,LAG(time)OVER(PARTITIONBYuseridORDERBYtime),TIME)=2;
ChlinRei
·
2023-11-23 11:36
数据仓库
面试
职场和发展
Service Mesh 是新瓶装旧酒吗?
作者|李云(花名:至简)阿里云
高级技术
专家导读:在即将过去的2019年,ServiceMesh开源产品的成熟度虽在全球范围内没有发生质的变化,但在国内仍出现了一些值得特别关注的事件。
阿里云云原生
·
2023-11-22 19:22
service
mesh
企业如何选择一款高效的ETL工具
在企业发展至一定规模后,构建
数据仓库
(DataWarehouse)和商业智能(BI)系统成为重要举措。
ETLCloud数据集成社区
·
2023-11-22 18:26
etl
数据仓库
数仓问答篇(一)
有些大数据
数据仓库
产品也采用混合架构,以融合两者的优点,例如Impala、Presto等都是基于HDFS的MPP分析引擎,仅利用HDFS实现分区容错性,放弃MapReduce计算模型,在面向OLAP场景时可实现更好的性能
AII派森
·
2023-11-22 16:36
大数据
知乎热议:
数据仓库
、数据湖、湖仓一体,究竟有什么区别?
来源:知乎作者:十叶心全文共14108个字,建议阅读20分钟一、基本概念1.1数仓发展历史数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。它能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。数据湖对存取的数据没有格式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据
浪尖聊大数据-浪尖
·
2023-11-22 13:30
数据库
大数据
hadoop
devops
java
数据仓库
工具之Hive的架构原理
1.Hive的本质Hive是基于Hadoop的一个
数据仓库
工具,它的本质是将HQL语句转化成MapReduce程序.在它的底层,HDFS负责存储数据,YARN负责进行资源管理,MapReduce负责数据处理
GuangHui
·
2023-11-22 13:05
阿里大数据工程师:教你如何快速的搭建数据库
数据仓库
,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
yoku酱
·
2023-11-22 13:03
服务器能不能用普通硬盘,服务器硬盘是什么 与普通硬盘区别
如果说服务器是网络数据的核心,那么服务器硬盘就是这个核心的
数据仓库
,所有的软件和用户数据都存储在这里。对用户来说,储存在服务器上的硬盘数据是特别宝贵的,因此硬盘的可靠性是特别重要的。
老先队员
·
2023-11-22 10:39
服务器能不能用普通硬盘
浅谈
数据仓库
建设中的数据建模方法
周三保(
[email protected]
)IBM软件部信息技术专家.简介:本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在
数据仓库
建设项目中的一些经验,在这里分享给大家。
wer0735
·
2023-11-22 06:27
数据仓库~大数据
数据仓库方法论
数据仓库
一.各种名词解释1.1ODS是什么?ODS层最好理解,基本上就是数据从源表拉过来,进行etl,比如mysql映射到hive,那么到了hive里面就是ods层。ODS全称是OperationalDataStore,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层。本层的数据,总体上大多是按照源
qq_44949002
·
2023-11-22 06:23
mysql
数据仓库
数据仓库
架构之详解Kappa和Lambda
目录一、前言二、架构详解1Lambda架构1.1Lambda架构组成1.2Lambda特点1.3Lambda架构的优点1.4Lambda架构的不足2Kappa架构2.1Kappa架构的核心组件2.2Kappa架构优点2.3Kappa架构的注意事项三、区别对比四、选择时考虑因素一、前言在大数据处理领域,有两种突出的数据架构已成为处理大量数据的流行选择:Lambda架构和Kappa架构。这两种架构为实
醉酒的戈多
·
2023-11-22 06:45
数据仓库
数据治理
大数据
数据仓库
数据仓库
模式之详解 Inmon 和 Kimball
目录一、前言二、企业信息工厂(Inmon)2.1概念2.2主要组件2.3流程三、多维
数据仓库
(Kimball)3.1概念3.2核心组件3.3流程四、异同及用途对比4.1异同对比4.2特征比较一、前言大部分关于
数据仓库
构建与讨论
醉酒的戈多
·
2023-11-22 06:41
数据仓库
数据治理
数据仓库
大数据
数据中台架构原理与开发实战:数据中台面临的挑战与解决方案
作者:禅与计算机程序设计艺术1.背景介绍数据中台是一种以
数据仓库
、数据湖、数据集市和分析平台等多种技术组件组合而成的大型IT系统,能够提供企业数据存储、加工、分析、应用的综合化服务,能够实现“智能4.0
禅与计算机程序设计艺术
·
2023-11-21 23:38
大数据AI人工智能
大数据
人工智能
语言模型
Java
Python
架构设计
数据湖学习笔记No.03(
数据仓库
)
数据仓库
资料链接:https://cloud.fynote.com/share/d/f3WMWzN数据分析业务痛点分析业务系统数据:存放在关系数据库中用户日志数据:用户在系统中产生javaweb为什么需要大数据
SEUsmith
·
2023-11-21 22:34
大数据学习
数据仓库
学习
数据库
万字详解大数据架构新概念
▲点击上方“老于的笔记”关注公众号回复1,免费获取B端运营地图正文来了随着近几年数据湖概念的兴起,业界对于
数据仓库
和数据湖的对比甚至争论就一直不断。
于连林_
·
2023-11-21 22:53
大数据
架构
数仓理论基础
数据仓库
的主体hive两种建模方式:ER和维度ER模型实体关系模型:将复杂的数据抽象为实体和关系。实体表示一个对象,关系指的是两个实体之间的关系,比如学生和班级之间的从属关系。
Made in Program
·
2023-11-21 19:15
数据仓库
hive
数据库
数据仓库
理论
修改记录时间内容2020年9月13日第一次发布推荐书:《
数据仓库
工具书》(纯理论)、大数据之路-阿里巴巴大数据实践、一、数仓相关概念
数据仓库
:英文DataWareHouse,
数据仓库
是面向主题,为分析数据而设计的
宇宙中的Philip
·
2023-11-21 17:43
数仓理论
数据仓库
大数据
hive
数据仓库
_模型设计_学习目录
前言:1、问什么要写这篇博客?随着自己在`数仓`岗位工作的年限增加,对数仓的理解和认知也在发生着变化所有用这篇博客来记录工作中用到的`知识点`与`经验`2、这篇博客主要记录了那些内容?主要会记录一些`数仓建设方法论`和工作技巧目录:
广阔天地大有可为
·
2023-11-21 13:47
数据仓库建设与企业案例
数据仓库
数据仓库
高级面试题
数仓高内聚低耦合是怎么做的定义高内聚:强调模块内部的相对独立性,要求模块内部的元素尽可能的完成一个功能,不混杂其他功能,从而使模块保持简洁,易于理解和管理。低耦合:模块之间的耦合度要尽可能的低,避免模块之间的复杂依赖,使得每个模块都可以独立存在,从而减少模块间的相互影响,提高系统的可维护性。做到低耦合、高内聚一般复杂的公共逻辑可以采用抽象类和抽象方法的方式下沉到共有模块中,然后由相关子类去实现抽象
小小哭包
·
2023-11-21 13:16
大数据
大数据
spark
分布式
数据仓库
GreenPlum数据库调研及架构介绍
docs-cn.greenplum.org/v6/admin_guide/intro/arch_overview.htmlGreenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型
数据仓库
以及商业智能工作负载而设计
Aiky哇
·
2023-11-21 11:48
数据库架构
测试调研
olap
数据仓库
pyspark案例系列5-Spark ETL将MySQL数据同步到Hive
文章目录一.需求二.解决方案2.1全量同步2.2增量同步备注:Spark2.4.0一.需求最近做
数据仓库
项目的时候,觉得sqoop有点慢,然后想尝试使用Spark来做ETL。
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
spark
mysql
pyspark案例系列6-将Hive表数据写入MySQL
文章目录一.需求二.解决方案一.需求我们做
数据仓库
的时候,一般是将源系统的数据(如MySQL)抽取到Hive中,然后在Hive中做ETL后,最后将处理完的数据从Hive再抽回到MySQL。
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
mysql
spark
Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electroni...
特别是,使用三层去噪自动编码器堆栈来捕获来自西奈山
数据仓库
的约700,000名患者的汇总EHR中的分层规律性和依存关系。结果就是我们称为“深层患者”的表示。我们通过评估患者
一二两清酒
·
2023-11-21 07:14
AIGC ChatGPT4对Gbase数据库进行总结
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战,ETLInformatica
数据仓库
案例实战
阿里数据专家
·
2023-11-21 05:26
ChatGPT实战案例
ChatGPT
AIGC
数据分析
信息可视化
数据挖掘
excel
人工智能
数据库
数据仓库
hive本地/远程模式安装
文章目录1.简述2.本地模式2.1安装包准备2.2解压安装mysql2.2.1解压mysql安装包2.2.2安装mysql相关组件2.2.3修改my.cnf配置文件2.2.4更改所属组2.2.5启动mysql服务2.3hive解压安装及配置2.3.1解压2.3.2改名2.3.3配置环境变量2.3.4添加hive-site.xml配置文件2.3.5放置mysql驱动文件2.3.6启动hive3.远程
吴糖气泡水~
·
2023-11-20 20:25
大数据资源共享
hive
数据仓库
mysql
数据库
Hive本地模式安装(详细)
Hive是建立在Hadoop文件系统上的
数据仓库
,它提供了一系列工具,能够对存储在HDFS中的数据进行数据提取、转换和加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。
i阿极(暂时无法回复版)
·
2023-11-20 20:48
大数据
hive
数据库
hadoop
大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】
数据仓库
建模(DataWarehouseModeling)是指在
数据仓库
(DataWarehouse)中组织和设计数据的过程,
月亮给我抄代码
·
2023-11-20 20:59
大数据
数据仓库
hive
你在使用大数据技术的时候,你知道大数据语言的工具与框架吗?
对OLAP
数据仓库
的迁移,如果用Python
yoku酱
·
2023-11-20 19:25
浅谈BI
首先引用百度百科的定义:商业智能(BusinessIntelligence,简称:BI),又称商业智慧或商务智能,指用现代
数据仓库
技术、线上分
秋夜雨凉
·
2023-11-20 18:34
Hive基础
Hive
数据仓库
数据仓库
是存数据的,企业的各种数据往里存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。
升级打怪的辉哥
·
2023-11-20 16:07
hive
数据仓库
hadoop
高斯DWS数据库分页查询优化思路
除了高斯其它关系型数据可也一样可以使用官方链接:EXPLAIN_
数据仓库
服务GaussDB(DWS)_8.2.0_DML语法_华为云参考链接:MySQL大数据量分页查询方法及其优化_mysql大数据量分页查询优化
4935同学
·
2023-11-20 10:41
数据库
sql
postgresql
gaussdb
Hive效率优化记录
Hive是工作中常用的
数据仓库
工具,提供存储在HDFS文件系统,将结构化数据映射为一张张表以及提供查询和分析功能。
Forge_ahead
·
2023-11-20 03:26
work_efficiency
Study
hive
hadoop
数据仓库
亚马逊云科技AI创新应用下的托管在AWS上的数据可视化工具—— Amazon QuickSight
简介AmazonQuickSight的独特之处AmazonQuickSight注册AmazonQuickSight使用Redshift和AmazonQuickSightt平台构建数据可视化应用程序构建
数据仓库
数据可视化
lqj_本人
·
2023-11-20 01:32
科技
人工智能
aws
第二节:
数据仓库
系统的体系结构
1:引言上一篇介绍了
数据仓库
的定义:面向主题的,集成的,不可修改的,随时间不断变化的用来更好的为企业或组织决策分析的数据集合。
weixin_30278311
·
2023-11-20 01:48
Hive参数与性能企业级调优(建议收藏)
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级
数据仓库
时使用最多的框架之一。
坨坨的大数据
·
2023-11-19 23:58
数据仓库
数据仓库
数据仓库
,英文名称为DataWarehuse,简写DW或DWH。
数据仓库
,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
小纠结在简书
·
2023-11-19 23:54
MySQL进阶_7.数据库的设计规范
2.3、第三范式2.4、三大范式总结第三节、反范式化3.1、反范式化简介3.2、反范式的新问题3.3、反范式适用场景3.3.1、增加冗余字段的建议3.3.2、历史快照、历史数据的需要3.3.2.1数据库和
数据仓库
在使用上的区别第一节
珍珠是蚌的眼泪
·
2023-11-19 21:43
MySQL
mysql
设计规范
第一范式
第二范式
第三范式
反范式化
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他