E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库hadoop大数据
大数据开发之Hive优化篇6-Hive on spark
备注:Hive版本2.1.1一.HiveonSpark介绍Hive是基于Hadoop平台的
数据仓库
,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。
只是甲
·
2023-11-23 12:06
大数据和数据仓库
#
Hive
hive
on
spark
hadoop
hive
spark
大数据最佳实践-hive on spark
它最初是作为
数据仓库
(DW)工具构建的,现在它具有轻松交换执行引擎的功能,因此更具吸引力。简而言之,使用HiveonSpark,您的查
WakeUpCcc
·
2023-11-23 12:33
大数据
hive
spark
hadoop
数据仓库
数据仓库
岗面试
1.自我介绍2.求用户连续登录3天,要讲出多种解法解法1(使用SQL):SELECTuseridFROMloginrecordWHEREDATEDIFF(day,time,LAG(time)OVER(PARTITIONBYuseridORDERBYtime))=1ANDDATEDIFF(day,LAG(time)OVER(PARTITIONBYuseridORDERBYtime),TIME)=2;
ChlinRei
·
2023-11-23 11:36
数据仓库
面试
职场和发展
企业如何选择一款高效的ETL工具
在企业发展至一定规模后,构建
数据仓库
(DataWarehouse)和商业智能(BI)系统成为重要举措。
ETLCloud数据集成社区
·
2023-11-22 18:26
etl
数据仓库
数仓问答篇(一)
有些大数据
数据仓库
产品也采用混合架构,以融合两者的优点,例如Impala、Presto等都是基于HDFS的MPP分析引擎,仅利用HDFS实现分区容错性,放弃MapReduce计算模型,在面向OLAP场景时可实现更好的性能
AII派森
·
2023-11-22 16:36
大数据
hadoop@bigdate-VirtualBox:/mnt/shared$ tar -xzvf hadoop-2.10.2.tar.gz tar (child): hadoop-2.10.2.tar
在virtualbox的ubuntu虚拟机上使用共享文件夹安装
hadoop大数据
软件在在virtualbox的ubuntu虚拟机上设置共享文件夹步骤:1.设置共享文件夹自行设定共享文件夹路径以及名称,记得勾选自动挂载
北辰Charih
·
2023-11-22 15:09
大数据挖掘
hadoop
大数据
分布式
知乎热议:
数据仓库
、数据湖、湖仓一体,究竟有什么区别?
来源:知乎作者:十叶心全文共14108个字,建议阅读20分钟一、基本概念1.1数仓发展历史数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。它能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。数据湖对存取的数据没有格式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据
浪尖聊大数据-浪尖
·
2023-11-22 13:30
数据库
大数据
hadoop
devops
java
数据仓库
工具之Hive的架构原理
1.Hive的本质Hive是基于Hadoop的一个
数据仓库
工具,它的本质是将HQL语句转化成MapReduce程序.在它的底层,HDFS负责存储数据,YARN负责进行资源管理,MapReduce负责数据处理
GuangHui
·
2023-11-22 13:05
阿里大数据工程师:教你如何快速的搭建数据库
数据仓库
,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
yoku酱
·
2023-11-22 13:03
服务器能不能用普通硬盘,服务器硬盘是什么 与普通硬盘区别
如果说服务器是网络数据的核心,那么服务器硬盘就是这个核心的
数据仓库
,所有的软件和用户数据都存储在这里。对用户来说,储存在服务器上的硬盘数据是特别宝贵的,因此硬盘的可靠性是特别重要的。
老先队员
·
2023-11-22 10:39
服务器能不能用普通硬盘
浅谈
数据仓库
建设中的数据建模方法
周三保(
[email protected]
)IBM软件部信息技术专家.简介:本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在
数据仓库
建设项目中的一些经验,在这里分享给大家。
wer0735
·
2023-11-22 06:27
数据仓库~大数据
数据仓库方法论
数据仓库
一.各种名词解释1.1ODS是什么?ODS层最好理解,基本上就是数据从源表拉过来,进行etl,比如mysql映射到hive,那么到了hive里面就是ods层。ODS全称是OperationalDataStore,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层。本层的数据,总体上大多是按照源
qq_44949002
·
2023-11-22 06:23
mysql
数据仓库
数据仓库
架构之详解Kappa和Lambda
目录一、前言二、架构详解1Lambda架构1.1Lambda架构组成1.2Lambda特点1.3Lambda架构的优点1.4Lambda架构的不足2Kappa架构2.1Kappa架构的核心组件2.2Kappa架构优点2.3Kappa架构的注意事项三、区别对比四、选择时考虑因素一、前言在大数据处理领域,有两种突出的数据架构已成为处理大量数据的流行选择:Lambda架构和Kappa架构。这两种架构为实
醉酒的戈多
·
2023-11-22 06:45
数据仓库
数据治理
大数据
数据仓库
数据仓库
模式之详解 Inmon 和 Kimball
目录一、前言二、企业信息工厂(Inmon)2.1概念2.2主要组件2.3流程三、多维
数据仓库
(Kimball)3.1概念3.2核心组件3.3流程四、异同及用途对比4.1异同对比4.2特征比较一、前言大部分关于
数据仓库
构建与讨论
醉酒的戈多
·
2023-11-22 06:41
数据仓库
数据治理
数据仓库
大数据
数据中台架构原理与开发实战:数据中台面临的挑战与解决方案
作者:禅与计算机程序设计艺术1.背景介绍数据中台是一种以
数据仓库
、数据湖、数据集市和分析平台等多种技术组件组合而成的大型IT系统,能够提供企业数据存储、加工、分析、应用的综合化服务,能够实现“智能4.0
禅与计算机程序设计艺术
·
2023-11-21 23:38
大数据AI人工智能
大数据
人工智能
语言模型
Java
Python
架构设计
数据湖学习笔记No.03(
数据仓库
)
数据仓库
资料链接:https://cloud.fynote.com/share/d/f3WMWzN数据分析业务痛点分析业务系统数据:存放在关系数据库中用户日志数据:用户在系统中产生javaweb为什么需要大数据
SEUsmith
·
2023-11-21 22:34
大数据学习
数据仓库
学习
数据库
万字详解大数据架构新概念
▲点击上方“老于的笔记”关注公众号回复1,免费获取B端运营地图正文来了随着近几年数据湖概念的兴起,业界对于
数据仓库
和数据湖的对比甚至争论就一直不断。
于连林_
·
2023-11-21 22:53
大数据
架构
数仓理论基础
数据仓库
的主体hive两种建模方式:ER和维度ER模型实体关系模型:将复杂的数据抽象为实体和关系。实体表示一个对象,关系指的是两个实体之间的关系,比如学生和班级之间的从属关系。
Made in Program
·
2023-11-21 19:15
数据仓库
hive
数据库
数据仓库
理论
修改记录时间内容2020年9月13日第一次发布推荐书:《
数据仓库
工具书》(纯理论)、大数据之路-阿里巴巴大数据实践、一、数仓相关概念
数据仓库
:英文DataWareHouse,
数据仓库
是面向主题,为分析数据而设计的
宇宙中的Philip
·
2023-11-21 17:43
数仓理论
数据仓库
大数据
hive
数据仓库
_模型设计_学习目录
前言:1、问什么要写这篇博客?随着自己在`数仓`岗位工作的年限增加,对数仓的理解和认知也在发生着变化所有用这篇博客来记录工作中用到的`知识点`与`经验`2、这篇博客主要记录了那些内容?主要会记录一些`数仓建设方法论`和工作技巧目录:
广阔天地大有可为
·
2023-11-21 13:47
数据仓库建设与企业案例
数据仓库
数据仓库
高级面试题
数仓高内聚低耦合是怎么做的定义高内聚:强调模块内部的相对独立性,要求模块内部的元素尽可能的完成一个功能,不混杂其他功能,从而使模块保持简洁,易于理解和管理。低耦合:模块之间的耦合度要尽可能的低,避免模块之间的复杂依赖,使得每个模块都可以独立存在,从而减少模块间的相互影响,提高系统的可维护性。做到低耦合、高内聚一般复杂的公共逻辑可以采用抽象类和抽象方法的方式下沉到共有模块中,然后由相关子类去实现抽象
小小哭包
·
2023-11-21 13:16
大数据
大数据
spark
分布式
数据仓库
GreenPlum数据库调研及架构介绍
docs-cn.greenplum.org/v6/admin_guide/intro/arch_overview.htmlGreenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型
数据仓库
以及商业智能工作负载而设计
Aiky哇
·
2023-11-21 11:48
数据库架构
测试调研
olap
数据仓库
pyspark案例系列5-Spark ETL将MySQL数据同步到Hive
文章目录一.需求二.解决方案2.1全量同步2.2增量同步备注:Spark2.4.0一.需求最近做
数据仓库
项目的时候,觉得sqoop有点慢,然后想尝试使用Spark来做ETL。
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
spark
mysql
pyspark案例系列6-将Hive表数据写入MySQL
文章目录一.需求二.解决方案一.需求我们做
数据仓库
的时候,一般是将源系统的数据(如MySQL)抽取到Hive中,然后在Hive中做ETL后,最后将处理完的数据从Hive再抽回到MySQL。
只是甲
·
2023-11-21 10:33
大数据和数据仓库
#
Spark
hive
mysql
spark
Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electroni...
特别是,使用三层去噪自动编码器堆栈来捕获来自西奈山
数据仓库
的约700,000名患者的汇总EHR中的分层规律性和依存关系。结果就是我们称为“深层患者”的表示。我们通过评估患者
一二两清酒
·
2023-11-21 07:14
AIGC ChatGPT4对Gbase数据库进行总结
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战,ETLInformatica
数据仓库
案例实战
阿里数据专家
·
2023-11-21 05:26
ChatGPT实战案例
ChatGPT
AIGC
数据分析
信息可视化
数据挖掘
excel
人工智能
数据库
数据仓库
hive本地/远程模式安装
文章目录1.简述2.本地模式2.1安装包准备2.2解压安装mysql2.2.1解压mysql安装包2.2.2安装mysql相关组件2.2.3修改my.cnf配置文件2.2.4更改所属组2.2.5启动mysql服务2.3hive解压安装及配置2.3.1解压2.3.2改名2.3.3配置环境变量2.3.4添加hive-site.xml配置文件2.3.5放置mysql驱动文件2.3.6启动hive3.远程
吴糖气泡水~
·
2023-11-20 20:25
大数据资源共享
hive
数据仓库
mysql
数据库
Hive本地模式安装(详细)
Hive是建立在Hadoop文件系统上的
数据仓库
,它提供了一系列工具,能够对存储在HDFS中的数据进行数据提取、转换和加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。
i阿极(暂时无法回复版)
·
2023-11-20 20:48
大数据
hive
数据库
hadoop
大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】
数据仓库
建模(DataWarehouseModeling)是指在
数据仓库
(DataWarehouse)中组织和设计数据的过程,
月亮给我抄代码
·
2023-11-20 20:59
大数据
数据仓库
hive
你在使用大数据技术的时候,你知道大数据语言的工具与框架吗?
对OLAP
数据仓库
的迁移,如果用Python
yoku酱
·
2023-11-20 19:25
浅谈BI
首先引用百度百科的定义:商业智能(BusinessIntelligence,简称:BI),又称商业智慧或商务智能,指用现代
数据仓库
技术、线上分
秋夜雨凉
·
2023-11-20 18:34
Hive基础
Hive
数据仓库
数据仓库
是存数据的,企业的各种数据往里存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。
升级打怪的辉哥
·
2023-11-20 16:07
hive
数据仓库
hadoop
高斯DWS数据库分页查询优化思路
除了高斯其它关系型数据可也一样可以使用官方链接:EXPLAIN_
数据仓库
服务GaussDB(DWS)_8.2.0_DML语法_华为云参考链接:MySQL大数据量分页查询方法及其优化_mysql大数据量分页查询优化
4935同学
·
2023-11-20 10:41
数据库
sql
postgresql
gaussdb
Hive效率优化记录
Hive是工作中常用的
数据仓库
工具,提供存储在HDFS文件系统,将结构化数据映射为一张张表以及提供查询和分析功能。
Forge_ahead
·
2023-11-20 03:26
work_efficiency
Study
hive
hadoop
数据仓库
亚马逊云科技AI创新应用下的托管在AWS上的数据可视化工具—— Amazon QuickSight
简介AmazonQuickSight的独特之处AmazonQuickSight注册AmazonQuickSight使用Redshift和AmazonQuickSightt平台构建数据可视化应用程序构建
数据仓库
数据可视化
lqj_本人
·
2023-11-20 01:32
科技
人工智能
aws
第二节:
数据仓库
系统的体系结构
1:引言上一篇介绍了
数据仓库
的定义:面向主题的,集成的,不可修改的,随时间不断变化的用来更好的为企业或组织决策分析的数据集合。
weixin_30278311
·
2023-11-20 01:48
Hive参数与性能企业级调优(建议收藏)
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级
数据仓库
时使用最多的框架之一。
坨坨的大数据
·
2023-11-19 23:58
数据仓库
数据仓库
数据仓库
,英文名称为DataWarehuse,简写DW或DWH。
数据仓库
,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
小纠结在简书
·
2023-11-19 23:54
MySQL进阶_7.数据库的设计规范
2.3、第三范式2.4、三大范式总结第三节、反范式化3.1、反范式化简介3.2、反范式的新问题3.3、反范式适用场景3.3.1、增加冗余字段的建议3.3.2、历史快照、历史数据的需要3.3.2.1数据库和
数据仓库
在使用上的区别第一节
珍珠是蚌的眼泪
·
2023-11-19 21:43
MySQL
mysql
设计规范
第一范式
第二范式
第三范式
反范式化
大数据全攻略:10年老兵带你看尽MaxCompute大数据运算挑战与实践(下)
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级
数据仓库
解决方案。
chuange6363
·
2023-11-19 19:05
大数据
运维
java
轻量级数据中台,大中型企业数字化转型首选
数据中台是集数据管理、数据集成和数据分析于一体的平台,可以帮助企业将零散的数据整合到统一的
数据仓库
中,实现数据的统一管理和快速查询。同时,数据中台可以通
ETLCloud数据集成社区
·
2023-11-19 19:39
大数据
数据中台
阿里巴巴电商搜索推荐实时数仓演进之路
作者:张照亮(士恒)阿里巴巴搜索事业部高级技术专家1.业务背景阿里巴巴电商搜索推荐实时
数据仓库
承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景,提供了包括实时大屏、实时报表、实时算法训练
阿里云Hologres
·
2023-11-19 18:38
4️⃣Hive
Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
WovJf
·
2023-11-19 17:39
hive
数据仓库
数据仓库
-数仓架构
1
数据仓库
建设方法论1.1项目背景
数据仓库
将建设成为融通全公司数据资产,提供便捷数据分析和数据服务,支持全公司数字化经营与创新。
终回首
·
2023-11-19 14:50
数据仓库
大数据
数据仓库
架构
spark
大数据发展历程及技术选型
大数据发展历程第一阶段2000年-2010年数仓提供方企业级
数据仓库
(EDW)IOT(IBM、Oracle、Teradata)提供
数据仓库
建设从硬件、软件到实施的整体方案需要购买大(中、小)型机 配套商用的关系型数据库
平凡人笔记
·
2023-11-19 14:47
平凡人笔记
数据仓库
之电商数仓-- 1、用户行为数据采集
目录一、
数据仓库
概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三
FunnyPrince_
·
2023-11-19 14:10
大数据
#
Hadoop
#
数据仓库
big
data
数据仓库
hadoop
zookeeper
flume
2023-Hive调优最全指南
本文基本涵盖以下内容:一、基于Hadoop的
数据仓库
Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一)七、
000X000
·
2023-11-19 13:43
数据仓库
性能测试和优化
HIVE
hive
hadoop
大数据
Hive调优最全指南
Hive 调优指南
Hive调优指南ApacheHive是一个基于Hadoop的
数据仓库
解决方案,用于查询和分析大量的结构化数据。为了提高Hive查询性能和效率,本文将介绍一些Hive调优的策略和方法。
小泽长不胖
·
2023-11-19 13:41
大数据
hive
hadoop
大数据
Hadoop大数据
学习线路图-单篇
入门知识对于我们新手入门学习hadoop的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的:云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信
doers123
·
2023-11-19 10:06
hadoop
hadoop
本地数仓项目(四)—— 即席查询
本文基于文章《本地
数据仓库
项目(一)——本地数仓搭建详细流程》和《本地数仓项目(二)——搭建系统业务数仓详细流程》以及《本地数仓项目(三)——数据可视化和任务调度》2Presto2.1Presto概念Presto
不以物喜2020
·
2023-11-19 08:09
大数据数仓
Druid
presto
impala
kylin
即席查询
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他