E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库(数仓)
大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队
摘要:在大数据领域中,HiveSQL被广泛应用于
数据仓库
的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,HiveSQL查询的性能往往不尽人意。
京东云技术团队
·
2023-12-26 06:33
大数据
hive
sql
数据仓库
【4】:最佳实践
数据仓库
【4】:最佳实践1、表的分类1.1、事实表1.2、维度表1.3、事务事实表1.4、周期快照事实表1.5、累积快照事实表1.6、拉链表2、ETL策略2.1、全量同步2.2、增量同步3、任务调度3.1
QQ719872578
·
2023-12-26 01:59
#
数据仓库
数据仓库
数据仓库
【5】:项目实战
数据仓库
【5】:项目实战1、项目概述1.1、项目背景1.2、复购率计算2、数据描述3、架构设计3.1、
数据仓库
架构图4、环境搭建4.1、环境说明4.2、集群规划4.3、搭建流程5、项目开发5.1、业务数据生成
QQ719872578
·
2023-12-26 01:59
#
数据仓库
数据仓库
数据仓库
【3】:建模方法
数据仓库
【3】:建模方法1、基本概念1.1、OLTP系统建模方法1.2、OLAP(在线联机分析)2、ROLAP2.1、ROLAP系统建模方法2.2、维度模型2.2.1、星型模型2.2.2、雪花模型2.2.3
QQ719872578
·
2023-12-26 01:29
#
数据仓库
数据仓库
大数据
数据仓库
【1】:简介
数据仓库
【1】:简介1、诞生背景1.1、
数据仓库
诞生原因1.2、历史数据积存1.3、企业数据分析需要2、基本概述2.1、
数据仓库
(DataWarehouse,DW)2.2、
数据仓库
特点2.3、
数据仓库
VS
QQ719872578
·
2023-12-26 01:27
#
数据仓库
数据仓库
spark
大数据
大数据——技术生态体系
ApacheHive是一个用于数据查询和分析的
数据仓库
工具。
Imrea
·
2023-12-26 01:56
大数据
hadoop
分布式
喜报!酷克数据携手中移在线入选2023大数据“星河”数据库优秀案例
中移在线服务有限公司(中移在线)与酷克数据联合申报的《基于云原生化的
数据仓库
平台,实现数据算力交付效率全面提升》项目,凭借全栈自主可控、敏捷高效、安全稳定的先进特性,成为业内首个容器化部署
HashData酷克数据
·
2023-12-26 00:23
大数据
数据库
打造绿色计算数智动力 HashData 入选“绿色计算最具价值解决方案”
酷克数据(HashData)作为国内云原生
数仓
领军企业,受邀参加本次大会,为观众呈现了HashData云
数仓
的技
HashData酷克数据
·
2023-12-26 00:53
postgresql
数据库
创新铸就卓越 HashData再度荣获 IT168技术卓越奖
12月20日,由国内专业数据库及架构技术社区ITPUB、IT垂直门户IT168联合主办的“2023技术卓越奖”评选结果正式揭晓,酷克数据基于云原生架构打造的HashData云
数仓
,凭借创新的技术架构、强大的性能表现
HashData酷克数据
·
2023-12-26 00:53
数据库
数据分析
大数据
全网最全ChatGPT指令大全prompt
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战,ETLInformatica
数据仓库
案例实战
阿里数据专家
·
2023-12-25 21:17
ChatGPT
与
Python
ChatGPT实战案例
ChatGPT
chatgpt
prompt
excel
AIGC
oracle
人工智能
Hive-数据模型详解(超详细)
1)创建数据库(2)使用数据库(3)创建表格(4)查看表结构3.分区与桶(1)分区(2)桶4.数据加载与查询(1)数据导入(2)查询语句5.总结一、Hive数据模型1.概述Hive是基于Hadoop的
数据仓库
工具
大数据魔法师
·
2023-12-25 16:17
Hive之旅
hive
【大数据学习笔记】新手学习路线图
第1阶段-
数据仓库
基1.MysQL关系型数据库(MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL
伊达
·
2023-12-25 14:54
大数据
大数据
学习
笔记
(三)hive学习笔记——1.1hive入门
介绍2.Hive的安装3.Hive数据的存储4.配置安装mysql5.配置Hive元数据保存到mysql中6.元数据的结构7.jdbc连接hive8.Hive常见属性配置1.Hive介绍Hive是一个
数据仓库
软件
我是菜鸟程序员
·
2023-12-25 11:01
大数据学习之路
hive
大数据
数据仓库
数据处理演进:EtLT崛起,ELT正在告别历史舞台
虽然Hadoop时代主要依赖ELT(Extract、Load、Transform)方法,但实时
数据仓库
和数据湖的兴起使得ELT变得过时。EtLT已成为将数据实时加载到数据湖和实时
数据仓库
的标准架构。
涤生大数据
·
2023-12-25 10:00
扯淡分享/职业职场/交流
大数据
幸福里基于 Flink & Paimon 的流式
数仓
实践
幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时
数仓
建模中遇到了诸多挑战。
浪尖聊大数据-浪尖
·
2023-12-25 10:45
flink
大数据
【Flink SQL API体验数据湖格式之paimon】
前言随着大数据技术的普及,
数据仓库
的部署方式也在发生着改变,之前在部署
数据仓库
项目时,首先想到的是选择国外哪家公司的产品,比如:数据存储会从Oracle、SqlServer中或者Mysql中选择,ETL
以茉萱
·
2023-12-25 08:01
flink
sql
大数据
223页10万字大数据中心总体架构及
数据仓库
顶层设计解决方案WORD
提供智慧城市、智能制造、数据治理、信息化等领域的系统框架、总体架构、数据流架构资料,包括数据治理、信息化、精益生产改善知识。本文文档69页,因篇幅限制,以下仅展示部分资料,需要完整资料,点击右上角红色按钮关注+私信,喜欢文章,欢迎转发评论点赞。本文引用资料来源于网络,侵权立删。更多内容,查看公众号:智慧方案文库。目录第1章 概述第2章 数据中心建设原则第3章 数据中心
智慧方案文库
·
2023-12-25 08:23
数据库
大数据
数据仓库
【大数据】
数据仓库
之模型层和ETL介绍
概述ETL是
数据仓库
的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统
数据仓库
一般分为四层模型。分层的作用STG层在维度建模阶段已经确定了源系统,而且对源系统进行了数据评估。
summer108
·
2023-12-25 06:06
大数据
ETL
Flink实时电商
数仓
(五)
FlinkSQL的joinRegularjoin普通join,两条流的数据都时存放在内存的状态中,如果两条流数据都很大,对内存压力很大。IntervalJoin:适合两条流到达时间有先后关系的;一条流的存活时间短,一条流的存活时间长。LookupJoin:适合主流特别大,从流特别小的情况;主流数据没到达一条,就会去查询从流的每一条数据。主流数据不存储在内存中。语法:主流使用时必须有处理时间,pro
十七✧ᐦ̤
·
2023-12-25 02:27
flink
大数据
Flink电商实时
数仓
(四)
日志数据结构业务数据:数据都是MySQL中的表格数据,使用FlinkSQL处理日志数据:分为page页面日志(页面信息,曝光信息,动作信息,报错信息)和启动日志(启动信息,报错信息),使用FlinkStreamAPI处理五种日志数据:“start”;启动信息“err”;错误信息“display”;曝光信息“action”;动作信息“page”;页面信息"actions":[{"action_id"
十七✧ᐦ̤
·
2023-12-25 02:57
flink
vscode
大数据
【黑马甄选离线
数仓
day10_会员主题域开发_DWS和ADS层】
day10_会员主题域开发会员主题_DWS和ADS层DWS层开发门店会员分类天表:维度指标:指标:新增注册会员数、累计注册会员数、新增消费会员数、累计消费会员数、新增复购会员数、累计复购会员数、活跃会员数、沉睡会员数、会员消费金额维度:时间维度(天、周、月)涉及表:门店会员分类天表表字段的组成:维度字段+指标结果字段建表语句:CREATETABLEIFNOTEXISTSdws.dws_mem_
LKL1026
·
2023-12-25 01:58
黑马甄选离线数仓项目
大数据
数据库
sql
数据仓库
大数据学习笔记——
数据仓库
hive重要的总结
1、外部表和内部表Hive表分为两类,即内部表和外部表。所谓内部表,即Hive管理的表,Hive内部表的管理既包含逻辑以及语法上的,也包含实际物理意义上的,即创建Hive内部表时,数据将真实存在于表所在的目录内,删除内部表时,物理数据和文件也一并删除。外部表(externaltable)则不然,其管理仅仅是在逻辑和语法意义上的,即新建表仅仅是指向一个外部目录而已。同样,删除时也并不物理删除外部目录
新宿一次狼
·
2023-12-24 23:27
大数据
大数据
【Hadoop学习笔记】(二)——Hive的原理及使用
一、Hive概述Hive是一个在Hadoop中用来处理结构化数据的
数据仓库
基础工具。
wanger61
·
2023-12-24 23:25
大数据开发
hadoop
hive
大数据
【Hive笔记】1——Hive入门
1.什么是Hivehive是由Facebook开源用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供sql查询功能。
sdut菜鸟
·
2023-12-24 23:55
hive
hive
hadoop
大数据
测试工程师常见面试题(高级)
4、什么是
数据仓库
?
数据仓库
测试应该考虑什么?以及如何进行
数据仓库
的测试?5、flink是什
打了鸡血的点狗
·
2023-12-24 22:25
测试工程师面试常见面试题
功能测试
单元测试
测试工具
测试用例
压力测试
数据仓库
-IP段关联计算优化-从优化原理到优化手段一一道来
为什么要优化?营销活动指标体系需要用日志数据进行多维度分析,其中一个维度就是通过IP段获取到用户的所属地域进行分析,但IP段与其它字段的映射方式不同,IP段是一个范围,关联时是一对多关系,在资源集中使用时段,1万左右的数据量的耗时可达一小时以上,严重影响指标的及时性,所以要进行优化,来解决任务耗时高的问题。优化手段1减少参与计算的数据量当前IP表中记录总数为772845条,但中国所使用的IP段仅有
高阳很捷迅
·
2023-12-24 19:46
2019-05-23
其他时间都在编写法院
数仓
重构项目建设方案。下午王伟离职,涉及到薪资结算不合理问题,他很生气,我建议他不要纠结这些小事,他貌似也没听进去。下午听了一个讲健康安全的课程,感觉很实用。晚11点半就寝。
bigtian
·
2023-12-24 15:11
电商
数仓
项目----笔记六(
数仓
ODS层)
ODS层的设计要点如下:(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构。(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip。(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。同样的,需要将用户行为数据表和业务数据表放到ODS层。日志表DROPTABLEIFEXISTSods_log_inc;CREATEEXTERNA
zmx_messi
·
2023-12-24 12:38
笔记
电商
数仓
项目----笔记五(
数仓
架构和建模)
ODS:数据源DWD:加工数据DWS:统计数据ADS:分析数据DIM:维度层(大家都有可能用得上的部分)ER模型
数据仓库
之父BillInmon提出的建模方法是从全企业的高度,用实体关系(EntityRelationship
zmx_messi
·
2023-12-24 11:35
笔记
基于Hue,Dolphinscheduler,HIVE分析
数据仓库
层级实现及项目需求案例实践分析
目录一、
数仓
各个层级及作用1,ODS层(OperationDataStore-源数据层)2,DW层(DataWarehouse-
数据仓库
层)(1)DWD(DataWarehouseDetail-明细数据层
Len°
·
2023-12-24 11:32
Hadoop
hadoop
big
data
hive
Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融
数据仓库
并定期批量更新【附源码】
用`qteasy`+`tushare`实现金融数据本地化存储及访问目的什么是`qteasy`什么是`tushare`为什么要本地化使用qteasy创建本地
数据仓库
qteasy支持的几种本地化仓库类型配置本地
数据仓库
配置
Shepherdppz
·
2023-12-24 07:27
量化交易
量化投资
python
python
金融
数据仓库
量化投资
量化交易
技本功|Hive优化之监控(三)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的技能。
云掣YUNCHE
·
2023-12-24 03:15
技术文档
数据库
运维
hive
大数据
mysql
技本功|Hive优化之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣YUNCHE
·
2023-12-24 03:44
技术文档
spark
hive
数据中心与数据湖与数据虚拟化 Data Hub vs Data Lake vs Data Virtualization
众所周知,集成这些数据孤岛非常困难,并且在尝试使用传统
数据仓库
方法时面临明显的挑战。因此,IT组织寻求现代方法来完成工作(应企业的紧急要求)。这种比较涵盖了三种现代的数据集成方
时见疏星
·
2023-12-23 18:40
OLAP和OLTP
OLAP是
数据仓库
系统的主要应用,支持复杂的分析操作,
biubiudog
·
2023-12-23 17:37
2018-09-13医院呼叫中心应具备的功能
它可以把从用户那里所获得的各种信息、数据全部储存在庞大的
数据仓库
(DataWareh
李飘飘_52c6
·
2023-12-23 15:40
【
数仓
_01】用户行为采集平台
1、
数仓
基础知识1.1描述1.2需求分析1.3选型考虑因素1.4项目流程设计1.5具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块
温欣2030
·
2023-12-23 10:43
hadoop
【Hive】在博客系统中如何应用 Hive 进行离线数据管理
Hive是一个开源的
数据仓库
基础设施,它能够在博客系统中提供强大的离线数据管理能力。本文将详细介绍如何在博客系统中应用Hive进行离线数据管理,并提供一些示例。什么是Hive?
小吴同学GOGOGO
·
2023-12-23 06:54
hive
数据仓库
大数据
hadoop
【mysql】MySQL的binlog在
数据仓库
中的应用
在当今的大数据时代,
数据仓库
是一个不可或缺的部分。它是一个集中式存储和管理的平台,用于存储、管理和分析大量的数据,以支持决策制定和业务操作。
小吴同学GOGOGO
·
2023-12-23 06:23
mysql
数据仓库
数据库
系统架构设计笔记(12)——
数据仓库
传统的操作型数据库主要是面向业务的,所执行的操作基本上也是联机事务处理,但随着企业规模的增长,历史积累的数据越来越多,如何利用历史数据来为未来决策服务,就显得越来越重要了,而
数据仓库
就是其中的一种技术。
deniro
·
2023-12-23 03:42
CloudCanal x Debezium 打造实时数据流动新范式
CloudCanal近期实现了从Kafka消费Debezium格式数据,将其同步到StarRocks、Doris、Elasticsearch、MongoDB、ClickHouse等12种数据库和
数仓
,补全其数据到达能力
ClouGence
·
2023-12-22 16:48
CloudCanal
数据库
大数据
数据仓库
etl
简单了解一下当前火热的大数据 -- Kylin
多维数据分析引擎优点超快的响应速度,亚秒级支持超大数据集(PB以上,千亿记录)标准的SQL接口,简单易用的及时查询工具支持标准数据库协议,可集成各种BI分析工具二、Kylin架构前置概念(术语)DataWarehouse(
数据仓库
码农阿豪
·
2023-12-22 15:07
好“物”分享
kylin
Hive的联级(cascade)- 修改分区表的字段类型或者增加新字段
一、问题描述踩坑:
数仓
的分区表,由于需求需要,要把int类型的字段改为bigint,我直接执行的以下语句:altertabletable_namechangecolumn字段字段bigint;出现的问题
大数据点滴
·
2023-12-22 14:34
#
Hive
hive
字段类型
大数据
数据仓库
-数据治理小厂实践
一、简介数据治理贯穿
数仓
中数据的整个生命周期,从数据的产生、加载、清洗、计算,再到数据展示、应用,每个阶段都需要对数据进行治理,像有些比较大的企业都是有自己的数据治理平台或者会开发一些便捷的平台,对于没有平台的公司
大数据点滴
·
2023-12-22 14:03
#
数据仓库
数据仓库
数据治理
2022-07-10
(1)在
数据仓库
领域中,元数据按用途分成:业务元数据:提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据技术元
白中白
·
2023-12-22 11:45
二,Hive运行机制与使用
hive介绍hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
__元昊__
·
2023-12-22 11:30
提升Hive效能:实用技巧与最佳实践
导读:帮助大家更有效地使用这个强大的
数据仓库
工具。
昊昊该干饭了
·
2023-12-22 07:33
大数据
hive
hadoop
数据仓库
一文读懂云原生一体化
数仓
简介:阿里云云原生一体化
数仓
产品技术深度解读。
阿里云云栖号
·
2023-12-22 07:19
云栖号技术分享
云原生
big
data
cloud
native
StarLake:汇量科技云原生数据湖的探索和实践
作者:陈绪(汇量科技资深算法架构师,EnginePlus2.0产品负责人)内容框架:互联网业务视角看湖仓一体StarLake架构实践StarLake业务应用案例未来方向一、互联网业务视角看湖仓一体1、
数据仓库
结构化数据范式建模预设
阿里云云栖号
·
2023-12-22 07:49
云栖号技术分享
云原生
数据湖
MySQL基础-01初识数据库
给前端传递数据))数据库:存数据,Txt,Excel,Word2、为什么学习数据库岗位需求大数据时代,得数据者得天下存数据数据库是所有软件体系中最核心的存在3、什么是数据库数据库(DB,DataBase)概念:
数据仓库
是木子呀Z
·
2023-12-22 06:52
MySQL
数据库
mysql
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他