E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库(数仓)
【黑马甄选离线
数仓
day07_常见优化手段及核销主题域开发】
1.常见优化手段1.1分桶表基本介绍分桶表:分文件的,在创建表的时候,指定分桶字段,并设置分多少个桶,在添加数据的时候,hive会根据设置分桶字段,将数据划分到N个桶(文件)中,默认情况采用HASH分桶方案,分多少个桶,取决于建表的时候,设置分桶数量,分了多少个桶最终翻译的MR也就会运行多少个reduce程序(HIVE的分桶本质上就是MR的分区操作)如何构建一个分桶表呢?createtable表名
LKL1026
·
2023-12-05 21:26
笔记
大数据
数据仓库
盘点:12个好用的大数据可视化工具
通过excel插件功能所有的Excel图形如特色图形:迷你图、帕累托图、子弹图、小又多图等特色图形;常用图形柱图、饼图、线图、雷达图等,并结合
数据仓库
里的动态数据进行数据展现。
数据小达人
·
2023-12-05 16:30
黑马一站制造
数仓
实战1
1.项目目标一站制造企业中项目开发的落地:代码开发代码开发:SQL【DSL+SQL】SparkCoreSparkSQL
数仓
的一些实际应用:分层体系、建模实现2.内容目标项目业务介绍:背景、需求项目技术架构
ZhaoXiangmoStu
·
2023-12-05 15:20
Python
制造
大数据
大数据转型方案:首推数据湖!
数仓
技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何?数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。
zhisheng_blog
·
2023-12-05 02:12
大数据
人工智能
编程语言
java
数据分析
大数据开发:Hive on Spark设计原则及架构
在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的
数仓
组件工具,在于Spark生态的配合当中,开始有了HiveonSpark的思路,那么具体是怎么实现的呢?
成都加米谷大数据
·
2023-12-05 01:44
商业智能领域中零售分析的妙用
BI是一种是一种运用了
数据仓库
、在线分析和数据挖掘技术来处理和分析数据的技术,其工作原理主要是通过对数据进行抽取、清洗、聚类、挖掘、预测等处理来产生可透析的各种展示数据。
彼岸發
·
2023-12-05 01:48
Hive -- 基本概念
1、什么是Hive:Hive是
数据仓库
建模的工具之一,通过向hive中写一个交互式的sql,在海量数据中查询分析得到结果的平台。
新手小农
·
2023-12-04 23:03
Hive
3.1.2
hive
hadoop
数据仓库
大数据的技术栈-逐步完善
目录1.hadoopa.HDFS分布式文件系统b.Yarn集群资源管理器c.MapReducesql引擎d.Impalasql引擎e.工具概观2.
数据仓库
知识a.Hive数据库1)HiveSql2)数据库结构
刘文钊1
·
2023-12-04 20:12
大数据
oracle ogg技术架构,Oracle-GoldenGate技术架构概述.pdf
OracleGoldenGate可以在企业各种异构IT环境下实现交易数据的捕捉、路由、变换和投递,它的模块化设计可以根据业务需求灵活扩展,满足企业在高可用性和容灾、系统迁移和移植、数据整合、商业智能和
数据仓库
等各种场景下的需求
颜镇钟
·
2023-12-04 11:23
oracle
ogg技术架构
Presto基础学习--学习笔记
1,Presto背景2011年,FaceBook的
数据仓库
存储在少量大型hadoop/hdfs集群,在这之前,FaceBook的科学家和分析师一直靠hive进行数据分析,但hive使用MR作为底层计算框架
祈愿lucky
·
2023-12-04 09:21
大数据
学习
笔记
大数据
数据治理的湖仓一体架构
1.2
数据仓库
、数据湖和湖仓一体的差异
数据仓库
、数据湖和湖仓一体之间的差异(见表1)主要体现在以下几点。
AIGC方案
·
2023-12-04 07:55
运维
大数据
03
数仓
平台 Kafka
kafka概述定义Kafka是一个开源的分布式事件流平台(EventStreamingPlantform),主要用于大数据实时领域。本质上是一个分布式的基于发布/订阅模式的消息队列(MessageQueue)。消息队列在大数据场景中主要采用Kafka作为消息队列。传统消息队列主要应用场景包括:缓存/削峰、解耦和异步通信。消息队列的模式包含了2种,点对点订阅模式和发布/订阅模式。Kafka采用了发布
kk_io
·
2023-12-04 04:17
数据仓库
kafka
分布式
[一起学Hive]之一–Hive概述,Hive是什么
1.Hive是什么Hive是基于Hadoop的
数据仓库
解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的
数据仓库
也秉承了这些特性。这是来自官方的解释。
antyzhu
·
2023-12-03 17:23
Hadoop未来五年走向何方
相对于传统数据库和
数据仓库
技术,Hadoop的优势在于将数据分析和存储平民化。
IT时代周刊
·
2023-12-03 14:02
2019年5月
2019年3月
2018年11月
2018年6月
2018年12月
2019年4月
2017年3月
2016年5月
2017年2月
2016年4月
2014年9月
大数据
人工智能
编程语言
程序员
Hadoop的基本概念、架构、优点、缺陷、适应场景和未来发展方向
由于其能够同时处理超大规模数据,因此被广泛应用于机器学习、
数据仓库
、日志处理等领域。Hadoop在2006年成为Apache项目,至今已经发布了十多个版本。
禅与计算机程序设计艺术
·
2023-12-03 14:57
AI大模型应用实战
大数据AI人工智能
大数据
人工智能
语言模型
Java
Python
架构设计
hql面试题之上海某资深
数仓
开发工程师面试题-求不连续月份的月平均值
1.题目A,B两组产品的月平均值,月平均值是当月的前三个月值的一个平均值,注意月份是不连续的,如果当月的前面的月份不存在,则为0。如A组2023-04的月平均值为2023年1月的数据加2023-02月的数据的平均值,因为没有其他月份则需要再加一个0,再求平均值。要求:求出每个月的月平均值。‘A’,‘2023-01’,3030‘A’,‘2023-02’,5464‘A’,‘2023-04’,5467‘
江南正晓时
·
2023-12-03 12:56
hive
sql
02
数仓
平台Zookeeper
概述ZooKeeper是一种分布式协调服务,用于管理大型主机集。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper通过其简单的架构和API解决了这个问题。ZooKeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式性质。Zookeeper工作机制Zookeeper从设计角度来理解,就是一个观察者模式设计的分布式服务管理框架,它负责存储和管理核心数据,接受观察者的注
kk_io
·
2023-12-03 09:52
数据仓库
zookeeper
分布式
云原生
Hive SQL使用过程中的奇怪现象
hive是基于Hadoop的一个
数据仓库
工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
大数据技术与数仓
·
2023-12-03 08:07
数据湖和中央
数据仓库
的设计
设计数据湖或中央
数据仓库
是许多大型组织的主要职能,这些组织每天处理数百万笔交易,并对这些交易进行进一步的报告、预测或机器学习项目分析。
小技术君
·
2023-12-03 05:23
数据仓库
大数据
人工智能
ETL&
数据仓库
复习
文章目录ETL1.1、岗位所需技能点数据分析师2.1、岗位所需技能点
数据仓库
3.1、岗位所需技能点1、
数据仓库
1.1、
数据仓库
与数据库区别1.2、
数据仓库
分层架构1.3、为什么要分层1.4、维度数据模型
爱敲代码的小黑
·
2023-12-03 01:23
数据仓库
etl
hive
数据仓库
商业智能BI中的ETL到底是什么?
商业智能BI中有许多定义,诸如
数据仓库
、数据挖掘、OLAP等,还有一个不得不提的定义,那就是ETL。在BI工程师或相关的职位招聘中,ETL也是必不可少的一项技能。那么,ETL到底是什么呢?
data2006
·
2023-12-03 01:22
数据分析
bi
etl
数据仓库
计算机科学与技术毕业生简历,计算机科学与技术专业应届毕业生简历范文
计算机科学与技术专业:计算机科学与技术健康状况:良好知识结构主修课:C语言,离散数学,JAVA语言,数据结构,操作系统,系统结构,编译原理,数据库原理,计算机网络专业课程:ORACAL实用数据库,DB2UDB数据库,
数据仓库
weixin_39878760
·
2023-12-02 23:03
计算机科学与技术毕业生简历
一本书读懂数据治理
读后感数据湖和
数据仓库
的对比数据治理的价值数据管理存在的问题数据治理的4个层面数据治理8项举措数据治理7种能力数据治理7把利剑书摘企业
4935同学
·
2023-12-02 23:24
大数据
Hive----基本概念
2、Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
Hi杯酒故人
·
2023-12-02 21:21
AliExpress基于Flink的广告实时
数仓
建设
摘要:实时
数仓
以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时
数仓
建设,主要包括以下内容:1.建设背景2.技术架构3.
数仓
架构4.实时OLAP5.实时保障6.未来规划建设背景广告是目前互联网流量变现的一种
王知无(import_bigdata)
·
2023-12-02 19:01
广告
大数据
编程语言
数据库
人工智能
An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records
特别是三层去噪自动编码器堆栈用于捕获约EHRs的汇总EHR中的分层规则和依存关系来自西奈山
数据仓库
的700,000名患者
仓小鼠
·
2023-12-02 18:14
人工智能
论文
大数据——一文详解
数据仓库
概念(
数据仓库
的分层概念和维度建模详解)
1、ods是什么?ods层最好理解,基本上就是数据从源表拉过来,进行etl,比如MySQL映射到Hive,那么到了Hive里面就是ods层。ods全称是OperationalDataStore,操作数据存储——“面向主题的”,数据运营层,也叫ods层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类
静惘
·
2023-12-02 15:14
大数据
大数据
数据仓库
亚马逊云科技re:Invent Peter DeSantis演讲,数据规模拓展无极限引领Serverless构建之路
Amazon全新发布RedshiftServerless:Al模型预测多维度
数仓
工作负载并自动调度和优化,高达10倍性价比提升。Amazon全新发布ElastiCacheServ
Zaker科技
·
2023-12-02 13:32
科技
serverless
云原生
【Spark
数仓
项目】需求八:MySQL的DataX全量导入和增量导入Hive
【Spark
数仓
项目】需求八:MySQL的DataX全量导入和增量导入Hive文章目录一、mysql全量导入hive[分区表]需求介绍:二、mysql增量导入hive1.增量导入的第一种实现方法2.另一种方法是时间字段
程序终结者
·
2023-12-02 10:22
spark
mysql
hive
(星型、雪花、星座、交叉连接)多维数据模型各种类型优劣分析
概述在
数据仓库
的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构,同时从模型中又衍生出星座模型和交叉模型。下面我们先来理解这几种模型的概念和比较。事实和维度我们先来了解一下事实和维度。
真不爱学习
·
2023-12-02 10:21
【乌卡时代】实用算法/数据结构
数据仓库
数据库
数据挖掘
2023.11.29 -hmzx电商平台建设项目 -核销主题阶段总结
目录1.准备源数据2.准备
数仓
工具进行源数据同步到ods层,本项目使用Datax3.使用Datax完成数据同步前建表时的方案选择3.1同步方式区别:3.2存储格式和压缩区别:4.在hive中创建表,共31
白白的wj
·
2023-12-02 09:53
数据仓库
大数据
hive
hadoop
数据库开发
etl
etl工程师
2023.12.1 --
数据仓库
之 拉链表
目录什么是拉链表为什么要做拉链表?没使用拉链表:使用了拉链表:题中订单拉链表的形成过程实现语句什么是拉链表拉链表是缓慢渐变维的一种解决方案.拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期,如果当前信息至今都有效,就在结束日期中填入一个最大值(9999-12-31)为什么要做拉链表?拉链表适合于:数据会发生变化,但是大部分是不变的比如
白白的wj
·
2023-12-02 09:19
数据仓库
sql
hive
hadoop
大数据
数据库开发
速通MySql
一、简介1、什么是数据库
数据仓库
,用来存储数据。
bunny playing games
·
2023-12-02 08:31
测试开发
经验分享
mysql
用 CloudCanal 快速验证阿里云 EMR for StarRocks 和 Doris
背景StarRocks和Doris是近两年来相当流行的、国产的、开源的实时
数仓
,不仅数据检索、分析能力出众,而且数据准备实时性好、准确度高、使用丝滑,可如同在线数据库般使用。
ClouGence
·
2023-12-02 08:47
CloudCanal
CloudDM
阿里云
云计算
sklearn中tfidf的计算与手工计算不同详解
sklearn中tfidf的计算与手工计算不同详解引言:本周
数据仓库
与数据挖掘课程布置了word2vec的课程作业,要求是手动计算corpus中各个词的tfidf,并用sklearn验证自己计算的结果。
stay_foolish12
·
2023-12-02 02:17
sklearn
tf-idf
人工智能
直播电商
数据仓库
直播电商
数据仓库
一.
数仓
及其维度什么是
数仓
数据仓库
,简称
数仓
,(DataWarehouse)。
李昊哲小课
·
2023-12-01 21:31
数据分析
大数据
数据库
数据仓库
大数据
数据分析
数据可视化
数据库
数据库开发
finebi
缓慢变化维 (Slowly Changing Dimension) 常见的三种类型及原型设计
开篇介绍在从OLTP业务数据库向DW
数据仓库
抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到
数据仓库
中?
叫我老村长
·
2023-12-01 16:57
尚硅谷大数据项目《在线教育之实时
数仓
》笔记008
视频地址:尚硅谷大数据项目《在线教育之实时
数仓
》_哔哩哔哩_bilibili目录第10章
数仓
开发之DWS层P066P067P068P069P070P071P072P073P074P075P076P077P078P079P080P081P082
upward337
·
2023-12-01 16:14
#
大数据数仓
大数据
实时数仓
hadoop
zookeeper
kafka
flink
maxwell
1w字详解 ClickHouse漏斗模型实践方案(收藏)
作者:互联网大数据团队-WuYonggang日常工作中做为
数仓
开发工程师、数据分析师经常碰到漏斗分析模型,本文详细介绍漏斗模型的概念及基本原理,并阐述了其在平台内部的具体实现。
浪尖聊大数据-浪尖
·
2023-11-30 21:57
大数据
数据分析
java
python
数据库
(免费领源码)java#ssm#mysql 招聘客户管理系统78049-计算机毕业设计项目选题推荐
摘要由于数据库和
数据仓库
技术的快速发展,招聘客户管理系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。
2301_3224142804
·
2023-11-30 21:53
python
django
mysql
java
小程序
php
c#
c语言知识
一、内存what从硬件形态上讲,内存就是一个物理设备,从功能上讲,内存是一个
数据仓库
,程序在执行前都有被装载到内存中,才能被中央处理器处理(CPU)执行。
快乐的tomato
·
2023-11-30 18:35
Mysql 表结构 到 hive 表结构的转换 (DDL自动生成)
最近在做mysql入hive
数仓
的工作,由于业务表数量较大,单独写hiveDDL太过耗时,就找到了如下方法。
雾岛与鲸
·
2023-11-30 16:56
hive
hive
大数据学习-离线
数仓
项目实战笔记(上)
1.前置1.1.软件版本产品版本Hadoop2.9.2Hive2.3.7Flume1.9DataX3.0Airflow1.10Atlas1.2.0Griffin0.4.0Impalaimpala-2.3.0-cdh5.5.0MySQL5.71.2.软件安装分布情况服务器linux121linux122linux123Hadoop√namenode√√seconderynamenode,resour
ys4tnaf
·
2023-11-30 15:24
hadoop
大数据
数据仓库
hive
flume
01
数仓
平台 Hadoop介绍与安装
Hadoop概述Hadoop是
数仓
平台的核心组件。在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。
kk_io
·
2023-11-30 13:38
数据仓库
hadoop
大数据
分布式
电商平台
数据仓库
搭建02-Hadoop集群搭建
1,项目说明本项目来源于github电商平台
数据仓库
搭建。项目为个人学习记录,项目代码及文件可访问电商平台
数据仓库
搭建获得。2,项目准备虚拟机准备虚拟机开发工具为VMware15。
王小磊~
·
2023-11-30 13:04
电商数据仓库搭建
hadoop
数据仓库
hive
sql
大数据
数据仓库
搭建
目录1
数据仓库
概念1.1什么是
数据仓库
1.2OLTP与OLAP2项目需求及架构设计3项目框架4框架版本选型4.1Hadoop版本综述4.2社区版与第三方发行版的比较4.2.1.Apache社区版4.2.2
赵广陆
·
2023-11-30 13:32
bigdata
数据仓库
00Hadoop
数据仓库
平台
在这里是学习大数据的第一站什么是
数据仓库
常见大数据平台组件及介绍什么是
数据仓库
在计算领域,
数据仓库
(DW或DWH)也称为企业
数据仓库
(EDW),是一种用于报告和数据分析的系统,被认为是商业智能的核心组件
kk_io
·
2023-11-30 13:29
数据仓库
hadoop
数据仓库
大数据
数据仓库
数据管理模型
数据仓库
分为贴源层、
数据仓库
层、数据服务层,有人叫做
数仓
数据模型,或者叫"数据管理模型”。
zhulangfly
·
2023-11-30 13:52
数据仓库
大数据
历史拉链表
介绍历史拉链表历史拉链表是一种数据模型,主要针对
数据仓库
设计中表存储数据的方式而定义的。它记录一个事物从开始到当前状态的所有变化的信息。
zealscott
·
2023-11-30 12:03
2019-12-11
Hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
diedfish_qyf
·
2023-11-30 11:41
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他