数据仓库hadoop大数据第14页

大数据开发之Hive优化篇6-Hive on spark

备注:Hive版本2.1.1一.HiveonSpark介绍Hive是基于Hadoop平台的数据仓库，最初由Facebook开发，在经过多年发展之后，已经成为Hadoop事实上的SQL引擎标准。

只是甲·2023-11-23 12:06

大数据最佳实践-hive on spark

它最初是作为数据仓库(DW)工具构建的，现在它具有轻松交换执行引擎的功能，因此更具吸引力。简而言之，使用HiveonSpark，您的查

WakeUpCcc·2023-11-23 12:33

数据仓库岗面试

1.自我介绍2.求用户连续登录3天，要讲出多种解法解法1（使用SQL）：SELECTuseridFROMloginrecordWHEREDATEDIFF(day,time,LAG(time)OVER(PARTITIONBYuseridORDERBYtime))=1ANDDATEDIFF(day,LAG(time)OVER(PARTITIONBYuseridORDERBYtime),TIME)=2;

ChlinRei·2023-11-23 11:36

企业如何选择一款高效的ETL工具

在企业发展至一定规模后，构建数据仓库（DataWarehouse）和商业智能（BI）系统成为重要举措。

ETLCloud数据集成社区·2023-11-22 18:26

数仓问答篇（一）

有些大数据数据仓库产品也采用混合架构，以融合两者的优点，例如Impala、Presto等都是基于HDFS的MPP分析引擎，仅利用HDFS实现分区容错性，放弃MapReduce计算模型，在面向OLAP场景时可实现更好的性能

AII派森·2023-11-22 16:36

hadoop@bigdate-VirtualBox:/mnt/shared$ tar -xzvf hadoop-2.10.2.tar.gz tar (child): hadoop-2.10.2.tar

在virtualbox的ubuntu虚拟机上使用共享文件夹安装hadoop大数据软件在在virtualbox的ubuntu虚拟机上设置共享文件夹步骤：1.设置共享文件夹自行设定共享文件夹路径以及名称，记得勾选自动挂载

北辰Charih·2023-11-22 15:09

知乎热议：数据仓库、数据湖、湖仓一体，究竟有什么区别？

来源：知乎作者：十叶心全文共14108个字，建议阅读20分钟一、基本概念1.1数仓发展历史数据湖是以集中方式存储各种类型数据，提供弹性的容量和吞吐能力，能够覆盖广泛的数据源，支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。它能够实现数据分析、机器学习，数据访问和管理等细粒度的授权、审计等功能。数据湖对存取的数据没有格式类型的限制，数据产生后，可以按照数据的原始内容和属性，直接存储到数据

浪尖聊大数据-浪尖·2023-11-22 13:30

数据仓库工具之Hive的架构原理

1.Hive的本质Hive是基于Hadoop的一个数据仓库工具，它的本质是将HQL语句转化成MapReduce程序.在它的底层,HDFS负责存储数据,YARN负责进行资源管理,MapReduce负责数据处理

GuangHui·2023-11-22 13:05

阿里大数据工程师：教你如何快速的搭建数据库

数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。

yoku酱·2023-11-22 13:03

服务器能不能用普通硬盘,服务器硬盘是什么与普通硬盘区别

如果说服务器是网络数据的核心，那么服务器硬盘就是这个核心的数据仓库，所有的软件和用户数据都存储在这里。对用户来说，储存在服务器上的硬盘数据是特别宝贵的，因此硬盘的可靠性是特别重要的。

老先队员·2023-11-22 10:39

浅谈数据仓库建设中的数据建模方法

周三保([email protected])IBM软件部信息技术专家.简介：本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型，而是将笔者在数据仓库建设项目中的一些经验，在这里分享给大家。

wer0735·2023-11-22 06:27

数据仓库

一.各种名词解释1.1ODS是什么？ODS层最好理解，基本上就是数据从源表拉过来，进行etl，比如mysql映射到hive，那么到了hive里面就是ods层。ODS全称是OperationalDataStore，操作数据存储.“面向主题的”，数据运营层，也叫ODS层，是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的ETL之后，装入本层。本层的数据，总体上大多是按照源

qq_44949002·2023-11-22 06:23

数据仓库架构之详解Kappa和Lambda

目录一、前言二、架构详解1Lambda架构1.1Lambda架构组成1.2Lambda特点1.3Lambda架构的优点1.4Lambda架构的不足2Kappa架构2.1Kappa架构的核心组件2.2Kappa架构优点2.3Kappa架构的注意事项三、区别对比四、选择时考虑因素一、前言在大数据处理领域，有两种突出的数据架构已成为处理大量数据的流行选择：Lambda架构和Kappa架构。这两种架构为实

醉酒的戈多·2023-11-22 06:45

数据仓库模式之详解 Inmon 和 Kimball

目录一、前言二、企业信息工厂（Inmon）2.1概念2.2主要组件2.3流程三、多维数据仓库（Kimball）3.1概念3.2核心组件3.3流程四、异同及用途对比4.1异同对比4.2特征比较一、前言大部分关于数据仓库构建与讨论

醉酒的戈多·2023-11-22 06:41

数据中台架构原理与开发实战：数据中台面临的挑战与解决方案

作者：禅与计算机程序设计艺术1.背景介绍数据中台是一种以数据仓库、数据湖、数据集市和分析平台等多种技术组件组合而成的大型IT系统，能够提供企业数据存储、加工、分析、应用的综合化服务，能够实现“智能4.0

禅与计算机程序设计艺术·2023-11-21 23:38

数据湖学习笔记No.03（数据仓库）

数据仓库资料链接：https://cloud.fynote.com/share/d/f3WMWzN数据分析业务痛点分析业务系统数据：存放在关系数据库中用户日志数据：用户在系统中产生javaweb为什么需要大数据

SEUsmith·2023-11-21 22:34

万字详解大数据架构新概念

▲点击上方“老于的笔记”关注公众号回复1，免费获取B端运营地图正文来了随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对比甚至争论就一直不断。

于连林_·2023-11-21 22:53

数仓理论基础

数据仓库的主体hive两种建模方式：ER和维度ER模型实体关系模型：将复杂的数据抽象为实体和关系。实体表示一个对象，关系指的是两个实体之间的关系，比如学生和班级之间的从属关系。

Made in Program·2023-11-21 19:15

数据仓库理论

修改记录时间内容2020年9月13日第一次发布推荐书：《数据仓库工具书》（纯理论）、大数据之路-阿里巴巴大数据实践、一、数仓相关概念数据仓库：英文DataWareHouse，数据仓库是面向主题，为分析数据而设计的

宇宙中的Philip·2023-11-21 17:43

数据仓库_模型设计_学习目录

前言：1、问什么要写这篇博客？随着自己在`数仓`岗位工作的年限增加，对数仓的理解和认知也在发生着变化所有用这篇博客来记录工作中用到的`知识点`与`经验`2、这篇博客主要记录了那些内容？主要会记录一些`数仓建设方法论`和工作技巧目录：

广阔天地大有可为·2023-11-21 13:47

数据仓库高级面试题

数仓高内聚低耦合是怎么做的定义高内聚：强调模块内部的相对独立性，要求模块内部的元素尽可能的完成一个功能，不混杂其他功能，从而使模块保持简洁，易于理解和管理。低耦合：模块之间的耦合度要尽可能的低，避免模块之间的复杂依赖，使得每个模块都可以独立存在，从而减少模块间的相互影响，提高系统的可维护性。做到低耦合、高内聚一般复杂的公共逻辑可以采用抽象类和抽象方法的方式下沉到共有模块中，然后由相关子类去实现抽象

小小哭包·2023-11-21 13:16

GreenPlum数据库调研及架构介绍

docs-cn.greenplum.org/v6/admin_guide/intro/arch_overview.htmlGreenplum数据库是一种大规模并行处理（MPP）数据库服务器，其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计

Aiky哇·2023-11-21 11:48

pyspark案例系列5-Spark ETL将MySQL数据同步到Hive

文章目录一.需求二.解决方案2.1全量同步2.2增量同步备注：Spark2.4.0一.需求最近做数据仓库项目的时候，觉得sqoop有点慢，然后想尝试使用Spark来做ETL。

只是甲·2023-11-21 10:33

pyspark案例系列6-将Hive表数据写入MySQL

文章目录一.需求二.解决方案一.需求我们做数据仓库的时候，一般是将源系统的数据(如MySQL)抽取到Hive中，然后在Hive中做ETL后，最后将处理完的数据从Hive再抽回到MySQL。

只是甲·2023-11-21 10:33

Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electroni...

特别是，使用三层去噪自动编码器堆栈来捕获来自西奈山数据仓库的约700,000名患者的汇总EHR中的分层规律性和依存关系。结果就是我们称为“深层患者”的表示。我们通过评估患者

一二两清酒·2023-11-21 07:14

AIGC ChatGPT4对Gbase数据库进行总结

AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战

阿里数据专家·2023-11-21 05:26

数据仓库hive本地/远程模式安装

文章目录1.简述2.本地模式2.1安装包准备2.2解压安装mysql2.2.1解压mysql安装包2.2.2安装mysql相关组件2.2.3修改my.cnf配置文件2.2.4更改所属组2.2.5启动mysql服务2.3hive解压安装及配置2.3.1解压2.3.2改名2.3.3配置环境变量2.3.4添加hive-site.xml配置文件2.3.5放置mysql驱动文件2.3.6启动hive3.远程

吴糖气泡水～·2023-11-20 20:25

Hive本地模式安装（详细）

Hive是建立在Hadoop文件系统上的数据仓库，它提供了一系列工具，能够对存储在HDFS中的数据进行数据提取、转换和加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。

i阿极(暂时无法回复版)·2023-11-20 20:48

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模（DataWarehouseModeling）是指在数据仓库（DataWarehouse）中组织和设计数据的过程，

月亮给我抄代码·2023-11-20 20:59

你在使用大数据技术的时候，你知道大数据语言的工具与框架吗？

对OLAP数据仓库的迁移，如果用Python

yoku酱·2023-11-20 19:25

浅谈BI

首先引用百度百科的定义：商业智能（BusinessIntelligence，简称：BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分

秋夜雨凉·2023-11-20 18:34

Hive基础

Hive数据仓库数据仓库是存数据的，企业的各种数据往里存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表等。

升级打怪的辉哥·2023-11-20 16:07

高斯DWS数据库分页查询优化思路

除了高斯其它关系型数据可也一样可以使用官方链接：EXPLAIN_数据仓库服务GaussDB(DWS)_8.2.0_DML语法_华为云参考链接：MySQL大数据量分页查询方法及其优化_mysql大数据量分页查询优化

4935同学·2023-11-20 10:41

Hive效率优化记录

Hive是工作中常用的数据仓库工具，提供存储在HDFS文件系统，将结构化数据映射为一张张表以及提供查询和分析功能。

Forge_ahead·2023-11-20 03:26

亚马逊云科技AI创新应用下的托管在AWS上的数据可视化工具—— Amazon QuickSight

简介AmazonQuickSight的独特之处AmazonQuickSight注册AmazonQuickSight使用Redshift和AmazonQuickSightt平台构建数据可视化应用程序构建数据仓库数据可视化

lqj_本人·2023-11-20 01:32

第二节:数据仓库系统的体系结构

1：引言上一篇介绍了数据仓库的定义:面向主题的，集成的，不可修改的，随时间不断变化的用来更好的为企业或组织决策分析的数据集合。

weixin_30278311·2023-11-20 01:48

Hive参数与性能企业级调优（建议收藏）

Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。

坨坨的大数据·2023-11-19 23:58

数据仓库

数据仓库数据仓库，英文名称为DataWarehuse，简写DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

小纠结在简书·2023-11-19 23:54

MySQL进阶_7.数据库的设计规范

2.3、第三范式2.4、三大范式总结第三节、反范式化3.1、反范式化简介3.2、反范式的新问题3.3、反范式适用场景3.3.1、增加冗余字段的建议3.3.2、历史快照、历史数据的需要3.3.2.1数据库和数据仓库在使用上的区别第一节

珍珠是蚌的眼泪·2023-11-19 21:43

大数据全攻略：10年老兵带你看尽MaxCompute大数据运算挑战与实践（下）

大数据计算服务(MaxCompute，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

chuange6363·2023-11-19 19:05

轻量级数据中台，大中型企业数字化转型首选

数据中台是集数据管理、数据集成和数据分析于一体的平台，可以帮助企业将零散的数据整合到统一的数据仓库中，实现数据的统一管理和快速查询。同时，数据中台可以通

ETLCloud数据集成社区·2023-11-19 19:39

阿里巴巴电商搜索推荐实时数仓演进之路

作者：张照亮（士恒）阿里巴巴搜索事业部高级技术专家1.业务背景阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景，提供了包括实时大屏、实时报表、实时算法训练

阿里云Hologres·2023-11-19 18:38

4️⃣Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

WovJf·2023-11-19 17:39

数据仓库-数仓架构

1数据仓库建设方法论1.1项目背景数据仓库将建设成为融通全公司数据资产，提供便捷数据分析和数据服务，支持全公司数字化经营与创新。

终回首·2023-11-19 14:50

大数据发展历程及技术选型

大数据发展历程第一阶段2000年-2010年数仓提供方企业级数据仓库（EDW）IOT(IBM、Oracle、Teradata)提供数据仓库建设从硬件、软件到实施的整体方案需要购买大（中、小）型机配套商用的关系型数据库

平凡人笔记·2023-11-19 14:47

数据仓库之电商数仓-- 1、用户行为数据采集

目录一、数据仓库概念二、项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群规模2.2.6集群资源规划设计三

FunnyPrince_·2023-11-19 14:10

2023-Hive调优最全指南

本文基本涵盖以下内容：一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一)七、

000X000·2023-11-19 13:43

Hive 调优指南

Hive调优指南ApacheHive是一个基于Hadoop的数据仓库解决方案，用于查询和分析大量的结构化数据。为了提高Hive查询性能和效率，本文将介绍一些Hive调优的策略和方法。

小泽长不胖·2023-11-19 13:41

Hadoop大数据学习线路图-单篇

入门知识对于我们新手入门学习hadoop的朋友来说，首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的：云计算，是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备，主要是基于互联网的相关服务地增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信

doers123·2023-11-19 10:06

本地数仓项目(四）—— 即席查询

本文基于文章《本地数据仓库项目(一)——本地数仓搭建详细流程》和《本地数仓项目(二)——搭建系统业务数仓详细流程》以及《本地数仓项目(三）——数据可视化和任务调度》2Presto2.1Presto概念Presto

不以物喜2020·2023-11-19 08:09

推荐频道

数据仓库hadoop大数据

大数据开发之Hive优化篇6-Hive on spark

大数据最佳实践-hive on spark

数据仓库岗面试

企业如何选择一款高效的ETL工具

数仓问答篇（一）

hadoop@bigdate-VirtualBox:/mnt/shared$ tar -xzvf hadoop-2.10.2.tar.gz tar (child): hadoop-2.10.2.tar

知乎热议：数据仓库、数据湖、湖仓一体，究竟有什么区别？

数据仓库工具之Hive的架构原理

阿里大数据工程师：教你如何快速的搭建数据库

服务器能不能用普通硬盘,服务器硬盘是什么 与普通硬盘区别

浅谈数据仓库建设中的数据建模方法

数据仓库

数据仓库架构之详解Kappa和Lambda

数据仓库模式之详解 Inmon 和 Kimball

数据中台架构原理与开发实战：数据中台面临的挑战与解决方案

数据湖学习笔记No.03（数据仓库）

万字详解大数据架构新概念

数仓理论基础

数据仓库理论

数据仓库_模型设计_学习目录

数据仓库高级面试题

GreenPlum数据库调研及架构介绍

pyspark案例系列5-Spark ETL将MySQL数据同步到Hive

pyspark案例系列6-将Hive表数据写入MySQL

Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electroni...

AIGC ChatGPT4对Gbase数据库进行总结

数据仓库hive本地/远程模式安装

Hive本地模式安装（详细）

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

你在使用大数据技术的时候，你知道大数据语言的工具与框架吗？

浅谈BI

Hive基础

高斯DWS数据库分页查询优化思路

Hive效率优化记录

亚马逊云科技AI创新应用下的托管在AWS上的数据可视化工具—— Amazon QuickSight

第二节:数据仓库系统的体系结构

Hive参数与性能企业级调优（建议收藏）

数据仓库

MySQL进阶_7.数据库的设计规范

大数据全攻略：10年老兵带你看尽MaxCompute大数据运算挑战与实践（下）

轻量级数据中台，大中型企业数字化转型首选

阿里巴巴电商搜索推荐实时数仓演进之路

4️⃣Hive

数据仓库-数仓架构

大数据发展历程及技术选型

数据仓库之电商数仓-- 1、用户行为数据采集

2023-Hive调优最全指南

Hive 调优指南

Hadoop大数据学习线路图-单篇

本地数仓项目(四）—— 即席查询

服务器能不能用普通硬盘,服务器硬盘是什么与普通硬盘区别