Hive3.X

搭建Hive3.x并整合MySQL8.x存储元数据

Hive简介Hive官方文档：https://cwiki.apache.org/confluence/display/HiveHive产生的背景：在使用MapReduce进行编程的时候，会发现实现一个简单的功能例如WordCount都需要编写不少的代码，可想而知如果实现一个复杂点的应用所需的开发和维护成本就会非常高，为了解决MapReduce编程的不便性，Hive才得以诞生。另外一点就是HDFS上

端碗吹水·2024-01-26 16:06

Hive3.x数仓开发

文章目录一、数仓仓库概念二、数据仓库分层架构ODS\DW\DA(ADS)ETL\ELT三、ApacheHive概述为什么使用HiveHive和Hadoop关系四、ApacheHive架构、组件组件五、ApacheHive数据模型DataModel概念Databases数据库Partitions分区Buckets分桶Hive和MySQL对比六、元数据HiveMetadataHiveMetastore

_七七·2023-10-20 01:24

hive3.X的HiveServer2 内存泄漏问题定位与优化方案（bug）

参考文档：https://juejin.cn/post/7141331245627080735?searchId=20230920140418F85636A0735C03971F71官网社区：https://issues.apache.org/jira/browse/HIVE-22275InthecasethatmultiplestatementsarerunbyasingleSessionbef

墨卿风竹·2023-09-20 19:00

【大数据Hive3.x数仓开发】窗口函数案例：连续N次登录的用户；级联累加求和；分组TopN

文章目录1统计连续N次登录的用户（N>=2）自连接过滤实现窗口函数lead()实现2级联累加求和自连接窗口函数sum()实现3分组TopN问题对窗口函数的讲解part见：【大数据Hive3.x数仓开发】

锵锵锵锵~蒋·2023-04-10 01:56

【大数据Hive3.x数仓开发】数仓中数据发生变化如何实现数据存储--拉链表详解

文章目录功能与应用场景实现过程SQL实现数据发生变化时，如果全部覆盖没有了历史变化，如果全部保存会有过多的数据冗余。构建拉链表，通过时间标记发生编号的数据的每种状态的时间周期。功能与应用场景拉链表专门用于解决在数据仓库中数据发生变化如何实现数据存储的问题。拉链表的设计是将更新的数据进行状态记录，没有发生更新的数据不进行状态存储，用于存储所有数据在不同时间上的所有状态，通过时间进行标记每个状态的生命

锵锵锵锵~蒋·2023-04-09 22:37

【大数据Hive3.x数仓开发】数仓基础理论

目录概念OLTP数仓的构建数仓体系图特征OLTPVSOLAP数据库VS数据仓库数据仓库VS数据集市数仓分层架构ODS层DW层DA层分层好处ETLVSELT注：学习课程：黑马程序员Hive全套教程，大数据Hive3

锵锵锵锵~蒋·2023-03-31 22:29

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

的交互问题，用Sparksql读取处理hive中已存在的表数据但读取不到hive的database顺便，SparkSQL读取不了hive内部表，可以读hive外表的数据，文末有解决方案刚开始熟悉Spark与hive3

唯伟老师·2022-10-30 19:48

HIVE3 深度剖析 (上篇)

整个系列分为上下两篇文章，涵盖以下章节：1.从HIVE架构的演进看HIVE的发展趋势2.盘点下HIVE3.X和HIVE2.X的那些重大差异点3.HIVE3.X的ORC事务表详解4.HIVE3.X的LEGACY

Michael_Li·2022-06-21 16:21

[3] Hive3.x Materialized view

Objectives一般来说，查询加速的最有效方法即关系聚合预计算（pre-computationofrelevantsummaries）物化视图（materializedviews）Hive3.0开始尝试引入物化视图，并提供对于物化视图的查询自动重写（基于ApacheCalcite实现）；值得注意的是，3.0中提供了物化视图存储选择机制，可以本地存储在hive，同时可以通过用户自定义storag

hjw199089·2020-08-26 12:46

Hadoop版本升级（2.7.6 => 3.1.2）

自己的主机上的Hadoop版本是2.7.6，是测试用的伪分布式Hadoop，在前段时间部署了HiveonSpark，但由于没有做好功课，导致了Hive无法正常启动，原因在于Hive3.x版本不适配Hadoop2

aju1790·2020-08-21 13:25

hive3.1.1集群搭建

而hive3.x版本则有了改进，hive引擎支持tez和spark,在查询速度上有了显著的提升。接下来我们来安装搭建hive3.1.1:##准备环境虚拟机4台（hadoop1,had

拂袖清风·2020-08-17 08:32

datax同步mysql数据到hive时，时间类型字段少8小时问题

接下来看一下hive3.x支持的数据类型：可以看到，hive也支持d

ASN_forever·2020-08-02 15:04

一日一坑之：hadoop3.x VS hive3.x

最近安装了新版本的hadoop3.x版本，按照老思路此时需要安装hive3.x用来搭配我们崭新的hadoop，重新翻出来我的泛黄的hive2.x版本的安装说明书安装了一遍，就在此时坑来了。

wtysuper6·2020-07-27 18:27

hive3.1.2 - hadoop3.2.1 搭建

本篇主要讲基于hadoop3.xhive的搭建，中间的一些步骤与上篇教程一样，大家可以先看下上面链接，本篇主要描述hive3.x与历史版本搭建的不同之处。

「已注销」·2020-07-05 10:13

Presto查询内存优化，可缓解内存不足的症状

个人博客原文使用条件Hivev1bucketingtable:v1版本的分桶表（v2没测试，presto对hive3.x的支持目前还在进行中）其他支持分桶的数据源connector，需要实现presto

ArchonGum·2019-08-21 14:05

Hadoop版本升级（2.7.6 => 3.1.2）

自己的主机上的Hadoop版本是2.7.6，是测试用的伪分布式Hadoop，在前段时间部署了HiveonSpark，但由于没有做好功课，导致了Hive无法正常启动，原因在于Hive3.x版本不适配Hadoop2

buildings·2019-08-09 22:00

[2] Hive3.x 查询流程源码-Cli端-01

Hive架构简图Hive架构简图hive原理与源码分析-hive源码架构与理论Hive3.x安装准备工作详细参见：Hive3.x安装与debug1Hive命令行提交查询SELECTdeptno,count

hjw199089·2018-11-29 20:47

[1] Hive3.x 安装与debug

1下载安装hive3.1.1下载地址修改hive-env.sh如：HADOOP_HOME=/Users/xxx/software/hadoop/hadoop-2.7.4exportHIVE_CONF_DIR=/Users/xxx/software/hive/confexportHIVE_AUX_JARS_PATH=/Users/xxx//software/hive/lib建立hive-site.x

hjw199089·2018-11-29 20:03

推荐频道

Hive3.X

搭建Hive3.x并整合MySQL8.x存储元数据

Hive3.x数仓开发

hive3.X的HiveServer2 内存泄漏问题定位与优化方案（bug）

【大数据Hive3.x数仓开发】窗口函数案例：连续N次登录的用户；级联累加求和；分组TopN

【大数据Hive3.x数仓开发】数仓中数据发生变化如何实现数据存储--拉链表详解

【大数据Hive3.x数仓开发】数仓基础理论

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

HIVE3 深度剖析 (上篇)

[3] Hive3.x Materialized view

Hadoop版本升级（2.7.6 => 3.1.2）

hive3.1.1集群搭建

datax同步mysql数据到hive时，时间类型字段少8小时问题

一日一坑之：hadoop3.x VS hive3.x

hive3.1.2 - hadoop3.2.1 搭建

Presto查询内存优化，可缓解内存不足的症状

Hadoop版本升级（2.7.6 => 3.1.2）

[2] Hive3.x 查询流程源码-Cli端-01

[1] Hive3.x 安装与debug