Hive学习第3页

Hive总结篇及Hive的优化

张_rong·2022-02-18 20:48

Hive学习笔记

1.建表语法：CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name[(col_namedata_type[COMMENTcol_comment],...)][COMMENTtable_comment][PARTITIONEDBY(col_namedata_type[COMMENTcol_comment],...)][CLUSTEREDBY(col_name,co

ghostdogss·2022-02-08 21:18

大数据开发之数据仓库Hive学习介绍

Hive是什么?Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语大数据培训句转化为MapReduce任务进行运行。Hive提供了一系列的工具，可以用来进行数据提取转化加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive的架构用户接口:Shell/CLI,CLI，Shell终端命令行，采用

·2021-11-11 11:55

Hive学习笔记-第九章分区表和分桶表

1分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。1.1分区表的基本操作（1）引入分区表（需要根据日期对日志进行管理）/user/hive/warehouse/log_partition

Mario_Peng·2021-07-24 18:03

Hive学习-高级版四（Hue使用）

hue的HA模式和非HA模式配置略有差别安装：HUE安装及问题-CSDN博客hue安装笔记-CSDN博客问题：安装Hue后的一些功能的问题解决干货总结（博主推荐）-大数据和AI躺过的坑-博客园Hue问题记录-Can'tWaitAnyLonger-开源中国

刘子栋·2021-06-12 19:20

面试题汇总：Hive

《Hive学习之路（十一）Hive的5个面试题》3.《大数据工程师关于Hive的面试题》4.《hive面试题(免费拿走不谢)》5.《Hive面试题一》6.《大数据面试题知识点分析（六）》

金字塔下的小蜗牛·2021-06-04 18:13

hive学习笔记(一)--基本概念

基本结构与概念1.hive是什么数据仓库：数据库Database(Oracle,Mysql,PostgreSQL)主要用于事务处理，数据仓库Datawarehouse(AmazonRedshift,Hive)主要用于数据分析。数据库(Database)的特点是：相对复杂的表格结构，存储结构相对紧致，少冗余数据。读和写都有优化。相对简单的read/writequery，单次作用于相对的少量数据。数据

1994_老叶·2021-05-31 17:49

Hive学习

Hive学习标签（空格分隔）：HadoopHive官网地址：https://hive.apache.org/下载地址：http://www-us.apache.org/dist/hive/hive-2.1.1

予早·2021-04-29 06:11

hive学习笔记之七：内置函数

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-30 11:43

hive学习笔记之六：HiveQL基础

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-25 11:52

hive学习笔记之五：分桶

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-24 15:56

hive学习笔记之四：分区表

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-23 13:15

hive学习笔记之三：内部表和外部表

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-22 14:29

hive学习笔记10

HIA各位好，之前写的很简单的SQL语句，然后就要py预处理，这很Low，也很费时间，这里必须面对这些问题。因此要采用hive-sql的处理方法，直接读取后就是结果，无需再次预处理，节省时间。ForRecommendationinDeeplearningQQGroup102948747ForVisualindeeplearningQQGroup629530787I'mherewaitingfory

VideoRec·2021-03-12 14:35

hive学习笔记之二：复杂数据类型

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-11 19:48

hive学习笔记之一：基本数据类型

欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive

·2021-03-10 21:52

Hive-学习笔记

运行机制5.Hive与数据库的比较6.Hive数据类型7.DDL数据定义8.DML数据操作9.查询10.函数11.压缩12.存储13.优化14.练习Demo总结前言（Hive1.2.1）本文分享本菜鸟的Hive

LeiKe_·2021-01-08 16:59

hive学习笔记

R&Y·2021-01-04 01:18

【Hive学习一】Hive概述，Hive是什么

1.Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析，而不必使用

不二梁·2020-11-25 11:13

HiveSQL电商分析案例30题

一、前言Hive学习过程中的一个练习项目，如果不妥的地方或者更好的建议，欢迎指出！

☞空白页·2020-11-03 16:12

Hive学习笔记（十一）—— Hive 实战之谷粒影音

文章目录10.1需求描述10.2项目10.2.1数据结构10.2.2ETL原始数据10.3准备工作10.3.1创建表10.3.2导入ETL后的数据10.3.3向ORC表插入数据10.4业务分析10.4.1统计视频观看数Top1010.4.2统计视频类别热度Top1010.4.3统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数10.4.4统计视频观看数Top50所关联视频的

Alienware^·2020-10-25 11:47

大数据Hive学习案例(3)——基于新浪微博的日志数据分析

下方有数据可免费下载目录原始数据数据仓库构建统计需求1.微博总量和独立用户数2.用户所有微博被转发的总数，输出前3个用户3.被转发次数最多的前3条微博，输出用户id4.每个用户发布的微博总数，存储到临时表5.统计带图片的微博数6.统计使用iphone发微博的独立用户数7.微博中评论次数小于1000的用户id和数据来源，放入视图8.统计上条视图中数据来源“ipad客户端”的用户数目特殊需求1.Hiv

程研板·2020-09-15 12:29

Hadoop学习（四）——Hive学习2

Hadoop学习（四）——Hive学习2目录：1、报错：Hiveimportjsondata建表报错：2、报错：HiveloadJson数据文件到表中，发现数据全部为null：3、数据标签：给vType

Remoa·2020-09-14 06:39

hive学习之经典sql50题 hive版(三)

11.查询至少有一门课与学号为“01”的同学所学相同的同学的学号和姓名selectstu.sidfrom(selectother.ssid,other.ccidfrom(selectcidfromscwheresid=01)s01join(selectsids,cidcfromscwheresid!=01)otheronother.c=s01.cid)stugroupbystu.sidhaving

hadoop程序猿·2020-09-13 23:10

Hive学习之———自定义函数

正常在我们hive中是由很多的函数的，有的我们可以直接用，但是但我们去计算复杂数据时，我们就要去写一些规则来将数据筛选出来，这里我使用的是idea开发环境来开发的。1.UDF自定义函数分为三种一、UDF一对一UDF是继承hive中UDF而实现evaluate方法，它是一对一的关系，UDF操作作用于单个数据行，并且产生一个数据行作为输出。大多数函数都属于这一类（比如数学函数和字符串函数）。二、UDA

十五亿程序员的希望·2020-09-13 22:32

Hive学习笔记(一)各种连接

表和数据创建数据库createdatabaseifnotexiststest;usetest;创建sales表createtablesales(namevarchar(50),product_idint)rowformatdelimitedfieldsterminatedby',';创建things表createtablethings(produt_idint,product_namevarcha

WEI_69·2020-09-13 02:34

hive学习02天-访问次数统计

hive的写法和sql类似，却又有一点不一样，本次采用模拟数据编写hql统计访问次数：求出当月的访问次数，截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。数据表如下A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-0

weixin_30301183·2020-09-12 09:05

Hive学习之连接查询优化（一）

Hive为连接查询提供了一系列的优化方法，包括优化Hive的查询执行计划以改进连接查询的效率和减少用户提示的使用等。Hive可以自动识别很多用例并自动优化它们，Hive在0.11版本中对下面的情况改进了优化器：连接查询的一端放进内存中，在新的优化器中：放进内存的一端在内存中以哈希表存在只有比较大的表需要扫描事实表在内存中有较小的足迹星型模式连接在许多用例中不再需要用户提示优化器自动优化map连接星

skyWalker_ONLY·2020-09-12 09:48

Hive学习之连接查询

Hive支持连接查询，但有一些条件必须遵守，比如只支持相等查询，其它查询如不等式查询则不支持，还支持外连接，左半连接查询。另外Hive支持多于两个表以上的连接查询。下面为Hive连接查询的语法：join_table:table_referenceJOINtable_factor[join_condition]|table_reference{LEFT|RIGHT|FULL}[OUTER]JOINt

skyWalker_ONLY·2020-09-12 08:58

经典Hadoop家族系列文章

经典Hadoop家族系列文章一学习路线图Hadoop家族学习路线图开篇必读Hive学习路线图学习hadoop到上手工作线路指导（中级篇）零基础学习hadoop到上手工作线路指导（编程篇）Mahout学习路线图二编程实践

Thomas-yang·2020-09-11 15:28

Hive学习六:HIVE日志分析（用户画像）

Hive学习六:HIVE日志分析（用户画像）标签（空格分隔）：HiveHive学习六HIVE日志分析用户画像案例分析思路一创建临时中间表二将中间结果存放到临时表中三创建结果表并存入最终jieguoji总结案例分析思路根据原始数据表里面的信息提取用户画像信息

forrestxingyunfei·2020-09-11 06:20

Hive学习笔记 --- 查看Table在HDFS中存储的位置

showcreatetablet2;在显示出来的内容中：Location中的内容就是数据在HDFS中存储的位置。

杨鑫newlfe·2020-09-11 04:12

Hive学习之Metastore及其配置管理

在学习Hive的配置管理参数时，曾将参数分为四类：Hive管理参数、Hive元存储（Metastore）管理参数、与Hadoop交互的管理参数、用于传递运行时信息的参数，当时并没有对Metastore参数进行深入的学习，现在就开始学习这部分的内容。Hive中表和分区的所有元数据都存储在Hive的元存储（Metastore）中。元数据使用JPOX（JavaPersistentObjects）对象关系

skyWalker_ONLY·2020-09-11 03:33

Hive学习笔记

Hive大数据课程Hive编程给notepad++加一个插件远程操作Linux将一个Hadoop高可用集群的一个节点修改为伪分布式集群克隆修改网卡#修改静态IPvi/etc/sysconfig/network-scripts/ifcfg-ens33#重启systemctlrestartnetwork修改服务器的主机名(简化连接服务器操作)#添加自定义主机名（hive1）[root@node1~]#

LvJinYang·2020-09-11 00:30

hive学习总结

目录一、是什么（1）Hive的几个特点（2）Hive架构（3）Hive的核心（4）Hive的底层存储（5）Hive语句的执行过程二、安装部署三、连接hive（1）通过beeline连接（2）直接连接四、表1、表的分类（1）管理表（内部表）（2）外部表（3）分区表2、创建表3、重命名表4、增加/修改/替换列信息5、复制表6、启用/禁用表与count五、加载数据1.loaddata到指定的表2.loa

大雄号·2020-08-25 17:09

Hive学习系列(一)什么是Hive及Hive的架构

最近一直在忙面试的事情，面试过程中碰到几家公司都问到了Hive,但是由于最近三年一直在忙海外数据仓库的事情，对于大数据的只限于了解，未有实际的使用，为了更好的面试，特总结了下Hive的相关知识（1）什么是Hive1.1Hive是Hadoop工具家族中一个重要成员，可以将结构化的数据文件（HDFS）映射为一张数据库表。1.2Hive定义了简单的类SQL查询语言，被称为HQL，实现方便高效的数据查询1

xiangluping·2020-08-24 18:40

Hive学习笔记 --- 用中文创建表名和字段

有些人问能不能用中文来创建表名或者字段，是可以的。这里给一个例子：createtablehehe(`来试试`string);可以这样子建表，大家看到这里的符号“`”作用很大，一是可以在建表的时候使用中文，二是可以使用关键字创建表名字段。（SQL语法，各个数据库通用）如下图：

杨鑫newlfe·2020-08-24 16:25

Hive学习笔记 --- return code 1 from org.apache.hadoop.hive

执行load语句报错如下：'Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask'发现问题是没法将数据导入table后的文件移动位置，然后导入到/apps/hive/warehouse中由于对文件缺乏操做权限。解决办法就是利用hdfsdfs

杨鑫newlfe·2020-08-24 16:24

hive学习及遇到问题

搭建好hive后在一台虚拟机上打开两个终端，一个运行/hive/bin/目录下的hiveserver，一个运行/hive/bin/下的beeline运行beeline后，执行!connectjdbc:hive2://localhost:10000输入系统的账号密码showdatabases；显示数据库中的数据库showtables；显示数据库中的表运行selectcount(1)frombo1;时

bo512958706·2020-08-24 13:30

Hive学习系列(二)Hive的查询流程详解

此文为翻译的文档，英文连接为https://cwiki.apache.org/confluence/display/Hive/Design#Design-HiveArchitectureHive查询流程图如下图中可以看出查询主要组件包含UI(userinterface)–用户提交查询或者其他操作，现在标准UI有CLI(commandlineinterface),ThriftServe,Hivewe

xiangluping·2020-08-24 12:48

Hive学习笔记 --- Hive架构原理与执行流程与工作原理

一、简述：HIve数据仓库可以使用类SQL（HQL）查询读取、写入和管理存储在分布式中的大型数据集。Hive建立在Hadoop之上，提供以下功能：通过SQL轻松访问数据的工具，从而实现数据仓库的任务，例如提取/转换/加载（ETL），报告和数据分析；一种将强结构用于各种数据格式的机制；可以直接访问存储在HDFS或者和其他存储系统（HBase）中的文件；通过Tez、Spark、MapReduce执行查

杨鑫newlfe·2020-08-24 12:52

hive学习心得

此博文是自己学习hive的一些学习心得，可能有些地方理解的不对，如有不妥之后，忘能不吝赐教！！！目录hive是什么数据操作执行原理分区分桶hive是什么hive从本质上来说是一个仓库，是一个分析框架，它本身不存储数据，连最起码的元数据信息也不存储。它可以通过mysql或(Derby)对存放在hdfs上面的数据进行映射，其中元信息存放在mysql或Derby中。它完全依赖HDFS和MapReduce

萧痕·2020-08-18 18:12

Hive学习之路（十九）Hive的数据倾斜

1、什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点2、Hadoop框架的特性A、不怕数据大，怕数据倾斜B、Jobs数比较多的作业运行效率相对比较低，如子查询比较多C、sum,count,max,min等聚集函数，通常不会有数据倾斜问题3、主要表现任务进度长时间维持在99%或者100%的附近，查看任务监控页面，发现只有少量reduce子任务未完成，因为其处理的数据量和其他

weixin_33923762·2020-08-18 12:41

Hive学习之路（三）Hive元数据信息对应MySQL数据库表

目录概述一、存储Hive版本的元数据表（VERSION）二、Hive数据库相关的元数据表（DBS、DATABASE_PARAMS）1、DBS2、DATABASE_PARAMS三、Hive表和视图相关的元数据表1、TBLS2、TABLE_PARAMS3、TBL_PRIVS四、Hive文件存储信息相关的元数据表1、SDS2、SD_PARAMS3、SERDES4、SERDE_PARAMS五、Hive表字

MnerX·2020-08-18 11:48

Hive学习总结（三）之元数据Metastore

元数据Metastore1、元数据2、MySQL中Hive数据库相关的元数据表2.1、DBS表3、Hive表和视图相关的元数据表3.1、TBLS表4、Hive文件存储信息相关的元数据表4.1、SDS表4.2、SD_PARAMS表4.3、SERDES表4.4、SERDE_PARAMS表5、Hive表分区相关的元数据表5.1、PARTITIONS表5.2、PARTITION_KEYS表5.3、PART

風の住む街~·2020-08-14 21:49

Hive学习之路（三）Hive元数据信息对应MySQL数据库表

概述Hive的元数据信息通常存储在关系型数据库中，常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。Hive的元数据信息在MySQL数据中有57张表一、存储Hive版本的元数据表（VERSION）VERSION--查询版本信息该表比较简单，但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明1

weixin_33946020·2020-08-14 20:32

Hive学习之Hive配置管理

Hive是基于Hadoop的一种数据仓库，对查询和管理分布式存储中的超大数据集提供了很大帮助。正如绝大部分开源软件一样，Hive允许用户调整参数改变Hive的默认行为。用户可以使用下面三种方法中的任意一种对Hive进行配置管理：在Hive的CLI（命令行接口）使用set命令在会话层级为后续语句设置参数值，比如：sethive.exec.scratchdir=/tmp/mydir，将后续语句的临时目

skyWalker_ONLY·2020-08-14 19:49

Hive学习笔记(一)——原理和体系架构

目录一hive是什么？二为什么会出现hive？三hive为什么适合数据仓库应用程序？四hive与传统关系型数据库的比较五hive的体系架构hive体系架构的组成部分：1用户接口2跨语言服务thriftserver3Driver（底层）4元数据存储系统六hive的执行流程一hive是什么？1：hive是构建在hdfs上的一个数据仓库（DataWarehouse）2：hive是sql解析引擎，将sql

weixin_30377461·2020-08-14 15:41

大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

下方有数据可免费下载目录数据预处理查看数据数据扩展数据加载构建数据仓库创建外部表创建分区表数据分析需求条数统计关键词分析UID分析用户行为分析点击次数与rank之间的关系分析直接输入URL作为查询词的比例独立用户行为分析数据下载请点击我，提取码：cutx，觉得有用希望您能点一个赞哦。数据预处理查看数据[hadoop@hadoop000hive_data]$lesssogou.500w.utf820

程研板·2020-08-13 10:55

大数据Hive学习案例(2)——基于汽车销售的日志数据分析

下方有数据可免费下载目录原始数据项目实战数据仓库的构建1.构建数据仓库2.创建原始数据表3.加载数据到数据仓库4.验证数据结果数据分析1.乘用车辆和商用车辆的销售数量和比例2.山西省2013年每个月的汽车销售数量比例3.买车的男女比例和男女对车的品牌的选择4.车的所有权，车辆型号，车辆类型5.不同车型在一个月的销售量6.不同品牌车销售情况，统计发动机和燃料种类7.统计五菱某一年每月的销售量数据下载

程研板·2020-08-13 09:32

推荐频道

Hive学习

Hive总结篇及Hive的优化

Hive学习笔记

大数据开发之数据仓库Hive学习介绍

Hive学习笔记-第九章 分区表和分桶表

Hive学习-高级版四（Hue使用）

面试题汇总：Hive

hive学习笔记(一)--基本概念

Hive学习

hive学习笔记之七：内置函数

hive学习笔记之六：HiveQL基础

hive学习笔记之五：分桶

hive学习笔记之四：分区表

hive学习笔记之三：内部表和外部表

hive学习笔记10

hive学习笔记之二：复杂数据类型

hive学习笔记之一：基本数据类型

Hive-学习笔记

hive学习笔记

【Hive学习一】Hive概述，Hive是什么

HiveSQL电商分析案例30题

Hive学习笔记（十一）—— Hive 实战之谷粒影音

大数据Hive学习案例(3)——基于新浪微博的日志数据分析

Hadoop学习（四）——Hive学习2

hive学习之经典sql50题 hive版(三)

Hive学习之———自定义函数

Hive学习笔记(一)各种连接

hive学习02天-访问次数统计

Hive学习之连接查询优化（一）

Hive学习之连接查询

经典Hadoop家族系列文章

Hive学习六:HIVE日志分析（用户画像）

Hive学习笔记 --- 查看Table在HDFS中存储的位置

Hive学习之Metastore及其配置管理

Hive学习笔记

hive学习总结

Hive学习系列(一)什么是Hive及Hive的架构

Hive学习笔记 --- 用中文创建表名和字段

Hive学习笔记 --- return code 1 from org.apache.hadoop.hive

hive学习及遇到问题

Hive学习系列(二)Hive的查询流程详解

Hive学习笔记 --- Hive架构原理 与 执行流程 与 工作原理

hive学习心得

Hive学习之路 （十九）Hive的数据倾斜

Hive学习之路 （三）Hive元数据信息对应MySQL数据库表

Hive学习总结（三）之元数据Metastore

Hive学习之路 （三）Hive元数据信息对应MySQL数据库表

Hive学习之Hive配置管理

Hive学习笔记(一)——原理和体系架构

大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

大数据Hive学习案例(2)——基于汽车销售的日志数据分析

Hive学习笔记-第九章分区表和分桶表

Hive学习笔记 --- Hive架构原理与执行流程与工作原理

Hive学习之路（十九）Hive的数据倾斜

Hive学习之路（三）Hive元数据信息对应MySQL数据库表

Hive学习之路（三）Hive元数据信息对应MySQL数据库表