E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hive学习
Hive总结篇及Hive的优化
版权声明:本文为博主原创文章,未经博主允许不得转载https://blog.csdn.net/yu0_zhang0/article/details/81776459概述
Hive学习
也有一段时间了,今天来对
张_rong
·
2022-02-18 20:48
Hive学习
笔记
1.建表语法:CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name[(col_namedata_type[COMMENTcol_comment],...)][COMMENTtable_comment][PARTITIONEDBY(col_namedata_type[COMMENTcol_comment],...)][CLUSTEREDBY(col_name,co
ghostdogss
·
2022-02-08 21:18
大数据开发之数据仓库
Hive学习
介绍
Hive是什么?Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语大数据培训句转化为MapReduce任务进行运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive的架构用户接口:Shell/CLI,CLI,Shell终端命令行,采用
·
2021-11-11 11:55
大数据hive
Hive学习
笔记-第九章 分区表和分桶表
1分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。1.1分区表的基本操作(1)引入分区表(需要根据日期对日志进行管理)/user/hive/warehouse/log_partition
Mario_Peng
·
2021-07-24 18:03
Hive
hive
hadoop
大数据
Hive学习
-高级版四(Hue使用)
hue的HA模式和非HA模式配置略有差别安装:HUE安装及问题-CSDN博客hue安装笔记-CSDN博客问题:安装Hue后的一些功能的问题解决干货总结(博主推荐)-大数据和AI躺过的坑-博客园Hue问题记录-Can'tWaitAnyLonger-开源中国
刘子栋
·
2021-06-12 19:20
面试题汇总:Hive
《
Hive学习
之路(十一)Hive的5个面试题》3.《大数据工程师关于Hive的面试题》4.《hive面试题(免费拿走不谢)》5.《Hive面试题一》6.《大数据面试题知识点分析(六)》
金字塔下的小蜗牛
·
2021-06-04 18:13
hive学习
笔记(一)--基本概念
基本结构与概念1.hive是什么数据仓库:数据库Database(Oracle,Mysql,PostgreSQL)主要用于事务处理,数据仓库Datawarehouse(AmazonRedshift,Hive)主要用于数据分析。数据库(Database)的特点是:相对复杂的表格结构,存储结构相对紧致,少冗余数据。读和写都有优化。相对简单的read/writequery,单次作用于相对的少量数据。数据
1994_老叶
·
2021-05-31 17:49
Hive学习
Hive学习
标签(空格分隔):HadoopHive官网地址:https://hive.apache.org/下载地址:http://www-us.apache.org/dist/hive/hive-2.1.1
予早
·
2021-04-29 06:11
hive学习
笔记之七:内置函数
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-30 11:43
云计算
hive学习
笔记之六:HiveQL基础
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-25 11:52
云计算
hive学习
笔记之五:分桶
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-24 15:56
云计算
hive学习
笔记之四:分区表
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-23 13:15
云计算
hive学习
笔记之三:内部表和外部表
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-22 14:29
云计算
hive学习
笔记10
HIA各位好,之前写的很简单的SQL语句,然后就要py预处理,这很Low,也很费时间,这里必须面对这些问题。因此要采用hive-sql的处理方法,直接读取后就是结果,无需再次预处理,节省时间。ForRecommendationinDeeplearningQQGroup102948747ForVisualindeeplearningQQGroup629530787I'mherewaitingfory
VideoRec
·
2021-03-12 14:35
Recommendation
hive
sql
hive-sql
split
json
hive学习
笔记之二:复杂数据类型
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-11 19:48
云计算
hive学习
笔记之一:基本数据类型
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;《
hive
·
2021-03-10 21:52
云计算
Hive-学习笔记
运行机制5.Hive与数据库的比较6.Hive数据类型7.DDL数据定义8.DML数据操作9.查询10.函数11.压缩12.存储13.优化14.练习Demo总结前言(Hive1.2.1)本文分享本菜鸟的
Hive
LeiKe_
·
2021-01-08 16:59
大数据
数仓
hive
大数据
数据仓库
hive学习
笔记
文章目录前言推荐文章库方面创建库修改库删除库描述库表方面前言创建表插入表描述表删除表删除外部表变更表表本身属性层面表字段层面分区操作查询表报错汇总Mysql方面hive的元数据metastore函数方面UDFShell命令dfs![-cat[-ignoreCrc]...]引文后记解决hive中文显示乱码未消化,还需要阅读前言推荐文章目的文章链接备注测试1Hive分区表新增字段+重刷历史方法(避免旧
R&Y
·
2021-01-04 01:18
hive
hadoop
hive
【
Hive学习
一】Hive概述,Hive是什么
1.Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用
不二梁
·
2020-11-25 11:13
HiveSQL电商分析案例30题
一、前言
Hive学习
过程中的一个练习项目,如果不妥的地方或者更好的建议,欢迎指出!
☞空白页
·
2020-11-03 16:12
Hive
Hive学习
笔记(十一)—— Hive 实战之谷粒影音
文章目录10.1需求描述10.2项目10.2.1数据结构10.2.2ETL原始数据10.3准备工作10.3.1创建表10.3.2导入ETL后的数据10.3.3向ORC表插入数据10.4业务分析10.4.1统计视频观看数Top1010.4.2统计视频类别热度Top1010.4.3统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数10.4.4统计视频观看数Top50所关联视频的
Alienware^
·
2020-10-25 11:47
Hive
hive
大数据
Hive学习
案例(3)——基于新浪微博的日志数据分析
下方有数据可免费下载目录原始数据数据仓库构建统计需求1.微博总量和独立用户数2.用户所有微博被转发的总数,输出前3个用户3.被转发次数最多的前3条微博,输出用户id4.每个用户发布的微博总数,存储到临时表5.统计带图片的微博数6.统计使用iphone发微博的独立用户数7.微博中评论次数小于1000的用户id和数据来源,放入视图8.统计上条视图中数据来源“ipad客户端”的用户数目特殊需求1.Hiv
程研板
·
2020-09-15 12:29
Hive
大数据
hive
数据仓库
java
udf
Hadoop学习(四)——
Hive学习
2
Hadoop学习(四)——
Hive学习
2目录:1、报错:Hiveimportjsondata建表报错:2、报错:HiveloadJson数据文件到表中,发现数据全部为null:3、数据标签:给vType
Remoa
·
2020-09-14 06:39
Hadoop
hive学习
之经典sql50题 hive版(三)
11.查询至少有一门课与学号为“01”的同学所学相同的同学的学号和姓名selectstu.sidfrom(selectother.ssid,other.ccidfrom(selectcidfromscwheresid=01)s01join(selectsids,cidcfromscwheresid!=01)otheronother.c=s01.cid)stugroupbystu.sidhaving
hadoop程序猿
·
2020-09-13 23:10
hive
Hive学习
之———自定义函数
正常在我们hive中是由很多的函数的,有的我们可以直接用,但是但我们去计算复杂数据时,我们就要去写一些规则来将数据筛选出来,这里我使用的是idea开发环境来开发的。1.UDF自定义函数分为三种一、UDF一对一UDF是继承hive中UDF而实现evaluate方法,它是一对一的关系,UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。二、UDA
十五亿程序员的希望
·
2020-09-13 22:32
Hive学习
笔记(一)各种连接
表和数据创建数据库createdatabaseifnotexiststest;usetest;创建sales表createtablesales(namevarchar(50),product_idint)rowformatdelimitedfieldsterminatedby',';创建things表createtablethings(produt_idint,product_namevarcha
WEI_69
·
2020-09-13 02:34
大数据技术
hive学习
02天-访问次数统计
hive的写法和sql类似,却又有一点不一样,本次采用模拟数据编写hql统计访问次数:求出当月的访问次数,截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。数据表如下A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-0
weixin_30301183
·
2020-09-12 09:05
Hive学习
之连接查询优化(一)
Hive为连接查询提供了一系列的优化方法,包括优化Hive的查询执行计划以改进连接查询的效率和减少用户提示的使用等。Hive可以自动识别很多用例并自动优化它们,Hive在0.11版本中对下面的情况改进了优化器:连接查询的一端放进内存中,在新的优化器中:放进内存的一端在内存中以哈希表存在只有比较大的表需要扫描事实表在内存中有较小的足迹星型模式连接在许多用例中不再需要用户提示优化器自动优化map连接星
skyWalker_ONLY
·
2020-09-12 09:48
Hive
勤奋的Hive
Hive学习
之连接查询
Hive支持连接查询,但有一些条件必须遵守,比如只支持相等查询,其它查询如不等式查询则不支持,还支持外连接,左半连接查询。另外Hive支持多于两个表以上的连接查询。下面为Hive连接查询的语法:join_table:table_referenceJOINtable_factor[join_condition]|table_reference{LEFT|RIGHT|FULL}[OUTER]JOINt
skyWalker_ONLY
·
2020-09-12 08:58
Hive
勤奋的Hive
Hive
连接查询
左半连接
外连接
经典Hadoop家族系列文章
经典Hadoop家族系列文章一学习路线图Hadoop家族学习路线图开篇必读
Hive学习
路线图学习hadoop到上手工作线路指导(中级篇)零基础学习hadoop到上手工作线路指导(编程篇)Mahout学习路线图二编程实践
Thomas-yang
·
2020-09-11 15:28
云计算
Hadoop
大数据
hadoop
Hive学习
六:HIVE日志分析(用户画像)
Hive学习
六:HIVE日志分析(用户画像)标签(空格分隔):Hive
Hive学习
六HIVE日志分析用户画像案例分析思路一创建临时中间表二将中间结果存放到临时表中三创建结果表并存入最终jieguoji总结案例分析思路根据原始数据表里面的信息提取用户画像信息
forrestxingyunfei
·
2020-09-11 06:20
Hive
Hive学习
笔记 --- 查看Table在HDFS中存储的位置
showcreatetablet2;在显示出来的内容中:Location中的内容就是数据在HDFS中存储的位置。
杨鑫newlfe
·
2020-09-11 04:12
大数据挖掘与大数据应用案例
数据库
Hive学习
之Metastore及其配置管理
在学习Hive的配置管理参数时,曾将参数分为四类:Hive管理参数、Hive元存储(Metastore)管理参数、与Hadoop交互的管理参数、用于传递运行时信息的参数,当时并没有对Metastore参数进行深入的学习,现在就开始学习这部分的内容。Hive中表和分区的所有元数据都存储在Hive的元存储(Metastore)中。元数据使用JPOX(JavaPersistentObjects)对象关系
skyWalker_ONLY
·
2020-09-11 03:33
Hive
勤奋的Hive
Hive学习
笔记
Hive大数据课程Hive编程给notepad++加一个插件远程操作Linux将一个Hadoop高可用集群的一个节点修改为伪分布式集群克隆修改网卡#修改静态IPvi/etc/sysconfig/network-scripts/ifcfg-ens33#重启systemctlrestartnetwork修改服务器的主机名(简化连接服务器操作)#添加自定义主机名(hive1)[root@node1~]#
LvJinYang
·
2020-09-11 00:30
大数据
hive学习
总结
目录一、是什么(1)Hive的几个特点(2)Hive架构(3)Hive的核心(4)Hive的底层存储(5)Hive语句的执行过程二、安装部署三、连接hive(1)通过beeline连接(2)直接连接四、表1、表的分类(1)管理表(内部表)(2)外部表(3)分区表2、创建表3、重命名表4、增加/修改/替换列信息5、复制表6、启用/禁用表与count五、加载数据1.loaddata到指定的表2.loa
大雄号
·
2020-08-25 17:09
大数据
Hive学习
系列(一)什么是Hive及Hive的架构
最近一直在忙面试的事情,面试过程中碰到几家公司都问到了Hive,但是由于最近三年一直在忙海外数据仓库的事情,对于大数据的只限于了解,未有实际的使用,为了更好的面试,特总结了下Hive的相关知识(1)什么是Hive1.1Hive是Hadoop工具家族中一个重要成员,可以将结构化的数据文件(HDFS)映射为一张数据库表。1.2Hive定义了简单的类SQL查询语言,被称为HQL,实现方便高效的数据查询1
xiangluping
·
2020-08-24 18:40
Hive
Hive学习
笔记 --- 用中文创建表名和字段
有些人问能不能用中文来创建表名或者字段,是可以的。这里给一个例子:createtablehehe(`来试试`string);可以这样子建表,大家看到这里的符号“`”作用很大,一是可以在建表的时候使用中文,二是可以使用关键字创建表名字段。(SQL语法,各个数据库通用)如下图:
杨鑫newlfe
·
2020-08-24 16:25
数据库
大数据挖掘与大数据应用案例
Hive学习
笔记 --- return code 1 from org.apache.hadoop.hive
执行load语句报错如下:'Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask'发现问题是没法将数据导入table后的文件移动位置,然后导入到/apps/hive/warehouse中由于对文件缺乏操做权限。解决办法就是利用hdfsdfs
杨鑫newlfe
·
2020-08-24 16:24
大数据挖掘与大数据应用案例
数据库
hive学习
及遇到问题
搭建好hive后在一台虚拟机上打开两个终端,一个运行/hive/bin/目录下的hiveserver,一个运行/hive/bin/下的beeline运行beeline后,执行!connectjdbc:hive2://localhost:10000输入系统的账号密码showdatabases;显示数据库中的数据库showtables;显示数据库中的表运行selectcount(1)frombo1;时
bo512958706
·
2020-08-24 13:30
大数据学习
Hive学习
系列(二)Hive的查询流程详解
此文为翻译的文档,英文连接为https://cwiki.apache.org/confluence/display/Hive/Design#Design-HiveArchitectureHive查询流程图如下图中可以看出查询主要组件包含UI(userinterface)–用户提交查询或者其他操作,现在标准UI有CLI(commandlineinterface),ThriftServe,Hivewe
xiangluping
·
2020-08-24 12:48
Hive
Hive学习
笔记 --- Hive架构原理 与 执行流程 与 工作原理
一、简述:HIve数据仓库可以使用类SQL(HQL)查询读取、写入和管理存储在分布式中的大型数据集。Hive建立在Hadoop之上,提供以下功能:通过SQL轻松访问数据的工具,从而实现数据仓库的任务,例如提取/转换/加载(ETL),报告和数据分析;一种将强结构用于各种数据格式的机制;可以直接访问存储在HDFS或者和其他存储系统(HBase)中的文件;通过Tez、Spark、MapReduce执行查
杨鑫newlfe
·
2020-08-24 12:52
数据仓库
大数据挖掘与大数据应用案例
hive学习
心得
此博文是自己学习hive的一些学习心得,可能有些地方理解的不对,如有不妥之后,忘能不吝赐教!!!目录hive是什么数据操作执行原理分区分桶hive是什么hive从本质上来说是一个仓库,是一个分析框架,它本身不存储数据,连最起码的元数据信息也不存储。它可以通过mysql或(Derby)对存放在hdfs上面的数据进行映射,其中元信息存放在mysql或Derby中。它完全依赖HDFS和MapReduce
萧痕
·
2020-08-18 18:12
大数据
Hive学习
之路 (十九)Hive的数据倾斜
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop框架的特性A、不怕数据大,怕数据倾斜B、Jobs数比较多的作业运行效率相对比较低,如子查询比较多C、sum,count,max,min等聚集函数,通常不会有数据倾斜问题3、主要表现任务进度长时间维持在99%或者100%的附近,查看任务监控页面,发现只有少量reduce子任务未完成,因为其处理的数据量和其他
weixin_33923762
·
2020-08-18 12:41
Hive学习
之路 (三)Hive元数据信息对应MySQL数据库表
目录概述一、存储Hive版本的元数据表(VERSION)二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)1、DBS2、DATABASE_PARAMS三、Hive表和视图相关的元数据表1、TBLS2、TABLE_PARAMS3、TBL_PRIVS四、Hive文件存储信息相关的元数据表1、SDS2、SD_PARAMS3、SERDES4、SERDE_PARAMS五、Hive表字
MnerX
·
2020-08-18 11:48
Hive
Hive学习
总结(三)之元数据Metastore
元数据Metastore1、元数据2、MySQL中Hive数据库相关的元数据表2.1、DBS表3、Hive表和视图相关的元数据表3.1、TBLS表4、Hive文件存储信息相关的元数据表4.1、SDS表4.2、SD_PARAMS表4.3、SERDES表4.4、SERDE_PARAMS表5、Hive表分区相关的元数据表5.1、PARTITIONS表5.2、PARTITION_KEYS表5.3、PART
風の住む街~
·
2020-08-14 21:49
Hive
Hive学习
之路 (三)Hive元数据信息对应MySQL数据库表
概述Hive的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。Hive的元数据信息在MySQL数据中有57张表一、存储Hive版本的元数据表(VERSION)VERSION--查询版本信息该表比较简单,但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明1
weixin_33946020
·
2020-08-14 20:32
Hive学习
之Hive配置管理
Hive是基于Hadoop的一种数据仓库,对查询和管理分布式存储中的超大数据集提供了很大帮助。正如绝大部分开源软件一样,Hive允许用户调整参数改变Hive的默认行为。用户可以使用下面三种方法中的任意一种对Hive进行配置管理:在Hive的CLI(命令行接口)使用set命令在会话层级为后续语句设置参数值,比如:sethive.exec.scratchdir=/tmp/mydir,将后续语句的临时目
skyWalker_ONLY
·
2020-08-14 19:49
Hive
勤奋的Hive
Hive学习
笔记(一)——原理和体系架构
目录一hive是什么?二为什么会出现hive?三hive为什么适合数据仓库应用程序?四hive与传统关系型数据库的比较五hive的体系架构hive体系架构的组成部分:1用户接口2跨语言服务thriftserver3Driver(底层)4元数据存储系统六hive的执行流程一hive是什么?1:hive是构建在hdfs上的一个数据仓库(DataWarehouse)2:hive是sql解析引擎,将sql
weixin_30377461
·
2020-08-14 15:41
大数据
Hive学习
案例(1)——基于搜狗sogou_500w的日志数据分析
下方有数据可免费下载目录数据预处理查看数据数据扩展数据加载构建数据仓库创建外部表创建分区表数据分析需求条数统计关键词分析UID分析用户行为分析点击次数与rank之间的关系分析直接输入URL作为查询词的比例独立用户行为分析数据下载请点击我,提取码:cutx,觉得有用希望您能点一个赞哦。数据预处理查看数据[hadoop@hadoop000hive_data]$lesssogou.500w.utf820
程研板
·
2020-08-13 10:55
Hive
hadoop
数据分析
hive
大数据
大数据
Hive学习
案例(2)——基于汽车销售的日志数据分析
下方有数据可免费下载目录原始数据项目实战数据仓库的构建1.构建数据仓库2.创建原始数据表3.加载数据到数据仓库4.验证数据结果数据分析1.乘用车辆和商用车辆的销售数量和比例2.山西省2013年每个月的汽车销售数量比例3.买车的男女比例和男女对车的品牌的选择4.车的所有权,车辆型号,车辆类型5.不同车型在一个月的销售量6.不同品牌车销售情况,统计发动机和燃料种类7.统计五菱某一年每月的销售量数据下载
程研板
·
2020-08-13 09:32
Hive
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他