Hive学习第10页

Hive学习之更改表的属性

1、修改表名 alter table table_name rename to new_table_name;2、修改列名 alter table tablename change column column_orign column_new int(修改后列的属性) comment 'column_name' &n

·2015-11-12 14:30

hive学习笔记（1）

hive中有个严格模式，即sethive.mapred.mode=strict，如果select语句中不包含限制性字句时就会报错，可根据情况进行使用，如果不想使用可设为nonstrict（注：本人一开始不知道默认值是多少，随便尝试了下district，还真可以，应该是只要不是strict就可以了吧哈哈），严格模式有助于提高写sql语句的效率，防止乱写sql语句。hive的分区表：hive中提供了分

brandonroy347·2015-11-11 23:48

hive学习笔记

[TOC] 表 1.1 管理表(内部表)和外部表 location 默认值由hive.metastore.warehouse.dir指定. 外部表在create table有关键字extenal指定, udf 2.1　　语法 1.count(a) 和 count(*)的区别 count(a) 统计a字段非null的记录的个数,count(*)统计所有记录的个数.即count不统计nu

·2015-11-11 15:19

Hive学习笔记

本文转载自：http://blog.csdn.net/haojun186/article/details/7977565 1. HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言

·2015-11-11 09:25

hadoop hive学习之旅

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库。 h

·2015-11-11 08:49

Hive学习笔记

一、前言 Hive是Hadoop上的数据仓库框架，其设计目的是让精通SQL技能（但Java编程技能相对较弱）的分析师能够在存放到HDFS大规模数据集上运行查询。提出Hive的主要原因是SQL并不是所有的“大数据”的理想工具。　　 Hive在工作站上运行，它把SQL转换为一系列在Hadoop集群上运行的MapReduce

·2015-10-31 19:06

Hive学习之Hive配置管理

Hive是基于Hadoop的一种数据仓库，对查询和管理分布式存储中的超大数据集提供了很大帮助。正如绝大部分开源软件一样，Hive允许用户调整参数改变Hive的默认行为。用户可以使用下面三种方法中的任意一种对Hive进行配置管理：在Hive的CLI（命令行接口）使用set命令在会话层级为后续语句设置参数值，比如：sethive.exec.scratchdir=/tmp/mydir，将后续语句的临时目

wuzhilon88·2015-10-10 16:00

Hive学习笔记（五）

转载请标明出处：http://blog.csdn.net/zwto1/article/details/48850583；本文出自:【明月的博客】前言本文主要涉及hive的相关操作DML。hive操作导入数据：loaddata:把文件复制或移到表的目录中，从而把数据导入hive的表或分区。insert:把数据从一个hive表填充到另一个。ctas:createtable…asselect的缩写。sq

u013067629·2015-10-01 23:00

hive学习—分区、分桶和索引

hive引入partition和bucket的概念，中文翻译分别为分区和桶（我觉的不是很合适，但是网上基本都是这么翻译，暂时用这个吧），这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为了可以让查询发生在小范围的数据上以提高效率。分区的作用：使用分区可以加快数据分片的查询速度。桶的作用：(1)获得更高效的查询处理效率，桶为表加上了额外的结构。 (2)"取样"

x10232·2015-09-07 16:00

Hive学习笔记（四）

转载请标明出处：http://blog.csdn.net/zwto1/article/details/48184019；本文出自:【明月的博客】存储格式：hive从两个维度对表的存储进行处理：行格式和文件格式。行格式指行和一行中的字段如何存储。文件格式指一行中字段容器的格式，最简单的是纯文本格式也有面向列和面向行的二进制格式。默认的存储格式：分隔的文本创建表没有用ROWFORMAT和STOREDA

u013067629·2015-09-02 21:00

Hive学习笔记（三）

转载请标明出处：http://blog.csdn.net/zwto1/article/details/48101979；本文出自:【明月的博客】分区和桶：hive把表组织成分区，这是一种根据分区列的值进行粗略划分的机制。使用分区可以加快数据分片的查询速度。表或分区可以进一步划分为桶，它会为数据提供额外的数据结构从而获得更高效的查询处理。比如：根据用户ID来划分桶，我们可以在所有用户集合的随机样本上

u013067629·2015-08-30 09:00

Hive学习笔记（二）

转载请标明出处：http://blog.csdn.net/zwto1/article/details/48101911；本文出自:【明月的博客】类型转换hive原子数据类型可以进行隐式数据类型转换，如果某个表达式使用INT,那么TINYINT会转化为INT，hive不会进行反向转换，除非使用cast才操作。数据类型转化规则：任何整数类型都会转换为范围更广的类型。所有整数类型、FLOAT、STRIN

u013067629·2015-08-30 09:00

Hive学习笔记（一）

转载请标明出处：http://blog.csdn.net/zwto1/article/details/48101803；本文出自:【明月的博客】metestore：metestore包括两部分：服务和后台数据存储，其服务与hive服务在同意jvm中。内嵌作为本地存储的derby数据库实例。metestore只支持单会话。否则会报该信息：为了是hive支持多会话，必须使用独立的数据库（在同一机器或远

u013067629·2015-08-30 09:00

hive学习笔记-高级查询

聚合函数count计数count(*)：不全都是NULL，就加1；count(1):当只要有一列是NULL就不会加1；count(col)：当col列不为空就会加1sum求和sum(可转成数字的值)返回bigint，比如求和后加1,1必须转化成为bigint类型，sum(col)+cast(1asbigint)avg求平均值avg(可转化成数字的值)返回doubledistinct不同值的个数co

colin_yjz·2015-08-24 08:20

hive学习笔记-数据操作

hive数据操作hive命令行操作hive-d--define定义一个key-value可以在命令行中使用hive-ddatabase指定使用的数据库hive-e“hql”不需要进入cli执行hql语句，可以在脚本中使用hive-ffileName将hql放到一个file文件中执行，sql语句来自file文件hive-hhostname访问主机，通过主机的地址hive-H--help打印帮助信息h

colin_yjz·2015-08-21 19:25

hive学习笔记-表操作

Hive数据类型基本数据类型tinyint,smallint,int,biging,float,double,decimal,char,varchar,string,binary,boolean,timestamp,date,引用数据类型Array：相同数据类型组合的数组,使用array[1]访问MAP：Key-value键值对，通过键进行访问，使用map['key']访问STRUCT：结构体类型

colin_yjz·2015-08-17 19:54

hive学习笔记——Hive表中数据的导入和导出

在创建数据表的过程中，Hive表创建完成后，需要将一些数据导入到Hive表中，或是将Hive表中的数据导出。一、将数据导入Hive表Hive表的数据导入主要有三种方式：从本地文件系统中导入数据到Hive表中从HDFS上导入数据到Hive表中从别的表中查询出相应的数据导入到Hive表中在创建Hive表时通过从别的表中查询并插入的方式将数据导入到Hive表中1、从本地文件系统中导入数据到Hive表中格

zhiyong_will·2015-08-04 22:22

hive学习笔记——Hive表中数据的导入和导出

在创建数据表的过程中，Hive表创建完成后，需要将一些数据导入到Hive表中，或是将Hive表中的数据导出。一、将数据导入Hive表 Hive表的数据导入主要有三种方式：从本地文件系统中导入数据到Hive表中从HDFS上导入数据到Hive表中从别的表中查询出相应的数据导入到Hive表中在创建Hive表时通过从别的表中查询并插入的方式将数据导入到Hive表中1、从本地文件系统中导入数据到Hiv

google19890102·2015-08-04 22:00

hive学习笔记——Hive表的创建

初衷：以前看过Hadoop方面的材料，但是一直以来都是与实际应用脱轨，现在有机会接触到真正的Hadoop集群，还是被他的性能所震撼，利用这个机会认真重新学习下Hadoop平台的使用，所以想整理下学习中的一些心得，以笔记的形式与大家分享一下。——2015.07.28一、Hive概述Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据表，并提供类似于SQL(HiveSQL

zhiyong_will·2015-08-02 21:19

hive学习笔记——Hive表的创建

初衷：以前看过Hadoop方面的材料，但是一直以来都是与实际应用脱轨，现在有机会接触到真正的Hadoop集群，还是被他的性能所震撼，利用这个机会认真重新学习下Hadoop平台的使用，所以想整理下学习中的一些心得，以笔记的形式与大家分享一下。——2015.07.28一、Hive概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据表，并提供类似于SQL(H

google19890102·2015-08-02 21:00

Hive学习笔记02.txt

1:表的重命名altertablelog_messagerenametologmsgs;2:新增加表分区altertablelog_messageaddifnotexistsPARTITION(year='2013',month='10',day='11')LOCATION'/user/hadoop/warehouse/table_name';ALTERTABLEtable_nameADDPART

nysyxxg·2015-06-09 12:00

Hive快速入门

为什么使用Hive学习成本低，可以通过类SQL语句快

超人学院·2015-05-11 14:00

【Hive十】Programming Hive学习笔记

第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.

bit1129·2015-04-04 16:00

【Hive十】Programming Hive学习笔记

第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.

bit1129·2015-04-04 16:00

【Hive十】Programming Hive学习笔记

第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.

bit1129·2015-04-04 16:00

hive学习笔记

下面就是我给大家总结的hive学习笔记大家有什么不懂得可以参考参考！1.HIVE结构Hive是建立在Hadoop上的数据仓库基础构架。

黑肚皮的窝·2015-03-06 10:46

Hive学习笔记【转载】

原文链接：http://www.cnblogs.com/james6176/p/4309200.html本文转载自：http://blog.csdn.net/haojun186/article/details/79775651.HIVE结构Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中

weixin_30876945·2015-03-02 16:00

第16天：增加分区、删除分析、加载数据到指定分区讲解和案例操作

Hive学习实战--------------------------------------------------------------Hive从入门到实战【40讲】---笔记记录---------

孟德新书·2015-02-07 15:21

Hive学习笔记

创建表时，如果使用IFNOTEXISTS，而且这个已经存在的表和CREATETABLE语句后指定的模式是不用的，Hive会忽略这个差异。也就是说只要该表名存在，hive就不会执行创建表的操作。外部表创建分区时可以使用下面的语句创建一个或多个分区ALTER TABLE tablename IF NOT EXSITS PARTITION (col type...) LOCATION '...' PAR

voyage1314·2014-12-24 16:00

Hive学习步骤

1. hive_介绍2. hive_安装3. hive_基本命令4. hive_UDF函数5. hive_数据倾斜和调优(详细的过程和步骤，后期我一一更新)

开拓者-2015·2014-12-21 22:00

Hive学习笔记以及语法

http://zhangrenhua.com博客已搬家1.HIVE结构Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为QL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapp

hua的博客·2014-12-10 15:00

hive学习总结(2)—Hive几种导出数据方式

1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。hadoopfs–cp source_pathtarget_path 2.导出到本地文件系统 --不能使用insertintolocaldirectory来导出数据，会报错--只能使用insertoverwritelocaldirectory来导出数据 --hive0.11版本之前，只能使用默认分隔符^A(ascii

vieky·2014-12-02 16:00

hive学习总结(1)—Hive几种数据导入方式

1.从本地文件系统中导入数据到hive表（1）数据准备（/home/sopdm/test.dat）： 1,wyp,25,13188888888 2,test,30,13899999999 3,zs,34,89931412 （2）首先创建表usesopdm;droptableifexistssopdm.wyp;createtableifnotexistssopdm.wyp(idint,names

vieky·2014-12-02 16:00

hive学习总结系列—目录导航

hive学习总结(1)—Hive几种数据导入方式 hive学习总结(2)—Hive几种导出数据方式 hive学习总结(3)—从文件中加载执行语句 hive学习总结(4)—hive中所有join

cumtheima·2014-11-25 23:00

hive学习总结(8)—hive注意点

--自动补全功能：tab键 --可以把“设置系统属性变量，增加hadoop分布式内存，自定义hive扩展的jar包”放在“$HOME/.hiverc”文件中 --在hive的CLI中执行bash shell命令,只要在命令前加上!，并且以分号(;)结尾就可以 ! /bin/echo “what up dog”;

cumtheima·2014-11-25 23:00

hive学习总结(9)—数据库创建、表创建、加载数据

--创建数据库createdatabaseifnotexistssopdmcomment‘thisistestdatabase’withdbproperties(‘creator’=’gxw’,’date’=’2014-11-12’)--数据库键值对属性信息location‘/my/preferred/directory’;--查看数据库的描述信息和文件目录位置路径信息describedataba

nucheima·2014-11-25 23:24

hive学习总结(9)—数据库创建、表创建、加载数据

--创建数据库 create database if not exists sopdm comment ‘this is test database’ with dbproperties(‘creator’=’gxw’,’date’=’2014-11-12’) --数据库键值对属性信息 location ‘/my/preferred

cumtheima·2014-11-25 23:00

hive学习总结(7)—hive性能调优

limit限制调整--因为使用limit语句时候，是先执行整个查询语句，然后再返回部分结果的sethive.limit.optimize.enable=true;sethive.limit.row.max.size=10000;sethive.limit.optimize.limit.file=10;2.JOIN优化。。。3.本地模式--hive尝试使用本地模式执行查询，要不然hive会使用Map

nucheima·2014-11-24 19:31

hive学习总结(7)—hive性能调优

limit限制调整 --因为使用limit语句时候，是先执行整个查询语句，然后再返回部分结果的 set hive.limit.optimize.enable=true; set hive.limit.row.max.size=10000; set hive.limit.optimize.limit.file=10; 2.JOIN优化。。。

cumtheima·2014-11-24 19:00

hive学习总结(6)—hive参数设置方法

1. 参数声明：在hive的CTL环境中设置（临时）比如：set hive.fetch.task.conversion=more; 2.命令行设置：使用hadoop命令设置（临时） hive --hiveconf hive.fetch.task.conversion=more; 3.配置文件：--${HIVE_HOME}/conf/hive-site.xm

cumtheima·2014-11-23 00:00

hive学习总结(5)—分区、分桶和索引

1.分区分区是以字段的形式在表结构中存在，通过describetable命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示（伪列）。（1）静态分区createtableifnotexistssopdm.wyp2(idint,namestring,telstring)partitionedby(ageint)rowformatdelimitedfieldsterminatedb

nucheima·2014-11-23 00:08

hive学习总结(5)—分区、分桶和索引

1.分区分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示（伪列）。（1）静态分区 create table if not exists sopdm.wyp2(id int,name string,tel string) partitioned by(ag

cumtheima·2014-11-23 00:00

hive学习总结(4)—hive中所有join

1.内连接：innerjoin--join优化：在进行join的时候，大表放在最后面--但是使用/*+streamtable(大表名称)*/来标记大表，那么大表放在什么位置都行了select/*+streamtable(s)*/s.ymd,d.dividendfromstockssinnerjoindividendsdons.ymd=d.ymdands.symbol=d.symbolwheres.

nucheima·2014-11-21 11:35

hive学习总结(4)—hive中所有join

1. 内连接：inner join --join优化：在进行join的时候，大表放在最后面 --但是使用 /*+streamtable(大表名称)*/ 来标记大表，那么大表放在什么位置都行了 select /*+streamtable(s)*/ s.ymd,d.dividend from stocks s inn

cumtheima·2014-11-21 11:00

hive学习总结(2)—Hive几种导出数据方式

1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。hadoopfs–cpsource_pathtarget_path2.导出到本地文件系统--不能使用insertintolocaldirectory来导出数据，会报错--只能使用insertoverwritelocaldirectory来导出数据--hive0.11版本之前，只能使用默认分隔符^A(ascii码是\00

nucheima·2014-11-20 15:51

hive学习总结(2)—Hive几种导出数据方式

1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用insert overwrite local directo

cumtheima·2014-11-20 15:00

hive学习总结(1)—Hive几种数据导入方式

1.从本地文件系统中导入数据到hive表（1）数据准备（/home/sopdm/test.dat）：1,wyp,25,131888888882,test,30,138999999993,zs,34,89931412（2）首先创建表usesopdm;droptableifexistssopdm.wyp;createtableifnotexistssopdm.wyp(idint,namestring,

nucheima·2014-11-20 14:53

hive学习总结(1)—Hive几种数据导入方式

cumtheima·2014-11-20 14:00

hive学习总结(1)—Hive几种数据导入方式

cumtheima·2014-11-20 14:00

hive学习总结(1)—Hive几种数据导入方式

1.从本地文件系统中导入数据到hive表（1）数据准备（/home/sopdm/test.dat）： 1,wyp,25,13188888888 2,test,30,13899999999 3,zs,34,89931412 （2）首先创建表 use sopdm; drop table if ex

cumtheima·2014-11-20 14:00

推荐频道

Hive学习

Hive学习之更改表的属性

hive学习笔记（1）

hive学习笔记

Hive学习笔记

hadoop hive学习之旅

Hive学习笔记

Hive学习之Hive配置管理

Hive学习笔记（五）

hive学习—分区、分桶和索引

Hive学习笔记（四）

Hive学习笔记（三）

Hive学习笔记（二）

Hive学习笔记（一）

hive学习笔记-高级查询

hive学习笔记-数据操作

hive学习笔记-表操作

hive学习笔记——Hive表中数据的导入和导出

hive学习笔记——Hive表中数据的导入和导出

hive学习笔记——Hive表的创建

hive学习笔记——Hive表的创建

Hive学习笔记02.txt

Hive快速入门

【Hive十】Programming Hive学习笔记

【Hive十】Programming Hive学习笔记

【Hive十】Programming Hive学习笔记

hive学习笔记

Hive学习笔记【转载】

第16天： 增加分区、删除分析、加载数据到指定分区讲解和案例操作

Hive学习笔记

Hive学习步骤

Hive学习笔记以及语法

hive学习总结(2)—Hive几种导出数据方式

hive学习总结(1)—Hive几种数据导入方式

hive学习总结系列—目录导航

hive学习总结(8)—hive注意点

hive学习总结(9)—数据库创建、表创建、加载数据

hive学习总结(9)—数据库创建、表创建、加载数据

hive学习总结(7)—hive性能调优

hive学习总结(7)—hive性能调优

hive学习总结(6)—hive参数设置方法

hive学习总结(5)—分区、分桶和索引

hive学习总结(5)—分区、分桶和索引

hive学习总结(4)—hive中所有join

hive学习总结(4)—hive中所有join

hive学习总结(2)—Hive几种导出数据方式

hive学习总结(2)—Hive几种导出数据方式

hive学习总结(1)—Hive几种数据导入方式

hive学习总结(1)—Hive几种数据导入方式

hive学习总结(1)—Hive几种数据导入方式

hive学习总结(1)—Hive几种数据导入方式

第16天：增加分区、删除分析、加载数据到指定分区讲解和案例操作