caiandyong

Hive数据操作

1.向数据表中加载文件

当数据被加载到表时，不会对数据进行任何变换，LOAD操作只是将数据复制到Hive表对应的位置。

代码：
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE table_name [PARTITION (partitioncol=val,...)]
filepath可以是相对路径，绝对路径或完整的URI。加载的目标可以是一个表或者分区，如果表包含分区，则必须指定每一个分区的分区名。filepath可以引用一个文件，这种情况下，Hive将文件移动到表所对应的目录下，filepath也可以对应一个目录，Hive将目录中的所有文件移动到表所对应的目录中。
如果指定LOCAL，LOAD命令会去查找本地文件系统中的filepath。
如果使用OVERWRITE，目标表中的内容会先被删除。

例子:
创建满足数据格式要求的Hive表:
hive> drop table test_table;
OK
Time taken: 0.173 seconds
hive> create table test_table (name string,id string,ip string)
    > row format delimited
    > fields terminated by '\t';
OK
Time taken: 0.103 seconds

上传本地文件到HDFS：
caiyong@caiyong:/opt/hadoop$ bin/hadoop fs -copyFromLocal /home/caiyong/桌面/hivetestdata /

查看数据：
caiyong@caiyong:/opt/hadoop$ bin/hadoop fs -cat /hi*
name1   001   127.0.0.1
name2   002   127.0.0.1
name3   003   127.0.0.1
name4   004   127.0.0.1
name5   005   127.0.0.1
name6   006   192.168.0.1
name7   007   192.168.0.1
name8   008   192.168.0.1
name9   009   192.168.0.4
name10   010   192.168.0.4

向test_table加载数据：
hive> LOAD DATA INPATH '/hivetestdata' OVERWRITE INTO TABLE test_table;
Loading data to table default.test_table
Table default.test_table stats: [numFiles=1, numRows=0, totalSize=211, rawDataSize=0]
OK
Time taken: 0.302 seconds

执行查询验证：
hive> select * from test_table;
OK
name1   001   127.0.0.1
name2   002   127.0.0.1
name3   003   127.0.0.1
name4   004   127.0.0.1
name5   005   127.0.0.1
name6   006   192.168.0.1
name7   007   192.168.0.1
name8   008   192.168.0.1
name9   009   192.168.0.4
name10   010   192.168.0.4
Time taken: 0.084 seconds, Fetched: 10 row(s)

查看表对应目录下的数据：
caiyong@caiyong:/opt/hadoop$ bin/hadoop fs -cat /user/hive/warehouse/test_table/*
name1   001   127.0.0.1
name2   002   127.0.0.1
name3   003   127.0.0.1
name4   004   127.0.0.1
name5   005   127.0.0.1
name6   006   192.168.0.1
name7   007   192.168.0.1
name8   008   192.168.0.1
name9   009   192.168.0.4
name10   010   192.168.0.4

命令行执行查询：
caiyong@caiyong:/opt/hive$ bin/hive -e "select count(*) from test_table;"

Logging initialized using configuration in jar:file:/opt/hive/lib/hive-common-1.0.0.jar!/hive-log4j.properties
Query ID = caiyong_20150311165252_e32d9590-2ba8-46e3-b753-3e6651fa3226
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=
In order to set a constant number of reducers:
set mapred.reduce.tasks=
Starting Job = job_201503111440_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201503111440_0001
Kill Command = /opt/hadoop/libexec/../bin/hadoop job -kill job_201503111440_0001
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2015-03-11 16:52:30,782 Stage-1 map = 0%, reduce = 0%
2015-03-11 16:52:33,831 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.32 sec
2015-03-11 16:52:41,906 Stage-1 map = 100%, reduce = 33%, Cumulative CPU 1.32 sec
2015-03-11 16:52:42,915 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 3.51 sec
MapReduce Total cumulative CPU time: 3 seconds 510 msec
Ended Job = job_201503111440_0001
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1 Reduce: 1   Cumulative CPU: 3.51 sec   HDFS Read: 430 HDFS Write: 3 SUCCESS
Total MapReduce CPU Time Spent: 3 seconds 510 msec
OK
10
Time taken: 25.566 seconds, Fetched: 1 row(s)

2.将查询结果插入Hive表中

代码：
INSERT OVERWRITE TABLE table_name [PARTITION (partitioncol=val,...)] select_statement FROM from_statement
插入可以对于一个表或一个分区进行操作。OVERWRITE关键字强制将输出结果写入。输出格式和序列化方式由表的元数据决定。在Hive中进行多表插入，可以减少数据扫描的次数，因为Hive可以只是扫描数据一次就对输入数据进行多个操作命令。

例子：
执行将查询结果插入其他表的操作：
hive> INSERT OVERWRITE TABLE test_table_insert select * from test_table where ip = '127.0.0.1' ;
Query ID = caiyong_20150311190404_e5bfc45e-feb2-4d3a-b3eb-d4205c2c5666
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201503111757_0003, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201503111757_0003
Kill Command = /opt/hadoop/libexec/../bin/hadoop job -kill job_201503111757_0003
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2015-03-11 19:04:25,706 Stage-1 map = 0%, reduce = 0%
2015-03-11 19:04:29,742 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.9 sec
2015-03-11 19:04:31,752 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 1.9 sec
MapReduce Total cumulative CPU time: 1 seconds 900 msec
Ended Job = job_201503111757_0003
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to: hdfs://127.0.0.1:8020/tmp/hive/caiyong/c7c7bca9-486e-47ff-8ac0-211c190c09e8/hive_2015-03-11_19-04-19_263_4334135992121304958-1/-ext-10000
Loading data to table default.test_table_insert
Table default.test_table_insert stats: [numFiles=1, numRows=5, totalSize=100, rawDataSize=95]
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1   Cumulative CPU: 1.9 sec   HDFS Read: 430 HDFS Write: 181 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 900 msec
OK
Time taken: 12.853 seconds

验证结果：
hive> select * from test_table_insert;
OK
name1   001   127.0.0.1
name2   002   127.0.0.1
name3   003   127.0.0.1
name4   004   127.0.0.1
name5   005   127.0.0.1
Time taken: 0.073 seconds, Fetched: 5 row(s)

3.将查询结果写入文件系统

代码：
INSERT OVERWRITE [LOCAL] DIRECTORY directory SELECT...FROM...
LOCAL关键字定义将数据写入本地文件系统。
在数据写入本地文件系统时会进行文本序列化，如果任何一列不是原始数据，这些列会被序列化为JSON格式。

例子：
hive> INSERT OVERWRITE DIRECTORY '/testcopy/' SELECT * FROM test_table WHERE ip = '127.0.0.1';
Query ID = caiyong_20150311191111_0c2541aa-3f3a-4542-bd50-f64da7a97a1d
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201503111757_0006, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201503111757_0006
Kill Command = /opt/hadoop/libexec/../bin/hadoop job -kill job_201503111757_0006
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2015-03-11 19:12:04,272 Stage-1 map = 0%, reduce = 0%
2015-03-11 19:12:08,286 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.53 sec
2015-03-11 19:12:10,300 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 1.53 sec
MapReduce Total cumulative CPU time: 1 seconds 530 msec
Ended Job = job_201503111757_0006
Stage-3 is selected by condition resolver.
Stage-2 is filtered out by condition resolver.
Stage-4 is filtered out by condition resolver.
Moving data to: hdfs://127.0.0.1:8020/tmp/hive/caiyong/c7c7bca9-486e-47ff-8ac0-211c190c09e8/hive_2015-03-11_19-11-59_505_7890928127050906953-1/-ext-10000
Moving data to: /testcopy
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1   Cumulative CPU: 1.53 sec   HDFS Read: 430 HDFS Write: 100 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 530 msec
OK
Time taken: 10.968 seconds

验证结果:
caiyong@caiyong:/opt/hadoop$ bin/hadoop fs -ls /testcopy/
Found 1 items
-rw-r--r--   1 caiyong supergroup        100 2015-03-11 19:12 /testcopy/000000_0
caiyong@caiyong: /opt/hadoop$ bin/hadoop fs -cat /testcopy/*
name1001127.0.0.1
name2002127.0.0.1
name3003127.0.0.1
name4004127.0.0.1
name5005127.0.0.1

312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

Hive数据操作

1.向数据表中加载文件

2.将查询结果插入Hive表中

3.将查询结果写入文件系统

你可能感兴趣的:(Hbase-Hive-pig)