duqi

#hive#HIVE中使用python实现UDF

HIVE中使用python实现UDF

HIVE，FACEBOOK的一个开源项目，利用类SQL的语句（HiveQL）来加快一般的MapReduce的开发过程。

UDF，user defined function, 因为HIVE毕竟不是一般的关系型数据库，支持的HQL有限，如果要实现复杂的功能，就要通过自己定义函数来帮助实现。

HIVE应该利用PIPE的原理，将自己查询的结果放到python脚本的stdin中。所以他的查询结果不会显示在terminal中，terminal中显示的结果是python的执行结果。

使用HIVE的命令进入数据仓库(search)

 
        use search;

使用HIVE的命令查看已经建立的表

 
        show tables;

使用HIVE的命令查看xxx表中的字段

 
        describe xxx;

使用HIVE命令用PYTHON实现UDF

 
        add file udf.py;
SELECT 
TRANSFORM(keyword)
USING 'python udf.py'
AS(keyword)
FROM xxx
WHERE dt='2013-09-25'
;

要注意的是，这里的TRANSFORM的内容可以写*，但是AS()里就不能写*，会报错。

输入到python中的内容，是按照AS里的数量来决定的。

下面是python的脚本，内容很简单，就是把输入的东西原封不动输出来。

udf.py

 
        import sys
for line in sys.stdin:
  line = line.strip()
  print line

########################################################################

Hive可以使用Python脚本大大地提高数据处理的开发效率，使用MapReduce的方式将数据处理成想要的结果。

我们使用ADD FILE 为Hive增加一个脚本，或者Jar包。

有两种方式：

ADD FILE {env:HOME}/your_file/your_script.py

ADD FILE /home/your_name/your_file/your_script.py

在调用的时候，过去的版本可以使用：

FROM u_data
SELECT
TRANSFORM (userid, movieid, rating)
USING 'python /home/dacoolbaby/test_data_mapper3.py'
AS str
;

但是在Hive 0.10貌似不支持这样弄。

FROM u_data
SELECT
TRANSFORM (userid, movieid, rating)
USING 'python test_data_mapper3.py'
AS str
;

后面的是脚本的名称，而不是整个的路径名。

以后在Hive下面使用Hadoop Distributed Cache要注意这个问题。

你可能感兴趣的:(Hadoop&hive)

hive:创建自定义函数 UDF -柚子皮- hive
编写ApacheHive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个相对复杂点：简单API：org.apache.hadoop.hive.ql.exec.UDF复杂API：org.apache.hadoop.hive.ql.udf.generic.GenericUDF如果你的函数读和返回都是基础数据类型（Hadoop&Hive基本writable类型，如Text,IntWrita
Hadoop&Hive环境搭建(附以配置好环境的虚拟机下载链接) 一丝一缕一烟雨笔记大数据 hadoop hive mysql
最近想去学一下Hive，结果发现在搭建环境这一步花了好大一笔时间才搞定，然而实际上多数人在工作时是不需要自己搭建环境的。因此我把自己已经搭建好（Java&Hadoop&MySQL&Hive）环境的虚拟机分享出来供小伙伴们直接使用，同时也把搭建过程记录的内容分享在下面。系统下载–>百度网盘，提取码：xkuy由于网盘限制，文件采用分卷压缩的形式上传。OVF目录下为虚拟机导出文件，需要重新配置网卡信息；
数据仓库电商建模_真实电商数据仓库全流程开发详解，资源教程下载 weixin_39624733 数据仓库电商建模
课程名称Hadoop大数据视频教程-第一季：真实电商数据仓库全流程开发详解(共46讲)，资源教程下载课程目录第一部分：数据仓库基础理论与技术圈第一章：互联网电商大数据环境第二章：商业智能与数据仓库基础理论第三章：维度建模基础理论第四章：电商大数据一般架构第五章：电商数据平台从零搭建方案参考第二部分：Hadoop&Hive数据仓库技术第一章：电商全分布式开发环境搭建第二章：Hadoop&Hive光速
Hive UDF开发 ThePromonkeyOf_HeLuo 大数据
简介如果你的函数读和返回都是基础数据类型（Hadoop&Hive基本writable类型，如Text,IntWritable,LongWriable,DoubleWritable等等），那么简单的API（org.apache.hadoop.hive.ql.exec.UDF）可以胜任但是，如果你想写一个UDF用来操作内嵌数据结构，如Map，List和Set，那么你要去熟悉org.apache.had
大数据真实电商数据仓库全流程开发详解 jqsaebkc
主要内容为：第一部分：数据仓库基础理论与技术圈第一章：互联网电商大数据环境第二章：商业智能与数据仓库基础理论第三章：维度建模基础理论第四章：电商大数据一般架构第五章：电商数据平台从零搭建方案参考第二部分：Hadoop&Hive数据仓库技术第一章：电商全分布式开发环境搭建第二章：Hadoop&Hive光速入门第三章：HiveSQL语言全解释第四章：Hive内部运行机制第五章：HiveSQL优化第三部
hadoop&hive常用的命令-备忘 xutao_2008_2000 hadoop
http://10.200.200.156:50070/dfshealth.jsp--dfs容量状态http://10.200.200.156:50030/jobtracker.jsp--hadoop任务状态http://10.200.200.156:50060/logLevel---hadoop日志级别bin/hadoopfs-cat/hadoopfs-mkdir/user/xttestbin/
真实电商数据仓库全流程开发详解(共46讲)视频 zhangye19920611
真实电商环境的全面解析，侧重于数据仓库开发助学习者提前了解真实开发环境和每天工作任务视频简明扼要，内容实用不拖沓，大量实际经验视频全部学完的实际价值=1年左右电商公司工作经验hadoop大数据：真实电商数据仓库全流程开发详解-VIP全集Hadoop&Hive数据仓库技术Hadoop_Hive数据仓库技术-1-Hadoop工作过程.mp4Hadoop_Hive数据仓库技术-2-HDFS-site.m
mac下virtualbox虚拟机centos联网问题匆匆z2 问题记录虚拟机
由于要搭建大数据的环境,尝试使用docker搭建了单节点的hadoop&hive环境,在使用tez时一直有问题,后边再解决这个问题,想到可能是使用docker搭建的问题,所以使用虚拟机搭建进行尝试,搭建的过程中又遇到了网络连接的问题,之前解决过几次,这次记录下来;正常步骤安装好centos7之后是没有网的,默认有一张nat的网卡,学过计算机网络的同学都知道nat是网络地址转换,将虚拟机的网络请求转
分享hadoop大数据视频教程-数据仓库百度网盘下载： fmktokf
主要内容为：第一部分：数据仓库基础理论与技术圈第一章：互联网电商大数据环境第二章：商业智能与数据仓库基础理论第三章：维度建模基础理论第四章：电商大数据一般架构第五章：电商数据平台从零搭建方案参考第二部分：Hadoop&Hive数据仓库技术第一章：电商全分布式开发环境搭建第二章：Hadoop&Hive光速入门第三章：HiveSQL语言全解释第四章：Hive内部运行机制第五章：HiveSQL优化第三部
hadoop&hive压缩相关说明扫大街的程序员 hadoop&hive
对于MR作业，压缩中间数据，可以减少磁盘操作，减少网络传输数据量，进而提交查询速度。对此整理下日常生活中出现的疑惑点。hadoop对每个压缩格式的支持压缩格式工具算法文件扩展名多文件可分割性DEFLATE无DEFLATE.deflate不不gzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是，在文件范围内bzip2bzip2bzip2.bz2不是LZOlzopLZO.lz
hadoop&hive压缩相关说明 u012914981
对于MR作业，压缩中间数据，可以减少磁盘操作，减少网络传输数据量，进而提交查询速度。对此整理下日常生活中出现的疑惑点。hadoop对每个压缩格式的支持压缩格式工具算法文件扩展名多文件可分割性 DEFLATE 无 DEFLATE .deflate 不不 gzip gzip DEFLATE .gz 不不 ZIP zip DEFLATE .zip 是是，在文件范围内 bzip2 bzi
hadoop&hive优化扫大街的程序员 hadoop&hive
说明：本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法MR基础知识重用Text等Writable类型不要用context.write(newText(...),newText(...))而是用key.set(...);value.set(...);使用StringBuilder不要使用Formatter，不要使用StringBuffer，不要介意使用+//StringBuilder
hadoop&hive优化 u012914981
说明：本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法 MR基础知识重用Text等Writable类型不要用context.write(newText(...),newText(...)) 而是用 key.set(...); value.set(...); 使用StringBuilder不要使用Formatter，不要使用StringBuffer，不要介意使用+//StringBu
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他