17245

Hive中用户自定义函数UDF UDTF UDAF

概述

Hive 自带了一些函数，比如：max/min 等，但是数量有限，当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义

函数（UDF：user-defined function）根据用户自定义函数类别分为以下三种：

UDF（User-Defined-Function）一进一出
UDAF（User-Defined Aggregation Function）聚集函数，多进一出类似于：count/max/min
UDTF（User-Defined Table-Generating Functions）一进多出

创建UDF步骤

1.创建工程，引入maven包



    4.0.0
    com.hl
    hive
    0.1
    
        UTF-8
        1.8
        1.8
    
    
        
            org.apache.hive
            hive-exec
            2.3.7
        
    
    
        
            
                org.apache.maven.plugins
                maven-compiler-plugin
                
                    ${maven.compiler.source}

2.继承相关抽象类，实现UDF

一进一出 UDF

package hive.User_Defined_Functions;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
/**
 * @describe:  用户自定义函数 一进一出
 *步骤：
 *  1.继承 org.apache.hadoop.hive.ql.UDF，需要实现 evaluate 函数；evaluate 函数支持重载；
 *  2.hive命令行添加 jar
 *      add jar linux_jar_path
 *  3.hive命令行创建function
 *      create [temporary] function [dbname.]function_name AS class_name;
 *  hive的命令行删除function
 *      Drop [temporary] [dbname.]function_name; 	function [if exists]
 */
public class MyUDF extends UDF {

    /**
     * 实现 evaluate 函数；evaluate 函数支持重载；
     * 注意： UDF必须要有返回类型，可以返回 null，但是返回类型不能为 void
     */
    public Text evaluate(final Text s) {
        if (s == null) {
            return null;
        }
        return new Text(s.toString().toLowerCase());
    }
}
/*
 * 测试：
 *  add jar udf.jar
 *  create temporary function mylower as "hive.User_Defined_Functions.MyUDF";
 *  select mylower(name) from student;
 */

一进多出UDTF

package hive.User_Defined_Functions;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import java.util.ArrayList;
import java.util.List;

/**
 * @describe: 通用的用户定义表生成函数（UDTF），为单个输入行生成可变数量的输出行
 * 案例：自定义一个 UDTF 实现将一个任意分割符的字符串切割成独立的单词
 *   输入："hello,world,hadoop,hive"
 *   命令：Myudtf(line, ",")
 *   输出：hello world hadoop hive
 */
public class MyUDTF extends GenericUDTF {
    private ArrayList outList = new ArrayList<>();
    @Override
    public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
        //1.定义输出数据的列名和类型
        List fieldNames = new ArrayList<>();
        List fieldOIs = new ArrayList<>();
        //2.添加输出数据的列名和类型
        fieldNames.add("lineToWord");
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
    }

    @Override
    public void process(Object[] args) throws HiveException {
        //1.获取原始数据
        String arg = args[0].toString();
        //2.获取数据传入的第二个参数，此处为分隔符
        String splitKey = args[1].toString();
        //3.将原始数据按照传入的分隔符进行切分
        String[] fields = arg.split(splitKey);
        //4.遍历切分后的结果，并写出
        for (String field : fields) {
            //集合为复用的，首先清空集合
            outList.clear();
            //将每一个单词添加至集合
            outList.add(field);
            //将集合内容写出
            forward(outList);
        }
    }
    @Override
    public void close() throws HiveException {
    }
}

多进一出UDAF

UDAF需要实现下面的类

org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver
org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator

demo1 多个数字求和

package hive.User_Defined_Functions;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorUtils;
import org.apache.hadoop.io.LongWritable;

/**
 * @describe: 多进一出，两个数求sum
 */
public class MyUDAFSUM extends GenericUDAFEvaluator {
    //输入数据序列化
    private PrimitiveObjectInspector inputOI;
    //返回值
    private LongWritable result;
    private boolean warned;

    public MyUDAFSUM() {
        this.warned = false;
    }

    /**
     * 这个方法返回udaf的返回类型。这里定义返回类型为long
     */
    @Override
    public ObjectInspector init(GenericUDAFEvaluator.Mode m, ObjectInspector[] parameters) throws HiveException {
        assert (parameters.length == 1);
        //输入类型初始化
        super.init(m, parameters);
        result = new LongWritable(0L);
        inputOI = ((PrimitiveObjectInspector) parameters[0]);
        //输出
        return PrimitiveObjectInspectorFactory.writableLongObjectInspector;
    }

    /**
     * 创建新的聚合计算需要的内存，用来存储mapper，combiner，reducer运算过程中的相加总和。
     *
     * @return GenericUDAFEvaluator.AggregationBuffer 用来存储聚集过程期间的结果
     */
    @Override
    public GenericUDAFEvaluator.AggregationBuffer getNewAggregationBuffer() throws HiveException {
        SumLong result = new SumLong();
        reset(result);
        return result;
    }

    /**
     * 重置聚合结果，可以方便重复使用相同的聚合
     */
    @Override
    public void reset(GenericUDAFEvaluator.AggregationBuffer agg) throws HiveException {
        SumLong myagg = (SumLong) agg;
        myagg.empty = true;
        myagg.sum = 0L;
    }

    /**
     * 迭代遍历原始的输入数据
     */
    @Override
    public void iterate(GenericUDAFEvaluator.AggregationBuffer agg, Object[] parameters) throws HiveException {
        assert (parameters.length == 1);
        try {
            merge(agg, parameters[0]);
        } catch (NumberFormatException e) {
            if (!(this.warned)) {
                this.warned = true;
            }
        }
    }

    /**
     * 合并部分聚合结果
     * 
     * 说明：
     * PrimitiveObjectInspectorUtils.getLong(数据， 数据的数据类型): 获取对应数据类型的数值
     */
    @Override
    public void merge(GenericUDAFEvaluator.AggregationBuffer agg, Object partial) throws HiveException {
        if (partial != null) {
            SumLong myagg = (SumLong) agg;
            myagg.sum += PrimitiveObjectInspectorUtils.getLong(partial, inputOI);
            myagg.empty = false;
        }
    }

    /**
     * 获得部分聚合的结果
     */
    @Override
    public Object terminatePartial(GenericUDAFEvaluator.AggregationBuffer agg) throws HiveException {
        return terminate(agg);
    }

    /**
     * 获得最终的聚合结果
     */
    @Override
    public Object terminate(GenericUDAFEvaluator.AggregationBuffer agg) {
        SumLong myagg = (SumLong) agg;
        if (myagg.empty) {
            return null;
        }
        result.set(myagg.sum);
        return result;
    }

    /**
     * 存储sum值的类
     */
    @GenericUDAFEvaluator.AggregationType(estimable = true)
    static class SumLong extends GenericUDAFEvaluator.AbstractAggregationBuffer {
        boolean empty;
        long sum;

        //预计存储空间大小 12个字节
        public int estimate() {
            return 12;
        }
    }
}

demo2多个数字求平均值

package hive.User_Defined_Functions;

import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.parse.SemanticException;
import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.StructField;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.DoubleObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.LongObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorUtils;
import org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.LongWritable;

import java.util.ArrayList;

/**
 * @describe:
 * 案例：计算多个数的平均数
 *    sum= 数据值的叠加
 *    count = 数据的个数
 *    平均数=sum/count
 *
 */
public class MyUDAFAverage extends AbstractGenericUDAFResolver {

    /**
     * 入参数据类型的校验，如果参数校验通过则直接返回数据聚合处理结果
     * @param parameters 参数类型
     */
    @Override
    public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters)
            throws SemanticException {
        if (parameters.length != 1) {
            throw new UDFArgumentTypeException(parameters.length - 1, "Exactly one argument is expected.");
        }

        if (parameters[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
            throw new UDFArgumentTypeException(0, "Only primitive type arguments are accepted but " + parameters[0].getTypeName() + " is passed.");
        }
        switch (((PrimitiveTypeInfo) parameters[0]).getPrimitiveCategory()) {
            case BYTE:
            case SHORT:
            case INT:
            case LONG:
            case FLOAT:
            case DOUBLE:
            case STRING:
            case TIMESTAMP: return new GenericUDAFAverageEvaluator();
            case BOOLEAN:
            default: throw new UDFArgumentTypeException(0, "Only numeric or string type arguments are accepted but " + parameters[0].getTypeName() + " is passed.");
        }
    }

    /**
     * GenericUDAFAverageEvaluator. 平均数计算
     * 自定义静态内部类：数据处理类，继承GenericUDAFEvaluator抽象类
     */
    public static class GenericUDAFAverageEvaluator extends GenericUDAFEvaluator {
        //原数据
        PrimitiveObjectInspector inputOI;
        //中间数据 count sum整体结构
        StructObjectInspector soi;
        //输入的count数据结构
        StructField countField;
        //输入的sum 数据结构
        StructField sumField;
        LongObjectInspector countFieldOI;
        DoubleObjectInspector sumFieldOI;

        //定义全局输出数据的类型，用于存储实际数据
        Object[] partialResult;
        //最终输出结果
        DoubleWritable result;

        /*
         * 初始化：对各个模式处理过程，提取输入数据类型OI，返回输出数据类型OI
         * .每个模式（Mode）都会执行初始化
         * 1.输入参数parameters：
         * .1.1.对于PARTIAL1 和COMPLETE模式来说，是原始数据（单值）
         *    .设定了iterate()方法的输入参数的类型OI为：
         *    .		 PrimitiveObjectInspector 的实现类 WritableDoubleObjectInspector 的实例
         *    .		 通过输入OI实例解析输入参数值
         * .1.2.对于PARTIAL2 和FINAL模式来说，是模式聚合数据（双值）
         *    .设定了merge()方法的输入参数的类型OI为：
         *    .		 StructObjectInspector 的实现类 StandardStructObjectInspector 的实例
         *    .		 通过输入OI实例解析输入参数值
         * 2.返回值OI：
         * .2.1.对于PARTIAL1 和PARTIAL2模式来说，是设定了方法terminatePartial()返回值的OI实例
         *    .输出OI为 StructObjectInspector 的实现类 StandardStructObjectInspector 的实例
         * .2.2.对于FINAL 和COMPLETE模式来说，是设定了方法terminate()返回值的OI实例
         *    .输出OI为 PrimitiveObjectInspector 的实现类 WritableDoubleObjectInspector 的实例
         */
        @Override
        public ObjectInspector init(Mode mode, ObjectInspector[] parameters) throws HiveException {
            assert (parameters.length == 1);

            //输入初始化
            super.init(mode, parameters);
            //原始数据到部分聚集数据 || 原始数据到所有剧集数据
            if (mode == Mode.PARTIAL1 || mode == Mode.COMPLETE) {
                inputOI = (PrimitiveObjectInspector) parameters[0];
            } else {
                //聚集到聚集 || 聚集到最终结果
                soi = (StructObjectInspector) parameters[0];
                countField = soi.getStructFieldRef("count");
                sumField = soi.getStructFieldRef("sum");
                //数组中的每个数据，需要其各自的基本类型OI实例解析
                countFieldOI = (LongObjectInspector) countField.getFieldObjectInspector();
                sumFieldOI = (DoubleObjectInspector) sumField.getFieldObjectInspector();
            }

            // 输出中间过程是有sum 和count 是数组
            if (mode == Mode.PARTIAL1 || mode == Mode.PARTIAL2) {
                //部分聚合结果是一个数组
                partialResult = new Object[2];
                partialResult[0] = new LongWritable(0);
                partialResult[1] = new DoubleWritable(0);
                //构造Struct的OI实例，用于设定聚合结果数组的类型，需要字段名List和字段类型List作为参数来构造
                ArrayList fname = new ArrayList<>();
                fname.add("count");
                fname.add("sum");
                ArrayList foi = new ArrayList();
                //注：此处的两个OI类型 描述的是 partialResult[] 的两个类型，故需一致
                foi.add(PrimitiveObjectInspectorFactory.writableLongObjectInspector);
                foi.add(PrimitiveObjectInspectorFactory.writableDoubleObjectInspector);
                return ObjectInspectorFactory.getStandardStructObjectInspector(fname, foi);
            } else {
                //FINAL 最终聚合结果为一个数值，并用基本类型OI设定其类型
                result = new DoubleWritable(0);
                return PrimitiveObjectInspectorFactory.writableDoubleObjectInspector;
            }
        }

        /*
         * 聚合数据缓存存储结构
         */
        static class AverageAgg implements AggregationBuffer {
            long count;
            double sum;
        }

        /**
         * 创建新的聚合计算需要的内存
         */
        @Override
        public AggregationBuffer getNewAggregationBuffer() throws HiveException {
            AverageAgg result = new AverageAgg();
            reset(result);
            return result;
        }

        /**
         *  重置聚合结果，可以方便重复使用相同的聚合
         */
        @Override
        public void reset(AggregationBuffer agg) throws HiveException {
            AverageAgg myagg = (AverageAgg) agg;
            myagg.count = 0;
            myagg.sum = 0;
        }

        boolean warned = false;

        /*
         * 遍历原始数据
         */
        @Override
        public void iterate(AggregationBuffer agg, Object[] parameters) {
            assert (parameters.length == 1);
            Object p = parameters[0];
            if (p != null) {
                AverageAgg myagg = (AverageAgg) agg;
                try {
                    //通过基本数据类型OI解析Object p的值
                    double v = PrimitiveObjectInspectorUtils.getDouble(p, inputOI);
                    myagg.count++;
                    myagg.sum += v;
                } catch (NumberFormatException e) {
                    if (!warned) {
                        warned = true;
                    }
                }
            }
        }

        /*
         * 得出部分聚合结果
         */
        @Override
        public Object terminatePartial(AggregationBuffer agg) throws HiveException {
            AverageAgg myagg = (AverageAgg) agg;
            ((LongWritable) partialResult[0]).set(myagg.count);
            ((DoubleWritable) partialResult[1]).set(myagg.sum);
            return partialResult;
        }

        /*
         * 合并部分聚合结果
         * 注：Object[] 是 Object 的子类，此处 partial 为 Object[]数组
         */
        @Override
        public void merge(AggregationBuffer agg, Object partial) {
            if (partial != null) {
                AverageAgg myagg = (AverageAgg) agg;
                //通过StandardStructObjectInspector实例，分解出 partial 数组元素值
                Object partialCount = soi.getStructFieldData(partial, countField);
                Object partialSum = soi.getStructFieldData(partial, sumField);
                //通过基本数据类型的OI实例解析Object的值
                myagg.count += countFieldOI.get(partialCount);
                myagg.sum += sumFieldOI.get(partialSum);
            }
        }

        /*
         * 得出最终聚合结果
         */
        @Override
        public Object terminate(AggregationBuffer agg) throws HiveException {
            AverageAgg myagg = (AverageAgg) agg;
            if (myagg.count == 0) {
                return null;
            } else {
                result.set(myagg.sum / myagg.count);
                return result;
            }
        }
    }

}

3.打jar包并add 到hive中

add jar jar_path

4.创建函数

create [temporary] function [dbname.]function_name AS class_name;

Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
开发者交流平台项目部署到阿里云服务器教程独自破碎E 阿里云服务器云计算 java 后端开发语言
本文使用PuTTY软件在本地Windows系统远程控制Linux服务器；其中，Windows系统为Windows10专业版，Linux系统为CentOS7.664位。1.工具软件的准备maven：https://archive.apache.org/dist/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.tar.gztomcat：https
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
hive 分区表select全部数据_【Hive教程】（六）HIVE分区表 (静态分区+动态分区) weixin_39658318 hive 分区表select全部数据
分区表分区表在实际企业中用途非常广，首先一个案例体验一下分区表的作用:假设我每天都要往HIVE表中插入一万条数据。经过一年的时间，我里面已经有365万条数据。现在我需要查询某个日期的数据，我select*fromtablenamewheredata=”20180101″,那么hive一般会扫描整个表内容，会消耗很多时间。如果引入partition概念。以日期作为分区字段，相同日期的数据在同一个分区
【hadoop学习之路】Hive HQL 语句实现查询新世纪debug战士 hadoop学习之路 hive
目录表数据表1students_data.txt表2course.txt实验步骤结论表数据表1students_data.txt21434,Sara,F,21,20,73,classC41443,Mary,M,19,30,90,classA43333,Dery,F,20,40,85,classB45454,Mary,F,22,10,91,classA14634,Henry,M,18,50,56,c
【大数据入门核心技术-Hive】（十一）HiveSQL数据分区 forest_long 大数据技术入门到21天通关大数据 hive hadoop 数据仓库 hdfs
目录一、分区的概念二、创建分区1）静态分区1、单分区测试2、多分区测试2)动态分区3、动态分区和静态分区混合使用三、分区的其它操作1、恢复分区2、归档分区3、交换分区四、分区数据查询1、单分区数据查询2、多分区数据查询方法1：通过union方法2：通过or一、分区的概念数据分区的概念以及存在很久了，通常使用分区来水平分散压力，将数据从物理上移到和使用最频繁的用户更近的地方，以及实现其目的。hive
本地Apache Hive的Linux服务器集群复制数据到SQL Server数据库的分步流程 weixin_30777913 数据库数据仓库 hive sqlserver
我们已经有安装ApacheHive的Linux服务器集群，它可以连接到一个SQLServerRDS数据库，需要在该Linux服务器上安装配置sqoop，然后将Hive中所有的表数据复制到SQLServerRDS数据库。以下是分步指南，用于在Linux服务器上安装配置Sqoop并将Hive表数据迁移至SQLServerRDS：1.安装Sqoop步骤：下载Sqoop前往ApacheSqoop下载页面，
设计转换Apache Hive的HQL语句为Snowflake SQL语句的Python程序方法 weixin_30777913 python 数据仓库 hive sql
首先，根据以下各类HQL语句的基本实例和官方文档记录的这些命令语句各种参数设置，得到各种HQL语句的完整实例，然后在Snowflake的官方文档找到它们对应的SnowflakeSQL语句，建立起对应的关系表。在这个过程中要注意HQL语句和SnowflakeSQL语句的区别，比如Hive可以给单个用户加权限，但是Snowflake数据仓库是RBAC，也就是基于角色的权限控制，所以HQL语句中给用户加
windows注册表详解 ywwow 计算机科学与技术 windows microsoft system 磁盘 dos 网络
偶尔得转点文章。空格键坏了，想用修改键盘映射的方法来代替一下，于是就找到了注册表。然后在不断的搜索中，发现了这篇有点收藏价值的文章，转过来保存下。windows注册表详解http://blog.donews.com/converter/archive/2004/09/16/100404.aspx注册表对有的人还是比较陌生的，因为现在第三方软件太多了，如优化大师、魔法兔子等等，但个人觉得改善系统的第
Python正则表达式指南 weixin_33755554 python
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1.正则表达式基础1.1.简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不
Ubuntu20.4编译vlc、vlc-qt 小逍遥雪 Ubuntu vlc qt
1.安装Qt软件，文章中安装的Qt版本：5.11.3Qt官方下载链接：Indexof/new_archive/qt2.下载vlc源码，文章中vlc源码版本：vlc-3.0.8因为系统是linxu系统，所以下载时选择：vlc-3.0.8.tar.xzvlc官方源码下载链接：Indexof/vlc/3.下载vlc_qt源码vlc_qt官方源码下载链接：https://vlc-qt.tano.si/
AWS CloudFormation Fargate 开源项目教程虞耀炜
AWSCloudFormationFargate开源项目教程aws-cloudformation-fargateSampleCloudFormationtemplatesforhowtorunDockercontainersinAWSFargatewithvariousnetworkingconfigurations项目地址:https://gitcode.com/gh_mirrors/aw/aw
AWS CloudFormation 模板架构项目教程陶名战Blanche
AWSCloudFormation模板架构项目教程cloudformation-template-schemaInlinesyntaxvalidation,documentationlinksandautocompletionforyourCloudFormationtemplates.项目地址:https://gitcode.com/gh_mirrors/cl/cloudformation-te
【详细讲解】hive优化 songqq27 大数据 hive
1、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
ubuntu22.04 + isaac gym环境配置流程 Yakusha linux bash c++
1.CUDA安装1.看系统架构：uname-m2.去官网下载适配你显卡驱动的最新cuda，可以通过nvidia-smi查看https://developer.nvidia.com/cuda-toolkit-archive3.然后执行，全选continue和yessudo./cuda_12.4.1_550.54.15_linux.run在bashrc中添加：exportPATH=/usr/local
using-aws-s3-buckets-cloudfront-distribution-with-craft-cms 青年夏日科技工作者 aws 云计算 java
UsingacloudstoragesystemlikeAWSS3withaCDNdistributioncanbeaconvenientandinexpensivewaytostoreyourassets.Here’showtosetitupright.Assetslikeimages,PDFs,andotherfilesareoftenanimportantpartofthe“content”
Hive（3）：Hive客户端使用不死鸟.亚历山大.狼崽子 hive hive 大数据 hadoop
1HiveClient、HiveBeelineClientHive发展至今，总共历经了两代客户端工具。第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive,是一个shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。第二代客户端（recommended推荐使用）：$HIVE_HOME
Shell变量获取Hive返回值 for your wish Hive Shell
while循环的使用，if循环的使用，执行hive语句并赋值给shell变量grep过滤无效字符的使用hive.cli.print.header可以控制在cli中是否显示表的列名counts0=`hive-e"sethive.cli.print.header=false;selectcasewhencount(1)>0then1else0endcountfromdwb.mid_organizati
hive部署关关呀 hive hadoop hdfs
1.在/opt/softwares上传hive的安装包，并解压到/opt/module中2.将apache-hive-3.1.2-bin改名为hive3.修改/etc/profile.d/my_env.sh4.source/etc/profile.d/my_env.sh让它生效5.在lib解决日志jar包冲突
Hive全面解析精讲绿萝蔓蔓绕枝生 hive 数据库大数据 Hive精讲
目录一、Hive概述1、定义2、起源3、Hive的优势和特点4、Hive下载安装二、Hive的命令行模式1、Hive命令行模式2、Beenline命令行模式三、Hive的交互模式1、Hive元数据管理1、Hive交互模式2、Beeline交互模式3、交互模式操作四、Hive数据1、数据库(Database)2、数据表3、Hive数据类型4、Hive数据结构5、HQL五、Hive建表语句1、默认分隔
GitHub 仓库的 Archived 功能详解：中英双语阿正的梦工坊 Debugging github
GitHub仓库的Archived功能详解一、什么是GitHub仓库的“Archived”功能？在GitHub上，“Archived”是一个专门用于标记仓库状态的功能。当仓库被归档后，它变为只读模式，所有的功能如提交代码、创建issue和pullrequest等将被禁用。被归档的仓库仍然可以被查看、克隆，但无法直接在其基础上进行进一步的开发。二、为什么需要Archived功能？标记停止维护对于项目
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
python | cudf，一个超实用的 Python 库！双木的木 python拓展学习 python库 python 开发语言人工智能深度学习算法 database 数据分析
本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。原文链接：cudf，一个超实用的Python库！大家好，今天为大家分享一个超实用的Python库-cudf。Github地址：https://github.com/rapidsai/cudf在数据分析和科学计算领域，Pandas是最常用的Python工具之一，然而随着数据规模的增长，其单线程CPU的处理性能往往成为瓶颈。cuDF是N
从建表语句带你学习doris_数据类型圣·杰克船长 doris 数据类型
1、前言概述1.1、doris建表模板CREATE[EXTERNAL]TABLE[IFNOTEXISTS][DATABASE.]table_name(column_definition1[,column_deinition2,......][,index_definition1,[,index_definition2,]])[ENGINE=[olap|mysql|broker|hive]][key
飞牛NAS安装过程中的docker源问题小枫小疯 docker 容器运维
采用CloudFlare进行飞牛NAS的远程访问【安全免费】无需公网IP、端口号，NAS外网访问新方法_网络存储_什么值得买sudomkdir-p/etc/dockersudotee/etc/docker/daemon.json<
搭建Hadoop与Hive环境达达玲玲 hadoop hive 大数据
当搭建Hadoop与Hive环境时，以下是每个步骤的详细操作说明：1.安装并配置CentOS7操作系统：-下载CentOS7ISO镜像文件，并通过虚拟机或物理机安装CentOS7操作系统。-在安装过程中，为系统分配必要的网络、用户和权限。2.安装Java开发环境：-下载适合您的系统的JavaJDK版本。-使用命令或GUI工具安装JavaJDK。-配置JAVA_HOME环境变量：-打开终端，输入以下
hive视图与物化视图使用详解达达玲玲 hive hadoop 数据仓库大数据
Hive视图和物化视图都是在数据仓库中处理数据的概念。下面对Hive视图和物化视图进行详细解释：Hive视图：1.Hive视图是一个逻辑表，它是对基础表的查询结果的引用，被视为一个新表。2.视图可以简化复杂查询，隐藏复杂的逻辑，并将查询重用。3.视图不存储数据，而是在查询时动态地返回结果。4.视图可以基于单个表或多个表创建，也可以对其他视图创建。Hive视图的使用方式：1.创建视图：```sqlC
spark2如何集成到cdh里蘑菇丁经验 hadoop 大数据+机器学习+oracle
最近做性能测试需要spark2测试下和spark1.6性能有多大差别，官方文档里写着可以集成，但是自己怎么搞都不行，折磨了3天的时间，目前终于把spark2集成到集群里了我安装的是最新版本的下载spark2安装包wgethttp://archive.cloudera.com/beta/spark2/parcels/latest/SPARK2-2.0.0.cloudera.beta2-1.cdh5.
execute sql error: HdfsOrcScanner::do_open failed. reason = Failed to parse the postscript from file chimchim66 sql 数据库
目录一、背景概述二、定位原因三、解决方法一、背景概述通过hivecatalog同步hive表数据到starrocks数据库，结果报错执行语句：insertintosr_db.sr_table_nameselect*fromhive_catalog.hive_db.hive_table_name;报错内容：executesqlerror:HdfsOrcScanner::do_openfailed.r
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

Hive中用户自定义函数UDF UDTF UDAF

概述

创建UDF步骤

3.打jar包并add 到hive中

4.创建函数

你可能感兴趣的:(hive,hive,udf)