WayBling

Hive UDF小结

HiveUDF简介：

1）Hive中用于扩展HiveSQL功能的用户自定义函数称为HiveUDF
2）UDF又分为UDAF（用户自定义聚合函数），UDTF（用户自钉子表生成函数）

Hive内置函数

实际上Hive内置了很多函数，包括关系/算数/逻辑操作符都属于函数

hive提供的build-in函数包括以下几类：
1. 关系操作符：包括 = 、 <> 、 <= 、>=等
2. 算数操作符：包括 + 、 - 、 *、／等
3. 逻辑操作符：包括AND 、 && 、 OR 、 || 等
4. 复杂类型构造函数：包括map、struct、create_union等
5. 复杂类型操作符：包括A[n]、Map[key]、S.x
6. 数学操作符：包括ln(double a)、sqrt(double a)等
7. 集合操作符：包括size(Array)、sort_array(Array)等
8. 类型转换函数： binary(string|binary)、cast(expr as )
9. 日期函数：包括from_unixtime(bigint unixtime[, string format])、unix_timestamp()等
10.条件函数：包括if(boolean testCondition, T valueTrue, T valueFalseOrNull)等
11. 字符串函数：包括acat(string|binary A, string|binary B…)等
12. 其他：xpath、get_json_objectscii(string str)、con

Hive UDF的实现机制

1）Hive UDF实际上是一个Java类，开发UDF也是实现指定接口开发一个类，该类需要实现规定的方法，Hive引擎依据规则会将这些方法解析成MR任务，实现需求
2）UDF的信息存储在HiveMetaStore中，Hive添加，删除，使用UDF是通过操作metastore实现的
3）源码对应的类是FunctionRegistry，FunctionRegistry注册了所有的内置自定义函数

HiveUDF添加

HiveUDF添加主要分成两种方式
1，重编译Hive源码添加：添加UDF可以在Hive源码中增加新的UDF类，然后在一个FunctionRegistry类中注册，重编译Hive然后使用
2，通过命令行添加：独立开发UDF，将UDF打包成jar，通过Hive命令行添加到系统中（实际上是调用了FunctionRegistry中的方法），于是产生了第三发UDF项目，如[Brickhouse]（https://github.com/klout/brickhouse）
添加又分为临时和永久，临时适合于测试，当会话结束，函数会消失，永久添加会稳定添加到Hivemetastore中，重启会话然存在。

1，永久
create function function_name AS ‘full.class.name’ using JAR ‘jar/absolute/path’;
2，临时
ADD JAR hdfs://hive/warehouse/udf/brickhouse-0.7.1-SNAPSHOT.jar;
CREATE TEMPORARY FUNCTION to_json AS ‘brickhouse.udf.json.ToJsonUDF’;
CREATE TEMPORARY FUNCTION combine_unique AS ‘brickhouse.udf.collect.CombineUniqueUDAF’;

HiveUDF开发接口

1.UDF

Hive有两个不同的接口编写UDF程序。一个是基础的UDF接口，一个是复杂的GenericUDF接口。
org.apache.hadoop.hive.ql. exec.UDF 基础UDF的函数读取和返回基本类型，即Hadoop和Hive的基本类型。如，Text、IntWritable、LongWritable、DoubleWritable等。
org.apache.hadoop.hive.ql.udf.generic.GenericUDF 复杂的GenericUDF可以处理Map、List、Set类型。
@Describtion注解是可选的，用于对函数进行说明，其中的FUNC字符串表示函数名，当使用DESCRIBE FUNCTION命令时，替换成函数名。

@Describtion包含三个属性：

name：用于指定Hive中的函数名。
value：用于描述函数的参数。
extended：额外的说明，如，给出示例。当使用DESCRIBE FUNCTION EXTENDED name的时候打印。

简单UDF的实现很简单，只需要继承UDF，然后实现evaluate()方法就行了。


1. @Description(  
2.     name = "hello",  
3.     value = "_FUNC_(str) - from the input string"  
4.         + "returns the value that is \"Hello $str\" ",  
5.     extended = "Example:\n"  
6.         + " > SELECT _FUNC_(str) FROM src;"  
7. )  
8. public class HelloUDF extends UDF{  
9.       
10.     public String evaluate(String str){  
11.         try {  
12.             return "Hello " + str;  
13.         } catch (Exception e) {  
14.             // TODO: handle exception  
15.             e.printStackTrace();  
16.             return "ERROR";  
17.         }  
18.     }  
19. }

2.GenericUDF

GenericUDF实现比较复杂，需要先继承GenericUDF。这个API需要操作Object Inspectors，并且要对接收的参数类型和数量进行检查。GenericUDF需要实现以下三个方法：


1. //这个方法只调用一次，并且在evaluate()方法之前调用。该方法接受的参数是一个ObjectInspectors数组。该方法检查接受正确的参数类型和参数个数。  
2. abstract ObjectInspector initialize(ObjectInspector[] arguments);  
3.   
4. //这个方法类似UDF的evaluate()方法。它处理真实的参数，并返回最终结果。  
5. abstract Object evaluate(GenericUDF.DeferredObject[] arguments);  
6.   
7. //这个方法用于当实现的GenericUDF出错的时候，打印出提示信息。而提示信息就是你实现该方法最后返回的字符串。  
8. abstract String getDisplayString(String[] children);

3.UDTF

用户自定义表生成函数（UDTF）接受零个或多个输入，然后产生多列或多行的输出，如explode()。要实现UDTF，需要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF，同时实现三个方法：


1. // 该方法指定输入输出参数：输入的Object Inspectors和输出的Struct。  
2. abstract StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException;   
3.   
4. // 该方法处理输入记录，然后通过forward()方法返回输出结果。  
5. abstract void process(Object[] record) throws HiveException;  
6.   
7. // 该方法用于通知UDTF没有行可以处理了。可以在该方法中清理代码或者附加其他处理输出。  
8. abstract void close() throws HiveException;

4.UDAF

UDAF是需要在hive的sql语句和group by联合使用，hive的group by对于每个分组，只能返回一条记录。
用户自定义聚合函数（UDAF）接受从零行到多行的零个到多个列，然后返回单一值，如sum()、count()。要实现UDAF，我们需要实现下面的类：

org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver
org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator

AbstractGenericUDAFResolver检查输入参数，并且指定使用哪个resolver。在AbstractGenericUDAFResolver里，只需要实现一个方法：

public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters) throws SemanticException;

但是，主要的逻辑处理还是在Evaluator中。我们需要继承GenericUDAFEvaluator，并且实现下面几个方法：

1. // 输入输出都是Object inspectors  
2. public  ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException;  
3.   
4. // AggregationBuffer保存数据处理的临时结果  
5. abstract AggregationBuffer getNewAggregationBuffer() throws HiveException;  
6.   
7. // 重新设置AggregationBuffer  
8. public void reset(AggregationBuffer agg) throws HiveException;  
9.   
10. // 处理输入记录  
11. public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException;  
12.   
13. // 处理全部输出数据中的部分数据  
14. public Object terminatePartial(AggregationBuffer agg) throws HiveException;  
15.   
16. // 把两个部分数据聚合起来  
17. public void merge(AggregationBuffer agg, Object partial) throws HiveException;  
18.   
19. // 输出最终结果  
20. public Object terminate(AggregationBuffer agg) throws HiveException;

在处理之前，先看下UADF的Enum GenericUDAFEvaluator.Mode。Mode有4中情况：

PARTIAL1：Mapper阶段。从原始数据到部分聚合，会调用iterate()和terminatePartial()。
PARTIAL2：Combiner阶段，在Mapper端合并Mapper的结果数据。从部分聚合到部分聚合，会调用merge()和terminatePartial()。
FINAL：Reducer阶段。从部分聚合数据到完全聚合，会调用merge()和terminate()。
COMPLETE：出现这个阶段，表示MapReduce中只用Mapper没有Reducer，所以Mapper端直接输出结果了。从原始数据到完全聚合，会调用iterate()和terminate()。

在实现UDAF时，主要实现下面几个方法：

init()：当实例化UDAF的Evaluator时执行，并且指定输入输出数据的类型。
iterate()：把输入数据处理后放入到内存聚合块中（AggregationBuffer），典型的Mapper。
terminatePartial()：其为iterate()轮转结束后，返回轮转数据，类似于Combiner。
merge()：介绍terminatePartial()的结果，然后把这些partial结果数据merge到一起。
terminate()：返回最终的结果。
iterate()和terminatePartial()都在Mapper端。
merge()和terminate()都在Reducer端。
AggregationBuffer存储中间或最终结果。通过我们定义自己的Aggregation Buffer，可以处理任何类型的数据。

UDAF开发流程——以GenericUDAFSum为例

开发通用UDAF有两个步骤，第一个是编写resolver类，第二个是编写evaluator类。resolver负责类型检查，操作符重载。evaluator真正实现UDAF的逻辑。通常来说，顶层UDAF类继承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2，里面编写嵌套类evaluator 实现UDAF的逻辑。

实现 resolver

resolver通常继承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2，但是我们更建议继承AbstractGenericUDAFResolver，隔离将来hive接口的变化。

GenericUDAFResolver和GenericUDAFResolver2接口的区别是，后面的允许evaluator实现可以访问更多的信息，例如DISTINCT限定符，通配符FUNCTION(*)。

public class GenericUDAFSum extends AbstractGenericUDAFResolver {

  static final Log LOG = LogFactory.getLog(GenericUDAFSum.class.getName());

  @Override
  public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters)
    throws SemanticException {
    // Type-checking goes here!
    return new GenericUDAFSumLong(); 
  } 

  public static class GenericUDAFSumLong extends GenericUDAFEvaluator {
    // UDAF logic goes here!
  } 
}

这个就是UDAF的代码骨架，第一行创建LOG对象，用来写入警告和错误到hive的log。GenericUDAFResolver只需要重写一个方法：getEvaluator，它根据SQL传入的参数类型,返回正确的evaluator。这里最主要是实现操作符的重载。
getEvaluator的完整代码如下：

public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters)
    throws SemanticException {
    if (parameters.length != 1) {
      throw new UDFArgumentTypeException(parameters.length - 1,
          "Exactly one argument is expected.");
    }

    if (parameters[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
      throw new UDFArgumentTypeException(0,
          "Only primitive type arguments are accepted but "
          + parameters[0].getTypeName() + " is passed.");
    }
    switch (((PrimitiveTypeInfo) parameters[0]).getPrimitiveCategory()) {
    case BYTE:
    case SHORT:
    case INT:
    case LONG:
    case TIMESTAMP:
      return new GenericUDAFSumLong();
    case FLOAT:
    case DOUBLE:
    case STRING:
      return new GenericUDAFSumDouble();
    case BOOLEAN:
    default:
      throw new UDFArgumentTypeException(0,
          "Only numeric or string type arguments are accepted but "
          + parameters[0].getTypeName() + " is passed.");
    }

这里做了类型检查，如果不是原生类型(即符合类型，array,map此类)，则抛出异常，还实现了操作符重载，对于整数类型，使用GenericUDAFSumLong实现UDAF的逻辑，对于浮点类型，使用GenericUDAFSumDouble实现UDAF的逻辑。

实现evaluator

所有evaluators必须继承抽象类org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator。子类必须实现它的一些抽象方法，实现UDAF的逻辑。
GenericUDAFEvaluator有一个嵌套类Mode,这个类很重要，它表示了udaf在mapreduce的各个阶段，理解Mode的含义，就可以理解了hive的UDAF的运行流程。

public static enum Mode {
    /**
     * PARTIAL1: 这个是mapreduce的map阶段:从原始数据到部分数据聚合
     * 将会调用iterate()和terminatePartial()
     */
    PARTIAL1,
        /**
     * PARTIAL2: 这个是mapreduce的map端的Combiner阶段，负责在map端合并map的数据::从部分数据聚合到部分数据聚合:
     * 将会调用merge() 和 terminatePartial() 
     */
    PARTIAL2,
        /**
     * FINAL: mapreduce的reduce阶段:从部分数据的聚合到完全聚合 
     * 将会调用merge()和terminate()
     */
    FINAL,
        /**
     * COMPLETE: 如果出现了这个阶段，表示mapreduce只有map，没有reduce，所以map端就直接出结果了:从原始数据直接到完全聚合
      * 将会调用 iterate()和terminate()
     */
    COMPLETE
  };

一般情况下，完整的UDAF逻辑是一个mapreduce过程，如果有mapper和reducer，就会经历PARTIAL1(mapper)，FINAL(reducer)，如果还有combiner，那就会经历PARTIAL1(mapper)，PARTIAL2(combiner)，FINAL(reducer)。
而有一些情况下的mapreduce，只有mapper，而没有reducer，所以就会只有COMPLETE阶段，这个阶段直接输入原始数据，出结果。

下面以GenericUDAFSumLong的evaluator实现讲解

public static class GenericUDAFSumLong extends GenericUDAFEvaluator {

private PrimitiveObjectInspector inputOI;
    private LongWritable result;

　　　//这个方法返回了UDAF的返回类型，这里确定了sum自定义函数的返回类型是Long类型
    @Override
    public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {
      assert (parameters.length == 1);
      super.init(m, parameters);
      result = new LongWritable(0);
      inputOI = (PrimitiveObjectInspector) parameters[0];
      return PrimitiveObjectInspectorFactory.writableLongObjectInspector;
    }

    /** 存储sum的值的类 */
    static class SumLongAgg implements AggregationBuffer {
      boolean empty;
      long sum;
    }

    //创建新的聚合计算的需要的内存，用来存储mapper,combiner,reducer运算过程中的相加总和。

    @Override
    public AggregationBuffer getNewAggregationBuffer() throws HiveException {
      SumLongAgg result = new SumLongAgg();
      reset(result);
      return result;
    }
　　　　
    //mapreduce支持mapper和reducer的重用，所以为了兼容，也需要做内存的重用。

    @Override
    public void reset(AggregationBuffer agg) throws HiveException {
      SumLongAgg myagg = (SumLongAgg) agg;
      myagg.empty = true;
      myagg.sum = 0;
    }

    private boolean warned = false;
　　
    //map阶段调用，只要把保存当前和的对象agg，再加上输入的参数，就可以了。
    @Override
    public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException {
      assert (parameters.length == 1);
      try {
        merge(agg, parameters[0]);
      } catch (NumberFormatException e) {
        if (!warned) {
          warned = true;
          LOG.warn(getClass().getSimpleName() + " "
              + StringUtils.stringifyException(e));
        }
      }
    }
　　 //mapper结束要返回的结果，还有combiner结束返回的结果
    @Override
    public Object terminatePartial(AggregationBuffer agg) throws HiveException {
      return terminate(agg);
    }

    //combiner合并map返回的结果，还有reducer合并mapper或combiner返回的结果。
    @Override
    public void merge(AggregationBuffer agg, Object partial) throws HiveException {
      if (partial != null) {
        SumLongAgg myagg = (SumLongAgg) agg;
        myagg.sum += PrimitiveObjectInspectorUtils.getLong(partial, inputOI);
        myagg.empty = false;
      }
    }

    //reducer返回结果，或者是只有mapper，没有reducer时，在mapper端返回结果。
    @Override
    public Object terminate(AggregationBuffer agg) throws HiveException {
      SumLongAgg myagg = (SumLongAgg) agg;
      if (myagg.empty) {
        return null;
      }
      result.set(myagg.sum);
      return result;
    }

  }

除了GenericUDAFSumLong，还有重载的GenericUDAFSumDouble，以上代码都在hive的源码:org.apache.hadoop.hive.ql.udf.generic.GenericUDAFSum。

实例

求余弦函数

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import java.lang.Math;

public class CosSimilar extends UDAF {
    public static class CosSimilarState {
        private double mSumXY;
        private double mSumXX;
        private double mSumYY;
    }

    public static class CosSimilarEvaluator implements UDAFEvaluator {
        CosSimilarState state;
        public CosSimilarEvaluator() {
            super();
            state = new CosSimilarState();
            init();
        }

        /** * init函数类似于构造函数，用于UDAF的初始化 */

        public void init() {
            state.mSumXY = 0;
            state.mSumXX = 0;
            state.mSumYY = 0;
        }

        /** * iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean * * @param o * @return */

        public boolean iterate(Double x, Double y) {
            state.mSumXY += x * y;
            state.mSumXX += x * x;
            state.mSumYY += y * y;

            return true;
        }

        /** * terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据， * terminatePartial类似于hadoop的Combiner * * @return */

        public CosSimilarState terminatePartial() {
            // combiner
            return state;
        }

        /** * merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean * * @param o * @return */

        public boolean merge(CosSimilarState other) {
            if (other != null) {
                state.mSumXY += other.mSumXY;
                state.mSumXX += other.mSumXX;
                state.mSumYY += other.mSumYY;
            }

            return true;
        }

        /** * terminate返回最终的聚集函数结果 * * @return */

        public Double terminate() {
            if (state.mSumXX < 0.0001 || state.mSumYY < 0.0001){
                return 0.0;
            }
            else {
                return Double.valueOf(state.mSumXY / Math.sqrt(state.mSumXX) / Math.sqrt(state.mSumYY));
            }
        }

    }
}

SumTwo

工作需要开发的SumTwo

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.MapredContext;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.parse.SemanticException;
import org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFParameterInfo;
import org.apache.hadoop.hive.serde2.io.DoubleWritable;
import org.apache.hadoop.hive.serde2.lazybinary.LazyBinaryMap;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;
import org.json.JSONException;
import org.json.JSONObject;

import java.math.BigDecimal;
import java.util.*;

/**
 * GenericUDAFSumTwo.
 */
@Description(name = "sum_two", value = "_FUNC_(x) - Returns the sum of two sets of numbers")
public class GenericUDAFSumTwo extends AbstractGenericUDAFResolver {

  static final Log LOG = LogFactory.getLog(GenericUDAFSumTwo.class.getName());

  @Override
  public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info) throws SemanticException {
    TypeInfo[] parameters = info.getParameters();
    if (parameters.length != 3) {
      throw new UDFArgumentException("Please specify exactly three arguments.");
    }

    // vid
    // validate the first parameter, which is the number of histogram bins
    if (parameters[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
      throw new UDFArgumentTypeException(0,
              "Only primitive type arguments are accepted but " + parameters[0].getTypeName()
                      + " was passed as parameter 1.");
    }

    // metric1
    // validate the second parameter, which is the expression to compute over
    if (parameters[1].getCategory() != ObjectInspector.Category.PRIMITIVE) {
      throw new UDFArgumentTypeException(1,
              "Only primitive type arguments are accepted but " + parameters[1].getTypeName()
                      + " was passed as parameter 2.");
    }

    // metric2
    // validate the third parameter, which is the expression to compute over
    if (parameters[2].getCategory() != ObjectInspector.Category.PRIMITIVE) {
      throw new UDFArgumentTypeException(2,
              "Only primitive type arguments are accepted but " + parameters[2].getTypeName()
                      + " was passed as parameter 3.");
    }

    switch (((PrimitiveTypeInfo) parameters[1]).getPrimitiveCategory()) {
      case BYTE:
      case SHORT:
      case INT:
      case LONG:
      case FLOAT:
      case DOUBLE:
        break;
      case STRING:
      case BOOLEAN:
      default:
        throw new UDFArgumentTypeException(1,
                "Only numeric type arguments are accepted but " + parameters[1].getTypeName()
                        + " was passed as parameter 2.");
    }

    switch (((PrimitiveTypeInfo) parameters[2]).getPrimitiveCategory()) {
      case BYTE:
      case SHORT:
      case INT:
      case LONG:
      case FLOAT:
      case DOUBLE:
        break;
      case STRING:
      case BOOLEAN:
      default:
        throw new UDFArgumentTypeException(2,
                "Only numeric type arguments are accepted but " + parameters[2].getTypeName()
                        + " was passed as parameter 3.");
    }

    return new GenericUDAFSumTwoEvaluator();
  }

  /**
   * ABTestTwoSumUDAFEvaluator.
   */
  public static class GenericUDAFSumTwoEvaluator extends GenericUDAFEvaluator {
    private String jobname;
    private PrimitiveObjectInspector inputOI1;
    private PrimitiveObjectInspector inputOI2;
    private PrimitiveObjectInspector inputOI3;
    private ObjectInspector outputOI;
    private Mode mode;

    @Override
    public void configure(MapredContext mapredContext) {
      jobname = mapredContext.getJobConf().get("mapreduce.job.name", "abtest_confidence_rate");
      jobname = jobname.replaceAll(" ", "_");
      if (jobname.length() > 100) {
        jobname = "abtest_confidence_rate" + new Random().nextInt((int) (System.currentTimeMillis() % 10000));
      }
    }

    @Override
    public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {
      super.init(m, parameters);
      this.mode = m;
      if (m == Mode.PARTIAL1 || m == Mode.COMPLETE) {
        // vid
        inputOI1 = (PrimitiveObjectInspector) parameters[0];
        // metric1
        inputOI2 = (PrimitiveObjectInspector) parameters[1];
        // metric2
        inputOI3 = (PrimitiveObjectInspector) parameters[2];
      }
      if (m == Mode.FINAL || m == Mode.COMPLETE) {
        outputOI = PrimitiveObjectInspectorFactory.javaStringObjectInspector;
      } else {
        outputOI = ObjectInspectorFactory.getStandardMapObjectInspector(
                PrimitiveObjectInspectorFactory.javaStringObjectInspector,
                PrimitiveObjectInspectorFactory.javaDoubleObjectInspector);
      }
      return outputOI;
    }

    /**
     * class for storing vid string and two sum values.
     */
    static class SumAgg extends AbstractAggregationBuffer {
      String vid;
      Map resultMap = new HashMap<>();
    }

    @Override
    public AggregationBuffer getNewAggregationBuffer() throws HiveException {
      SumAgg result = new SumAgg();
      reset(result);
      return result;
    }

    @Override
    public void reset(AggregationBuffer agg) throws HiveException {
      SumAgg myagg = (SumAgg) agg;
      myagg.vid = null;
      myagg.resultMap = new HashMap<>();
    }

    @Override
    public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException {
      if (parameters == null) {
        return;
      }
      assert (parameters.length == 3);

      try {
        // vid
        if (parameters[0] == null || inputOI1 == null || inputOI1.getPrimitiveJavaObject(parameters[0]) == null) {
          return;
        }

        // metric1
        double number1;
        Object object2 = inputOI2.getPrimitiveJavaObject(parameters[1]);
        switch (inputOI2.getPrimitiveCategory()) {
          case SHORT:
            number1 = (short) object2;
            break;
          case INT:
            number1 = (int) object2;
            break;
          case LONG:
            number1 = (long) object2;
            break;
          case FLOAT:
            number1 = (float) object2;
            break;
          case DOUBLE:
            number1 = (double) object2;
            break;
          default:
            throw new UDFArgumentTypeException(1, "Only numeric type arguments are accepted");
        }

        //metric2
        double number2;
        Object object3 = inputOI3.getPrimitiveJavaObject(parameters[2]);
        switch (inputOI3.getPrimitiveCategory()) {
          case SHORT:
            number2 = (short) object3;
            break;
          case INT:
            number2 = (int) object3;
            break;
          case LONG:
            number2 = (long) object3;
            break;
          case FLOAT:
            number2 = (float) object3;
            break;
          case DOUBLE:
            number2 = (double) object3;
            break;
          default:
            throw new UDFArgumentTypeException(2, "Only numeric type arguments are accepted");
        }

        String vid = String.valueOf(inputOI1.getPrimitiveJavaObject(parameters[0]));

        if(agg == null){
          agg = new SumAgg();
        }

        SumAgg myAgg = (SumAgg)agg;
        myAgg.vid = vid;

        if (myAgg.resultMap == null) {
          throw new UDFArgumentException("Result map is null");
        }

        myAgg.resultMap.put(vid + "#1", myAgg.resultMap.getOrDefault(vid + "#1", 0.0) + number1);
        myAgg.resultMap.put(vid + "#2", myAgg.resultMap.getOrDefault(vid + "#2", 0.0) + number2);

      } catch (Exception e) {
        throw new HiveException(e);
      }
    }

    @Override
    public Object terminatePartial(AggregationBuffer agg) throws HiveException {
      return ((SumAgg)agg).resultMap;
    }

    @Override
    public void merge(AggregationBuffer agg, Object partial) throws HiveException {

      if(partial != null){
        Map partailResultMap= ((LazyBinaryMap) partial).getMap();

        SumAgg myAgg = (SumAgg)agg;
        if(myAgg == null){
          myAgg = new SumAgg();
        }

        for (Object nameObj: partailResultMap.keySet()) {
          String key = nameObj.toString();
          Object valueObj = partailResultMap.getOrDefault(nameObj, null);
          if (valueObj != null) {
            myAgg.resultMap.put(key, ((DoubleWritable) valueObj).get() + myAgg.resultMap.getOrDefault(key, 0.0));
          }
        }
      }

    }

    //
    @Override
    public Object terminate(AggregationBuffer agg) throws HiveException {
      SumAgg myagg = (SumAgg) agg;
      if (myagg.resultMap == null) {
        return null;
      }
      Map resultMap =  ((SumAgg)agg).resultMap;

      JSONObject jsonObject = new JSONObject();
      try {
        for (String key: resultMap.keySet()) {
          String[] splits = key.split("#");
          String vid = splits[0];
          String uid = splits[1];

          jsonObject.put("vid", vid);
          if(uid.equals("1")){
            jsonObject.put("sum1", new BigDecimal(String.valueOf(resultMap.get(key))).toString());
          }
          else if(uid.equals("2")){
            jsonObject.put("sum2", new BigDecimal(String.valueOf(resultMap.get(key))).toString());
          }
        }
      } catch (JSONException e) {
        e.printStackTrace();
      }

      return jsonObject.toString();
    }

  }


}

你可能感兴趣的:(Hive)

linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
oracle cdc logminer与oracle xstream 24k小善 java 大数据 flink
以下为OracleCDC技术中XStream与LogMiner的核心差异解析，结合技术背景、实现原理、性能表现等维度进行系统化对比。一、技术背景与定位差异LogMiner：官方日志分析工具的非正式应用最初设计用于数据库管理员（DBA）审计和分析历史日志，非专为CDC场景优化[1][9][16]。通过解析归档日志（ArchiveLog）或在线日志（OnlineRedoLog）提取变更记录，采用轮询机
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
linux 安装anaconda与jupyter notebook配置土豆土豆，我是洋芋 python
一、anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat/proc/version，如下图所示##下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Oracle V$SESSION详解雨的遐想 oracle 数据库
V$SESSION是SYS用户下面对于SYS.V_$SESSION视图的同义词。在本视图中，每一个连接到数据库实例中的session都拥有一条记录。包括用户session及后台进程如DBWR，LGWR，arcchiver等等。1.V$SESSION中的常用列V$SESSION是基础信息视图，用于找寻用户SID或SADDR，及检查用户的动态：（1）SQL_HASH_VALUE，SQL_ADDRESS
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag