简约AI

Spark SQL源码函数解读及UDF/UDAF例子 spark研习第六集

四、 Spark SQL源码函数解读

1. Spark SQL内置函数解密与实战

SparkSQL的DataFrame引入了大量的内置函数，这些内置函数一般都有CG（CodeGeneration）功能，这样的函数在编译和执行时都会经过高度优化。

问题：SparkSQL操作Hive和Hive on Spark一样吗？

=> 不一样。SparkSQL操作Hive只是把Hive当作数据仓库的来源，而计算引擎就是SparkSQL本身。Hive on spark是Hive的子项目，Hive on Spark的核心是把Hive的执行引擎换成Spark。众所周知，目前Hive的计算引擎是Mapreduce，因为性能低下等问题，所以Hive的官方就想替换这个引擎。

SparkSQL操作Hive上的数据叫Spark on Hive，而Hive on Spark依旧是以Hive为核心，只是把计算引擎由MapReduce替换为Spark。

Spark官网上DataFrame 的API Docs：
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package

Experimental
A distributed collection of data organized into named columns.
A DataFrame is equivalent to a relational table in Spark SQL. The following example creates a DataFrame by pointing Spark SQL to a Parquet data set.

   
   
   
   
    
    
    
    val people = sqlContext.read.parquet("...")  // in Scala
    
    
    
    DataFrame people = sqlContext.read().parquet("...")  // in Java
    
    
    
    
    
    
    
    Once created, it can be manipulated using the various domain-specific-language (DSL) functions defined in: DataFrame (this class), Column, and functions.
    
    
    
    To select a column from the data frame, use apply method in Scala and col in Java.
    
    
    
    
    
    
    
    val ageCol = people("age")  // in Scala
    
    
    
    Column ageCol = people.col("age")  // in Java
    
    
    
    
    
    
    
    Note that the Column type can also be manipulated through its various functions.
    
    
    
    
    
    
    
    // The following creates a new column that increases everybody's age by 10.
    
    
    
    people("age") + 10  // in Scala
    
    
    
    people.col("age").plus(10);  // in Java
    
    
    
    
    
    
    
    A more concrete example in Scala:
    
    
    
    
    
    
    
    // To create DataFrame using SQLContextval people = sqlContext.read.parquet("...")val department = sqlContext.read.parquet("...")
    
    
    
    
    
    
    
    people.filter("age > 30")
    
    
    
      .join(department, people("deptId") === department("id"))
    
    
    
      .groupBy(department("name"), "gender")
    
    
    
      .agg(avg(people("salary")), max(people("age")))
    
    
    
    and in Java:
    
    
    
    // To create DataFrame using SQLContext
    
    
    
    DataFrame people = sqlContext.read().parquet("...");
    
    
    
    DataFrame department = sqlContext.read().parquet("...");
    
    
    
    people.filter("age".gt(30))
    
    
    
      .join(department, people.col("deptId").equalTo(department("id")))
    
    
    
      .groupBy(department.col("name"), "gender")
    
    
    
      .agg(avg(people.col("salary")), max(people.col("age")));

以上内容中的join,groupBy,agg都是SparkSQL的内置函数。
SParkl1.5.x以后推出了很多内置函数，据不完全统计，有一百多个内置函数。
下面实战开发一个聚合操作的例子：

   
   
   
   
    
    
    
    package com.dt.spark
    
    
    
    
    
    
    
    import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
    
    
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    
    
    import org.apache.spark.sql.{Row, SQLContext}
    
    
    
    import org.apache.spark.sql.functions._
    
    
    
    /**
    
    
    
      * 使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果是返回一个Column对象，而
    
    
    
      * DataFrame天生就是"A distributed collection of data organized into named columns.",这就为数据的复杂分析建立了坚实的基础
    
    
    
      * 并提供了极大的方便性，例如说，我们在操作DataFrame的方法中可以随时调用内置函数进行业务需要的处理，这之于我们构建附件的业务逻辑而言是可以
    
    
    
      * 极大的减少不必须的时间消耗（基于上就是实际模型的映射），让我们聚焦在数据分析上，这对于提高工程师的生产力而言是非常有价值的
    
    
    
      * Spark 1.5.x开始提供了大量的内置函数，例如agg：
    
    
    
      * def agg(aggExpr: (String, String), aggExprs: (String, String)*): DataFrame = {
    
    
    
      *  groupBy().agg(aggExpr, aggExprs : _*)
    
    
    
      *}
    
    
    
      * 还有max、mean、min、sum、avg、explode、size、sort_array、day、to_date、abs、acros、asin、atan
    
    
    
      * 总体上而言内置函数包含了五大基本类型：
    
    
    
      * 1，聚合函数，例如countDistinct、sumDistinct等；
    
    
    
      * 2，集合函数，例如sort_array、explode等
    
    
    
      * 3，日期、时间函数，例如hour、quarter、next_day
    
    
    
      * 4, 数学函数，例如asin、atan、sqrt、tan、round等；
    
    
    
      * 5，开窗函数，例如rowNumber等
    
    
    
      * 6，字符串函数，concat、format_number、rexexp_extract
    
    
    
      * 7, 其它函数，isNaN、sha、randn、callUDF
    
    
    
      */
    
    
    
    object SparkSQLAgg {
    
    
    
      def main(args: Array[String]) {
    
    
    
        System.setProperty("hadoop.home.dir", "G:/datarguru spark/tool/hadoop-2.6.0")
    
    
    
        val conf = new SparkConf()
    
    
    
        conf.setAppName("SparkSQLlinnerFunctions")
    
    
    
        //conf.setMaster("spark://master:7077")
    
    
    
        conf.setMaster("local")
    
    
    
        val sc = new SparkContext(conf)
    
    
    
        val sqlContext = new SQLContext(sc) //构建SQL上下文
    
    
    
    
    
    
    
        //要使用Spark SQL的内置函数，就一定要导入SQLContext下的隐式转换
    
    
    
        import sqlContext.implicits._
    
    
    
    
    
    
    
        //模拟电商访问的数据，实际情况会比模拟数据复杂很多，最后生成RDD
    
    
    
        val userData = Array(
    
    
    
          "2016-3-27,001,http://spark.apache.org/,1000",
    
    
    
          "2016-3-27,001,http://Hadoop.apache.org/,1001",
    
    
    
          "2016-3-27,002,http://fink.apache.org/,1002",
    
    
    
          "2016-3-28,003,http://kafka.apache.org/,1020",
    
    
    
          "2016-3-28,004,http://spark.apache.org/,1010",
    
    
    
          "2016-3-28,002,http://hive.apache.org/,1200",
    
    
    
          "2016-3-28,001,http://parquet.apache.org/,1500",
    
    
    
          "2016-3-28,001,http://spark.apache.org/,1800"
    
    
    
        )
    
    
    
    
    
    
    
        val userDataRDD = sc.parallelize(userData)//生成分布式集群对象
    
    
    
    
    
    
    
        //根据业务需要对数据进行预处理生成DataFrame，要想把RDD转换成DataFrame，需要先把RDD中的元素类型变成Row类型
    
    
    
        //于此同时要提供DataFrame中的Columns的元数据信息描述
    
    
    
        val userDataRDDRow = userDataRDD.map(row => {val splited = row.split(","); Row(splited(0),splited(1).toInt,splited(2), splited(3).toInt)})
    
    
    
        val structType = StructType(Array(
    
    
    
          StructField("time", StringType, true),
    
    
    
          StructField("id", IntegerType, true),
    
    
    
          StructField("url", StringType, true),
    
    
    
          StructField("amount", IntegerType, true)
    
    
    
        ))
    
    
    
        val userDataDF = sqlContext.createDataFrame(userDataRDDRow, structType)
    
    
    
    
    
    
    
        //第五步：使用Spark SQL提供的内置函数对DataFrame进行操作，特别注意：内置函数生成的Column对象且自定进行CG；
    
    
    
        userDataDF.groupBy("time").agg('time, countDistinct('id))
    
    
    
            .map(row => Row(row(1),row(2))).collect().foreach(println)
    
    
    
        userDataDF.groupBy("time").agg('time, sum('amount))
    
    
    
          .map(row => Row(row(1),row(2))).collect().foreach(println)
    
    
    
      }
    
    
    
    }

2. Spark SQL窗口函数解密与实战

窗口函数包括:
分级函数、分析函数、聚合函数
较全的窗口函数介绍参考：
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-sql-windows.html

窗口函数中最重要的是row_number。row_bumber是对分组进行排序，所谓分组排序就是说在分组的基础上再进行排序。
下面使用SparkSQL的方式重新编写TopNGroup.scala程序并执行：

   
   
   
   
    
    
    
    package com.dt.spark
    
    
    
    
    
    
    
    import org.apache.spark.sql.hive.HiveContext
    
    
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    
    
    
    
    
    
    object SparkSQLWindowFunctionOps {
    
    
    
      def main(args: Array[String]) {
    
    
    
        val conf = new SparkConf()
    
    
    
        conf.setMaster("spark://master:7077")
    
    
    
        conf.setAppName("SparkSQLWindowFunctionOps")
    
    
    
        val sc = new SparkContext(conf)
    
    
    
        val hiveContext =  new HiveContext(sc)
    
    
    
        hiveContext.sql("DROP TABLE IF EXISTS scores")
    
    
    
        hiveContext.sql("CREATE TABLE IF NOT EXISTS  scores(name STRING,score INT)"
    
    
    
          +"ROW FORMAT DELIMITED FIELDS TERMINATED ' ' LINES TERMINATED BY '\\n'")
    
    
    
    
    
    
    
        //将要处理的数据导入到Hive表中
    
    
    
        hiveContext.sql("LOAD DATA LOCAL INPATH 'G://datarguru spark/tool/topNGroup.txt' INTO TABLE SCORES")
    
    
    
        //hiveContext.sql("LOAD DATA LOCAL INPATH '/opt/spark-1.4.0-bin-hadoop2.6/dataSource' INTO TABLE SCORES")
    
    
    
    
    
    
    
        /**
    
    
    
          * 使用子查询的方式完成目标数据的提取，在目标数据内幕使用窗口函数row_number来进行分组排序：
    
    
    
          * PARTITION BY :指定窗口函数分组的Key；
    
    
    
          * ORDER BY：分组后进行排序；
    
    
    
          */
    
    
    
        val result = hiveContext.sql("SELECT name,score FROM ("
    
    
    
          + "SELECT name,score,row_number() OVER (PARTITION BY name ORDER BY score DESC) rank FROM scores) sub_scores"
    
    
    
          + "WHERE rank <= 4")
    
    
    
    
    
    
    
        result.show() //在Driver的控制台上打印出结果内容
    
    
    
    
    
    
    
        //把数据保存在Hive数据仓库中
    
    
    
        hiveContext.sql("DROP TABLE IF EXISTS sortedResultScores")
    
    
    
        result.saveAsTable("sortedResultScores")
    
    
    
      }
    
    
    
    }

报错：

   
   
   
   
    
    
    
    ERROR metadata.Hive: NoSuchObjectException(message:default.scores table not found)
    
    
    
    Exception in thread "main" org.apache.spark.sql.AnalysisException: missing BY at '' '' near ''; line 1 pos 96

参考：
http://blog.csdn.net/slq1023/article/details/51138709

3. Spark SQL UDF和UDAF解密与实战

UDAF=USER DEFINE AGGREGATE FUNCTION
通过案例实战Spark SQL下的UDF和UDAF的具体使用：
* UDF: User Defined Function，用户自定义的函数，函数的输入是一条具体的数据记录，实现上讲就是普通的Scala函数；
* UDAF：User Defined Aggregation Function，用户自定义的聚合函数，函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作；
* 实质上讲，例如说UDF会被Spark SQL中的Catalyst封装成为Expression，最终会通过eval方法来计算输入的数据Row（此处的Row和DataFrame中的Row没有任何关系）

1)实战编写UDF和UDAF：

   
   
   
   
    
    
    
    package com.dt.spark
    
    
    
    
    
    
    
    import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
    
    
    
    import org.apache.spark.sql.types._
    
    
    
    import org.apache.spark.sql.{Row, SQLContext}
    
    
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    
    
    
    
    
    
    object SparkSQLUDFUDAF {
    
    
    
      def main(args: Array[String]) {
    
    
    
        System.setProperty("hadoop.home.dir", "G:/datarguru spark/tool/hadoop-2.6.0");
    
    
    
        val conf = new SparkConf()
    
    
    
        conf.setAppName("SparkSQLUDFUDAF")
    
    
    
        conf.setMaster("local")
    
    
    
        val sc = new SparkContext(conf)
    
    
    
        val sqlContext = new SQLContext(sc)
    
    
    
    
    
    
    
        //模拟实际使用数据
    
    
    
        val bigData = Array("Spark", "Spark", "Hadoop", "Spark", "Hadoop", "Spark", "Spark", "Hadoop", "Spark", "Hadoop")
    
    
    
    
    
    
    
        //基于提供的数据创建DataFrame
    
    
    
        val bigDataRDD = sc.parallelize(bigData)
    
    
    
        val bigDataRow = bigDataRDD.map(item => Row(item))
    
    
    
        val structType = StructType(Array(StructField("word", StringType, true)))
    
    
    
        val bigDataDF = sqlContext.createDataFrame(bigDataRow, structType)
    
    
    
        bigDataDF.registerTempTable("bigDataTable") //注册成为临时表
    
    
    
    
    
    
    
        //通过SQLContext注册UDF，在Scala 2.10.x版本UDF函数最多可以接受22个输入参数
    
    
    
        sqlContext.udf.register("computeLength", (input: String) => input.length)
    
    
    
    
    
    
    
        //直接在SQL语句中使用UDF，就像使用SQL自动的内部函数一样
    
    
    
        sqlContext.sql("select word, computeLength(word) as length from bigDataTable").show()
    
    
    
    
    
    
    
        sqlContext.udf.register("wordCount", new MyUDAF)
    
    
    
        sqlContext.sql("select word,wordCount(word) as count,computeLength(word) " +
    
    
    
          "as length from bigDataTable group by word").show()
    
    
    
        while(true){}
    
    
    
    
    
    
    
      }
    
    
    
    
    
    
    
    }
    
    
    
    
    
    
    
    class MyUDAF extends UserDefinedAggregateFunction{ //ctrl+I实现复写方法
    
    
    
      /**
    
    
    
        * 该方法指定具体输入数据的类型
    
    
    
        * @return
    
    
    
        */
    
    
    
      override def inputSchema: StructType = StructType(Array(StructField("input", StringType, true)))
    
    
    
    
    
    
    
      /**
    
    
    
        * 在进行聚合操作的时候要处理的数据的结果的类型
    
    
    
        * @return
    
    
    
        */
    
    
    
      override def bufferSchema: StructType = StructType(Array(StructField("count", IntegerType, true)))
    
    
    
    
    
    
    
      /**
    
    
    
        * 指定UDAF函数计算后返回的结果类型
    
    
    
        * @return
    
    
    
        */
    
    
    
      override def dataType: DataType = IntegerType
    
    
    
    
    
    
    
      override def deterministic: Boolean = true
    
    
    
    
    
    
    
      /**
    
    
    
        * 在Aggregate之前每组数据的初始化结果
    
    
    
        * @param buffer
    
    
    
        * @param input
    
    
    
        */
    
    
    
      override def initialize(buffer: MutableAggregationBuffer): Unit = {buffer(0)=0}
    
    
    
    
    
    
    
      /**
    
    
    
        * 在进行聚合的时候有新的值进来，对分组后的聚合如何进行计算
    
    
    
        * 本地的聚合操作，相当于Hadoop MapReduce模型中的Combiner(这里的Row跟DataFrame的Row无关)
    
    
    
        * @param buffer
    
    
    
        * @param input
    
    
    
        */
    
    
    
      override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    
    
    
        buffer(0) = buffer.getAs[Int](0) + 1
    
    
    
      }
    
    
    
    
    
    
    
      /**
    
    
    
        * 最后在分布式节点进行Local Reduce完成后需要进行全局级别的Merge操作
    
    
    
        * @param buffer1
    
    
    
        * @param buffer2
    
    
    
        */
    
    
    
      override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    
    
    
        buffer1(0) = buffer1.getAs[Int](0) + buffer2.getAs[Int](0)
    
    
    
      }
    
    
    
    
    
    
    
      /**
    
    
    
        *  返回UDAF最后的计算结果
    
    
    
        * @param buffer
    
    
    
        * @return
    
    
    
        */
    
    
    
      override def evaluate(buffer: Row): Any = buffer.getAs[Int](0)
    
    
    
    }

2) UDFRegistration的源码：

   
   
   
   
    
    
    
    /**
    
    
    
     * Functions for registering user-defined functions. Use [[SQLContext.udf]] to access this.
    
    
    
     *
    
    
    
     * @since 1.3.0
    
    
    
     */
    
    
    
    class UDFRegistration private[sql] (sqlContext: SQLContext) extends Logging {
    
    
    
    
    
    
    
      private val functionRegistry = sqlContext.functionRegistry
    
    
    
    
    
    
    
      protected[sql] def registerPython(name: String, udf: UserDefinedPythonFunction): Unit = {
    
    
    
        log.debug(
    
    
    
          s"""
    
    
    
            | Registering new PythonUDF:
    
    
    
            | name: $name
    
    
    
            | command: ${udf.command.toSeq}
    
    
    
            | envVars: ${udf.envVars}
    
    
    
            | pythonIncludes: ${udf.pythonIncludes}
    
    
    
            | pythonExec: ${udf.pythonExec}
    
    
    
            | dataType: ${udf.dataType}
    
    
    
          """.stripMargin)
    
    
    
    
    
    
    
        functionRegistry.registerFunction(name, udf.builder)
    
    
    
      }
    
    
    
    
    
    
    
      /**
    
    
    
       * Register a user-defined aggregate function (UDAF).
    
    
    
       *
    
    
    
       * @param name the name of the UDAF.
    
    
    
       * @param udaf the UDAF needs to be registered.
    
    
    
       * @return the registered UDAF.
    
    
    
       */
    
    
    
      def register(
    
    
    
          name: String,
    
    
    
          udaf: UserDefinedAggregateFunction): UserDefinedAggregateFunction = {
    
    
    
        def builder(children: Seq[Expression]) = ScalaUDAF(children, udaf)
    
    
    
        functionRegistry.registerFunction(name, builder)
    
    
    
        udaf
    
    
    
      }
    
    
    
    
    
    
    
    // scalastyle:off
    
    
    
    
    
    
    
    /* register 0-22 were generated by this script
    
    
    
    
    
    
    
      (0 to 22).map { x =>
    
    
    
        val types = (1 to x).foldRight("RT")((i, s) => {s"A$i, $s"})
    
    
    
        val typeTags = (1 to x).map(i => s"A${i}: TypeTag").foldLeft("RT: TypeTag")(_ + ", " + _)
    
    
    
        val inputTypes = (1 to x).foldRight("Nil")((i, s) => {s"ScalaReflection.schemaFor[A$i].dataType :: $s"})
    
    
    
        println(s"""
    
    
    
          /**
    
    
    
           * Register a Scala closure of ${x} arguments as user-defined function (UDF).
    
    
    
           * @tparam RT return type of UDF.
    
    
    
           * @since 1.3.0
    
    
    
           */
    
    
    
          def register[$typeTags](name: String, func: Function$x[$types]): UserDefinedFunction = {
    
    
    
            val dataType = ScalaReflection.schemaFor[RT].dataType
    
    
    
            val inputTypes = Try($inputTypes).getOrElse(Nil)
    
    
    
            def builder(e: Seq[Expression]) = ScalaUDF(func, dataType, e, inputTypes)
    
    
    
            functionRegistry.registerFunction(name, builder)
    
    
    
            UserDefinedFunction(func, dataType, inputTypes)
    
    
    
          }""")
    
    
    
      }
    
    
    
    
    
    
    
      (1 to 22).foreach { i =>
    
    
    
        val extTypeArgs = (1 to i).map(_ => "_").mkString(", ")
    
    
    
        val anyTypeArgs = (1 to i).map(_ => "Any").mkString(", ")
    
    
    
        val anyCast = s".asInstanceOf[UDF$i[$anyTypeArgs, Any]]"
    
    
    
        val anyParams = (1 to i).map(_ => "_: Any").mkString(", ")
    
    
    
        println(s"""
    
    
    
           |/**
    
    
    
           | * Register a user-defined function with ${i} arguments.
    
    
    
           | * @since 1.3.0
    
    
    
           | */
    
    
    
           |def register(name: String, f: UDF$i[$extTypeArgs, _], returnType: DataType) = {
    
    
    
           |  functionRegistry.registerFunction(
    
    
    
           |    name,
    
    
    
           |    (e: Seq[Expression]) => ScalaUDF(f$anyCast.call($anyParams), returnType, e))
    
    
    
           |}""".stripMargin)
    
    
    
      }
    
    
    
      */
    
    
    
    
    
    
    
    /**
    
    
    
     * Register a Scala closure of 0 arguments as user-defined function (UDF).
    
    
    
     * @tparam RT return type of UDF.
    
    
    
     * @since 1.3.0
    
    
    
     */
    
    
    
    def register[RT: TypeTag](name: String, func: Function0[RT]): UserDefinedFunction = {
    
    
    
      val dataType = ScalaReflection.schemaFor[RT].dataType
    
    
    
      val inputTypes = Try(Nil).getOrElse(Nil)
    
    
    
      def builder(e: Seq[Expression]) = ScalaUDF(func, dataType, e, inputTypes)
    
    
    
      functionRegistry.registerFunction(name, builder)
    
    
    
      UserDefinedFunction(func, dataType, inputTypes)
    
    
    
    }

FunctionRegistry的源码如下：

   
   
   
   
    
    
    
    object FunctionRegistry {
    
    
    
    
    
    
    
      type FunctionBuilder = Seq[Expression] => Expression
    
    
    
    
    
    
    
      val expressions: Map[String, (ExpressionInfo, FunctionBuilder)] = Map(
    
    
    
        // misc non-aggregate functions
    
    
    
        expression[Abs]("abs"),
    
    
    
        expression[CreateArray]("array"),
    
    
    
        expression[Coalesce]("coalesce"),
    
    
    
        expression[Explode]("explode"),
    
    
    
        expression[Greatest]("greatest"),
    
    
    
        expression[If]("if"),
    
    
    
        expression[IsNaN]("isnan"),
    
    
    
        expression[IsNull]("isnull"),
    
    
    
        expression[IsNotNull]("isnotnull"),
    
    
    
        expression[Least]("least"),
    
    
    
        expression[Coalesce]("nvl"),
    
    
    
        expression[Rand]("rand"),
    
    
    
        expression[Randn]("randn"),
    
    
    
        expression[CreateStruct]("struct"),
    
    
    
        expression[CreateNamedStruct]("named_struct"),
    
    
    
        expression[Sqrt]("sqrt"),
    
    
    
        expression[NaNvl]("nanvl"),
    
    
    
    
    
    
    
        // math functions
    
    
    
        expression[Acos]("acos"),
    
    
    
        expression[Asin]("asin"),
    
    
    
        expression[Atan]("atan"),
    
    
    
        expression[Atan2]("atan2"),
    
    
    
        expression[Bin]("bin"),
    
    
    
        expression[Cbrt]("cbrt"),
    
    
    
        expression[Ceil]("ceil"),
    
    
    
        expression[Ceil]("ceiling"),
    
    
    
        expression[Cos]("cos"),
    
    
    
        expression[Cosh]("cosh"),
    
    
    
        expression[Conv]("conv"),
    
    
    
        expression[EulerNumber]("e"),
    
    
    
        expression[Exp]("exp"),
    
    
    
        expression[Expm1]("expm1"),
    
    
    
        expression[Floor]("floor"),
    
    
    
        expression[Factorial]("factorial"),
    
    
    
        expression[Hypot]("hypot"),
    
    
    
        expression[Hex]("hex"),
    
    
    
        expression[Logarithm]("log"),
    
    
    
        expression[Log]("ln"),
    
    
    
        expression[Log10]("log10"),
    
    
    
        expression[Log1p]("log1p"),
    
    
    
        expression[Log2]("log2"),
    
    
    
        expression[UnaryMinus]("negative"),
    
    
    
        expression[Pi]("pi"),
    
    
    
        expression[Pow]("pow"),
    
    
    
        expression[Pow]("power"),
    
    
    
        expression[Pmod]("pmod"),
    
    
    
        expression[UnaryPositive]("positive"),
    
    
    
        expression[Rint]("rint"),
    
    
    
        expression[Round]("round"),
    
    
    
        expression[ShiftLeft]("shiftleft"),
    
    
    
        expression[ShiftRight]("shiftright"),
    
    
    
        expression[ShiftRightUnsigned]("shiftrightunsigned"),
    
    
    
        expression[Signum]("sign"),
    
    
    
        expression[Signum]("signum"),
    
    
    
        expression[Sin]("sin"),
    
    
    
        expression[Sinh]("sinh"),
    
    
    
        expression[Tan]("tan"),
    
    
    
        expression[Tanh]("tanh"),
    
    
    
        expression[ToDegrees]("degrees"),
    
    
    
        expression[ToRadians]("radians"),
    
    
    
    
    
    
    
        // aggregate functions
    
    
    
        expression[HyperLogLogPlusPlus]("approx_count_distinct"),
    
    
    
        expression[Average]("avg"),
    
    
    
        expression[Corr]("corr"),
    
    
    
        expression[Count]("count"),
    
    
    
        expression[First]("first"),
    
    
    
        expression[First]("first_value"),
    
    
    
        expression[Last]("last"),
    
    
    
        expression[Last]("last_value"),
    
    
    
        expression[Max]("max"),
    
    
    
        expression[Average]("mean"),
    
    
    
        expression[Min]("min"),
    
    
    
        expression[StddevSamp]("stddev"),
    
    
    
        expression[StddevPop]("stddev_pop"),
    
    
    
        expression[StddevSamp]("stddev_samp"),
    
    
    
        expression[Sum]("sum"),
    
    
    
        expression[VarianceSamp]("variance"),
    
    
    
        expression[VariancePop]("var_pop"),
    
    
    
        expression[VarianceSamp]("var_samp"),
    
    
    
        expression[Skewness]("skewness"),
    
    
    
        expression[Kurtosis]("kurtosis"),
    
    
    
    
    
    
    
        // string functions
    
    
    
        expression[Ascii]("ascii"),
    
    
    
        expression[Base64]("base64"),
    
    
    
        expression[Concat]("concat"),
    
    
    
        expression[ConcatWs]("concat_ws"),
    
    
    
        expression[Encode]("encode"),
    
    
    
        expression[Decode]("decode"),
    
    
    
        expression[FindInSet]("find_in_set"),
    
    
    
        expression[FormatNumber]("format_number"),
    
    
    
        expression[GetJsonObject]("get_json_object"),
    
    
    
        expression[InitCap]("initcap"),
    
    
    
        expression[JsonTuple]("json_tuple"),
    
    
    
        expression[Lower]("lcase"),
    
    
    
        expression[Lower]("lower"),
    
    
    
        expression[Length]("length"),
    
    
    
        expression[Levenshtein]("levenshtein"),
    
    
    
        expression[RegExpExtract]("regexp_extract"),
    
    
    
        expression[RegExpReplace]("regexp_replace"),
    
    
    
        expression[StringInstr]("instr"),
    
    
    
        expression[StringLocate]("locate"),
    
    
    
        expression[StringLPad]("lpad"),
    
    
    
        expression[StringTrimLeft]("ltrim"),
    
    
    
        expression[FormatString]("format_string"),
    
    
    
        expression[FormatString]("printf"),
    
    
    
        expression[StringRPad]("rpad"),
    
    
    
        expression[StringRepeat]("repeat"),
    
    
    
        expression[StringReverse]("reverse"),
    
    
    
        expression[StringTrimRight]("rtrim"),
    
    
    
        expression[SoundEx]("soundex"),
    
    
    
        expression[StringSpace]("space"),
    
    
    
        expression[StringSplit]("split"),
    
    
    
        expression[Substring]("substr"),
    
    
    
        expression[Substring]("substring"),
    
    
    
        expression[SubstringIndex]("substring_index"),
    
    
    
        expression[StringTranslate]("translate"),
    
    
    
        expression[StringTrim]("trim"),
    
    
    
        expression[UnBase64]("unbase64"),
    
    
    
        expression[Upper]("ucase"),
    
    
    
        expression[Unhex]("unhex"),
    
    
    
        expression[Upper]("upper"),
    
    
    
    ...

可以看出SparkSQL的内置函数也是和UDF一样注册的。

4. Spark SQL Thrift Server实战

The Thrift JDBC/ODBC server implemented here corresponds to the HiveServer2 in Hive 1.2.1 You can test the JDBC server with the beeline script that comes with either Spark or Hive 1.2.1.
打开JDBC/ODBC server：

   
   
   
   
    
    
    
    ps -aux | grep hive 
    
    
    
     hive --service metastore &  //先打开hive元数据
    
    
    
    [1] 28268
    
    
    
    ./sbin/start-thriftserver.sh
    
    
    
    //Now you can use beeline to test the Thrift JDBC/ODBC server:
    
    
    
    
    
    
    
    ./bin/beeline
    
    
    
    //Connect to the JDBC/ODBC server in beeline with:
    
    
    
    
    
    
    
    beeline> !connect jdbc:hive2://master:10000
    
    
    
    //:root
    
    
    
    //密码为空
    
    
    
    hive命令

Java通过JDBC访问Thrift Server

   
   
   
   
    
    
    
    package com.dt.sparksql;
    
    
    
    
    
    
    
    import java.sql.Connection;
    
    
    
    import java.sql.DriverManager;
    
    
    
    import java.sql.PreparedStatement;
    
    
    
    import java.sql.ResultSet;
    
    
    
    import java.sql.SQLException;
    
    
    
    /**
    
    
    
     * 演示Java通过JDBC访问Thrift  Server，进而访问Spark SQL，进而访问Hive，这是企业级开发中最为常见的方式
    
    
    
     * @author dt_sparl
    
    
    
     *
    
    
    
     */
    
    
    
    public class SparkSQLJDBC2ThriftServer {
    
    
    
    
    
    
    
        public static void main(String[] args) throws SQLException {
    
    
    
            String sqlTest = "select name from people where age = ?";
    
    
    
            Connection conn = null;
    
    
    
            ResultSet resultSet = null;
    
    
    
            try {
    
    
    
                Class.forName("org.apache.hive.jdbc.HiveDriver");
    
    
    
                conn = DriverManager.getConnection("jdbc:hive2://:<10001>/?"
    
    
    
                    + "hive.server2.transport.mode=http;hive.server2.thrift.http.path=",
    
    
    
                    "root", "");
    
    
    
    
    
    
    
                 PreparedStatement  preparedStatement = conn.prepareStatement(sqlTest);
    
    
    
                 preparedStatement.setInt(1, 30);
    
    
    
                 resultSet = preparedStatement.executeQuery();
    
    
    
                 while(resultSet.next()){
    
    
    
                     System.out.println(resultSet.getString(1)); //这里的数据应该保存在parquet中
    
    
    
                 }
    
    
    
            } catch (ClassNotFoundException e) {
    
    
    
                // TODO Auto-generated catch block
    
    
    
                e.printStackTrace();
    
    
    
            }finally {
    
    
    
                resultSet.close();
    
    
    
                conn.close();
    
    
    
            }
    
    
    
        }
    
    
    
    }

你可能感兴趣的:(spark)

大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
Hive MR & Spark & Yarn参数优化总结大数据侠客 hive相关问题汇总及解决 hive spark mr yarn 参数优化
一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri
Spark 中创建 DataFrame 的2种方式对比闯闯桑 spark 大数据分布式 scala
spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data),schema)创建df的方式有什么区别？在Spark中，创建DataFrame的方式有多种，其中两种常见的方式是：spark.createDataFrame(data).toDF("nam
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
如何使用 SparkLLM 进行自然语言处理 shuoac python
在当代自然语言处理领域，拥有强大的跨域知识和语言理解能力的模型至关重要。iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。在本文中，我们将深入探讨如何配置和使用SparkLLM来处理自然语言任务。技术背景介绍大规模语言模型（LLM）近年来在各个领域中获得了广泛的应用，它们在处理自然语言任务时表现出色。iF
RDD 行动算子阿强77 RDD Spark
在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。以下是Scala中常见的RDD行动算子：1.collect()将RDD中的所有数据收集到驱动程序中，并返回一个数组。注意：如果数据集很大，可能会导致内存不足。valdata:Array[T]=rdd.collect()2.count()返回RDD中元素的总数。valcount
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
Spark常见面试题目（1）冰火同学 Spark spark 面试大数据
Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。第二种是standalone部署模式，就是一个master节点，控制几个work节点，其实一台机器的standalone模式就是它自己即是master,又是work。第三种是yarn模式，就是吧spark交给yarn进行资源调度管理。第四种就是messon模式，这种在国内很少见到。Spark主备
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
Spark-TTS：基于大模型的文本语音合成工具 CITY_OF_MO_GY 魅力语音语音识别深度学习人工智能
GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成；旨在高效、灵活、强大地用于研究和生产用途。一、介绍SparkTTS完全基于Qwen2.5构建，无需额外的生成模型，它不依赖于单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
大数据实战：Spark + Hive 逐笔计算用户盈亏 WuJiWeb3 区块链链上数据分析从0到1搭建区块链大数据平台 spark hive 大数据 web3 区块链 hadoop
简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。由于我们是进行离线计算，所以我们的数据源是Hive表数据，Sink表也是Hive表，即Spark读取Hive表数据进行批计算之后写回到Hive表并供后续使用。通过本文你将会学到：如何使用SparkSQLAPI读取Hive数据源如何通过读取配置文件进行传参执行SQL如何将SparkSQL转换为JavaRDD进行处理如何
分布式计算入门（PySpark处理NASA服务器日志）闲人编程 Python数据分析实战精要服务器运维统计分析日志 NASA服务器分布式计算 PySpark
目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2数据格式与挑战4.PySpark基础与分布式日志处理4.1PySpark基本架构4.2日志数据加载与解析4.3数据清洗与内存优化4.4GPU加速与SparkRAPIDS5.实验环境与依赖库6.数
Dask vs. Apache Spark: 大数据处理的利器对比与应用实例步入烟尘 Python超入门指南全册 apache spark 大数据
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
spark yum配置 Amu_Yalo spark
yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你
Hadoop、Spark、Flink Shuffle对比逆袭的小学生 hadoop spark flink
一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认
Scala_Spark_RDD_parttwo Gadaite Spark基础 scala spark big data
只做记录不展示结果(部分结果放在了代码的注释中)：packagespark_rddimportorg.apache.spark.sql.SparkSessionobjectrdd_fiveextendsApp{overridedefmain(args:Array[String]):Unit={/***key-valueRDD*pairRDD*2021-10-31*/valp="-----"*20v
Spark scala api（一）RDD编程 weixin_42521881 spark学习
基础初始化sparkvalconf=newSparkConf().setAppName("wordcount")valsc=newSparkContext(conf)转化操作和行动操作的区别在于spark计算rdd的方式不同，只有在第一次在一个行动操作中用到转化操作中的rdd时，才会真正计算这些rdd。创建rdd//驱动器程序对一个集合进行并行化vallines=sc.parallelize(Li
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方