Zhuuu_ZZ

＜Zhuuu_ZZ＞Spark(六)之SparkSQL&DataFrame&DataSet

Spark SQL

一 Spark SQL架构
二运行原理之Catalyst优化器
- 1、运行逻辑
- 2、逻辑计划
- 3、优化
- 4、物理计划
三 Spark SQL API
- 1、SparkSession
- 2、Dataset
- 3、使用Case Class创建Dataset
- 4、RDD->Dataset
- 5、DataFrame
- - 什么是DataFrame
  - DataFrame API常用操作
  - RDD -> DataFrame
  - Seq/List ->DataFrame
  - DataFrame -> RDD
  - DataFrame -> DataSet
四 Spark SQL操作外部数据源
- Spark SQL支持的外部数据源
- Parquet文件
- Spark对Hive表的数据插入和读取
- - Linux虚拟机spark-shell环境
  - IDEA中开发环境
- 操作Mysql中的表
- - 从mysql读数据
  - 向Mysql写数据
五 Spark SQL函数
- 内置函数
- case class
六 Spark UDF&UDAF&UDTF
- UDF
- UDAF
- UDTF
七 Spark SQL CLI
八 Spark性能优化
- 序列化
- 优化点
- - 分区优化
  - join操作

一 Spark SQL架构

Spark SQL是Spark的核心组件之一（Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX）
能够直接访问现存的Hive数据
提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理
提供了更高层级的接口方便地处理数据
支持多种操作方式：SQL、API编程
支持多种外部数据源：Parquet、JSON、RDBMS等

二运行原理之Catalyst优化器

1、运行逻辑

Catalyst优化器是Spark SQL的核心
将逻辑计划转为物理计划

2、逻辑计划

3、优化

在投影上面查询过滤器
检查过滤器是否可下压

4、物理计划

三 Spark SQL API

1、SparkSession

SparkContext
SQLContext
- Spark SQL的编程入口
HiveContext
- SQLContext的子集，包含更多功能
SparkSession（Spark 2.x推荐）
- SparkSession：合并了SQLContext与HiveContext
- 提供与Spark功能交互单一入口点，并允许使用DataFrame和Dataset API对Spark进行编程

//IDEA开发程序时SparkSession创建
//如果是spark-shell下，会自动创建“sc”和“spark”
 val conf: SparkConf = new SparkConf().setAppName("spark").setMaster("local[*]")
val spark = SparkSession.builder
                    .master("master")
                    .appName("appName")
                    .getOrCreate()
//或者
val spark=SparkSession.builder.config(conf).getOrCreate()

2、Dataset

特定域对象中的强类型集合
Seq

scala> spark.createDataset(1 to 3).show
/*

+-----+
|value|
+-----+
|    1|
|    2|
|    3|
+-----+

Array

scala> spark.createDataset(List(("a",1),("b",2),("c",3))).show
/*

+---+---+
| _1| _2|
+---+---+
|  a|  1|
|  b|  2|
|  c|  3|
+---+---+

scala> spark.createDataset(sc.parallelize(List(("a",1,1),("b",2,2)))).show
/*
+---+---+---+
| _1| _2| _3|
+---+---+---+
|  a|  1|  1|
|  b|  2|  2|
+---+---+---+

createDataset()的参数可以是：Seq、Array、RDD
上面三行代码生成的Dataset分别是：Dataset[Int]、Dataset[(String,Int)]、Dataset[(String,Int,Int)]
Dataset=RDD+Schema，所以Dataset与RDD有大部共同的函数，如map、filter等

3、使用Case Class创建Dataset

Scala中在class关键字前加上case关键字这个类就成为了样例类，样例类和普通类区别：
- (1)不需要new可以直接生成对象
- (2)默认实现序列化接口
- (3)默认自动覆盖 toString()、equals()、hashCode()

case class Point(label:String,x:Double,y:Double)
case class Category(id:Long,name:String)
val points=Seq(Point("bar",3.0,5.6),Point("foo",-1.0,3.0)).toDS
val categories=Seq(Category(1,"foo"), Category(2,"bar")).toDS
points.join(categories,points("label")===categories("name")).show
/*

+-----+----+---+---+----+
|label|   x|  y| id|name|
+-----+----+---+---+----+
|  bar| 3.0|5.6|  2| bar|
|  foo|-1.0|3.0|  1| foo|
+-----+----+---+---+----+

4、RDD->Dataset

case class Point(label:String,x:Double,y:Double)
case class Category(id:Long,name:String)
val pointsRDD=sc.parallelize(List(("bar",3.0,5.6),("foo",-1.0,3.0)))
val categoriesRDD=sc.parallelize(List((1,"foo"),(2,"bar")))
val points=pointsRDD.map(line=>Point(line._1,line._2,line._3)).toDS
val categories=categoriesRDD.map(line=>Category(line._1,line._2)).toDS
points.join(categories,points("label")===categories("name")).show
/*

+-----+----+---+---+----+
|label|   x|  y| id|name|
+-----+----+---+---+----+
|  bar| 3.0|5.6|  2| bar|
|  foo|-1.0|3.0|  1| foo|
+-----+----+---+---+----+

5、DataFrame

什么是DataFrame

DataFrame=Dataset[Row]，即DataFrame是Dataset的子类型
类似传统数据的二维表格
在RDD基础上加入了Schema（数据结构信息）
DataFrame Schema支持嵌套数据类型
- struct
- map
- array
提供更多类似SQL操作的API

DataFrame API常用操作

创建DataFrame

 /** 将JSON文件转成DataFrame
      * users.json内容如下
      * {"name":"Michael"}
      * {"name":"Andy", "age":30}
      * {"name":"Justin", "age":19}
      */
val df = spark.read.json("file:///software/wordcount/users.json")
// 使用show方法将DataFrame的内容输出
df.show
/*
+----+-------+
| Age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

使用printSchema方法输出DataFrame的Schema信息

df.printSchema()
/*
root
 |-- Age: long (nullable = true)
 |-- name: string (nullable = true)

使用select方法来选择我们所需要的字段

df.select("name").show()
/*
+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+

使用select方法选择我们所需要的字段，并未age字段加1

df.select(df("name"), df("age") + 1).show()
//等价于
df.select(df.col("name"), df.col("age") + 1).show()
/*
+-------+---------+
|   name|(age + 1)|
+-------+---------+
|Michael|     null|
|   Andy|       31|
| Justin|       20|
+-------+---------+

使用filter方法完成条件过滤

df.filter(df("age") > 21).show()
/*
+---+----+
|Age|name|
+---+----+
| 30|Andy|
+---+----+

使用groupBy方法进行分组，求分组后的总数

df.groupBy("age").count().show()
/*
+----+-----+
| age|count|
+----+-----+
|  19|    1|
|null|    1|
|  30|    1|
+----+-----+

sql()方法执行SQL查询操作

df.registerTempTable("people")
spark.sql("SELECT * FROM people").show
/*
+----+-------+
| Age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

RDD -> DataFrame

通过反射RDD内的Schema
凡是涉及到其它类型到DF转换都需要导入隐式包import spark.implicits._

case class People(name:String,age:Int)
object rddToDF {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("sparksql").master("local[*]").getOrCreate()
         //sc的第一种获取方式
    //val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("rddToDF")
    //    val sc: SparkContext = SparkContext.getOrCreate(conf)
        //sc的第二种获取方式
    // val sc: SparkContext = new SparkContext(conf)
        //sc的第三种获取方式，通过SparkSession获取
        val sc: SparkContext = spark.sparkContext

    //将 RDD转换成DataFrame第一种方式-通过反射
    import spark.implicits._    //这里的spark指上面的定义的spark对象，名字跟着它走
    val df: DataFrame = sc.textFile("in/people.txt").map(x=>x.split(",")).map(x=>People(x(0),x(1).toInt)).toDF()
    df.printSchema()
    df.show()
  }
}

通过编程接口指定Schema

//方式二：通过编程接口指定Schema
case class Person(name String,age Int)
val people: RDD[String] =sc.textFile("file:///home/hadoop/data/people.txt")
// 以字符串的方式定义DataFrame的Schema信息
val schemaString = "name age"
//导入所需要的类
import org.apache.spark.sql.Row
import org.apache.spark.sql.types._
// 根据自定义的字符串schema信息产生DataFrame的Schema
    val schema: StructType = StructType(schemaString.split(" ").map(fieldName=>{
      if(fieldName.equals("name"))
      StructField(fieldName,StringType,true)
      else
        StructField(fieldName,IntegerType,true)
    }))
//将RDD转换成Row
val rowRDD: RDD[Row]= people.map(_.split(",")).map(p => Row(p(0), p(1).toInt))
// 将Schema作用到RDD上
val peopleDataFrame: DataFrame = spark.createDataFrame(rowRDD, schema)
// 将DataFrame注册成临时表
peopleDataFrame.registerTempTable("people")
val results = spark.sql("SELECT name FROM people")
results.show

Seq/List ->DataFrame

元素数量，类型随意。

 case class Student(id:Int,name:String,sex:String,age:Int)
   val stuDF: DataFrame = Seq(
      Student(1001, "zhangsan", "F", 20),
      Student(1002, "lisi", "M", 16),
      Student(1003, "wangwu", "M", 21),
      Student(1004, "zhaoliu", "F", 21),
      Student(1005, "zhouqi", "M", 22),
      Student(1006, "qianba", "M", 22),
      Student(1007, "liuliu", "F", 23)
    ).toDF()  //Seq/List可以直接toDF

 val df: DataFrame = List((1,20),(3,40)).toDF("id","age")
    df.show()
/*
+---+---+
| id|age|
+---+---+
|  1| 20|
|  3| 40|
+---+---+

DataFrame -> RDD

val rdd: RDD[Row] = peopleDataFrame.rdd

DataFrame -> DataSet

 val frame: DataFrame= sqlContext.sql("select name,count(cn) from tbwordcount group by name")

    //方法一
      val DS1: Dataset[(String, Long)] = frame.map(row => {
        val name: String = row.getAs[String]("name")
        val cn: Long = row.getAs[Long]("cn")
        (name, cn)
      })
      
      //方法二
     val DS2: Dataset[(String, Long)] = frame.as[(String,Long)]

四 Spark SQL操作外部数据源

Spark SQL支持的外部数据源

Parquet文件

是一种流行的列式存储格式，以二进制存储，文件中包含数据与元数据

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import org.apache.spark.sql.types._

object ParDemo {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("ParquetDemo").getOrCreate()
     import spark.implicits._
    val sc: SparkContext = spark.sparkContext
    val list = List(
      ("zhangsan", "red", Array(3, 4, 5)),
      ("lisi", "blue", Array(7, 8, 9)),
      ("wangwu", "black", Array(12, 15, 19)),
      ("zhaoliu", "orange", Array(7, 9, 6))
    )
    val rdd1: RDD[(String, String, Array[Int])] = sc.parallelize(list)
    val schema = StructType(
      Array(
        StructField("name", StringType),
        StructField("color", StringType),
        StructField("numbers", ArrayType(IntegerType))
      )
    )
   val rowRDD: RDD[Row] = rdd1.map(x=>Row(x._1,x._2,x._3))
   val df: DataFrame = spark.createDataFrame(rowRDD,schema)
    df.show()
   df.write.parquet("out/color")
     val frame: DataFrame = spark.read.parquet("out/color")
        frame.printSchema()
      frame.show()
  }
}

Spark对Hive表的数据插入和读取

Spark SQL与Hive集成:

Linux虚拟机spark-shell环境

- 复制hive中的hive-site.xml至spark安装目录下的conf下(ln -s /opt/hive/conf/hive-site.xml  /opt/spark/conf/hive-site.xml)
- 将mysql驱动拷贝至spark的jars目录下(cp /opt/hive/lib/mysql-connector-java-5.1.38.jar  /opt/spark/jars/)
- 启动元数据服务：nohup hive --service metastore &
- spark-shell
- 然后直接在spark.sql("....")里面写sql语句就可以了(scala> spark.sql("select * from stu").show())
- 同样，也不能够在spark-shell中创建hive数据库。

IDEA中开发环境

linux虚拟机输入下述命令会开启jps的RunJar就ok了
- nohup hive --service metastore &
IDEA中创建HIve数据库会产生权限问题：-chgrp: 'LAPTOP-F4OELHQ8\86187' does not match expected pattern for groupUsage: hadoop fs [generic options] -chgrp [-R] GROUP PATH...。会导致表能够创建成功，但是数据会存到IDEA目录下，不会上传到HDFS上，并且创建的数据库仅仅是个文件夹没有.db后缀。暂时未找到解决方案。建议：数据库提前用虚拟机创建好，然后使用即可。
IDEA添加依赖

 <!-- spark-sql -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
    
    <!-- spark-hive -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
    
     <!-- mysql-connector-java -->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.38</version>
        </dependency>

IDEA开发代码

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object SparksqlOnHiveDemo {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("sparkHive")
      .master("local[*]")
       .config("hive.metastore.uris","thrift://192.168.198.201:9083")
      .enableHiveSupport().getOrCreate()

    spark.sql("show databases").collect().foreach(println)

     //spark 默认连接Hive Default库
    //使用其他库的表请 库名.表名
     val df: DataFrame = spark.sql("select * from toronto")
     df.printSchema()
     df.show()

     val df2: Dataset[Row] = df.where(df("ssn").startsWith("158"))
     val df3: Dataset[Row] = df.filter(df("ssn").startsWith("158"))
  }
}

操作Mysql中的表

虚拟机中请将mysql-connector-java-5.1.38.jar复制到spark安装目录的jars下
IDEA中请添加以下依赖

 <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.38</version>
    </dependency>

从mysql读数据

方式1：通用的load方法读取

 spark.read.format("jdbc")
      .option("url", "jdbc:mysql://192.168.198.201:3306/hive")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("user", "root")
      .option("password", "ok")
      .option("dbtable", "TBLS")
      .load().show

方式2：通用的load方法读取的另一种形式

spark.read.format("jdbc")
      .options(Map("url"->"jdbc:mysql://192.168.198.201:3306/hive?user=root&password=ok",
        "dbtable"->"TBLS","driver"->"com.mysql.jdbc.Driver")).load().show

方式3：使用jdbc方法读取

import org.apache.spark.sql.{DataFrame, SparkSession}

object SparksqlOnMysqlDemo {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().master("local[*]")
      .appName("sparksqlOnmysql")
      .getOrCreate()

    val url="jdbc:mysql://192.168.198.201:3306/hive"
    val user="root"
    val pwd="ok"
    val driver="com.mysql.jdbc.Driver"

    val prop=new java.util.Properties()
    prop.setProperty("user",user)
    prop.setProperty("password",pwd)
    prop.setProperty("driver",driver)

    val df: DataFrame = spark.read.jdbc(url,"TBLS",prop)
    df.show()
    df.where(df("CREATE_TIME").startsWith("159")).show()
    val frame: DataFrame = df.groupBy(df("DB_ID")).count()
    frame.printSchema()
    frame.orderBy(frame("count").desc).show()
  }
}

向Mysql写数据

数据库要提前存在
表不存在，会自动创建表

object SparkSQL03_Datasource {
  def main(args: Array[String]): Unit = {
    //创建上下文环境配置对象
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL01_Demo")
    //创建SparkSession对象
    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    import spark.implicits._

 val rdd: RDD[(String, Int)] = spark.sparkContext.parallelize(List(("zs",21),("ls",23),("ww",26)))
val df: DataFrame = rdd.toDF("name","age")

方式1：通用的方式 format指定写出类型

df.write
  .format("jdbc")
  .option("url", "jdbc:mysql://192.168.198.201:3306/test")
  .option("user", "root")
  .option("password", "ok")
  .option("dbtable", "users")
  .mode(SaveMode.Append)
  .save()
/*

mysql> select * from users;
+------+------+
| name | age  |
+------+------+
| ls   |   23 |
| zs   |   21 |
| ww   |   26 |
+------+------+
3 rows in set (0.00 sec)

方式2：通过jdbc方法

  val props: Properties = new Properties()
    props.setProperty("user", "root")
    props.setProperty("password", "ok")
    df.write.mode(SaveMode.Append).jdbc("jdbc:mysql://192.168.198.201:3306/test", "users", props)
/*

mysql> select * from users;
+------+------+
| name | age  |
+------+------+
| ls   |   23 |
| zs   |   21 |
| ww   |   26 |
+------+------+
3 rows in set (0.00 sec)

五 Spark SQL函数

内置函数

package sparkSQL
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession, types}

object InnerFunctionDemo {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("innerfunction").master("local[*]").getOrCreate()

    import spark.implicits._
    val sc: SparkContext = spark.sparkContext
    val accessLog = Array(
      "2016-12-27,001",
      "2016-12-27,001",
      "2016-12-27,002",
      "2016-12-28,003",
      "2016-12-28,004",
      "2016-12-28,002",
      "2016-12-28,002",
      "2016-12-28,001"
    )
    import org.apache.spark.sql.functions._
    import org.apache.spark.sql.types._
//    val rdd1: RDD[String] = sc.parallelize(accessLog)
//   val rdd2: RDD[(String, String)] = rdd1.map(x=>x.split(",")).map(x=>(x(0),x(1)))
//     val frame: DataFrame = rdd2.toDF("date","user_id")
//    frame.groupBy("date").agg(count("user_id")).select("date","count(user_id)").show()

    val rdd1: RDD[Row] = sc.parallelize(accessLog).map(x=>x.split(",")).map(x=>Row(x(0),x(1).toInt))
    val structType= StructType(Array(
      StructField("day", StringType, true),
      StructField("user_id", IntegerType, true)
    ))
    val frame: DataFrame = spark.createDataFrame(rdd1,structType)
    frame.groupBy("day").agg(countDistinct("user_id").as("pv")).select("day","pv")
      .collect().foreach(println)

  }
}

case class

import org.apache.spark.SparkContext
import org.apache.spark.sql.{DataFrame, SparkSession}



object caseClass {
  case class Student(id:Int,name:String,sex:String,age:Int)
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("case").getOrCreate()
    val sc: SparkContext = spark.sparkContext
   import spark.implicits._
    val stuDF: DataFrame = Seq(
      Student(1001, "zhangsan", "F", 20),
      Student(1002, "lisi", "M", 16),
      Student(1003, "wangwu", "M", 21),
      Student(1004, "zhaoliu", "F", 21),
      Student(1005, "zhouqi", "M", 22),
      Student(1006, "qianba", "M", 22),
      Student(1007, "liuliu", "F", 23)
    ).toDF()  //Seq/List可以直接toDF
//    stuDF.printSchema()
//    stuDF.show()

    import org.apache.spark.sql.functions._
    stuDF.groupBy(stuDF("sex")).agg(count(stuDF("age")).as("num")).show()
    stuDF.groupBy(stuDF("sex")).agg(max(stuDF("age")).as("max")).show()
    stuDF.groupBy(stuDF("sex")).agg(min(stuDF("age")).as("min")).show()

    stuDF.groupBy(stuDF("sex")).agg("age"->"max","age"->"min","age"->"avg","id"->"count").show()

    stuDF.groupBy("sex","age").count().show()

  }
}

六 Spark UDF&UDAF&UDTF

UDF

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkUDFDemo {
  case class Hobbies(name:String,hobbies:String)
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("innerfunction").master("local[*]").getOrCreate()

    import spark.implicits._
    val sc: SparkContext = spark.sparkContext
    val rdd: RDD[String] = sc.textFile("in/hobbies.txt")
    val df: DataFrame = rdd.map(x=>x.split(" ")).map(x=>Hobbies(x(0),x(1))).toDF()
     //df.printSchema()
   // df.show()
    df.registerTempTable("hobbies")
    spark.udf.register("hobby_num",
      (v:String)=>v.split(",").size
    )
    val frame: DataFrame = spark.sql("select name,hobbies,hobby_num(hobbies) as hobnum from hobbies")
    frame.show()
  }
}
/*
+-----+--------------------+------+
| name|             hobbies|hobnum|
+-----+--------------------+------+
|alice|jogging,Coding,co...|     3|
| lina|        travel,dance|     2|
+-----+--------------------+------+

UDAF

import org.apache.spark.SparkContext
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._
//自定义UDAF函数
object SparkUDAFDemo {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("udaf").master("local[*]").getOrCreate()
    val sc: SparkContext = spark.sparkContext

    val df: DataFrame = spark.read.json("in/user.json")
//    df.printSchema()
   println("读取的文件详情")   
    df.show()

    //创建并注册自定义udaf函数
    val myUdaf = new MyAgeAvgFunction
    spark.udf.register("myAvgAge", myUdaf)

    df.createTempView("userinfo")

    val resultDF: DataFrame = spark.sql("select  sex, myAvgAge(age) from userinfo group by sex")

  //  resultDF.printSchema()
  println("使用udaf后的效果")
    resultDF.show()
  }
}


class MyAgeAvgFunction extends UserDefinedAggregateFunction{
  //聚合函数的输入数据结构
  override def inputSchema: StructType = {
    new StructType().add("age",LongType)
//    StructType(StructField("age",LongType)::Nil)  //上下等价
  }
  //缓存区数据结构
  override def bufferSchema: StructType = {
    new StructType().add("sum",LongType).add("count",LongType)
//    StructType(StructField("sum",LongType)::StructField("count",LongType)::Nil)
  }
  //聚合函数返回值数据结构
  override def dataType: DataType = DoubleType
  //聚合函数是否是幂等的，即相同输入是否总是能得到相同输出
  override def deterministic: Boolean =true
  //初始化缓冲区
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0)=0L
    buffer(1)=0L
  }
  //给聚合函数传入一条新数据进行处理
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer(0) = buffer.getLong(0)+input.getLong(0)
    buffer(1) = buffer.getLong(1)+1
  }
  //合并聚合函数缓冲区
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    //总年龄数
    buffer1(0)=buffer1.getLong(0)+buffer2.getLong(0)
    //总人数
    buffer1(1)=buffer1.getLong(1)+buffer2.getLong(1)
  }
  //计算最终结果
  override def evaluate(buffer: Row): Any = {
    buffer.getLong(0).toDouble/buffer.getLong(1)
  }
}

/*
读取的文件详情
+---+----+----+-----+
|age|  id|name|  sex|
+---+----+----+-----+
| 20|1001| foo|  man|
| 24|1002| bar|  man|
| 18|1003| baz|  man|
| 17|1004|foo1|woman|
| 19|1005|bar2|woman|
| 20|1006|baz3|woman|
+---+----+----+-----+

使用udaf后的效果
+-----+---------------------+
|  sex|myageavgfunction(age)|
+-----+---------------------+
|  man|   20.666666666666668|
|woman|   18.666666666666668|
+-----+---------------------+

UDTF

import java.util
import org.apache.hadoop.hive.ql.exec.UDFArgumentException
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory
import org.apache.hadoop.hive.serde2.objectinspector.{ObjectInspector, ObjectInspectorFactory, PrimitiveObjectInspector, StructObjectInspector}
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}


object SparkUDTFDemo {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("udtf").master("local[*]")
      .enableHiveSupport()        //因为spark不支持UDTF，所以这里添加hive支持
      .getOrCreate()
    val sc: SparkContext = spark.sparkContext
    import spark.implicits._
    val lines: RDD[String] = sc.textFile("in/udtf.txt")
    val stuDF: DataFrame = lines.map(_.split("//")).filter(x => x(1).equals("ls"))
      .map(x => (x(0), x(1), x(2))).toDF("id", "name", "class")
//    stuDF.printSchema()
//    stuDF.show()
    stuDF.createOrReplaceTempView("student")

   spark.sql("CREATE TEMPORARY FUNCTION MyUDTF AS 'sparkSQL.myUDTF' ")
    spark.sql("select MyUDTF(class) from student").show()

  }
}

class myUDTF extends GenericUDTF{
  override def initialize(argOIs: Array[ObjectInspector]): StructObjectInspector = {
    //输出参数校验
    if(argOIs.length != 1){
      throw new UDFArgumentException("有且只能有一个参数")
    }
    if(argOIs(0).getCategory!=ObjectInspector.Category.PRIMITIVE){
      throw new UDFArgumentException("参数类型不匹配")
    }

    val fieldNames=new util.ArrayList[String]
    val fieldOIs=new util.ArrayList[ObjectInspector]()
    //定义输出列表字段名称
    fieldNames.add("type")
    //定义的是输出列表的字段类型
    fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector)
    ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs)
  }

  //这是处理数据的方法，入参数组只有1行数据，即每次调用process方法只处理一行数据
  //传入 Hadoop scala kafka hive ...
  //输出 HEAD  type   String
  //          Hadoop
  //          scala
  //          kafka
  //          hive
  //          ...
  override def process(objects: Array[AnyRef]): Unit ={
    //将字符串切分为单个字符的数组
    val strings: Array[String] = objects(0).toString.split(" ")
    println(strings.mkString(","))
    for (elem <- strings) {
      val tmp = new Array[String](1)
      tmp(0)=elem
      forward(tmp)
    }
  }
  override def close(): Unit = {}
}

/*
+------+
|Hadoop|
| scala|
| kafka|
|  hive|
| hbase|
| Oozie|
+------+

七 Spark SQL CLI

Spark SQL CLI是在本地模式下使用Hive元存储服务和执行从命令行所输入查询语句的简便工具
注意，Spark SQL CLI无法与thrift JDBC服务器通信
Spark SQL CLI等同于Hive CLI（old CLI）、Beeline CLI（new CLI）
将hive-site.xml、hdfs-site.xml、core-site.xml复制到$SPARK_HOME/conf目录下
启动Spark SQL CLI，请在Spark目录中运行以下内容./bin/spark-sql

$spark-sql
spark-sql> show databases;
default
spark-sql> show tables;
default		toronto		false

spark-sql> select * from toronto where ssn like '111%';
John S. 111-222-333 123 Yonge Street

spark-sql> create table montreal(full_name string, ssn string, office_address string);
spark-sql> insert into montreal values('Winnie K. ', '111-222-333 ', '62 John Street');
spark-sql> select t.full_name, m.ssn, t.office_address, m.office_address from toronto t inner join montreal m on t.ssn = m.ssn;
John S. 	111-222-333 	123 Yonge Street 	62 John Street

八 Spark性能优化

序列化

Java序列化，Spark默认方式
Kryo序列化，比Java序列化快约10倍，但不支持所有可序列化类型

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");
//向Kryo注册自定义类型
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]));

如果没有注册需要序列化的class，Kyro依然可以照常工作，但会存储每个对象的全类名(full class name)，这样往往比默认的 Java serialization 更浪费空间

优化点

使用对象数组(array数组)、原始类型(基本数据类型)代替Java、Scala集合类（如HashMap）
避免嵌套结构
尽量使用数字作为Key，而非字符串
以较大的RDD使用MEMORY_ONLY_SER
加载CSV、JSON时，仅加载所需字段
仅在需要时持久化中间结果（RDD/DS/DF）
避免不必要的中间结果（RDD/DS/DF）的生成
DF的执行速度比DS快约3倍（结构简单，只有Row对象）

分区优化

自定义RDD分区与spark.default.parallelism
- 该参数用于设置每个stage的默认task数量
将大变量广播出去，而不是直接使用
尝试处理本地数据并最小化跨工作节点的数据传输

join操作

小表放在join左边，会缓存进内存，右边的大表一一与内存中表关联，效率更快
还有一个说法是表中重复键较少的表放在join左边，因为写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理。两表关联时，即使匹配到一条数据，它还是会继续运行下去，也就是说当一个表关联条件所在字段的某一个值有重复时，会打印多条重复的值

你可能感兴趣的:(Spark,SparkSQL,Spark优化,DataSet,DataFrame)

【商城实战(23)】筑牢安全防线，防范常见漏洞奔跑吧邓邓子商城实战安全商城实战 uniapp SpringBoot Element plus SQL注入 CSRF
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
深入理解Java字符串处理三剑客：String、StringBuffer、StringBuilder全面解析 xiyubaby.17 java
Java字符串处理三剑客：String、StringBuffer、StringBuilder全面解析一、核心特性对比1.不可变性类名可变性底层存储结构String不可变对象privatefinalcharvalue[]（JDK8及之前）或byte[]（JDK9+优化）StringBuffer可变对象继承自AbstractStringBuilder，使用普通字符数组char[]valueString
Spring Security 6.4登录全览：机制、特性、实战与优化古龙飞扬 java 前端数据库
一、登录机制SpringSecurity的登录机制是其安全框架的核心部分，它提供了一种灵活且强大的方式来保护应用程序的资源。在SpringSecurity6.4中，登录机制主要包括以下几个方面：认证流程：用户通过登录表单提交用户名和密码。SpringSecurity的UsernamePasswordAuthenticationFilter拦截该请求，并从中提取用户名和密码。创建一个Username
COMP 315: Cloud Computing 后端
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
用Python打造智能姓名生成器：从数据分离到AI赋能灏瀚星空 python 人工智能开发语言经验分享笔记
用Python打造智能姓名生成器：从数据分离到AI赋能目录项目概述与功能清单环境准备与工具选择项目架构设计核心代码实现AI古文解析模块交互界面开发使用示例与效果展示扩展思路与优化建议1.项目概述与功能清单核心功能数据管理CSV文件存储姓氏/名字库支持用户导入/导出数据交互界面姓名生成与实时预览已选名单管理（增删改查）排除词输入框（黑名单过滤）AI赋能从古文中提取字词及注解自动生成姓名寓意解析扩展功
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构 weixin_42587823 linux云计算 nginx 负载均衡架构
Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构一、负载均衡的核心价值当单台服务器无法承载高并发流量时，负载均衡通过将请求分发到多台服务器，实现：横向扩展：突破单机性能瓶颈故障隔离：自动剔除异常节点动态调度：根据策略优化资源利用率二、Nginx原生负载均衡策略1.轮询（RoundRobin）配置示例：upstreambackend{server192.168.1.10:8080;s
COMP 315: Cloud Computing 后端
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
webpack-bundle-analyzer 包分析工具的使用不想吃菠萝 vue vue优化 webpack 前端 vue
webpack-bundle-analyzer它将创建所有捆绑包内容的交互式树状图可视化。该模块将帮助您：1.了解捆绑包中的真正内容2.找出哪些模块占其大小的大部分3.查找错误到达那里的模块4.优化一下吧！1、安装#NPMnpminstall--save-devwebpack-bundle-analyzer#Yarnyarnadd-Dwebpack-bundle-analyzer2、用法（作为插件
如何做好产品测试管理测试工具
做好产品测试管理的关键在于测试规划、流程标准化、数据驱动决策。其中，测试规划要求在项目初期就明确产品质量目标和测试策略；流程标准化强调建立严谨、可重复的测试流程和标准，确保每个测试环节有章可循；数据驱动决策则通过实时数据监控和反馈分析，持续优化测试方案，最终提升产品质量与用户满意度。一、产品测试管理的重要性与基本概念在软件开发和互联网时代，产品测试管理是保障软件质量、确保产品稳定交付的核心环节。产
4A架构：企业数字化转型的核心引擎 ronshi 架构架构
4A架构，即业务架构、应用架构、数据架构和技术架构的统称，是构建数字化企业的基石。这四个方面相互关联、相互支撑，共同构成了企业信息化建设的完整体系。一、业务架构：明确方向与目标业务架构是数字化转型的起点，通过对企业价值流和业务目标的梳理，为后续的架构设计提供指导。企业需明确战略定位，识别核心业务流程，并优化组织结构，以确保数字化转型与业务目标相契合。二、应用架构：实现业务能力应用架构将业务架构转化
Webpack 前端性能优化全攻略北辰alk 前端 vue 前端 webpack 性能优化
文章目录1.性能优化全景图1.1优化维度概览1.2优化效果指标2.构建速度优化2.1缓存策略2.2并行处理2.3减少构建范围3.输出质量优化3.1代码分割3.2TreeShaking3.3压缩优化4.运行时性能优化4.1懒加载4.2预加载4.3资源优化5.高级优化策略5.1持久化缓存5.2模块联邦5.3性能分析6.优化效果验证6.1构建速度分析6.2性能监控7.最佳实践总结7.1优化策略7.2持续
webpack打包可视化分析之--webpack-bundle-analyzer 诗棋吖 webpack 前端 node.js javascript npm yarn angular
在开发一些项目的时候，有时候有些旧的框架项目用的webpacke打包慢，打包出来的包文件大，然而我们想要对它进行优化分析，有些旧的项目可能在不断迭代的过程中，有些模块功能改造或者有些需求变化，有些新需求模块开发测试完后，后面旧的模块功能有些不用等需要注释或者删掉，但是由于多人协作和历史版本迭代，有些依赖也可能没删除等，此时我们想对项目做一次比较系统的打包优化分析，我们需要一些可视化插件去帮助我们优
新兴技术对 TCP/IP 链路层性能提升的影响研究 wire290 网络
目录软件定义网络（SDN）对链路层性能的优化灵活的流量调度快速的故障恢复网络功能虚拟化（NFV）在链路层的优势体现降低硬件成本与灵活部署提升资源利用率5G技术对链路层的革命性影响超高速率与低延迟传输海量连接支持在数字化时代浪潮中，网络技术日新月异，新兴技术不断涌现。这些技术正逐步渗透到TCP/IP协议栈的各个层面，其中链路层作为网络通信的基础，受到的影响尤为显著。从提升传输速率到增强网络稳定性，新
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
贵重资产跟踪和监测领域的市场机会点番茄老夫子物联网
一、技术创新驱动带来的机会点随着全球卫星导航系统（GNSS）不断完善，如北斗系统的高精度定位服务愈发成熟，定位精度可达到亚米级甚至厘米级。在贵重资产运输，像高价值艺术品、精密医疗器械等领域，这种高精度定位能够实时精准掌握资产位置，防止运输途中的丢失与被盗风险，为资产所有者提供更高的安全保障，由此催生对高精度定位设备与服务的需求。室内定位技术，如基于蓝牙、Wi-Fi的定位方案不断优化，在大型仓库、物
鸿蒙应用开发（HarmonyOS）自定义装饰器场景你我皆是牛马星人鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为鸿蒙 android ui 前端鸿蒙系统
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）介绍本示例介绍通过自定义装饰器在自定义组件中自动添加inspector(布局
LVPECL（Low Voltage Positive Emitter-Coupled Logic）电平详解美好的事情总会发生电平标准接口电平嵌入式硬件硬件工程智能硬件
一、LVPECL的定义与核心特性LVPECL（低电压正射极耦合逻辑）是PECL（正射极耦合逻辑）的低电压版本，专为现代低功耗、高集成度系统优化，采用3.3V或2.5V供电。其继承了PECL的高速性能，同时通过降低电压减少功耗，广泛应用于高速通信、时钟分配和高可靠性场景。1.电气特性供电电压：3.3V（主流）、2.5V（部分器件）。电平范围：差分摆幅：约600mV（峰峰值），单端摆幅±300mV。共
YOLO优化之扫描融合模块（SimVSS Block）清风AI 人工智能计算机视觉 YOLO 目标检测深度学习目标跟踪
研究背景在自动驾驶技术快速发展的背景下，目标检测作为其核心组成部分面临着严峻挑战。驾驶场景中目标尺度和大小的巨大差异，以及视觉特征不显著且易受噪声干扰的问题，对辅助驾驶系统的安全性构成了潜在威胁。传统的卷积神经网络（CNN）虽然在目标检测领域取得了显著进展，但仍存在局限性，如局部关注性导致难以有效检测不同尺度的目标。为克服这些问题，研究人员开始探索将状态空间模型（SSM）引入目标检测领域，以期提高
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
解锁命令模式：Java 编程中的解耦神器编程巫师设计模式命令模式 java 开发语言
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
解锁外观模式：Java 编程中的优雅架构之道编程巫师设计模式外观模式 java 架构
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
git 解决push报错：[rejected] master -> master (fetch first) error: failed to push some refs to weixin_30621919 git
今天对代码进行了修改优化，然后往往远程push，但push后报错了git操作gitadd.gitcommit-m"fix"gitpushoriginmaster:dev-gaochao报错信息Tohttps://amc-msra.visualstudio.com/trading-algo/_git/real-trading![rejected]master->dev-gaochao(fetchfi
Assembly语言的物联网协议易静妍包罗万象 golang 开发语言后端
以Assembly语言的物联网协议引言随着互联网技术的不断发展，物联网（IoT）作为一个新兴的热门领域，正逐渐改变着我们的生活、工作与交流方式。物联网设备的种类繁多，包括智能家居、工业控制、医疗监测等，而这些设备之间的通信则依赖于各种网络协议。而在这些协议的背后，底层的实现往往需要使用低级的编程语言，如Assembly（汇编语言）进行优化。本文将从物联网协议的基本概念入手，探讨汇编语言在这些协议实
组态软件在物联网中的应用概述 by组态软件物联网 web组态组态低代码流程图
组态软件在物联网（IoT）中的应用主要体现在以下几个方面：1.设备监控与管理组态软件通过图形化界面实时监控物联网设备的状态，如温度、湿度、压力等，并支持远程控制，帮助用户及时发现并处理异常。2.数据采集与分析组态软件能够从物联网设备中采集数据，进行存储和分析，生成趋势图、报表等，辅助用户优化系统运行。3.系统集成组态软件支持多种通信协议（如MQTT、OPCUA等），能够集成不同厂商的设备，实现统一
代码编辑器 v2.0 3月22日上线！浔川社团官方联合会浔川社团官方联合会浔川AI翻译研发社团浔川代码编辑器研发分社团编辑器
代码编辑器v2.0下周六上线！亲爱的用户们：经过我们团队的不懈努力与精心打磨，备受期待的代码编辑器v2.0即将在下周六（3月22日）正式上线，为大家带来更加高效、便捷、智能的代码编写体验！此次代码编辑器v2.0版本，在功能上实现了重大突破与升级。我们优化了代码的智能提示系统，能够更精准、快速地预测您需要的代码片段，极大提升编写效率；全新的代码结构分析功能，可直观展示代码的层级关系，让复杂的代码逻辑
解锁适配器模式：代码重构与架构优化的魔法钥匙编程巫师设计模式 java 适配器模式设计模式
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
DeepSeek 发布开源第二弹！让MoE架构效率提升的神助攻【DeepEP】碣石潇湘无限路开源架构 llama ai
摘要：本文将针对DeepEP项目进行深入浅出的功能解析与设计分析，并在此基础上提出一些潜在的优化思路。本报告分为三个主要部分：功能解析、创新设计点、可能的优化方案。为了便于理解，文中会适度引用部分代码片段或函数接口说明。一、功能解析DeepEP旨在为MoE（MixtureofExperts）及其专家并行（Expert-Parallel）场景提供高效的通信库，核心功能包括：分发（Dispatch）：
如何进行OceanBase 运维工具的部署和表性能优化呢? oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
Matlab 高效编程：用矩阵运算替代循环算法工程师y matlab 矩阵 java
引言在Matlab中，循环（如for或while）虽然易于理解，但可能导致性能瓶颈，尤其是处理大规模数据时。矩阵运算的向量化是Matlab高效编程的核心，利用内置函数和矩阵操作避免逐元素处理，可显著提升代码速度（有时甚至提速百倍）。本文将通过实例演示如何将循环逻辑转化为矩阵运算。1.为什么矩阵运算比循环快？Matlab底层基于C/C++和Fortran高度优化的矩阵库（如BLAS、LAPACK），
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

＜Zhuuu_ZZ＞Spark(六)之SparkSQL&DataFrame&DataSet

Spark SQL

一 Spark SQL架构

二 运行原理之Catalyst优化器

1、运行逻辑

2、逻辑计划

3、优化

4、物理计划

三 Spark SQL API

1、SparkSession

2、Dataset

3、使用Case Class创建Dataset

4、RDD->Dataset

5、DataFrame

什么是DataFrame

DataFrame API常用操作

RDD -> DataFrame

Seq/List ->DataFrame

DataFrame -> RDD

DataFrame -> DataSet

四 Spark SQL操作外部数据源

Spark SQL支持的外部数据源

Parquet文件

Spark对Hive表的数据插入和读取

Linux虚拟机spark-shell环境

IDEA中开发环境

操作Mysql中的表

从mysql读数据

向Mysql写数据

五 Spark SQL函数

内置函数

case class

六 Spark UDF&UDAF&UDTF

UDF

UDAF

UDTF

七 Spark SQL CLI

八 Spark性能优化

序列化

优化点

分区优化

join操作

你可能感兴趣的:(Spark,SparkSQL,Spark优化,DataSet,DataFrame)

二运行原理之Catalyst优化器