Augenstern K

Spark SQL

一、Spark SQL概述
二、准备Spark SQL的编程环境
三、Spark SQL程序编程的入口
四、DataFrame的创建
五、DataFrame的编程风格
六、DataSet的创建和使用
七、Spark SQL的函数操作

一、Spark SQL概述

Spark SQL属于Spark计算框架的一部分，是专门负责结构化数据的处理计算框架，Spark SQL提供了两种数据抽象：DataFrame、Dataset,都是基于RDD之上的一种高级数据抽象，在RDD基础之上增加了一个schema表结构。

DataFrame是以前旧版本的数据抽象（untyped类型的数据抽象），Dataset是新版本的数据抽象（typed有类型的数据抽象），新版本当中DataFrame底层就是Dataset[Row]。

Spark SQL特点

易整合
统一的数据访问方式
兼容Hive
标准的数据库连接

二、准备Spark SQL的编程环境

1、创建Spark SQL的编程项目，scala语言支持的

2、引入编程依赖

spark-core_2.12
hadoop-hdfs
spark-sql_2.12

spark-hive_2.12

hadoop的有一个依赖jackson版本和scala2.12版本冲突了，Spark依赖中也有这个依赖，但是默认使用的是pom.xml先引入的那个依赖，把hadoop中jackson依赖排除了即可。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0modelVersion>

  <groupId>com.kanggroupId>
  <artifactId>spark-sql-studyartifactId>
  <version>1.0-SNAPSHOTversion>
  <packaging>jarpackaging>

  <name>spark-sql-studyname>
  <url>http://maven.apache.orgurl>

  <properties>
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
  properties>

  <dependencies>
    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-hdfsartifactId>
      <version>3.1.4version>
      <exclusions>
        <exclusion>
          <groupId>com.fasterxml.jackson.modulegroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>com.fasterxml.jackson.coregroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>
    dependency>
    <dependency>
      <groupId>org.apache.sparkgroupId>
      <artifactId>spark-core_2.12artifactId>
      <version>3.1.1version>
    dependency>
    <dependency>
      <groupId>org.apache.sparkgroupId>
      <artifactId>spark-sql_2.12artifactId>
      <version>3.1.1version>
    dependency>
    <dependency>
      <groupId>mysqlgroupId>
      <artifactId>mysql-connector-javaartifactId>
      <version>8.0.18version>
    dependency>

    <dependency>
      <groupId>org.apache.sparkgroupId>
      <artifactId>spark-hive_2.12artifactId>
      <version>3.1.1version>
    dependency>
  dependencies>
project>

三、Spark SQL程序编程的入口

1、SQLContext：只能做SQL编程，无法操作Hive以及使用HQL操作。

2、HiveContext：专门提供用来操作和Hive相关的编程。

3、SparkSession：全新的Spark SQL程序执行入口，把SQLContext和HiveContext功能全部整合了，SparkSession底层封装了一个SparkContext，而且SparkSession可以开启Hive的支持。

package study

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
 * Spark SQL的基本案例执行
 */
object Demo01 {
  def main(args: Array[String]): Unit = {
    /**
     * 1、创建Spark SQL的程序编程入口
     */
    val sparkConf:SparkConf = new SparkConf()
    val sc:SparkSession = SparkSession.builder().appName("test").master("local[*]").config(sparkConf).getOrCreate()
    import sc.implicits._

    /**
     * 2、创建DataFrame或者Dataset数据抽象
     */
    val rdd:RDD[(String,Int)] = sc.sparkContext.makeRDD(Array(("zs",20),("ls",30)))
    val df:DataFrame = rdd.toDF("name","age")
    df.printSchema()
    df.show()

    sc.stop()
  }
}

四、DataFrame的创建

1、使用隐式转换函数从RDD、Scala集合创建DataFrame
toDF() toDF(columnName*)

机制：如果集合或者RDD的类型不是Bean，而且再toDF没有传入任何的列名，那么Spark会默认按照列的个数给生成随机的列名，但是如果类型是一个Bean类型，那么toDF产生的随机列名就是bean的属性名。

package create.methon1

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
 * 1、通过隐式转换函数从Scala集合创建DataFrame
 *   如果使用隐式转换函数 那么必须引入spark定义的隐式转换函数代码
 *   sparksession的对象名.implicits._
 */
object Demo01 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val ss:SparkSession = SparkSession.builder().appName("seq to df").master("local[*]").config(sparkConf).getOrCreate()
    //隐式转换必须导入隐式转换函数类
    import ss.implicits._

    /**
     * 从集合创建DataFrame
     * 集合一般都是T类型的 T类型如果是Scala自带类型，toDF后面需要跟列名，不跟列名也可以
     * 集合必须是Seq类型的 而且必须显示的声明为Seq类型
     */
    val array:Seq[(String,Int)] = Array(("zs",20),("ls",30))
    val df:DataFrame = array.toDF("name","age")
    df.printSchema()
    df.show()

    val array1:Seq[Student] = Array(Student("zs",21),Student("ls",25))
    val df1:DataFrame = array1.toDF()
    df1.printSchema()
    df1.show()

    ss.stop()

  }
}

package create.methon1

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
 * 1、通过隐式转换函数从RDD创建DataFrame
 *   如果使用隐式转换函数 那么必须引入spark定义的隐式转换函数代码
 *   sparksession的对象名.implicits._
 */
object Demo02 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val ss:SparkSession = SparkSession.builder().appName("seq to df").master("local[*]").config(sparkConf).getOrCreate()
    //隐式转换必须导入隐式转换函数类
    import ss.implicits._

    /**
     * 从RDD创建DataFrame
     */
    val array:Seq[(String,Int)] = Array(("zs",20),("ls",30))
    val rdd:RDD[(String,Int)] = ss.sparkContext.makeRDD(array)
    val df:DataFrame = rdd.toDF()
    df.printSchema()
    df.show()

    val array1:Seq[Student] = Array(Student("zs",21),Student("ls",25))
    val rdd1:RDD[Student] = ss.sparkContext.makeRDD(array1)
    val df1:DataFrame = rdd1.toDF()
    df1.printSchema()
    df1.show()

    ss.stop()

  }
}

package create.methon1

case class Student(name:String,age:Int)

2、通过SparkSession自带的createDataFrame函数从集合或者RDD中创建DataFrame—使用并不多

package create.methon2

import org.apache.spark.SparkConf
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}
/**
 * createDataFrame函数从集合中创建DataFrame
 */
object Demo01 {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf()
    val ss: SparkSession = SparkSession.builder().appName("seq to df").master("local[*]").config(sparkConf).getOrCreate()
    /**
     * 1、通过Scala的seq集合创建DataFrame 列名是自动生成的
     */
    val array:Seq[(String,Int)] = Array(("zs",20),("ls",30))
    val df:DataFrame = ss.createDataFrame(array)
    df.printSchema()
    df.show()

    val array1:Seq[Student] = Array(Student("zs",20),Student("ls",30))
    val df1:DataFrame = ss.createDataFrame(array1)
    df1.printSchema()
    df1.show()
    /**
     * 2、从java集合中创建DataFrame，如果是Java集合，必须传入一个BeanClass
     * 同时如果Java集合中存放的数据类型是Row类型，那么必须传入StructType指定row的结构
     *
     * java集合中如果使用BeanClass构建DaraFrame，要求Java集合中存放的数据类型也必须是Bean的类型
     * BeanClass必须有getter和setter方法
     */
    val list: java.util.List[Student] = java.util.Arrays.asList(Student("ls",20),Student("zs",30))
    val df2 = ss.createDataFrame(list,classOf[Student])
    df2.printSchema()
    df2.show()
    /**
     * 3、java集合的类型为row类型
     */
    val list1: java.util.List[Row] = java.util.Arrays.asList(Row("ls",20),Row("zs",30))
    val df3 = ss.createDataFrame(list1,StructType(java.util.Arrays.asList(StructField("name",DataTypes.StringType),StructField("age",DataTypes.IntegerType))))
    df3.printSchema()
    df3.show()
    ss.stop()
  }
}

package create.method2

import create.methon2.Student
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{DataTypes, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

import java.util

/**
 * createDataFrame函数从RDD中创建DataFrame(操作手法完全一致的)
 */
object Demo02 {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf()
    val ss: SparkSession = SparkSession.builder().config(sparkConf).appName("seq to df").master("local[*]").getOrCreate()

    /**
     * 1、通过Scala的seq集合创建DataFrame 列名是自动生成的
     */
    val array:Seq[(String,Int)] = Array(("zs",20),("ls",30))
    val rdd:RDD[(String,Int)] = ss.sparkContext.makeRDD(array)
    val df:DataFrame = ss.createDataFrame(rdd)
    df.printSchema()
    df.show()

    val array1: Seq[Student] = Array(Student("zs",20))
    val rdd1:RDD[Student] = ss.sparkContext.makeRDD(array1)

    val df1: DataFrame = ss.createDataFrame(rdd1,classOf[Student])
    df1.printSchema()
    df1.show()

    /**
     * 3、java集合的类型为row类型
     */
    val array2:Array[Row] = Array(Row("zs",20),Row("ww",30))
    val rdd2:RDD[Row] = ss.sparkContext.makeRDD(array2)
    val df3 = ss.createDataFrame(rdd2, StructType(Array(StructField("name", DataTypes.StringType), StructField("age", DataTypes.IntegerType))))

    df3.printSchema()
    df3.show()


    ss.stop()
  }
}

package create.methon2

import scala.beans.BeanProperty

case class Student(@BeanProperty var name:String, @BeanProperty var age:Int)

3、从Spark SQL支持的数据源创建DataFrame（HDFS、Hive、JSON文件、CSV文件等等)：使用频率最高的

外部存储HDFS中读取数据成为DataFrame
- ss.read.format(“jsonxx”).load(“path”) 不太好用
- ss.read.option(key,value).option(…).csv/json(path)

从jdbc支持的数据库创建DataFrame

ss.read.jdbc(url,table,properties)

package create.methon3

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

import java.util.Properties

/**
 * 从外部存储读取数据成为DataFrame
 */
object Demo01 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val ss:SparkSession = SparkSession.builder().appName("storage to df").master("local[*]").getOrCreate()

    /**
     * 从csv文件读取数据成为DataFrame
     */
    val df:DataFrame = ss.read.option("header","true").format("csv").load("file:///D://Desktop/Student.csv")
    df.printSchema()
    df.show()

    /**
     * 读取模式有三种：
     * permissive:默认的
     * dropMalformed
     * failfast
     */
    val df1:DataFrame = ss.read.option("header","true").format("csv").option("mode","permissive").csv("file:///D://Desktop/Student.csv")
    df1.printSchema()
    df1.show()

    /**
     * 从json文件创建DataFrame
     * json文件中要求一个json对象独占一行
     */
    val df2:DataFrame = ss.read.option("mode","dropMalformed").json("file:///D://Desktop/Student.json")
    df2.printSchema()
    df2.show()

    /**
     * 从普通的文本文档创建DataFrame---不太实用
     */
    val df3 = ss.read.text("file:///D://Desktop/Student.csv")
    df3.printSchema()
    df3.show()

    /**
     * 从JDBC可以连接的数据库(rdbms、Hive)创建DataFrame
     */
    val prop:Properties = new Properties()
    prop.setProperty("user","root")
    prop.setProperty("password","root")
    val df4 = ss.read.jdbc("jdbc:mysql://localhost:3306/spark?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8","student",prop)
    df4.printSchema()
    df4.show()

    ss.stop()
  }
}

读取Hive数据成为DataFrame

1、通过SparkSession开启Hive的支持
2、引入spark-hive的编程依赖
3、通过ss.sql()

package create.methon3

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * 连接Hive创建DataFrame:
 *   1、jdbc方式（基本的操作只能查询表中的所有字段 所有数据）
 *   2、Spark SQL On Hive：用Hive作为数据存储，用Spark直连Hive 操作Hive中的数据
 *     不是使用JDBC的方式，而是使用的Hive的元数据库来完成的
 *     两步操作：（1）需要把Hive的配置文件放到项目的resources目录下，如果在集群环境下，我们需要把hive的配置文件放到spark的conf目录下，（2）需要开启SparkSession的hive支持
 */
object Demo02 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val sparkSession:SparkSession = SparkSession.builder().appName("spark sql on hive").master("local[*]").config(sparkConf).enableHiveSupport().getOrCreate()

    /**
     * 从Hive中读取数据创建DataFrame
     */
    val df:DataFrame = sparkSession.sql("select * from project.ods_user_behavior_origin")
    df.printSchema()
    df.show()
    //新建数据表
    sparkSession.sql("create table test (name string,age int,sex string) row format delimited fields terminated by '*'")

    sparkSession.stop()
  }
}

4、从其他的DataFrame转换的来

五、DataFrame的编程风格

通过代码来操作计算DataFrame中数据

DSL编程风格

DataFrame和Dataset提供了一系列的API操作，API说白了就是Spark SQL中算子操作，可以通过算子操作来获取DataFrame或者Dataset中的数据。

转换算子

RDD具备的算子DataFrame基本上都可以使用。
DataFrame还增加了一些和SQL操作有关的算子：
selectExpr、where/filter、groupBy、orderBy/sort、limit、join

操作算子	算子概念
limit	获得指定前n行数据并形成新的 dataframe
where、filter	条件过滤
select	根据传入的 string 类型字段名，获取指定字段的值，以 DataFrame 类型返回
join	按指定的列进行合并两个dataframe
groupBy	按指定字段进行分组，后面可加聚合函数对分组后的数据进行操作
orderBy、sort	按指定字段排序
selectExpr	对指定字段进行特殊处理，可以对指定字段调用 UDF 函数或者指定别名；selectExpr 传入 string 类型的参数，返回 DataFrame 对象。

行动算子

RDD具备的行动算子DataFrame和Dataset也都具备一些
collect/collectAsList：不建议使用，尤其是数据量特别庞大的情况下
foreach/foreachPartition
获取结果集的一部分数据
- first/take(n)/head(n)/takeAsList(n)/tail(n)
- 获取的返回值类型就是Dataset存储的数据类型
printSchema：获取DataFrame或者Dataset的表结构的
show()/show(num,truncate:boolean)/show(num,truncate:Int)/show(num,truncate:Int,ver:boolean)

保存输出的算子

文件系统
- df/ds.write.mode(SaveMode).csv/json/parquet/orc/text(path–目录)
- text纯文本文档要求DataFrame和Dataset的结果集只有一列而且列必须是String类型

JDBC支持的数据库

df/ds.write.mode().jdbc
foreach|foreachPartition

package oprator

import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, SaveMode, SparkSession}

import java.util.Properties

object Demo03 {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf()
    val ss: SparkSession = SparkSession.builder().appName("action").master("local[*]").config(sparkConf).enableHiveSupport().getOrCreate()
    import ss.implicits._

    /**
     * 创建DataFrame
     */
    val array:Seq[(String,Int,String)] = Array(("zs",20,"man"),("ls",30,"woman"),("ww",40,"man"),("ml",50,"woman"))
    val dataset:Dataset[(String,Int,String)] = array.toDS()
//    dataset.show()
    /**
     * 保存到MySQL当中  JDBC连接保存
     */
    val prop = new Properties()
    prop.setProperty("user","root")
    prop.setProperty("password","root")
    dataset.write.mode(SaveMode.Overwrite).jdbc("jdbc:mysql://localhost:3306/spark?serverTimezone=Asia/Shanghai","Student",prop)

    ss.stop()
  }
}

执行前

执行后

Hive
- df/ds.write.mode().saveAsTable(“库名.表名”)
- 1、保证hive支持开启的
- 2、保存的数据底层在HDFS上以parquet文件格式保存的
- ```
dataset.write.mode(SaveMode.Append).saveAsTable("default.demo")
```

SQL编程风格

1、将创建的DataFrame加载为一个临时表格
2、然后通过ss.sql(sql语句)进行数据的查询

package oprator

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

object Demo01 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val ss:SparkSession = SparkSession.builder().appName("spark sql on hive").enableHiveSupport().master("local[*]").getOrCreate()

    /**
     * 从Hive中读取数据创建DataFrame
     */
    val df:DataFrame = ss.sql("select * from project.ods_user_behavior_origin")

    df.createTempView("test_spark_sql")
    val df1 = ss.sql("select ip_addr,parse_url(request_url,'HOST') as host,age from test_spark_sql")
    df1.show()

    df.selectExpr("ip_addr","parse_url(request_url,'HOST') as host").show()
    df.select("age","ip_addr").where("age>40").show()
    ss.stop()
  }
}

六、DataSet的创建和使用

Dataset有类型，DataFrame无类型的。

创建

1、隐式转换，toDS()

package createdataset

import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, SparkSession}

import scala.beans.BeanProperty
case  class Student(@BeanProperty var name:String,@BeanProperty var age:Int)
object Demo01 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val sparkSession:SparkSession = SparkSession.builder().appName("createds").config(sparkConf).master("local[*]").getOrCreate()
    import sparkSession.implicits._
    /**
     * 通过隐式转换从集合或者rdd创建Dataset
     */
    val array:Seq[(String,Int)] = Array(("zs",20),("ls",30))
    val ds:Dataset[(String,Int)] = array.toDS()
    ds.printSchema()
    ds.show()

    val array1:Seq[Student] = Array(Student("zs",30),Student("ls",20))
    val ds1:Dataset[Student] = array1.toDS()
    ds1.printSchema()
    ds1.show()

    sparkSession.stop()
  }
}

2、通过SparkSession的createDataset函数创建

/**
 *  通过SparkSession的createDataset函数创建
 */
val rdd:RDD[Student] = sparkSession.sparkContext.makeRDD(array1)
val ds2:Dataset[Student] = sparkSession.createDataset(rdd)
ds2.show()

3、通过DataFrame转换得到Dataset
df.as[类型-Bean对象必须有getter、setter方法]
也是需要隐式转换的

/**
 * 通过DataFrame转换得到Dataset
 */
val df:DataFrame = sparkSession.createDataFrame(rdd, classOf[Student])
val ds3:Dataset[Student] = df.as[Student]
ds3.show()

七、Spark SQL的函数操作

Spark SQL基本上常见的MySQL、Hive中函数都是支持的。

package function

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

object Demo01 {
  def main(args: Array[String]): Unit = {
    val sparkConf:SparkConf = new SparkConf()
    val ss:SparkSession = SparkSession.builder().appName("function").master("local[*]").enableHiveSupport().config(sparkConf).getOrCreate()
    import ss.implicits._

    val array:Seq[(Int,String,Int)] = Array((1,"zs",80),(1,"ls",90),(1,"ww",65),(1,"ml",70),(2,"zsf",70),(2,"zwj",67),(2,"qf",76),(2,"dy",80))
    val df:DataFrame = array.toDF("classId","studentName","score")
    df.createOrReplaceTempView("student_score_temp")

    ss.sql("select *,row_number() over(partition by classId order by score desc) as class_rank from student_score_temp").show()

    ss.stop()
  }
}

ss.sql("select * from (select *,row_number() over(partition by classId order by score desc) as class_rank from student_score_temp) as temp where temp.class_rank < 2").show()

val array: Seq[(String, String)] = Array(("zs", "play,eat,drink"), ("ls", "play,game,run"))
val df: DataFrame = array.toDF("name", "hobby")
df.createOrReplaceTempView("temp")
/**
 * zs play,eat,drink
 * ls play,game,run
 * zs play
 * zs eat
 */
ss.sql("select temp.name,a.bobby from temp lateral view explode(split(hobby,',')) a as bobby").show()

自定义函数

ss.udf.register(name,函数)

package function

import org.apache.spark.SparkConf
import org.apache.spark.sql.expressions.Aggregator
import org.apache.spark.sql.{DataFrame, Encoder, Encoders, SparkSession}

object Demo02 {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf()
    val ss: SparkSession = SparkSession.builder().appName("createMyFunction").master("local[*]").config(sparkConf).enableHiveSupport().getOrCreate()
    import ss.implicits._

    ss.udf.register("my_length",(name:String)=>{name.length})

    val array: Seq[(String, String)] = Array(("zs", "play,eat,drink"), ("ls", "play,game,run"))
    val df: DataFrame = array.toDF("name", "hobby")
    df.selectExpr("my_length(hobby)").show()

    ss.udf.register("my_avg",new My())
    val array1: Seq[(String, Int)] = Array(("zs", 20), ("ls", 30))
    val df1: DataFrame = array1.toDF("name", "score")
    df1.selectExpr("my_avg(score)").show()

    ss.stop()
  }
}
class My_AVG extends Aggregator[Int,(Int,Int),java.lang.Double]{
  /**
   * 设置初始值的 是缓冲区的初始值
   * @return
   */
  override def zero: (Int, Int) = (0,0)

  /**
   * 当输入一个结果之后，缓冲区如何对输入的结果进行计算
   *
   * @param b 缓冲区
   * @param a 输入的某一个值
   * @return
   */
  override def reduce(b: (Int, Int), a: Int): (Int, Int) = {
    (b._1+a,b._2+1)
  }

  /**
   * 分区之间的合并
   *
   * @param b1
   * @param b2
   * @return
   */
  override def merge(b1: (Int, Int), b2: (Int, Int)): (Int, Int) = {
    (b1._1+b2._1,b1._2+b2._2)
  }

  /**
   * 最后的结果
   *
   * @param reduction
   * @return
   */
  override def finish(reduction: (Int, Int)): java.lang.Double = {
    reduction._1.toDouble / reduction._2
  }

  override def bufferEncoder: Encoder[(Int, Int)] = Encoders.product[(Int, Int)]

  override def outputEncoder: Encoder[java.lang.Double] = Encoders.DOUBLE
}
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
package function

import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}

class My extends UserDefinedAggregateFunction{
  override def inputSchema: StructType = StructType(Array(StructField("score",DataTypes.IntegerType)))

  override def bufferSchema: StructType = StructType(Array(StructField("sum",DataTypes.IntegerType),StructField("count",DataTypes.IntegerType)))

  override def dataType: DataType = DataTypes.DoubleType

  override def deterministic: Boolean = true

  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0
    buffer(1) = 0
  }

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer(0) = buffer.getInt(0)+input.getInt(0)
    buffer(1) = buffer.getInt(1)+1
  }

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0)
    buffer1(1) = buffer1.getInt(1) + buffer2.getInt(1)
  }

  override def evaluate(buffer: Row): Any = {
    buffer.getInt(0).toDouble/buffer.getInt(1)
  }
}

你可能感兴趣的:(Spark,spark,sql,大数据)

揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
一个完整的小项目案例，涉及到项目的规划，模块的设计功能的衔接等。 PyAIGCMaster 我的学习笔记学习
以下是一个基于分层架构和模块化设计的项目规划，使用Tkinter作为GUI框架，Playwright进行浏览器操作，SQLite作为数据库：项目结构```web_checker/├──__main__.py#程序入口├──config.py#配置管理├──gui/#图形界面模块│├──__init__.py│└──main_window.py├──services/#业务逻辑│├──__init_
MySQL 进阶学习文档你曾经是少年数据库
一、存储引擎1.1核心架构四层架构：连接层→服务层→引擎层→存储层插件式存储引擎：不同引擎独立管理数据存储，可动态选择1.2主流引擎对比特性InnoDB（默认）MyISAMMemory事务支持✅支持❌不支持❌不支持锁粒度行锁表锁表锁外键支持✅支持❌不支持❌不支持存储位置磁盘磁盘内存适用场景高并发事务读多写少临时数据缓存选择建议：优先选InnoDB（支持事务和外键）读多写少且无需事务选MyISAM临
mysql数据库应用与开发姜桂洪课后答案_清华大学出版社-图书详情-《MySQL数据库应用与开发》... 韦盛江课后答案
前言Oracle公司的MySQL是目前最流行的关系数据库管理系统之一。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL数据库以其精巧灵活、运行速度快、经济适用性强、开放源码等优势，作为网站数据库获得许多中小型网站的开发公司的青睐。MySQL性能卓越，搭配PHP和Apache可组成良好的软件开发环境，并且已经大量部署到中小型企业和高校的教学平台。本书从教学实际需求出发，结合
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
MySQL学习路线蜡笔小新星 MySQL 数据库 mysql 学习经验分享
本专栏纯干货订阅专栏不迷路以下是一个详细的MySQL学习路线，适合从初学者到中高级用户的逐步学习。整个路线分为几个阶段，每个阶段包含了必要的知识点和学习材料。第一阶段：基础知识（1-2周）目标：了解数据库的基本概念，熟悉MySQL的基本用法。学习内容：数据库基础什么是数据库、数据库管理系统（DBMS）数据库的类型（关系型数据库与非关系型数据库）SQL（结构化查询语言）概述MySQL入门MySQL的
C#电子相册：面向对象设计与架构实践金融先生-Frank
本文还有配套的精品资源，点击获取简介：C#电子相册是一个使用高级编程语言C#开发的Windows平台应用程序。该项目采用面向对象编程方法，将对象如照片和相册封装、继承和多态地组织起来。它可能采用了MVC、MVVM或MVP架构模式，并使用.NETFramework或.NETCore以及VisualStudio作为开发环境。数据库管理部分涉及SQL数据库，支持相册数据的存储与检索。文件列表中的"eri
【赵渝强老师】达梦数据库的归档模式赵渝强老师达梦（DM）数据库数据库 oracle
达梦数据库的备份与恢复都需要使用到重做日志文件。在默认的情况下，达梦数据库采用的非归档模式。通过执行下面的语句可以查看当前数据库实例的日志模式。SQL>selectarch_modefromv$database;#输出的信息如下：行号ARCH_MODE-------------------1N#提示：这里输出的N表示的是非归档模式。由于在非归档模式下，重做日志文件会发生覆盖的情况，从而造成数据的丢
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）毅铭科技数据库
计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：
mysql修改表中所有字段不许为空_如何用SQL语句修改一个表的字段，让它不能为空... Asama浅间
展开全部ALTERTABLE表ALTERCOLUMN[字段名]字段类型NOTNULLSQL语句1、基32313133353236313431303231363533e78988e69d8331333365643661本介绍：sql语句是对数据库进行操作的一种语言。结构化查询语言(StructuredQueryLanguage)简称SQL，结构化查询语言是一种数据库查询和程序设计语言，用于存取数据以
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
对数据库的总结 java
一、数据库基础1.数据库是一个用于存储和操作数据的文件系统2.关系型数据库：是基于二维表存储的，每个表格由列和行组成，列代表属性，行代表约束，数据的组织和查询更加方便和高效。3.库表操作结构：MySQL和Oracle，通用工具Navicat4.SQL语句的库表操作：createtable：创建表altertable：修改表droptable：删除表truncatetable：删除表中的所有数据，但
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
linux自律第 40 天嵌入式大大白数据库
在学习了sqlite3数据库的增删改查之后，我开始做了一个基于web服务端的商品查询系统，将商品的图片，名称，id，详细描述和关键词等都放入了该数据库中，利用该数据库和html构建的网页来完成该项目。该项目首先需要设计出登录系统，登录需要密码和账号，所以需要注册，我打算在注册的时候使用数据库，将注册的信息放在数据库中。然后使用账号密码登录的时候，输入的账号密码在请求报文中，以post的形式发出来，
SQL中where与having的区别 WD技术 #mysql面试 sql 数据库 database
1.where和having的区别2.聚合函数和groupby3.where和having的执行顺序4.where不能使用聚合函数、having中可以使用聚合函数1.where和having的区别where:where是一个约束声明,使用where来约束来自数据库的数据;where是在结果返回之前起作用的;where中不能使用聚合函数。having:having是一个过滤声明;在查询返回结果集以后
MySQL性能优化实战笔记 - 通俗易懂版泥潭硬拔 mysql 性能优化笔记
1.存储引擎选择-到底选哪个？InnoDBvsMyISAM通俗对比想象你开了一家银行：InnoDB就像是有保险柜的银行支持事务：比如转账，要么都成功，要么都失败行级锁：小明在存钱时，小红还能同时取钱缺点：需要更多内存和CPUMyISAM就像是简易储物柜不支持事务：操作简单直接表级锁：一个人在用时，其他人要等待优点：读取速度快，占用资源少2.实战案例：常见性能问题及解决方案案例1：查询特别慢--糟糕
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
中高级开发必看！MySQL 面试秘籍助你飞升七七知享数据库 mysql 面试数据库程序人生职场和发展学习方法 github
中高级开发必看！MySQL面试秘籍助你飞升想要晋升中高级开发岗位？MySQL面试攻略来助力！这篇CSDN文章堪称你进阶路上的“秘密武器”，从基础概念到高阶优化，全方位覆盖MySQL面试要点，无论是索引原理、查询优化，还是事务处理、主从复制，都有深入解读，助你轻松应对面试官的各类难题，稳稳拿下心仪Offer，向着中高级开发岗位大步迈进！
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
【MyDB】6-TabelManager 字段与表管理之2-SQL语句解析 -$_$- Java项目 sql python 数据库
【MyDB】6-TabelManager字段与表管理之2-SQL语句解析前言SQL语法Parser类具体实现入口方法Parse(byte[]statement)事务控制parseBegin()parseCommit()，parseAbortDDL(DataDefinitionLanguage)parseCreate()parseDrop()DML语句parseSelect()parseInsert
Mybatis和Mybatis-plus常用注解 AWen_X Java常用框架注解 mybatis 开发语言 java 后端 spring boot spring
Mybatis和Mybatis-Plus常用注解一、Mybatis常用注解1.@Select注解说明：标记查询语句，用于定义查询操作的SQL语句。代码示例：@Select("SELECT*FROMusersWHEREid=#{id}")UsergetUserById(@Param("id")Longid);注解处理类：由org.apache.ibatis.builder.annotation.Ma
稳定运行的以PostgreSQL数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 postgresql 开发语言数据库性能优化 etl
在使用PostgreSQL作为数据源和目标的ETL（Extract,Transform,Load）过程中，当ETL性能变差时，可以通过一系列方法来诊断问题并提高性能。提高PostgreSQL数据库ETL性能的核心思想是从数据库配置、查询优化、硬件资源、并行处理等多个方面入手。通过上述方法逐步优化，可以大幅提升ETL过程的效率。下面是提高PostgreSQL数据库ETL性能的一些常用方法和步骤：1.
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
mysql-大批量插入数据的三种方式和使用场景不穿铠甲的穿山甲 mysql 数据库
1.批量插入三种方式INSERTINTO…SELECTINSERTINTO…VALUES(…)LOADDATAINFILE‘/path/to/datafile.csv’INTOTABLEtable_name2.批量插入2.1INSERTINTO…SELECT用途：从另一个表中选择数据并插入到目标表中。语法示例：INSERTINTOtarget_table(column1,column2)SELEC
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb