brz_em

Spark SQL and DataFrames

Spark SQL

Spark SQL概述

什么是Spark SQL？

SparkSQL是spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrames，并且作为分布式SQL查询引擎的作用。

为什么要学SparkSQL?
SparkSQL将Spark SQL转换为RDD，然后提交到集群执行，执行效率非常快，比如hive是将hive SQL转换为MapReduce然后提交到集群上执行，大大简化了编写程序的复杂性。

总结:

SparkSQL是Spark上的高级模块，SparkSQL是一个SQL解析引擎，将SQL解析成特殊的RDD（DataFrame），然后在Spark集群中运行。
SparkSQL是用来处理结构化数据的（先将非结构化的数据转换成结构化数据）
SparkSQL支持两种编程API 1.SQL方式 2.DataFrame的方式（DSL）
SparkSQL兼容hive（元数据库、SQL语法、UDF、序列化、反序列化机制）
SparkSQL支持统一的数据源，课程读取多种类型的数据
SparkSQL提供了标准的连接（JDBC、ODBC），以后可以对接一下BI工具

参考：http://spark.apache.org/sql/

SparkSQL特点：

Integraied:易整合，SparkSQL允许SQL、DataFrame API访问数据。
Union Data Access:统一的数据访问方式，提供了访问各种数据源的通用方法，包括Hive、Avro、Parquet、ORC、JSON和JDBC。
Hive Integration:兼容hive，支持HiveQL语法以及HiveSerDes和UDF。
Standard Connectivity:标准的数据连接，支持标准连接（JDBC、ODBC)

DataFrames

什么是DataFrames？

与RDD类似，DataFrames也是一个分布式数据容器，但DataFrames更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。它是抽象的数据集，放的都是描述信息，DataFrames是一个特殊的RDD。好处：可以使用SQL语句，带来编码上的方便，降低了spark的使用难度。

在Spark中，DataFrame是一种按列组织的分布式数据集，概念上等价于关系数据库中一个表或者是Python中的data frame，但是在底层进行了更丰富的优化。

DataFrame与RDD对比

RDD和DataFrame的区别：

DataFrame里面存放的结构化数据的描述信息，DataFrame要有表头（表的描述信息），描述了有多少列，每一列数叫什么名字、什么类型、能不能为空
DataFrame是特殊的RDD（RDD+Schema信息就变成了DataFrame）DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。
与RDD的主要区别在于：前者带有Schema元数据，即DataFrame所表示的二维数据集的每一列都有名称和类型。
由于无法知道RDD数据集内部的结构，Spark执行作业只能在调度阶段进行简单通用的优化，而DataFrame带有数据集内部的结构，可以根据这些信息进行针对性的优化，最终实现优化运行效率。

DataFrame带来的好处：

精简代码
提升执行效率
减少数据读取：忽略无关数据，根据查询条件进行适当裁剪。

DataFrame使用

Spark SQL支持两种方式来将RDD转换为DataFrame。
第一种方式，是使用反射来推断包含了特定数据类型的RDD的元数据。这种基于反射的方式，代码比较简洁，当你已经知道你的RDD的元数据时，是一种非常不错的方式。
第二种方式，是通过编程接口来创建DataFrame，你可以在程序运行时动态构建一份元数据，然后将其应用到已经存在的RDD上。这种方式的代码比较冗长，但是如果在编写程序时，还不知道RDD的元数据，只有在程序运行时，才能动态得知其元数据，那么只能通过这种动态构建元数据的方式。

创建DataFrames

在Spark SQL中sqlContext是创建Sql的入口
在1.6.x前入口为sqlContext，2.x后入口为SparkSession。

4种：
结构化数据文件、hive表、外部表、已经存在的RDDs

存在的RDDs:
反射、编程（2种）

1.6.x

在1.x的基础上，由普通的RDD转化成DataFrame，然后执行SQL，具体步骤如下：
1.创建sparkContext，然后再创建SQLContext
2.先创建RDD，对数据进行整理，然后关联case class，将非结构化数据转换成结构化数据
3.显示的调用toDF方法将RDD转换成DataFrame
4.注册临时表
5.执行SQL（Transformation，lazy）
6.执行Action

case class就定义了元数据。Spark SQL会通过反射读取传递给case class的参数的名称，然后将其作为列名。


        org.apache.spark
        spark-sql_2.10
        1.6.1

使用反射推断Schema在已有的RDD创建:

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

//使用反射的方式，把RDD转化为DataFrame
object RDDtoDf {
  def main(args: Array[String]): Unit = {
    //创建RDD
    val sparkConf = new SparkConf().setAppName("sparkSqlDemo").setMaster("local")
    val sc = new SparkContext(sparkConf)

    //创建sparksql的入口
    val sqlContext = new SQLContext(sc)

    val linesrdd = sc.textFile("C:\\Users\\brz\\Desktop\\数据\\person.txt")

    //把RDD关联schema（case class）
    val personRDD = linesrdd
      .map(line => {
      val fields = line.split(",")
      val id = fields(0).toLong
      val name = fields(1)
      val age = fields(2).toInt
      val faceValue = fields(3).toDouble
      Person(id, name, age, faceValue)
    })

    //转换RDD=>DataFrame
	//导入隐式转换
    import sqlContext.implicits._
    val df = personRDD.toDF()

    //使用SQL
    //把DataFrame注册成一张临时表
    df.registerTempTable("t_person")

    //执行SQL语句
    val res = sqlContext.sql("select * from t_person")

    //查看结果
    res.show()
    sc.stop()
  }
}

//定义case class（相当于表的schema）
case class Person(id:Long,name:String,age:Int,faceValue:Double)

通过StructType直接指定Schema编程创建:

1.创建sparkContext，然后再创建SQLContext
2.先创建RDD，对数据进行整理，然后关联Row，将非结构化数据转换成结构化数据
3.定义schema
4.调用sqlContext的createDataFrame方法
5.注册临时表
6.执行SQL（Transformation，lazy）
7.执行Action

import org.apache.spark.sql.types._
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}

object RDDtoDf2 {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("rddtodf2").setMaster("local")
    val sc = new SparkContext(sparkConf)
    val sqlContecxt = new SQLContext(sc)
    //创建RDD
    val lines = sc.textFile("C:\\Users\\brz\\Desktop\\数据\\person.txt")

    //数据整理，把数据从数组里放到一个对象里
    val personrdd = lines.map(line=>{
      val fields = line.split(",")
      val id = fields(0).toLong
      val name = fields(1)
      val age = fields(2).toInt
      val faceValue = fields(3).toDouble
      Row(id,name,age,faceValue)

    })

    //定义表的结构
    val sch:StructType = StructType(List(
      StructField("id",LongType,true),
      StructField("name",StringType,true),
      StructField("age",IntegerType,true),
      StructField("faceValue",DoubleType,true)
    ))

    //把RDD和schema关联
    val df = sqlContecxt.createDataFrame(personrdd,sch)

    //sql方式基于DataFrame去做数据操作
    df.registerTempTable("t_person")

    val res  = sqlContecxt.sql("select * from t_person")
    res.show()
    sc.stop()

	//不使用SQL的方式，就不用注册临时表了
/*
	//通过datafram提供的API去操作数据(dsl)
    val resDF = df.select("id","name","age","faceValue")
    //排序
    import sqlContecxt.implicits._
    val sortedDF = resDF.orderBy($"name",$"age" asc)
    //结果的展示
    sortedDF.show()

    sc.stop()
/*
  }
}

2.x版本

import org.apache.spark.sql.types._
import org.apache.spark.sql.{Row, SparkSession, types}

object RDDtoDF3 {
  def main(args: Array[String]): Unit = {
    //spark2.x SQL执行的入口
    val session = SparkSession.builder()
      .appName("RDDtoDF3").master("local[2]").getOrCreate()
    //创建RDD
    val lines = session.sparkContext.textFile("C:\\Users\\brz\\Desktop\\数据\\person.txt")
    //数据整理
    val rowRDD = lines.map(line=>{
      val fields = line.split(",")
      val id = fields(0).toLong
      val name = fields(1)
      val age = fields(2).toInt
      val faceValue = fields(3).toDouble
      Row(id,name,age,faceValue)
    })

    //定义一个schema
    val schema:StructType = StructType(List(
      StructField("id",LongType,true),
      StructField("name",StringType,true),
      StructField("age",IntegerType,true),
      StructField("faceValue",DoubleType,true)
    ))

    //创建DataFrame
    val df = session.createDataFrame(rowRDD,schema)

//    //DataFrame 变 RDD
//    df.rdd
    import session.implicits._
    val res = df.where($"age">30).orderBy($"name")

    res.show()
    session.stop()
  }
}

DataFrame常用操作：

DSL风格语法

//查看DataFrame中的内容
res.show

//查看DataFrame部分列中的内容
res.select(res.col("name")).show
res.select(col("name"), col("age")).show
res.select("name").show

//打印DataFrame的Schema信息
res.printSchema

//查询所有的name和age，并将age+1
res.select(col("id"), col("name"), col("age") + 1).show
res.select(res("id"), res("name"), res("age") + 1).show
 

//过滤age大于等于18的
res.filter(col("age") >= 18).show
 
//按年龄进行分组并统计相同年龄的人数
res.groupBy("age").count().show()

SQL风格语法

如果想使用SQL风格的语法，需要将DataFrame注册成表

res.registerTempTable("t_person")

//查询年龄最大的前两名
sqlContext.sql("select * from t_person order by age desc limit 2").show

//显示表的Schema信息
sqlContext.sql("desc t_person").show

Dataset

Dataset是数据的分布式集合。Dataset是Spark 1.6中添加的一个新接口，它提供了RDDs的优点(强类型，能够使用强大的lambda函数)和Spark SQL的优点优化的执行引擎。可以从JVM对象构造数据集，然后使用它进行操作函数转换(map、flatMap、filter等)。Dataset API在Scala和Java中可用。
Python不支持Dataset API。但是由于Python的动态特性，很多Dataset API的优点已经可用(例如，您可以通过名称自然地访问一行的字段行。columnName)。R的情况类似。

val ds = Seq(1, 2, 3).toDS()
ds.map(_ + 1).collect() // Returns: Array(2, 3, 4)

case class Person(name: String, age: Long)
val ds = Seq(Person("Andy", 32)).toDS()

val path = "examples/src/main/resources/people.json"
val people = sqlContext.read.json(path).as[Person]

Dataset和RDD互操作

Spark SQL支持通过两种方式将存在的RDD转换为Dataset，转换的过程中需要让Dataset获取RDD中的Schema信息，主要有两种方式，一种是通过反射来获取RDD中的Schema信息。这种方式适合于列名已知的情况下。第二种是通过编程接口的方式将Schema信息应用于RDD，这种方式可以处理那种在运行时才能知道列的方式。

RDD，DataFrame，DataSets

在spark中，RDD、DataFrame、Dataset是最常用的数据类型，可以借助API，在 DataFrame、Dataset 、RDDs之间无缝迁移，而且DataFrame、 Dataset是建立在RDD的基础上的。

对比

RDD
RDD是Spark建立之初的核心API。RDD是不可变分布式弹性数据集，在Spark集群中可跨节点分区，并提供分布式low-level API来操作RDD，包括transformation和action。
何时使用RDD？
使用RDD的一般场景：
你需要使用偏底层的transformation和action来控制你的数据集；你的数据集非结构化，比如：流媒体或者文本流；你想使用函数式编程来操作你的数据，而不是用特定领域语言(DSL)表达；你不想加入schema，比如，当通过名字或者列处理(或访问)数据属性不在意列式存储格式；当你可以放弃使用DataFrame和Dataset来优化结构化和半结构化数据集的时候。

DataFrames
与RDD类似，DataFrame是不可变的分布式数据集合，与RDD不同的是，数据按列的方式组织，类似于关系型数据库的一张表。设计的初衷是使得大数据集的处理更简单， DataFrame允许用户在分布式数据集上施加一个结构，是对数据更高级的抽象，提供了具体的API处理分布式数据，同时使得Spark拥有更广泛的用户群。
DataFrame与RDD相同之处，都是不可变分布式弹性数据集。不同之处在于，DataFrame的数据集都是按指定列存储，即结构化数据，类似于传统数据库中的表。DataFrame的设计是为了让大数据处理起来更容易。
DataFrame允许开发者把结构化数据集导入DataFrame，并做了更高层次的抽象；DataFrame提供特定领域的语言(DSL)API来操作你的数据集。
在Spark2.0中，DataFrame API将会和Dataset API合并，统一数据处理API。由于这个统一“有点急”，导致大部分Spark开发者对Dataset的high-level和type-safe API并没有什么概念。

Dataset
从Spark2.0开始，DataSets扮演了两种不同的角色：强类型API和弱类型API，见下表。从概念上来讲，可以把DataFrame 当作一个泛型对象的集合DataSet[Row], Row是一个弱类型JVM 对象。相对应地，如果JVM对象是通过Scala的case class或者Java class来表示的，Dataset是强类型的。

Dataset API的优势：

对于Spark开发者而言，你将从Spark 2.0的DataFrame和Dataset统一的API获得以下好处：
1，静态类型和运行时类型安全考虑静态类型和运行时类型安全，SQL有很少的限制而Dataset限制很多。例如，Spark SQL查询语句，你直到运行时才能发现语法错误(syntax error)，代价较大。然后DataFrame和Dataset在编译时就可捕捉到错误，节约开发时间和成本。 Dataset API都是lambda函数和JVM typed object，任何typed-parameters不匹配即会在编译阶段报错。因此使用Dataset节约开发时间。
2，High-level抽象以及结构化和半结构化数据集的自定义视图 DataFrame是Dataset[Row]的集合，把结构化数据集视图转换成半结构化数据集。
3，简单易用的API 虽然结构化数据会给Spark程序操作数据集带来挺多限制，但它却引进了丰富的语义和易用的特定领域语言。大部分计算可以被Dataset的high-level API所支持。例如，简单的操作agg，select，avg，map，filter或者groupBy即可访问DeviceIoTData类型的Dataset。使用特定领域语言API进行计算是非常简单的。
4，性能和优化使用DataFrame和Dataset API获得空间效率和性能优化的两个原因：首先：因为DataFrame和Dataset是在Spark SQL 引擎上构建的，它会使用Catalyst优化器来生成优化过的逻辑计划和物理查询计划。 R，Java，Scala或者Python的DataFrame/Dataset API，所有的关系型的查询都运行在相同的代码优化器下，代码优化器带来的的是空间和速度的提升。不同的是Dataset[T]强类型API优化数据引擎任务，而弱类型API DataFrame在交互式分析场景上更快，更合适。其次，Dataset能使用Encoder映射特定类型的JVM 对象到Tungsten内部内存表示。Tungsten的Encoder可以有效
的序列化/反序列化JVM object，生成字节码来提高执行速度。

转换：

import org.apache.spark.sql.SparkSession

object Change {
  def main(args: Array[String]): Unit = {
    //dataset  DataFrame  转  RDD
    val session = SparkSession.builder().appName("transform").master("local[2]").getOrCreate()

    val Rdd = session.read.textFile("C:\\Users\\brz\\Desktop\\数据\\person.txt").rdd

    //RDD 转 DataFrame
    import session.implicits._
    Rdd.map(line=>(line,1)).toDF("column1","column2")

    //RDD转DataSet
//    import session.implicits._

//    val ds = Rdd.map(line=>column(line,1)).toDS()

    //dataset 转 DataFrame
    //import session.implicits._
//    val df = ds.toDF()
    
//    //dataFrame 转 dataSet
//    //import session.implicits._
    
//    val ds2 = df.as[column1]
  }
}
    case class column(col1:String,col2:Int) extends Serializable
    case class column1(col1:String,col2:Int) extends Serializable

数据源

JDBC

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。（这里使用的是2.x版本）

import java.util.Properties
import org.apache.spark.sql.SparkSession

object ReadFromMysql {
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder().appName("ReadFromMysql").master("local[2]").getOrCreate()

    val res = sparkSession.read.format("jdbc").options(
      Map("url"->"jdbc:mysql://localhost/mytest?useUnicode=true&characterEncoding=utf8&serverTimezone=GMT%2B8&useSSL=false&allowPublicKeyRetrieval=true",
        "driver"->"com.mysql.cj.jdbc.Driver",
        "dbtable"->"student",
        "user"->"root",
        "password"-> "123456")
      ).load()

    //写数据到数据库
    val props = new Properties()
    props.put("user","root")
    props.put("password","123456")
    props.put("driver","com.mysql.cj.jdbc.Driver")
    res.write.mode("append").jdbc("jdbc:mysql://localhost/mytest?useUnicode=true&characterEncoding=utf8&serverTimezone=GMT%2B8&useSSL=false&allowPublicKeyRetrieval=true","student",props)
    res.printSchema()
    res.show()
  }
}

文件输入输出

import org.apache.spark.sql.{DataFrame, SparkSession}

object FileSource {
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder().appName("FileRead").master("local[2]").getOrCreate()
    import sparkSession.implicits._
    //读取json文件
    val df:DataFrame = sparkSession.read.json("C:\\Users\\brz\\Desktop\\数据\\js.txt")
    //val df1 = sparkSession.read.format("json").load("")
    //val df = sparkSession.read.csv("")
    //val df = sparkSession.read.parquet("")

    val res = df.where($"age"<=30).select($"age")
    res.printSchema()
    //写文件
//    res.write.csv("C:\\Users\\brz\\Desktop\\数据\\cjs.txt")
//    res.write.json("")
    res.write.text("C:\\Users\\brz\\Desktop\\数据\\chjs.txt")
    res.show()
  }
}

sparkSql版的wordCount:

import org.apache.spark.sql.{Dataset, SparkSession}

object sparkSqlWC {
  def main(args: Array[String]): Unit = {

    //创建sparkSession
    val sparkSession = SparkSession.builder().appName("sparkSqlWC").master("local[2]").getOrCreate()
    val lines:Dataset[String] = sparkSession.read.textFile("C:\\Users\\brz\\Desktop\\数据\\person.txt")
    lines.show()

    import sparkSession.implicits._
    val words:Dataset[String] = lines.flatMap(_.split(","))
    words.show()

    //使用sql
    words.createTempView("t_wc")
    val res0 = sparkSession.sql("SELECT value,count(*) counts from t_wc GROUP BY value ORDER BY counts desc")
    res0.show()

    //使用dataset的API
    val res = words.groupBy($"value").count().sort($"count" desc)
    res.show()

    //使用聚合函数
    import org.apache.spark.sql.functions._
    val res1 = words.groupBy($"value" as "word").agg(count("*") as "counts").orderBy($"counts" desc)
    res1.show()
    sparkSession.stop()
  }
}

spark SQL join深入

Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。
SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于Join，常见的3种实现。

SparkSQL的3种Join实现:

Broadcast Join

大家知道，在数据库的常见模型中（比如星型模型或者雪花模型），表一般分为两种：事实表和维度表。维度表一般指固定的、变动较少的表，例如联系人、物品种类等，一般数据有限。而事实表一般记录流水，比如销售清单等，通常随着时间的增长不断膨胀。
因为Join操作是对两个表中key值相同的记录进行连接，在SparkSQL中，对两个表做Join最直接的方式是先根据key分区，再在每个分区中把key值相同的记录拿出来做连接操作。但这样就不可避免地涉及到shuffle，而shuffle在Spark中是比较耗时的操作，我们应该尽可能的设计Spark应用使其避免大量的shuffle.
当维度表和事实表进行Join操作时，为了避免shuffle，我们可以将大小有限的维度表的全部数据分发到每个节点上，供事实表使用。executor存储维度表的全部数据，一定程度上牺牲了空间，换取shuffle操作大量的耗时，这在SparkSQL中称作Broadcast Join，如下图所示：

Table B是较小的表，黑色表示将其广播到每个executor节点上，Table A的每个partition会通过block manager取到Table A的数据。根据每条记录的Join Key取到Table B中相对应的记录，根据Join Type进行操作。这个过程比较简单，不做赘述。
Broadcast Join的条件有以下几个：

被广播的表需要小于spark.sql.autoBroadcastJoinThreshold所配置的值，默认是10M （或者加了broadcast join的hint）
基表不能被广播，比如left outer join时，只能广播右表

Shuffle Hash Join

当一侧的表比较小时，我们选择将其广播出去以避免shuffle，提高性能。但因为被广播的表首先被collect到driver段，然后被冗余分发到每个executor上，所以当表比较大时，采用broadcast join会对driver端和executor端造成较大的压力。
但由于Spark是一个分布式的计算引擎，可以通过分区的形式将大批量的数据划分成n份较小的数据集进行并行计算。这种思想应用到Join上便是Shuffle Hash Join了。利用key相同必然分区相同的这个原理，SparkSQL将较大表的join分而治之，先将表划分成n个分区，再对两个表中相对应分区的数据分别进行Hash Join，这样即在一定程度上减少了driver广播一侧表的压力，也减少了executor端取整张被广播表的内存消耗。其原理如下图：

Shuffle Hash Join分为两步：

对两张表分别按照join keys进行重分区，即shuffle，目的是为了让有相同join keys值的记录分到对应的分区中
对对应分区中的数据进行join，此处先将小表分区构造为一张hash表，然后根据大表分区中记录的join keys值拿出来进行匹配

Shuffle Hash Join的条件有以下几个：

分区的平均大小不超过spark.sql.auto BroadcastJoinThreshold所配置的值，默认是10M
基表不能被广播，比如left outer join时，只能广播右表
一侧的表要明显小于另外一侧，小的一侧将被广播（明显小于的定义为3倍小，此处为经验值）
我们可以看到，在一定大小的表中，SparkSQL从时空结合的角度来看，将两个表进行重新分区，并且对小表中的分区进行hash化，从而完成join。在保持一定复杂度的基础上，尽量减少driver和executor的内存压力，提升了计算时的稳定性。

Sort Merge Join

上面介绍的两种实现对于一定大小的表比较适用，但当两个表都非常大时，显然无论适用哪种都会对计算内存造成很大压力。这是因为join时两者采取的都是hash join，是将一侧的数据完全加载到内存中，使用hash code取joinkeys值相等的记录进行连接。
当两个表都非常大时，SparkSQL采用了一种全新的方案来对表进行Join，即Sort Merge Join。这种实现方式不用将一侧数据全部加载后再进行hash join，但需要在join前将数据排序，如下图所示：

可以看到，首先将两张表按照join keys进行了重新shuffle，保证join keys值相同的记录会被分在相应的分区。分区后对每个分区内的数据进行排序，排序后再对相应的分区内的记录进行连接，如下图示：

因为两个序列都是有序的，从头遍历，碰到key相同的就输出；如果不同，左边小就继续取左边，反之取右边。
可以看出，无论分区有多大，Sort Merge Join都不用把某一侧的数据全部加载到内存中，而是即用即取即丢，从而大大提升了大数据量下sql join的稳定性。

案例：

import org.apache.spark.sql.{Dataset, SparkSession}
object JoinDemo {
  def main(args: Array[String]): Unit = {
    //创建程序入口
    val sparkSession = SparkSession.builder().appName("JoinDemo").master("local[*]").getOrCreate()
    //通过一个集合去构建一个dataset
    import sparkSession.implicits._
    val lines:Dataset[String] = sparkSession.createDataset(Array("1,hanmeimei,China","2,tom,USA","3,lili,AS"))

    //数据整理
    val tupleDS = lines.map(line =>{
      val fields = line.split(",")
      val id = fields(0).toLong
      val name  = fields(1)
      val country = fields(2)
      (id,name,country)
    })
    val df1 = tupleDS.toDF("id","name","country")

    val countrys:Dataset[String] = sparkSession.createDataset(List("China,中国","USA,美国","AS,俄国"))

    val tupleDS2  = countrys.map(line=>{
      val fields = line.split(",")
      val ename = fields(0)
      val cname = fields(1)
      (ename,cname)
    })
    val df2  = tupleDS2.toDF("ename","cname")

    //创建一个视图
    df1.createTempView("t_user")
    df2.createTempView("t_country")
    val res = sparkSession.sql("select id,name,cname,ename from t_user join t_country on t_user.country = t_country.ename")
    res.show()
  }
}

-2-

import org.apache.spark.sql.SparkSession

object JoinDemo2 {
  def main(args: Array[String]): Unit = {
    //创建程序入口
    val sparkSession = SparkSession.builder().appName("JoinDemo").master("local[*]").getOrCreate()
    //通过一个集合去构建一个dataset
    import sparkSession.implicits._
    //对表的大小不进行限制
    sparkSession.conf.set("spark.sql.autoBroadcastJoinThreshold",-1)
    sparkSession.conf.set("spark.sql.join.preferSortMergeJoin",true)

    val df1 = Seq(
      (0,"tom"),
      (1,"jeryy"),
      (2,"kate")
    ).toDF("id","name")

    val df2 = Seq(
      (0,10),
      (1,20),
      (2,30)
    ).toDF("aid","age")

    df2.repartition()
    val res = df1.join(df2,$"id" === $"aid")
    res.explain()
    res.show()
    sparkSession.stop()
  }
}

自定义UDF和UDAF

注意：sparksql 没有udtf 这类函数
UDF：

import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.{Row, SQLContext, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}
object UDF {
	def main(args: Array[String]): Unit = {
		val ss = SparkSession.builder().appName(this.getClass.getName).master("local").getOrCreate()
		val sc = ss.sparkContext
		// 构造模拟数据
		val names = Array("Leo", "Marry", "Jack", "Tom")
		val namesRDD = sc.parallelize(names, 5)
		val namesRowRDD = namesRDD.map { name => Row(name) }
		val structType = StructType(Array(StructField("name", StringType, true)))
		val namesDF = ss.createDataFrame(namesRowRDD, structType)
		//注册临时表
		namesDF.createTempView("names")
		//定义和注册自定义函数
		//定义函数：自己写匿名函数
		//注册函数：.udf.register
		ss.udf.register("strLen",(str:String)=>str.length)
		//接下来使用自定义函数
		ss.sql("select name,strLen(name) from names").collect().foreach(println)
	}
}

UDAF：

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._
import org.apache.spark.sql.{Row, SparkSession}
object UDAF {
def main(args: Array[String]): Unit = {
		val ssc = SparkSession.builder().appName(this.getClass.getName).master("local").getOrCreate()
		val sc = ssc.sparkContext
		// 构造模拟数据
		val names = Array("Leo", "Marry", "Jack", "Tom", "Tom", "Tom", "Leo")
		val namesRDD = sc.parallelize(names, 5)
		val namesRowRDD = namesRDD.map { name => Row(name) }
		val structType = StructType(Array(StructField("name", StringType, true)))
		val namesDF = ssc.createDataFrame(namesRowRDD, structType)
		// 注册一张names表
		namesDF.createTempView("names")
		// 定义和注册自定义函数
		// 定义函数：自己写匿名函数
		// 注册函数：SQLContext.udf.register()
		ssc.udf.register("strCount", new UDAF)
		// 使用自定义函数
		ssc.sql("select name,strCount(name) from names group by name")
		.collect()
		.foreach(println)
	}
}
class UDAF extends UserDefinedAggregateFunction {
	//指的是，输入数据类型
	override def inputSchema: StructType = {
		StructType(Array(StructField("str", StringType, true)))
	}
	//指的是，中间进行聚合时，所处理数据的类型
	override def bufferSchema: StructType = {
		StructType(Array(StructField("count", IntegerType, true)))
	}
	//指的是函数返回值的类型
	override def dataType: DataType = {
		IntegerType
	}
	//数据的统一性，一般是true
	override def deterministic: Boolean = true
	//为每个分组的数据执行初始化操作
	override def initialize(buffer: MutableAggregationBuffer): Unit = {
		buffer(0) = 0
	}
	// 在进行聚合的时候，每当有新的值进来，对分组后的聚合如何进行计算
	// 本地的聚合操作，相当于Hadoop MapReduce模型中的Combiner
	override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
		buffer(0)=buffer.getAs[Int](0) + 1
	}
	// 由于Spark是分布式的，所以一个分组的数据，可能会在不同的节点上进行局部聚合，就是update
	// 但是，最后一个分组，在各个节点上的聚合值，要进行merge，也就是合并
	override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
		buffer1(0) = buffer1.getAs[Int](0) + buffer2.getAs[Int](0)
	}
	// 最后返回一个最终的聚合值
	override def evaluate(buffer: Row): Any = {
		buffer.getAs[Int](0)
	}
}

注：使用dataset时需要序列化

你可能感兴趣的:(Spark,Spark,SQL,and,DataFrames)

js 创建对象写法 ---追溯狼魂豹速 javascript 前端开发语言
复制重新生成importSqlParaDTOfrom‘./SqlParamDTO’;exportdefault{create(funcSysId,jsonPara){//实例私有状态(每次create()调用独立)conststate={funcSysId:String(funcSysId||‘’),//强制字符串类型sqlId:‘’,modelName:undefined,queryColumn
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
mysql 统计同一字段不同值的个数 liudachu Mysql数据库 mysql
在一个项目中,制作呃echart图表的时候，遇到一个需求，需要从后端接口获取数据----售票员的姓名和业绩所以需要在订单表中，获取不同售票员的订单数量。订单表解决方案汇总MySQL统计一个列中不同值的数量需求：MySQL统计一个列中不同值的数量，其中origin是用户来源，其中的值有iPhone、Android、Web三种，现在需要分别统计由这三种渠道注册的用户数量。方案1:SELECTcount
美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解 Cloud_. 分布式
引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
腾讯云与MongoDB战略合作升级，瞄准AI时代的数据管理服务 CSDN资讯腾讯云 mongodb 人工智能
2025年3月20日，腾讯云与MongoDB联合宣布续签战略合作协议，双方将围绕AI时代的技术变革为全球用户提供卓越的数据管理服务。文档数据库MongoDB以其灵活的数据结构、强大的性能和原生的分布式扩展性等特点，成为最受欢迎的NoSQL数据库之一，广泛应用于游戏、社交媒体、电商、金融和物联网等各行各业。在DB-Engines全球数据库排行榜上，MongoDB长期位居NoSQL数据库第一。据了解，
RuoYi框架连接SQL Server时解决“SSL协议不支持”和“加密协议错误” 专注代码十年 ssl 网络协议网络
RuoYi框架连接SQLServer时解决“SSL协议不支持”和“加密协议错误”在使用RuoYi框架进行开发时，与SQLServer数据库建立连接可能会遇到SSL协议相关的问题。以下是两个常见的错误信息及其解决方案。错误信息1com.zaxxer.hikari.pool.HikariPool$PoolInitializationException:Failedtoinitializepool;'e
深入解析 MySQL 数据库：隔离级别的选择幽兰的天空 MYSQL数据库数据库 mysql oracle
在数据库中，创建事务一般包含几个简单的步骤。以下是如何在MySQL中创建事务的基本指南，包括相关的SQL语句和操作流程：1.启动事务在MySQL中，你可以使用STARTTRANSACTION或BEGIN语句来启动一个新的事务。这表示你将开始执行一系列操作，这些操作要么全部成功（提交），要么全部失败（回滚）。STARTTRANSACTION;--或者使用BEGIN;2.执行操作在事务被启动后，你可以
MySQL- 索引下推青衫客36 数据库 mysql 数据库
索引下推（IndexConditionPushdown，简称ICP）是MySQL5.6引入的一项优化技术，它通过将部分查询条件“下推”到索引扫描阶段，从而减少不必要的行访问和回表操作，提高查询性能。1.索引下推的概念在传统的索引扫描过程中，MySQL会首先通过索引找到符合索引条件的记录，然后回表（即访问实际的表数据行）读取所需的列，最后再应用其他过滤条件（非索引条件）来判断这条记录是否符合查询要求
sql与html 就很对 sql html jvm
sql与htmlsqlite3sqlsql_callbacksql_dicthtmlhtml01ser02sersql_workhtml_ser03.htmlwebser06ser012.html011.html013.html015.html03.html04.html05.html06.htmlsqlite3sql//sqlite3_open//sqlite3_exec//sqlite3_cl
MySQL请求处理全流程深度解析：从SQL语句到数据返回 longdong7889 mysql sql adb
MySQL请求处理全流程深度解析：从SQL语句到数据返回一、MySQL架构全景图MySQL采用经典的C/S架构和分层设计，其核心模块协同工作流程如下：客户端连接管理器查询解析器查询优化器执行引擎存储引擎磁盘存储各层核心职责：连接层：管理客户端连接、权限验证服务层：SQL解析、优化、内置函数实现存储引擎层：数据存储与索引管理（如InnoDB）文件系统层：日志文件、数据文件存储二、请求处理七步详解步骤
Beekeeper Studio：高颜值且免费的SQL开发工具开源项目精选 sql 数据库
BeekeeperStudio是一款免费开源的SQL开发和数据库管理工具，具有美观高效、简单易用的特点。BeekeeperStudio基于Vue.js开发，遵循MIT开源协议，支持Windows、Linux以及macOS平台。Stars数17842Forks数1170主要特点安全连接：除了正常的连接，也可以使用SSL加密连接或通过SSH隧道连接；SQL自动补全：代码编辑器支持语法高亮和表名自动补全
oracle当前耗时sql语句,查看Oracle最耗时的SQL weixin_39846553 oracle当前耗时sql语句
有很多种方法可以用来找出哪些sql语句需要优化，但是很久以来，最简单的方法都是分析保存在V$sql视图中的缓存的sql信息。通过V$sql视图，可以确定具有高消耗时间、CUP和IO读取的sql语句。1.查看总消耗时间最多的前10条sql语句select*from(selectv.sql_id,v.child_number,v.sql_text,last_load_time,v.PARSING_US
高频SQL50题第一天 | 1757. 可回收且低脂的产品、584. 寻找用户推荐人、595. 大的国家、1683. 无效的推文、1148. 文章浏览 I 榛果咖啡有点苦高频 SQL 50 题 mysql
1757.可回收且低脂的产品题目链接：https://leetcode.cn/problems/recyclable-and-low-fat-products/description/?envType=study-plan-v2&envId=sql-free-50状态：已完成考点：无selectproduct_idfromProductswherelow_fats='Y'andrecyclable
mybatis plus sql性能分析插件 asvxc324deas 程序员 mybatis sql android
在MybatisPlusConfig加入sql性能分析插件一、mybatis-plus自带的性能分析/**SQL执行效率插件性能分析插件*/@Bean@Profile({“dev”,“test”})//设置devtest环境开启publicPerformanceInterceptorperformanceInterceptor(){PerformanceInterceptorperformance
基于 Websoft9 平台的 Odoo 教学实践：助力智能制造、物流与财务会计专业教师提升教学效果开源
Websoft9作为企业级开源软件的自动化部署与管理平台，为高校智能制造、物流与财务会计等专业提供了完整的Odoo（开源ERP）教学解决方案。以下从部署、维护及功能扩展三方面解析其核心价值：一、部署：开箱即用的企业级业务场景模拟一键构建复杂业务架构Websoft9预置了Odoo全模块集成模板，部署时可自动关联PostgreSQL数据库、Nginx负载均衡及Let'sEncryptSSL证书，还原真
MySQL 面试题你曾经是少年 mysql 数据库
1.数据库基础问题：请解释数据库（DB）、数据库管理系统（DBMS）、SQL三者的区别。参考答案：DB：存储数据的结构化仓库DBMS：管理数据库的软件（如MySQL、Oracle）SQL：操作关系型数据库的标准化语言2.SQL分类问题：SQL分为哪几类？分别写出对应的关键字（至少3个）。参考答案：DDL：CREATE/DROP/ALTERDML：INSERT/UPDATE/DELETEDQL：SE
SQL语言的散点图苏墨瀚包罗万象 golang 开发语言后端
SQL语言的散点图引言在数据科学和数据分析的领域中，数据可视化是一项重要的技能。有效的数据可视化可以帮助我们理解复杂的数据集，发现数据中的潜在规律，进而支持决策制定。散点图作为一种基本而有效的数据可视化形式，广泛应用于各种领域。本文将深入探讨散点图的概念、使用场景、SQL查询与散点图的结合，以及如何通过SQL语言生成散点图。散点图的定义与特点散点图是一种二维图形，用来展示两个变量之间的关系。每个点
使用Java实现Oracle表结构转换为PostgreSQL的示例方案(AI) 秉承初心 AI创造 java oracle postgresql
核心代码importjava.sql.*;importjava.util.ArrayList;importjava.util.HashMap;importjava.util.List;importjava.util.Map;publicclassOracleToPGConverter{//类型映射表privatestaticfinalMapTYPE_MAPPING=newHashMapcolumn
MySQL中，性别列（男，女）为什么不适合建索引？程序员猫哥 MySQL mysql 数据库
文章目录在MySQL中，性别列（如仅包含"男"和"女"的列）不适合单独建立索引的主要原因如下：低区分度问题当某个列的唯一值比例（Cardinality）过低时（如性别列仅有2种值），索引的筛选效率会显著下降假设表中有100万条数据，使用性别索引查询时：SELECT*FROMusersWHEREgender='男'可能返回约50万条记录，此时：索引需要执行50万次回表查询（随机I/O）全表扫描只需一
若依框架入门指南：快速上手SpringBoot+前后端分离版小小鸭程序员 spring java spring boot 后端 intellij-idea
若依（RuoYi）是一款基于SpringBoot的快速开发平台，集成了权限管理、代码生成、监控管理等功能。本文将以SpringBoot+Vue前后端分离版本为例，带你快速上手若依框架。一、环境准备基础环境：JDK1.8+MySQL5.7+Redis5.0+Maven3.6+Node.js14+（前端）下载项目：#后端项目gitclonehttps://gitee.com/y_project/Ruo
2023年中职网络安全——SQL注入测试（PL）解析旺仔Sec 网络安全职业技能大赛任务解析服务器运维 web安全 sql 网路安全
SQL注入测试（PL）任务环境说明：服务器场景：Server2312服务器场景操作系统：未知（关闭链接）已知靶机存在网站系统，使用Nmap工具扫描靶机端口，并将网站服务的端口号作为Flag（形式：Flag字符串）值提交。访问网站/admin/pinglun.asp页面，此页面存在SQL注入漏洞，使用排序语句进行列数猜测，将语句作为Flag（形式：URL无空格）值提交。页面没有返回任何有用信息，尝试
Node.js系列（5）--数据库操作指南一进制ᅟᅠ ‌‍‎‏ Node.js node.js 数据库
Node.js数据库操作指南引言数据库操作是Node.js应用开发中的关键环节。本文将深入探讨Node.js数据库操作的实现方案，包括连接管理、查询优化、事务处理等方面，帮助开发者构建高效可靠的数据访问层。数据库操作概述Node.js数据库操作主要包括以下方面：连接管理：连接池、故障恢复、负载均衡查询处理：SQL构建、参数绑定、结果映射事务管理：事务控制、隔离级别、一致性保证性能优化：查询优化、缓
undo log ，redo log 和binlog的区别？努力向前ing MySQL八股详究数据库 MySQL log
一.MySQL如何保证事务的一致性？两阶段锁：prepare阶段：1.写入redolog（prepare）2.通知server准备写入binlogcommit阶段：1.写入binlog2.提交redolog二.有了binlog为什么还要记录redolog？binlog和redolog虽然都是为了数据安全与恢复准备的，但是他们的侧重点和功能有所不同，binlog记录的是SQL语句，属于逻辑日志，可以
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理