ytzhyp

Spark SQL

一.SparkSql

SparkSQL 可以简化 RDD 的开发，提高开发效率.提供了 2 个编程抽象，类似 Spark Core 中的 RDD
➢ DataFrame
➢ DataSet

1.SparkSQL 特点

➢ 易整合
无缝的整合了 SQL 查询和 Spark 编程
➢ 统一的数据访问
使用相同的方式连接不同的数据源
➢ 兼容 Hive
在已有的仓库上直接运行 SQL 或者 HiveQL
➢ 标准数据连接
通过 JDBC 或者 ODBC 来连接

DataFrame和DataSet

➢ DataFrame
    DataFrame也是一种基于RDD的分布式数据集, 与RDD的区别在于DataFrame中有数据的原信息
    DataFrame可以理解为传统数据库中的一张二维表格,每一列都有列名和类型
    
 ➢ DataSet
    DataSet也是分布式数据集,对DataFrame的一个扩展,相当于传统JDBC中的ResultSet

2.SparkSQL 核心编程

新的起点

    在SparkCore中需要创建上下文环境SparkContext
    而SparkSql对SparkCore的封装, 不仅仅是功能上的封装,上下文件环境也封装了
        老版本中称为 SQLContext 用于Spark自己的查询 和 HiveContext 用于Hive连接的查询
        新版本中称为 SparkSession 是 SQLContext 和 HiveContext的组成 , 所以他们的API是通用的
        同时 SparkSession也可以直接获取到SparkContext对象

3.DataFrame的创建和使用

    三个概念:
        数据:  RDD中只关心数据  比如: (1,"jack",20)  并不关心每个字段的汉字
        结构:  DataFrame关心 数据+结构  比如: {"id":1,"name":"jack","age":20} 关心每个字段数据的类型
        类型: DataSet关系 数据+结构+类型 比如: DataSet[Person] Person是我们定义好的类, 既有类型+字段+数据

3.1 创建DataFrame

➢ 从数据源中创建
    scala> var df = spark.read.json("data/info.json")
            df: org.apache.spark.sql.DataFrame = [ age: bigint , id: bigint ]
➢ 从RDD中转换(后续章节补充)
➢ 从Hive Table查询返回(后续章节补充)

3.2 使用DataFrame

使用DataFrame有两个方式,分别是 SQL语法和DSL语法

➢ SQL语法
    1. 通过 "临时视图" 来使用,所以先创建视图
    2. 通过 sparkSession对象执行sql进行数据查询
    scala> df.createOrReplaceTempView("user")  //创建临时视图
    scala> var viewdf = spark.sql("select id,name,age from user") //通过spark执行sql
    viewdf: org.apache.spark.sql.DataFrame = [id: bigint, name: string] //执行sql返回的还是DF
    scala> viewdf.show  //展示DF中的数据
    scala> spark.sql("select id,name,age from user").show  //也可以直接查询sql并展示
    +---+-----+---+
    | id| name|age|
    +---+-----+---+
    |  1|jack1| 18|
    |  2|jack2| 28|
    |  3|jack3| 38|
    +---+-----+---+
    
    注意: 
        df.createOrReplaceTempView 只能创建当前会话有效的临时视图
        df.createOrReplaceGlobalTempView 能创建所有会话都有效的临时视图
        使用时 需要在视图名前面加上  global_temp.视图名
        
➢ DSL语法
    DSL称为 Domain-Specific Language 特定领域语言
    这是 DataFrame中管理结构化数据的API ,通过DataFrame就可以调用这些API

    scala> df.printSchema
            root
             |-- age: long (nullable = true)
             |-- id: long (nullable = true)
             |-- name: string (nullable = true)
    scala> df.select("name")
            res20: org.apache.spark.sql.DataFrame = [name: string]
    //基本查询
    scala> df.select("name").show
            +-----+
            | name|
            +-----+
            |jack1|
            |jack2|
            |jack3|
            +-----+
   //列运算         
    scala> df.select($"age" + 1).show
    scala> df.select('age + 1).show
            +---------+
            |(age + 1)|
            +---------+
             |       19|
             |       29|
             |       39|
            +---------+
            
    //取别名
    scala> df.select('name,'age + 1 as "aa").show
            +-----+---+
            | name| aa|
            +-----+---+
            |jack1| 19|
            |jack2| 29|
            |jack3| 39|
            +-----+---+    
    //统计函数
    scala> df.select(avg("age") as "平均年龄").show
            +--------+
            |平均年龄|
            +--------+
            |    48.0|
            +--------+
    //条件过滤
    scala> df.filter('age > 25).show
            +---+---+-----+
            |age| id| name|
            +---+---+-----+
            | 28|  2|jack2|
            | 38|  3|jack3|
            +---+---+-----+
    //组合+聚合函数
    scala> df.groupBy("id").count.show
            +---+-----+
            | id|count|
            +---+-----+
            |  1|    1|
            |  3|    1|
            |  2|    1|
            +---+-----+

3.3 DataFrame转换

➢ RDD 与 DF 转换需要导入 隐式函数
    import spark.implicits._
    这里的spark是 SparkSession的对象名,因此需要创建好SparkSession对象之后导入,并且该对象必须是val常量
    
    1. RDD ==> DF ,缺少结构,即字段名
        scala> var rdd = spark.sparkContext.makeRDD(List(1,2,3))
                rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[129] at makeRDD at <console>:23
        scala> var df = rdd.toDF("id")
                df: org.apache.spark.sql.DataFrame = [id: int]
        scala> df.show
                +---+
                | id|
                +---+
                |  1|
                |  2|
                |  3|
                +---+
    2. DF ===> RDD DF内部封装了RDD 直接获取即可
            删除结构后,DF中每一行 就会变成一个Row对象
            通过Row对象的get(index) 或者 getAs[Type](index)方法获取Row对象中的数据
            
    scala> var df = spark.read.json("data/info.json");
            df: org.apache.spark.sql.DataFrame = [age: bigint, id: bigint]
    scala> var rdd = df.rdd
            rdd: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 
    scala> var arr = rdd.collect
            arr: Array[org.apache.spark.sql.Row] = Array([18,1,jack1], [28,2,jack2], [38,3,jack3])
    scala> arr(0)
            res62: org.apache.spark.sql.Row = [18,1,jack1]
    scala> arr(0).get(0)
            res63: Any = 18
    scala> arr(0).getAs[String](2)
            res67: String = jack1

3.4 DataSet

DataSet 即有数据,又有结构,也有类型, DataFrame其实一个特殊的DataSet,其类型是DataSet[Row]

➢ 通过Seq或者List 可以把集合直接转成DS
    1. 通过基本类型的集合
     scala> var ds = List(1,2,3).toDS
            ds: org.apache.spark.sql.Dataset[Int] = [value: int]

    scala> var ds = List(1.1,2.2).toDS
            ds: org.apache.spark.sql.Dataset[Double] = [value: double]
    
    2.通过已定义类型的集合
    scala> case class User(age:Int,name:String)
            defined class User

    scala> var ds = List(User(10,"jack"),User(20,"rose")).toDS
            ds: org.apache.spark.sql.Dataset[User] = [age: int, name: string]

3.5 DataSet的转换

    在实际使用的时候，很少用到把序列转换成DataSet，更多的是通过RDD来得到DataSet
    
    1. RDD ==> DS  缺少结构和类型
        a. RDD 转DS 我们一般可以映射成 具体具体类型的RDD之后再转DS 
    scala> case class User(name:String, age:Int)
            defined class User
    scala> sc.makeRDD(List(("zhangsan",30), ("lisi",49))).map(t=>User(t._1,t._2)).toDS
            res11: org.apache.spark.sql.Dataset[User] = [name: string, age: int]
        b. 也可以直接ToDS
    scala> sc.makeRDD(List(("zhangsan",30), ("lisi",49))).toDS
            res11: org.apache.spark.sql.Dataset[(String,Int)] = [_1: String, _2: Int]
    
    2.DS ==> RDD  DS内部封装了RDD 直接获取即可,且获取出来的RDD也是带有类型的
    scala> var ds = List(User("aa",11),User("bb",22)).toDS
            ds: org.apache.spark.sql.Dataset[User] = [name: string, age: int]
    scala> var rdd = ds.rdd
            rdd: org.apache.spark.rdd.RDD[User]

3.5 DataFrame和DataSet的转换

➢ DataFrame ==> DataSet  需要一个类型    
    scala> case class User(name:String, age:Int)
            defined class User
    scala> val df = sc.makeRDD(List(("zhangsan",30),("lisi",49))).toDF("name","age")
            df: org.apache.spark.sql.DataFrame = [name: string, age: int]
    scala> val ds = df.as[User]
            ds: org.apache.spark.sql.Dataset[User] = [name: string, age: int]

        
➢ DataSet ==> DataFrame  删除类型 即变成 DataSet[Row]
    scala> val df = ds.toDF
            df: org.apache.spark.sql.DataFrame = [name: string, age: int]

3.6 RDD、DataFrame、DataSet

    DF ==rdd==> RDD [ ROW ] 
    DS ==rdd==> RDD [ Type ]
    转rdd 如果是DF 那么泛型是ROW 如果是DS泛型就是DS的泛型
    
    RDD ==toDF==> DF [ ROW ]
    DS   ==toDF==> DF [ ROW ]
    转DF 无论如何DF没有类型 所以都是ROW

    DF   ==as[Type]==> DS[ Type ]
    RDD ====> DS [ RDD的泛型 ]
    转DS 如果是DF 那么泛型是Type 如果是RDD泛型就是RDD的泛型

4. IDEA 开发 SparkSQL

object Spark_SQL_Start {
	def main(args: Array[String]): Unit = {
			//1.创建SparkSession
		val spark: SparkSession = SparkSession.builder()
			.config(new SparkConf().setMaster("local[*]")
				.setAppName("start01")).getOrCreate()
		import spark.implicits._
		//2.DF的创建和使用
		val df: DataFrame = spark.read.json("datas/info.json").cache()
		//SQL
		df.createOrReplaceTempView("User")
		spark.sql("select * from User").show()
		//DSL
		df.select("name").show()
		df.groupBy("id").count().show()
		println("-----------------------")
		//3.DF ==> DS  DF ==> RDD
		val ds: Dataset[User] = df.as[User]
		ds.show()
		val rdd: RDD[Row] = df.rdd
		rdd.collect().foreach(println)
		println("-----------------------")
		//4.RDD ==> DF  RDD ==> DS
		val rdd1: RDD[(Int, String)] = spark.sparkContext.makeRDD(Seq((10,"tom"),(20,"jack")))
		var df1: DataFrame = rdd1.toDF("id","name")
		df1.show()
		val ds1: Dataset[User] = rdd1.map(t=>User(t._1,t._2)).toDS()
		ds1.show()
		println("-----------------------")
		//5.DS==>RDD  DS==>DF
		val rdd2: RDD[User] = ds1.rdd
		rdd2.collect().foreach(println)
		val df2: DataFrame = ds1.toDF()
		df2.show()
		//6.关闭
		spark.close()
	}
	case class User(id:Long,name:String)
}

5. UDF

执行spark.sql时可以使用用户自定义函数,实现自己想要的功能
通过spark.udf.register注册函数即可使用

object Spark_Sql_UDF {
	def main(args: Array[String]): Unit = {
		val spark: SparkSession = SparkSession.builder()
        .config(new SparkConf().setAppName("UDF").setMaster("local[*]")).getOrCreate()
		import spark.implicits._
		//注册用户自定义函数
		spark.udf.register("getWithName",(x)=>{"Name:"+x})
		//创建DF
		val df: DataFrame = spark.read.format("json").load("datas/info.json")
		//创建临时表 
		df.createOrReplaceTempView("user")
		//使用sql自定义函数
		spark.sql("select getWithName(name),id from user").show()
		spark.close()
	}
}
➢ info.json:
    {"id": 10,"name": "jack"}
    {"id": 20,"name": "rose"}
    {"id": 30,"name": "tom"}
➢ console:
    |getWithName(name)| id|
    +-----------------+---+
    |        Name:jack| 10|
    |        Name:rose| 20|
    |         Name:tom| 30|
    +-----------------+---+

5. UDAF

用户自定义聚合函数
通过
- 继承 UserDefinedAggregateFunction 弱类型的聚合函数 ( Spark3.0之前 )
- 继承 Aggregator 强类型的聚合函数 ( Spark3.0 )

    需求: 自定义求平均值函数 avgAge
    
➢ 通过RDD实现
        val rdd: RDD[(String, Int)] = spark.sparkContext.makeRDD(Seq(("jack", 10), ("rose", 20), ("tom", 30)))
        val ageOneRdd: RDD[(Int, Int)] = rdd.map { case (_, age) => (age, 1) }
        val ageCount: (Int, Int) = ageOneRdd.reduce((t1, t2) => (t1._1 + t2._1, t1._2 + t2._2))
        println(ageCount._1 / ageCount._2)
➢ 通过累加器实现
        val ageAcc = new AgeAccumulator
        spark.sparkContext.register(ageAcc)
        val rdd: RDD[(String, Int)] = spark.sparkContext.makeRDD(Seq(("jack", 10), ("rose", 20), ("tom", 30)))
        rdd.foreach { case (_, age) => ageAcc.add(age) }
        val ageCount: (Int, Int) = ageAcc.value
        println(ageCount._1 / ageCount._2)
        
class AgeAccumulator extends AccumulatorV2[Int, (Int, Int)] {
		private var ageSum: Int = 0
		private var ageCnt: Int = 0
		override def isZero: Boolean = ageSum == 0 && ageCnt == 0
		override def copy(): AccumulatorV2[Int, (Int, Int)] = new AgeAccumulator
		override def reset(): Unit = {
			ageSum = 0
			ageCnt = 0
		}
		override def add(age: Int): Unit = {
			ageSum += age
			ageCnt += 1
		}
		override def merge(other: AccumulatorV2[Int, (Int, Int)]): Unit = {
			ageSum += other.value._1
			ageCnt += other.value._2
		}
		override def value: (Int, Int) = (ageSum, ageCnt)
	}

➢ 通过 继承 UDAF (Spark3.0之前) 抽象类实现自定义聚合函数
		//创建DF
		val rdd: RDD[(String, Int)] = spark.sparkContext.makeRDD(Seq(("jack", 10), ("rose", 20), ("tom", 30)))
		val df: DataFrame = rdd.toDF("name", "age")
		//创建自定义集合函数对象
		val ageUDAF = new AgeUDAF
		//注册UDAF
		spark.udf.register("ageAVG", ageUDAF)
		//创建临时表
		df.createOrReplaceTempView("user")
		//执行sql
		spark.sql("select ageAVG(age) from user").show()
        
	class AgeUDAF extends UserDefinedAggregateFunction {
		//聚合函数输入的数据类型
		override def inputSchema: StructType = {
			StructType(
				Array(
					StructField("age", IntegerType)
				)
			)
		}
		//计算过程的缓冲区
		override def bufferSchema: StructType = {
			StructType(
				Array(
					StructField("ageSum", LongType),
					StructField("ageCnt", LongType)
				)
			)
		}
		//聚合函数返回值类型
		override def dataType: DataType = DoubleType
		// 稳定性：对于相同的输入是否一直返回相同的输出
		override def deterministic: Boolean = true
		// 函数缓冲区初始化
		override def initialize(buffer: MutableAggregationBuffer): Unit = {
			buffer(0) = 0L
			buffer(1) = 0L
		}
		//累加计算
		override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
			buffer(0) = buffer.getLong(0) + input.getInt(0)
			buffer(1) = buffer.getLong(1) + 1
		}
		//合并
		override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
			buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
			buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
		}
		//计算结果
		override def evaluate(buffer: Row): Double = buffer.getLong(0).toDouble / buffer.getLong(1)
	}        

➢ 通过继承 Aggregate (Spark3.0) 自定义强类型聚合函数
		//创建强类型UDAF对象
		val ageAggr = new AgeAggregator
		//注册强类型的UDAF,需要使用functions.udaf进行函数转换
		spark.udf.register("ageAggr", functions.udaf(ageAggr))
		//创建rdd
		val rdd: RDD[(String, Int)] = spark.sparkContext.makeRDD(Seq(("jack", 10), ("rose", 20), ("tom", 30)))
		//转成DF
		val df: DataFrame = rdd.toDF("name", "age")
		//创建临时表
		df.createOrReplaceTempView("user")
		//执行sql 直接使用聚合函数
		spark.sql("select ageAggr(age) from user").show()
        
	class AgeAggregator extends Aggregator[Int, (Long, Long), Double] {
		//缓冲区 初始值
		override def zero: (Long, Long) = (0, 0)
		//输入age到缓冲区计算
		override def reduce(buff: (Long, Long), age: Int): (Long, Long) = {
			(buff._1 + age, buff._2 + 1)
		}
		//合并多个缓冲区
		override def merge(buff1: (Long, Long), buff2: (Long, Long)): (Long, Long) = {
			(buff1._1 + buff2._1, buff1._2 + buff2._2)
		}
		//计算结果
		override def finish(buff: (Long, Long)): Double = {
			buff._1.toDouble / buff._2
		}
		//输入编码,自定义对象Encoders.product  其他Encoders.scalaXxx
		override def bufferEncoder: Encoder[(Long, Long)] = Encoders.tuple(Encoders.scalaLong, Encoders.scalaLong)
		//输出编码,自定义对象Encoders.product  其他Encoders.scalaXxx
		override def outputEncoder: Encoder[Double] = Encoders.scalaDouble
	}

6. 数据的加载和保存

通用的加载和保存方式

SparkSQL 提供了通用的保存数据和加载数据的方式. 默认的保存和加载数据的格式都是parquet
    scala> spark.read.load( "parquet path" ) 和 df.write.save( "parquet path" )

我们可以通过设置不同的参数,来指定不同的数据源格式,读取和保存数据均可
    scala>  spark.read.format( "json" ) [ .option( "key","value" ) ] .load( "filepath" )
    
➢ format( "..." )  指定读取数据源的格式, 包括 "csv"、"jdbc"、"json"、"orc"、"parquet" 和 "textFile"。

➢ option( "key","value" )  如果format是jdbc, 那么使用多个option传递JDBC参数

➢ 也有一些简化的方法,用于特定的文件读取,从而省略format调用
    spark.read.json("json file path") spark.read.cvs("cvs file path")
    scala> spark.read.
                csv      jdbc   load     options   parquet   table   textFile   
                format   json   option   orc       schema    text 
    
保存操作:
    df.write.mode("SaveMode String").save("parquet file path")
    除了和读取操作一样的参数之外, 另有一个模式,表示保存时的状态
    SaveMode.ErrorIfExists(default) ==> "error"(默认的) 如果文件已经存在则抛出异常
    SaveMode.Append  ==> "append" 如果文件已经存在则追加(会有多个文件生成)
    SaveMode.Overwrite  ==> "overwrite" 如果文件已经存在则覆盖(把以前的文件删除)
    SaveMode.Ignore  ==> "ignore" 如果文件已经存在则忽略(不生成新文件,保留原来的文件 )
    
    scala> df.write.mode("append").json("/output")

7. MySQL数据读取和写入

➢ spark-shell 命令行连接

    1. 添加mysql驱动到spark的jars目录下
    2. scala> val jdbcDF = spark.read.format("jdbc").options(Map("url" -> "jdbc:mysql://localhost:3306/mysql", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "plugin", "user" -> "root", "password" -> "1234")).load()

➢ scala代码连接

    1.导入mysql的驱动依赖
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>5.1.27</version>
    </dependency>
    2.读取mysql数据
    spark.read.format("jdbc").options(Map(
        "url" -> "jdbc:mysql://192.168.189.90:3306/mysql",
        "driver" -> "com.mysql.cj.jdbc.Driver",
        "user" -> "root",
        "password" -> "1234",
        "dbtable" -> "help_topic"
    )).load().show()

    spark.read.format("jdbc")
        .option("url", "jdbc:mysql://192.168.189.90:3306/mysql")
        .option("driver", "com.mysql.cj.jdbc.Driver")
        .option("user", "root")
        .option("password", "1234")
        .option("dbtable", "plugin")
        .load().show

    val props: Properties = new Properties()
    props.setProperty("user", "root")
    props.setProperty("password", "1234")
    spark.read.jdbc("jdbc:mysql://node0:3306/mysql",
        "plugin", props).show()
    
    3.写入数据到mysql
    val df: DataFrame = spark.sparkContext.makeRDD(List(1,2,3)).toDF("id")
    df.write.format("jdbc").options(Map(
            "url" -> "jdbc:mysql://192.168.189.90:3306/test",
            "driver" -> "com.mysql.cj.jdbc.Driver",
            "user" -> "root",
            "password" -> "1234",
            "dbtable" -> "ids"
        )).mode(SaveMode.Append)  //默认的模式是 表存在则报错,这里指定追加 表存在不会保存
        .save()

8.Spark连接Hive

Apache Hive 可以理解为一个Hadoop上的SQL引擎数据库
SparkSQL在编译时可以加入Hive的支持也可以不加入(我们下载的Hive二进制包是包含Hive支持的)
- 那么就可以访问Hive表、UDF (用户自定义函数) 以及 Hive 查询语言(HiveQL/HQL)等
- 由于Spark包含了Hive 所以连接Hive有两种方式,
  - 一是连接自带的内嵌Hive(不需要任何配置)
  - 二是连接外部的Hive 需要简单的配置

1.连接内嵌的Hive

    连接内嵌Hive什么都不需要做, 默认使用derby作为元数据库,使用本地文件系统作为数据仓库
    执行两个命令:
         //执行查看数据库sql, 会自动在 $spark_home下生成metastore_db元数据库信息
        scala> spark.sql("show tables").show
        //执行创建表操作,或者插入数据操作,会自动生成并在$spark_home/spark-warehouse 存储数据
        scala> spark.sql("create table test(id int)")
        spark.sql("insert into test values(1),(2)")

2.连接外部的Hive

Spark 使用hive 数据仓库,
- 将hive-site.xml文件拷贝到spark的conf目录下
- 添加mysql驱动包到spark的jars目录下
- 如果spark访问不到hdfs, 需要将core-site.xml和hdfs-site.xml也拷贝到spark的conf目录下
  [经测试是不需要拷贝这两个文件的,也不知道spark是如何找到hadoop的,hive是通过$HADOOP_HOME找到的]
- 如果hive-site.xml配置了元数据服务器,需要启动元数据服务器
- 重写启动spark-shell即可自动切换到hive数据仓库

scala> spark.sql("show tables").show
        +--------+--------------------+-----------+
        |database|           tableName|isTemporary|
        +--------+--------------------+-----------+
        | default|                  aa|      false|
        | default|         live_events|      false|
        | default|        login_events|      false|
        | default|order_amount_by_p...|      false|
        | default|        order_detail|      false|
        | default|    page_view_events|      false|
        | default|      payment_detail|      false|
        | default|        product_info|      false|
        | default|      promotion_info|      false|
        | default|       province_info|      false|
        +--------+--------------------+-----------+

2.使用Spark SQL CLI

    确保Spark可以连接外部的hive之后,.就可以是用spark-sql直接连接hive进行操作
    [zhyp@node0 spark-local]$ bin/spark-sql
    spark-sql> show tables;
                    default aa      false
                    default live_events     false
                    default login_events    false
                    default order_amount_by_province        false
                    default order_detail    false
                    default page_view_events        false
                    default payment_detail  false
                    default product_info    false
                    default promotion_info  false
                    default province_info   false
                    Time taken: 2.433 seconds, Fetched 10 row(s)

2.使用Spark Beeline

Spark Thrift Server 是基于HiveServer2的另外一个实现 , 完全兼容HiveServer2 并且都是一样的协议和端口
我们使用Spark Thrift Server 取代HiveServer2 和 Hive的metastore服务交互获取元数据
Spark Beeline 连接 Spark thrift server的步骤
- 将hive-site.xml文件拷贝到spark的conf目录下
- 如果hive-site.xml配置了元数据服务器,需要启动元数据服务器
  - [如果不是用元数据服务器,需要在jars中加入mysql驱动和配置文件中添加连接数据库四大要素]
- 启动Spark thrift server 使用beeline连接即可

    [zhyp@node0 spark-local]$ sbin/start-thriftserver.sh
    [zhyp@node0 spark-local]$ bin/beeline -u jdbc:hive2://linux1:10000 -n zhyp
    或者
    [zhyp@node0 spark-local]$ bin/beeline
    beeline> !connect jdbc:hive2://node0:10000

3.代码连接Hive

    def main(args: Array[String]): Unit = {
		//创建 SparkSession
		System.setProperty("HADOOP_USER_NAME", "zhyp")
		val spark: SparkSession = SparkSession
			.builder()
			.enableHiveSupport()  //添加Hive支持,默认是不支持连接Hive,开启后会读取classpath下的hive-site.xml
          .config("spark.sql.warehouse.dir", "hdfs://node0:8020/user/hive/warehouse") //通过spark创建数据库需要写这个地址,因为新建的数据库默认是在本地路径中找/user/hive/warehouse
			.master("local[*]")
			.appName("sql")
			.getOrCreate()
		import spark.implicits._

		spark.sql("create table abc(id int)").show()
		spark.sql("insert into abc values(1),(111)").show()
		spark.sql("show tables").show()
		spark.sql("select * from abc").show()

		spark.close()
	}

代码练习

package com.zhyp.spark.sql.start
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, SparkSession}
object Spark_SQL_Test01{
	def main(args: Array[String]): Unit = {
		System.setProperty("HADOOP_USER_NAME", "zhyp")
		//1.创建SparkSession
		val spark: SparkSession = SparkSession.builder().enableHiveSupport()
			.config("spark.sql.warehouse.dir","hdfs://node0:8020/user/hive/warehouse")
			.config(new SparkConf().setMaster("local[*]")
				.setAppName("start01")).getOrCreate()
		import spark.implicits._
		spark.sql("create database test")
		spark.sql("use test")
		spark.sql(
			"""
				|CREATE TABLE `user_visit_action`(
				| `date` string,
				| `user_id` bigint,
				| `session_id` string,
				| `page_id` bigint,
				| `action_time` string,
				| `search_keyword` string,
				| `click_category_id` bigint,
				| `click_product_id` bigint,
				| `order_category_ids` string,
				| `order_product_ids` string,
				| `pay_category_ids` string,
				| `pay_product_ids` string,
				| `city_id` bigint)
				|row format delimited fields terminated by '\t';
			""".stripMargin)
		spark.sql(
			"""
				|load data local inpath 'datas/user_visit_action.txt' into table
				|user_visit_action
			""".stripMargin)
		spark.sql(
			"""
				|CREATE TABLE `product_info`(
				| `product_id` bigint,
				| `product_name` string,
				| `extend_info` string)
				|row format delimited fields terminated by '\t'
			""".stripMargin)
		spark.sql(
			"""
				|load data local inpath 'datas/product_info.txt' into table product_info
			""".stripMargin)
		spark.sql(
			"""
				|CREATE TABLE `city_info`(
				| `city_id` bigint,
				| `city_name` string,
				| `area` string)
				|row format delimited fields terminated by '\t'
			""".stripMargin)
		spark.sql(
			"""
				|load data local inpath 'datas/city_info.txt' into table city_info
			""".stripMargin)

		spark.close()
	}
}


package com.zhyp.spark.sql.start
import org.apache.spark.SparkConf
import org.apache.spark.sql.expressions.Aggregator
import org.apache.spark.sql.{Encoder, Encoders, SparkSession, functions}
import scala.collection.mutable
import scala.collection.mutable.ListBuffer
object Spark_SQL_Test03 {
	def main(args: Array[String]): Unit = {
		System.setProperty("HADOOP_USER_NAME", "zhyp")
		//1.创建SparkSession
		val spark: SparkSession = SparkSession.builder().enableHiveSupport()
			.config("spark.sql.warehouse.dir", "hdfs://node0:8020/user/hive/warehouse")
			.config(new SparkConf().setMaster("local[*]")
				.setAppName("start01")).getOrCreate()
		//2.执行
		spark.udf.register("cityRemark", functions.udaf(new CityRemarkUDAF))
		spark.sql("use test")
		//1.关联三张表 过滤非点击数据
		spark.sql(
			"""
				|select
				|c.area,c.city_name,p.product_name
				|from
				|user_visit_action a
				|join
				|city_info c
				|on a.city_id = c.city_id
				|join
				|product_info p
				|on a.click_product_id = p.product_id
				|where a.click_product_id > -1
			""".stripMargin).createOrReplaceTempView("t1")

		//2.分组 按照地区和商品分组
		spark.sql(
			"""
				|select
				|area,product_name,
				|cityRemark(city_name) city_remark,
				|count(*) clickCnt
				|from t1
				|group by area,product_name
			""".stripMargin).createOrReplaceTempView("t2")

		//3.对 同一个地区的各种商品点击量排名
		spark.sql(
			"""
				|select
				|*,
				|rank() over(partition by area order by clickCnt desc) rank
				|from t2
			""".stripMargin).createOrReplaceTempView("t3")

		//4.取各区域的前三名
		spark.sql(
			"""
				|select
				|*
				|from t3
				|where rank <= 3
			""".stripMargin).show()
	}
	case class CityAndCntBuff(map:mutable.Map[String,Long])
	class CityRemarkUDAF extends Aggregator[String, CityAndCntBuff, String] {
		override def zero: CityAndCntBuff = CityAndCntBuff(mutable.Map())
		override def reduce(buff: CityAndCntBuff, city: String): CityAndCntBuff = {
			val map: mutable.Map[String, Long] = buff.map
			map.update(city, map.getOrElse(city, 0L) + 1L)
			buff
		}
		override def merge(buff1: CityAndCntBuff, buff2: CityAndCntBuff): CityAndCntBuff = {
			var map1 = buff1.map;
			var map2 = buff2.map
			map2.foreach({
				case (city, cnt) => {
					map1.update(city, map1.getOrElse(city, 0L) + cnt)
				}
			})
			buff1
		}
		override def finish(resultBuff: CityAndCntBuff): String = {
			val resultMap: mutable.Map[String, Long] = resultBuff.map
			val totalCnt: Long = resultMap.values.reduce(_ + _)
			val top2: List[(String, Long)] = resultMap.toList.sortBy(_._2)(Ordering.Long.reverse).take(2)
			val cityBuffer = new ListBuffer[String]
			var percentSum = 0L
			top2.foreach({
				case (city, cnt) => {
					val percent: Long = cnt * 100 / totalCnt
					cityBuffer.append(s"${city} ${percent}%")
					percentSum += percent
				}
			})
			if (resultMap.size > 2) {
				cityBuffer.append(s"其他 ${1 - percentSum}%")
			}
			cityBuffer.mkString(", ")
		}
		override def bufferEncoder: Encoder[CityAndCntBuff] = Encoders.product
		override def outputEncoder: Encoder[String] = Encoders.STRING
	}
}

你可能感兴趣的:(spark,sql,大数据)

mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
You have an error in your SQL syntax； check the manual that corresponds to your MySQL server version 努力的菜鸟~ sql 数据库
YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear‘IDENTIFIEDBY‘123456’WITHGRANTOPTION’atline1在mysql5.7之前GRANTALLPRIVILEGESON*.*TO'root'@'%'I
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
鲲鹏 ARM 架构麒麟 Lylin v10 安装 Nginx (离线) 焚木灵 arm开发架构 nginx 服务器
最近做一个银行的项目，银行的服务器是鲲鹏ARM架构的服务器，并且是麒麟v10的系统，这里记录一下在无法访问外网安装Nginx的方法。其他文章：鲲鹏ARM架构麒麟Lylinv10安装Mysql8.3(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Node和NVM(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装Pm2(离线)-CSDN博客鲲鹏ARM架构麒麟Lylinv10安装P
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
MySQL事务隔离级别和MVCC 简书徐小耳
MySQL事务隔离级别和MVCC参考：https://mp.weixin.qq.com/s/Jeg8656gGtkPteYWrG5_Nw1.MVCC只对读已提交和可重复的读有效果，而未提交读和串行则无意义。2.每条记录都会有trx_id(事务修改记录的id）和roll_pointer是一个指针指向旧版本的undo日志链表（row_id不是必必要的，如果有主键存在就不需要了）3.版本链的头结点就是记
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
CentOS7 安装MySQL5.7.44 不要Null了 java centos mysql
1.下载mysql安装包，我放在百度网盘里(下方链接)链接：https://pan.baidu.com/s/1_Mn1XW_1mWdTV4mhnLG66A提取码：s31n2.首先看看以前是否安装过mysqlrpm-qa|grep-imysql如果已经安装过mysql会提示卸载mysqlrpm-emysql-…3.使用FinallShell或者Xftp进行上传放到/usr/local/mysql，没
非关系型数据库天秤-white nosql
一、为什么要用Nosql1.单机MySQL的时代。一个基本的网站访问量一般不会太大，单个数据库完全足够。那时候更多使用的静态网页html，服务器根本没有太大压力。这时候网站的瓶颈是什么？-数据量如果太大，一个机器放不下。-数据量太大需要建立数据的索引（B+Tree），一个服务器内存放不下。-访问量读写混合，一个服务器承受不了。2.memcached缓存+MySQL+垂直拆分（读写分离）。网站80%
六、全局锁和表锁：给表加个字段怎么有这么多阻碍 nieniemin
数据库锁设计的初衷是处理并发问题。作为多用户共享的资源，当出现并发访问的时候，数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。根据加锁的范围，MySQL里面的锁大致可以分成全局锁、表级锁和行锁三类。6.1全局锁全局锁就是对整个数据库实例加锁。MySQL提供了一个加全局读锁的方法，命令是Flushtableswithreadlock(FTWRL)。当你需要让整个库处于
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象