星瀚光晨

Spark-SQL教程

创建SparkSession
通过SparkSession创建SparkContext
SparkContext读写文件的操作
SparkSession文件读写
spark catalog操作
读取数据并生成DataFrame实例
手动创建DataFrame
- 使用sparkSession简化生成DataFrame
- 生成dataFrame -- createDataFrame(rdd,StructType(StructFields))
- 动态封装DataFrame
创建DataSet
- 读取文本文件并生成dataset实例
- 自定义属性生成dataset
- 写入数据到ES
- DataSet的使用 - 读写文件
- DataSet的使用 - 读写MySQL
Spark_On_Hive
- standalone模式
- - IDEA使用spark程序交互hive
- Spark-Sql服务
- - SPARK整合HIVE
  - Spark-Sql
spark-sql函数
- 自定义函数

创建SparkSession

val session = SparkSession
      .builder()
      .config(new SparkConf())
      .appName("test01") // 如果在conf中设置了，就不需要在此设置
      .master("local") // 如果在conf中设置了，就不需要在此设置
      .enableHiveSupport()   //开启这个选项时  spark sql on  hive  才支持DDL，没开启，spark只有catalog
      .config("hive.metastore.uris", "thrift://192.168.7.11:9083")
      .getOrCreate()

通过SparkSession创建SparkContext

val sc: SparkContext = session.sparkContext
sc.setLogLevel("ERROR")

SparkContext读写文件的操作

# sparkContext读文件
sc.textFile(bigFile,minPartitions = 2)  -> hadoopFile(path,TextInputFormat,keyClass,valueClass,minPartitions)  -> HadoopRDD
sc.wholeTextFiles(bigFile) ->  WholeTextFileRDD -继承了 NewHadoopRDD
sc.newAPIHadoopFile(bigFile)  -> 

//sc.textFile(bigFile,minPartitions = 2).take(10).foreach(println)
sc.hadoopFile(bigFile,
  classOf[TextInputFormat],
  classOf[LongWritable],
  classOf[Text],
  2).map(_._2.toString).setName(bigFile).take(10).foreach(println)


# 写入HDFS
删除HDFS文件
val hadoopConf = sparkContext.hadoopConfiguration
val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
if(hdfs.exists(path)){
     //为防止误删，禁止递归删除
     hdfs.delete(path,false)
   }

sc.textFile(bigFile).map(t => ("filename.txt",t)).saveAsHadoopFile(  // (键，值)
      "/data/hdfsPath", // 文件目录路径
      classOf[String], // 键的类型
      classOf[String], // 值的类型
      classOf[PairRDDMultipleOTextOutputFormat],  //重写以下方法 generateFileNameForKeyValue() 文件名, generateActualKey() 是否有键值在内容中
      //classOf[SnappyCodec]
    )

SparkSession文件读写

package com.chauncy.spark_sql.file_read_write

import com.chauncy.spark_sql.InitSparkSession
import com.chauncy.spark_sql.project.PairRDDMultipleOTextOutputFormat
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.sql.SaveMode

/**
 * @author Chauncy Jin
 *         Tool: 
 * @date 2021/12/15
 */
object MyTextReadWrite {
  def deleteFile(hdfs: FileSystem, path: String): AnyVal = {
    val pathFile: Path = new Path(path)
    if (hdfs.exists(pathFile)) {
      //为防止误删，禁止递归删除
      hdfs.delete(pathFile, false)
    }
  }

  def main(args: Array[String]): Unit = {
    val sparkSession = InitSparkSession.sparkSession

    val sc = sparkSession.sparkContext
    val conf: Configuration = sc.hadoopConfiguration
    val hdfs: FileSystem = org.apache.hadoop.fs.FileSystem.get(conf)
    sc.setLogLevel("Error")

    val bigFile = "file:///Users/jinxingguang/java_project/bigdata3/spark-demo/data/pvuvdata"
    val jsonPath = "file:///Users/jinxingguang/java_project/bigdata3/spark-demo/data/test.json"

    /**
     * sparkContext读写文件
     */
    
    val outputPath = "/data/hdfsPath/text"
    deleteFile(hdfs, outputPath)
    sc.textFile(bigFile).map(t => ("filename.txt", t)).saveAsHadoopFile(
      outputPath,
      classOf[String],
      classOf[String],
      classOf[PairRDDMultipleOTextOutputFormat], //重写以下方法 generateFileNameForKeyValue() 文件名, generateActualKey() 是否有键值在内容中
      //classOf[SnappyCodec] 加入codec就有问题
    )


    /**
     * sparkSession文件的读写
     */
    val dataFrame = sparkSession.read.json(jsonPath)
    //dataFrame.show()
    val jsonOutputPath = "/data/hdfsPath/json"
    val orcOutputPath = "/data/hdfsPath/orc"
    deleteFile(hdfs, jsonOutputPath)
    deleteFile(hdfs, orcOutputPath)
    dataFrame.write.mode(SaveMode.Append).json(jsonOutputPath)
    dataFrame.write.mode(SaveMode.Append).orc(orcOutputPath)
    //println(new String("hello\n".getBytes, "GBK")) // 读取Windows格式的文件
    
  }
}

spark catalog操作

session.catalog.listDatabases().show() // 查看hive库
session.catalog.listTables().show()  // 查看表

// 将json文件映射为表
session.read.json("path.json").createTempView("user_json") // 将文件映射为user_json 表
val data = session.sql("select * from user_json") //  查询表
data.show() // 显示查询结果
data.printSchema() // 打印表头

session.catalog.cacheTable("user_json") // 将表缓存起来
session.catalog.clearCache() // 释放缓冲

读取数据并生成DataFrame实例

    // {"name":"zhangsan","age":20}...
    val spark = SparkSession.builder().config(new SparkConf()).master("local").appName("hello").getOrCreate()
    val frame = spark.read.json("file:///Users/jinxingguang/java_project/bigdata3/spark-demo/data/json")
    frame.show()
    println(frame.count())
    import spark.implicits._
    frame.filter($"age" >=20).show()
    
frame.createTempView("user") // 通过sparkSession向catalog注册表
frame.write.saveAsTable("hive_user") // 在hive中将数据保存成user表,不是临时向catalog注册的表

手动创建DataFrame

使用sparkSession简化生成DataFrame

package com.chauncy

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

/**
 * @author Chauncy Jin
 *  Tool:  SparkSession 快速生成dataFrame
 * @date 2022/1/20
 */
object DataSetTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("test")
      .master("local")
      .config("spark.sql.shuffle.partitions", "10")
      .config("hive.metastore.uris", "thrift://192.168.7.11:9083")
      .enableHiveSupport()
      .getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("Error")

    //读取数据并生成DataSet实例
    // 1087718415194492928&229071822400790528&升级&0&3&1&null&913683594017214464&2019-01-22 22:27:34.0&0&null&null&null
    import spark.implicits._
    val das = spark.read.textFile("/project/jxc.db/jxc/ods/ODS_AGENT_UPGRADE_LOG/*")
    val rddSet: Dataset[(String, String, String, String)] = das.filter(_.split("&").length > 8)
      .map((line: String) => {
        val ste = line.split("&")
       (ste(1), ste(3), ste(4), ste(8))
      })

    val frame: DataFrame = rddSet.toDF("uid", "ago_lev", "after_lev", "date")
    frame.printSchema()
  }
}

生成dataFrame – createDataFrame(rdd,StructType(StructFields))

package com.chauncy

import org.apache.spark.sql.types.{DataTypes, StructField, StructType}
import org.apache.spark.sql.{Row, SparkSession}

/**
 * @author Chauncy Jin
 * Tool: spark读取文件生成dataFrame 保存数据到hive
 * @date 2022/1/20
 */
object DataTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local")
      .appName("test")
      .config("spark.sql.shuffle.partitions", "10")
      .config("hive.metastore.uris", "thrift://192.168.7.11:9083")
      .enableHiveSupport()
      .getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("Error")

    // 数据+元数据  ==  DataFrame 类似表
    // 第一种方式 row类型的rdd + structType
    // 1. 数据 RDD[ROW]  一行一行的数据
    //读取数据并生成DataFrame实例
    // 1087718415194492928&229071822400790528&升级&0&3&1&null&913683594017214464&2019-01-22 22:27:34.0&0&null&null&null
    val das = spark.sparkContext.textFile("/project/jxc.db/jxc/ods/ODS_AGENT_UPGRADE_LOG/*")
    val rowRDD = das.filter(_.split("&").length > 8)
      .map((line: String) => {
        val ste = line.split("&")
        Row.apply(ste(1), ste(3), ste(4), ste(8))
      })

    // 2. 元数据 : StructType
    val fields = Array[StructField](
      StructField.apply("uid", DataTypes.StringType, nullable = true),
      StructField.apply("ago_lev", DataTypes.StringType, nullable = true),
      StructField.apply("after_lev", DataTypes.StringType, nullable = true),
      StructField.apply("date", DataTypes.StringType, nullable = true)
    )
    val schema = StructType.apply(fields) // 表的定义

    // 3. 创建DataFrame
    val dataFrame = spark.createDataFrame(rowRDD, schema)

    dataFrame.show(10,truncate = true) // 慎用，数据大会爆 使用num约束
    dataFrame.printSchema() // 打印表头
    dataFrame.createTempView("temp_change_log") // 通过session 向catalog中注册表名
    spark.sql("select * from temp_change_log limit 10").show()
    spark.sql("use jxc ")
    spark.sql(
      """
        |CREATE EXTERNAL TABLE IF NOT EXISTS `ods_change_log_chauncy` (
        |  `mall_user_id` string,
        |  `ago_lead_id` string,
        |  `after_lead_id` string,
        |  `create_date` string
        |)
        |ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\001'
        |LOCATION 'hdfs://mycluster/project/jxc.db/jxc/ods/ods_change_log_chauncy';
        |""".stripMargin)
    spark.sql(
      """
        |insert overwrite table jxc.ods_change_log_chauncy select * from temp_change_log
        |""".stripMargin)
  }
}

动态封装DataFrame

person.txt
chauncy 18 0
lisa 22 1
yiyun 99 1

// 创建DataFrame动态封装
val rdd = sc.textFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/spark-demo/data/person.txt")

// 每一列的类型约定
val userSchema = Array(
  "name string",
  "age int",
  "sex int"
)

// 转换类型
def toDataType(col: (String, Int)) = {
  userSchema(col._2).split("[ ]")(1) match {
    case "int" => col._1.toInt
    case "date" =>  java.sql.Date.valueOf(col._1)
    case _ => col._1.toString
  }
}

// 1 row rdd
// rdd.map(_.split(" ")).map(line => Row.apply(line(0),line(1).toInt)) // 写死了
val rddRow: RDD[Row] = rdd.map(_.split(" "))
.map(x => x.zipWithIndex) // [(chauncy,0), (18,1)]
.map(x => x.map(toDataType(_)))
.map(line => Row.fromSeq(line)) // row 表示了很多的列，每个列要标识出准确的类型

// 2 structType
// 函数，获取每一列的类型
def getDataType(v: String) = {
  v match {
    case "int" => DataTypes.IntegerType // 24
    case "binary" => DataTypes.BinaryType
    case "boolean" => DataTypes.BooleanType // true false
    case "byte" => DataTypes.ByteType
    case "date" => DataTypes.DateType // 2022-12-31
    case "long" => DataTypes.LongType
    case "timestamp" => DataTypes.TimestampType
    case _ => DataTypes.StringType // 字符串
  }
}
// 列的属性
val fields: Array[StructField] = userSchema.map(_.split(" ")).map(x => StructField.apply(x(0), getDataType(x(1))))
val schema: StructType = StructType.apply(fields)
// schema = schema01等价
val schema01: StructType = StructType.fromDDL("name string,age int,sex int")

val dataFrame = session.createDataFrame(rddRow, schema01)
dataFrame.show()
dataFrame.printSchema()
// 通过session向catalog注册
dataFrame.createTempView("user")

session.sql("select * from user").show()

方式三 – bean类型的rdd + javabean

// Bean类型实例
class Person extends Serializable {
    @BeanProperty
    var name: String = ""
    @BeanProperty
    var age: Int = 0
    @BeanProperty
    var sex: Int = 0
}

-------
//第二种方式： bean类型的rdd + javabean
//第二种方式： bean类型的rdd + javabean
val rdd = sc.textFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/spark-demo/data/person.txt")
val person = new Person // 放到外部需要 extends Serializable
// 1,mr,spark  pipeline  iter  一次内存飞过一条数据：：-> 这一条记录完成读取/计算/序列化
// 2，分布式计算，计算逻辑由 Driver  序列化，发送给其他jvm的Executor中执行
val rddBean: RDD[Person] = rdd.map(_.split(" ")).map(arr => {
  //      val person = new Person
  person.setName(arr(0))
  person.setAge(arr(1).toInt)
  person.setSex(arr(2).toInt)
  person
})
val dataFrame = session.createDataFrame(rddBean, classOf[Person])
dataFrame.show()
dataFrame.printSchema()
// 通过session向catalog注册
dataFrame.createTempView("user")

session.sql("select * from user").show()

创建DataSet

读取文本文件并生成dataset实例

  case class User(name:String,age:BigInt) extends Serializable
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().config(new SparkConf()).master("local").appName("hello").getOrCreate()
    import spark.implicits._
    // {"name":"zhangsan","age":20}...
    val data = spark.read.json("file:///Users/jinxingguang/java_project/bigdata3/spark-demo/data/json").as[User]
    data.show()
    data.filter($"age" >=20).show()
  }

自定义属性生成dataset

/*
    文本文件要转*结构化*数据再进行计算

    文本文件 -> 中间态数据: ETL过程  文件格式，分区和分桶

    分区可以让计算加载的数据减少，分桶可以让计算过程中的shuffle移动量减少
     */
    // Spark 的DataSet 既可以按collection类似于rdd的方式操作，也可以按SQL的方式操作
val rddData: Dataset[String] = session.read.textFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/spark-demo/data/person.txt")
import  session.implicits._
val person: Dataset[(String, Int)] = rddData.map(
  line => {
    val strs = line.split(" ")
    (strs(0), strs(1).toInt)
  }
)/*(Encoders.tuple(Encoders.STRING,Encoders.scalaInt)) //自己写编码器，也可以直接导入隐式类*/

// 附加表的列描述
val cPerson = person.toDF("name", "age")
cPerson.show()
cPerson.printSchema()

写入数据到ES

package com.chauncy



import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.elasticsearch.spark.sql.EsSparkSQL


/**
 * @author Chauncy Jin
 *         Tool:
 *         add jar hdfs://emr-header-1.cluster-246415:9000/jars/es-7.6.2/elasticsearch-hadoop-hive-7.6.2.jar;
 * @date 2022/1/20
 */
object HiveToEs {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("ES_Hive").setMaster("local")
    sparkConf.set("es.nodes", "172.20.5.11,172.20.5.12,172.20.5.13")
    //sparkConf.set("es.nodes","172.20.5.11")
    sparkConf.set("es.port", "9200")
    sparkConf.set("es.index.auto.create", "true")
    sparkConf.set("es.write.operation", "index")
    sparkConf.set("spark.es.batch.size.entries", "10000")
    sparkConf.set("spark.es.batch.write.refresh", "false")
    sparkConf.set("spark.es.scroll.size", "10000")
    sparkConf.set("spark.es.input.use.sliced.partitions", "false")
    sparkConf.set("hive.metastore.uris", "thrift://172.20.1.232:9083")
    val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()
    sparkSession.sparkContext.setLogLevel("ERROR")

    //val url: String = "jdbc:mysql://rm-uf638jr947ng36h26co.mysql.rds.aliyuncs.com:3306/data_bi?useSSL=false&useUnicode=true&characterEncoding=UTF-8&rewriteBatchedStatements=true"
    //val table: String = "temp_zz"
    //val properties: Properties = new Properties()
    //properties.put("user", "dev_client_001")
    //properties.put("password", "meifute@123")
    //properties.put("driver", "com.mysql.jdbc.Driver")
    //properties.setProperty("batchsize", "10000")
    //properties.setProperty("fetchsize", "10000")
    //val course: DataFrame = sparkSession.read.jdbc(url, table, properties)


    sparkSession.sql("use data_prod ")
    val course: DataFrame = sparkSession.sql(
      """
        |select
        |a.user_id as user_id,
        |cast(a.metric_value as string) as metric_value,
        |a.load_date as load_date,
        |a.dt as dt,
        |a.metric_name as metric_name
        |from ads_fact_metric_agent a
        |""".stripMargin)

    //course.show()
    EsSparkSQL.saveToEs(course, "ads_fact_metric_agent")

    sparkSession.stop()

    /*
    Warning:scalac: While parsing annotations in /Users/jinxingguang/.m2/repository/org/apache/spark/spark-core_2.12/3.1.2/spark-core_2.12-3.1.2.jar(org/apache/spark/rdd/RDDOperationScope.class), could not find NON_ABSENT in enum object JsonInclude$Include.
This is likely due to an implementation restriction: an annotation argument cannot refer to a member of the annotated class (SI-7014).
     */
  }
}

DataSet的使用 - 读写文件

val conf = new SparkConf().setMaster("local").setAppName("sql hive")
val session = SparkSession
.builder()
.config(conf)
//      .enableHiveSupport()
.getOrCreate()
val sc = session.sparkContext
sc.setLogLevel("Error")

import  session.implicits._
val dataDF: DataFrame = List(
  "hello world",
  "hello world",
  "hello msb",
  "hello world",
  "hello world",
  "hello spark",
  "hello world",
  "hello spark"
).toDF("line") // 列名为line


dataDF.createTempView("ooxx") // 注册到catalog

val df: DataFrame = session.sql("select * from ooxx")
df.show()
df.printSchema()

// 计算词频 使用SQL的方式
//    session.sql(" select word,count(1) from  (select explode(split(line,' ')) word from ooxx) as tt group by word").show()

// 计算词频 使用api的方式 df 相当于 from table
val subTab = dataDF.selectExpr("explode(split(line,' ')) word")
val dataset: RelationalGroupedDataset = subTab.groupBy("word")
val res = dataset.count()


// 将结果保存到parquet文本
res.write.mode(SaveMode.Append).parquet("file:///Users/jinxingguang/java_project/bigdata-chauncy/spark-demo/data/out/ooxx")

// 读取parquet文本
val frame: DataFrame = session.read.parquet("file:///Users/jinxingguang/java_project/bigdata-chauncy/spark-demo/data/out/ooxx")
frame.show()
frame.printSchema()

/*
        基于文件的行式：
        session.read.parquet()
        session.read.textFile()
        session.read.json()
        session.read.csv()
        读取任何格式的数据源都要转换成DF
        res.write.parquet()
        res.write.orc()
        res.write.text()
        */

DataSet的使用 - 读写MySQL

package com.chauncy.spark_sql.file_read_write

import java.util.Properties

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

/**
 * @author Chauncy Jin
 *         Tool: 
 * @date 2021/10/13
 */
object MySparkMysql {
  def main(args: Array[String]): Unit = {
    // val conf = new SparkConf().setMaster("local").setAppName("mysql")
    val session = SparkSession
      .builder()
      .master("local")
      .appName("mysql")
      .config(new SparkConf()) // 可有可无
      .config("spark.sql.shuffle.partitions", "1") // 默认会有100并行度的参数
      .config("hive.metastore.uris", "thrift://192.168.7.11:9083")
      .enableHiveSupport()
      .getOrCreate()
    val sc = session.sparkContext
    // sc.setLogLevel("ERROR")
    sc.setLogLevel("INFO")

    val properties = new Properties()
    properties.setProperty("user", "用户")
    properties.setProperty("password", "密码")
    properties.setProperty("driver", "com.mysql.jdbc.Driver")
    properties.setProperty("batchsize", "10000") // 批处理的大小
    properties.setProperty("fetchsize", "10000") // 一次拿多少数据
    val url_ex = s"jdbc:mysql://ip:port/tablename?useSSL=false&useUnicode=true&characterEncoding=UTF-8&rewriteBatchedStatements=true"  // rewriteBatchedStatements=true 打开批处理开关
    sparkSession.sql("use jxc")
    sparkSession.sql("select * from ODS_AGENT_UPGRADE_LOG")
      .write.mode(SaveMode.Overwrite).jdbc(url_ex, "chauncy_agent_upgrade_log", properties)

    /*  */
    // 没有介入hive时，数据源都是DS/DF
    val jdbcDF: DataFrame = session.read.jdbc(properties.getProperty("url"), "student", properties)
    jdbcDF.show(10, truncate = true)
    jdbcDF.createTempView("student_spark")
    session.sql("select * from student_spark").show()

    // 写数据到mysql
    import org.apache.spark.sql.functions._ //导入函数，可以使用 udf、col 、lit方法
    jdbcDF.withColumn("status", lit(1)) // 加入一列
      .write.mode(SaveMode.Overwrite)
      .jdbc(properties.getProperty("url"), "student_copy", properties)
    // jdbcDF.write.jdbc(properties.getProperty("url"),"student_copy",properties) // 数据移动
    

    /**
     * 连表查询
     */
    val usersDF: DataFrame = session.read.jdbc(properties.get("url").toString, "student", properties)
    val scoreDF: DataFrame = session.read.jdbc(properties.get("url").toString, "score", properties)

    usersDF.createTempView("userstab")
    scoreDF.createTempView("scoretab")

    val resDF: DataFrame = session.sql(
      """
        |SELECT
        |	userstab.s_id,
        |	userstab.s_name,
        |	scoretab.s_score
        |FROM
        |	userstab
        |	JOIN scoretab ON userstab.s_id = scoretab.s_id
        |""".stripMargin)
    resDF.show()
    resDF.printSchema()
    // 默认并行度是100
    // 21/10/13 07:47:05 INFO DAGScheduler: Submitting 100 missing tasks from ResultStage 11
  }
}

Spark_On_Hive

standalone模式

val ss: SparkSession = SparkSession
.builder()
.master("local")
.appName("standalone hive")
.config("spark.sql.shuffle.partitions", 1)
.config("spark.sql.warehouse.dir", "file:///Users/jinxingguang/java_project/bigdata-chauncy/spark/warehouse")
.enableHiveSupport()   //开启hive支持   ？   自己会启动hive的metastore
.getOrCreate()
val sc: SparkContext = ss.sparkContext
//    sc.setLogLevel("ERROR")
//    ss.sql("create table xxx(name string,age int)")
//    ss.sql("insert into xxx values ('zhangsan',18),('lisi',22)")
ss.sql("select * from xxx").show()
ss.catalog.listTables().show()

// 有数据库的概念
ss.sql("create database chauncy_db")
ss.sql("use chauncy_db")
ss.sql("create table meifute(name string,age int)")
ss.catalog.listTables().show()

IDEA使用spark程序交互hive

val ss: SparkSession = SparkSession
  .builder()
  .appName("cluster on hive")
  .master("local")
  .config("hive.metastore.uris", "thrift://node01:9083")
  .enableHiveSupport()
  .getOrCreate()
val sc: SparkContext = ss.sparkContext
sc.setLogLevel("ERROR")

ss.sql("create database IF NOT EXISTS spark_hive ")
ss.sql("use spark_hive")
ss.catalog.listTables().show() // 报错了,删除掉hive中的hbase表
// Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

// 读取hive表, sparkSession.table(表名) 产生dataframe
sparkSession.table("TO_YCAK_MAC_LOC_D")

import ss.implicits._

val df01: DataFrame = List(
  "zhangsan",
  "lisi"
).toDF("name")
df01.createTempView("ooxx") // 通过session向catalog注册表

// SQL创建表，并插入数据
ss.sql("create table IF NOT EXISTS hddffs ( id int,age int)") //DDL
// 需要 core-site.xml 和 hdfs-site.xml 的hadoop配置
ss.sql("insert into hddffs values (4,3),(8,4),(9,3)") // DML  数据是通过spark自己和hdfs进行访问

ss.sql("show tables").show() // 临时表，没有保存到hive中
df01.write.saveAsTable("oxox") // 在hive中将数据保存成oxox表,不是临时向catalog注册的表
ss.sql("show tables").show() // 临时表，没有保存到hive中

Spark-Sql服务

SPARK整合HIVE

spark配置


只需要metastore的地址配置就可以了
cat > /opt/bigdata/spark-2.3.4/conf/hive-site.xml <<-EOF



    
        hive.metastore.uris
        thrift://node01:9083
        metastore地址
    

EOF

spark相关的命令启动服务

启动spark-shell
cd /opt/bigdata/spark-2.3.4/bin
./spark-shell --master yarn
scala> spark.sql("show tables").show


启动spark-sql
cd /opt/bigdata/spark-2.3.4/bin
./spark-sql --master yarn
查看网页 http://node03:8088/cluster 会出现SparkSQL
可以直接执行SQL，跟hive中共享,两边都可以操作
spark-sql> show tables;

Spark-Sql

# 对外暴露JDBC服务，接受SQL执行
cd /opt/bigdata/spark-2.3.4/sbin
./start-thriftserver.sh --master yarn
查看网页 http://node03:8088/cluster  **多了一个 Thrift JDBC/ODBC Server**


# 使用spark的beeline连接
/opt/bigdata/spark-2.3.4/bin/beeline -u jdbc:hive2://node01:10000/default -n god

打印 Connected to: Spark SQL (version 2.3.4)

/usr/lib/spark-current/bin/beeline -u jdbc:hive2://localhost:10000 -n hadoop
show tables;

spark-sql函数

官网文档 2.3.4版本

org/apache/spark/sql/functions.scala scala对应的源码

自定义函数

package com.chauncy.spark_dataframe_dataset

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DataType, DoubleType, IntegerType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

object MySpark_Sql_functions {
  def main(args: Array[String]): Unit = {
    val ss: SparkSession = SparkSession.builder()
    .master("local")
    .appName("ProduceClientLog")
    .config("hive.metastore.uris", "thrift://192.168.7.11:9083") // hive metastore 的地址
    //.config(new SparkConf())
    .enableHiveSupport()
    .getOrCreate()
    ss.sparkContext.setLogLevel("ERROR")


    import ss.implicits._
    // 将List转成DataFrame
    val dataDF: DataFrame = List(
      ("A", 1, 67),
      ("D", 1, 87),
      ("B", 1, 54),
      ("D", 2, 24),
      ("C", 3, 64),
      ("R", 2, 54),
      ("E", 1, 74)
    ).toDF("name", "class", "score")

    dataDF.createTempView("users")

    // 分组，排序统计
    //    ss.sql("select name,sum(score) " +
    //      " from users " +
    //      "group by name" +
    //      " order by name").show()
    ss.sql("select * from users order by name asc,score desc").show()

    //udf 普通的自定义函数
    ss.udf.register("ooxx", (x: Int) => {
      x * 10
    })
    ss.sql("select *,ooxx(score) mut_10 from users ").show()

    // 自定义聚合函数
    //    class MyAggFun extends UserDefinedAggregateFunction
    ss.udf.register("myagg", new MyAvgFun)
    ss.sql("select name," +
      " myagg(score) " +
      " from users " +
      " group by name").show()
  }

  class MyAvgFun extends UserDefinedAggregateFunction {
    // 输入列的类型
    override def inputSchema: StructType = {
      // myagg(score)
      StructType.apply(Array(StructField.apply("score", IntegerType, false)))
    }

    override def bufferSchema: StructType = {
      StructType.apply(
        Array(
          StructField.apply("sum", IntegerType, false),
          StructField.apply("count", IntegerType, false)
        )
      )
    }

    override def dataType: DataType = DoubleType
    // 是否幂等
    override def deterministic: Boolean = true
    // 是否初始化
    override def initialize(buffer: MutableAggregationBuffer): Unit = {
      buffer(0) = 0
      buffer(1) = 0
    }
    // 来一条数据更新一次
    override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
      // 组内，一条记录调用一次
      buffer(0) = buffer.getInt(0) + input.getInt(0) // sum
      buffer(1) = buffer.getInt(1) + 1
    }
    // 溢写怎么计算
    override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
      buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0)
      buffer1(1) = buffer1.getInt(1) + buffer2.getInt(1)
    }
    // 最后的结果
    override def evaluate(buffer: Row): Double = {
      buffer.getInt(0) /buffer.getInt(1)
    }
  }
}

你可能感兴趣的:(spark系列,spark)

178.HarmonyOS NEXT系列教程之列表交换组件错误处理机制 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件错误处理机制效果演示1.错误处理架构1.1错误类型定义//错误类型枚举enumErrorType{DATA_ERROR,//数据错误OPERATION_ERROR,//操作错误NETWORK_ERROR,//网络错
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
197.HarmonyOS NEXT系列教程之图案锁振动反馈实现详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁振动反馈实现详解效果预览1.振动功能实现startVibrator(vibratorCount?:number){try{vibrator.startVibration({//设置为'preset'，可使用系统预置振动效
187.HarmonyOS NEXT系列教程之列表切换案例交互实现详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例交互实现详解效果演示1.交互系统概述1.1交互类型//支持的交互类型1.长按拖动排序2.左滑删除3.点击选择4.拖拽动画1.2手势配置//组合手势配置.gesture(GestureGroup(GestureMod
188.HarmonyOS NEXT系列教程之列表切换案例工具类与最佳实践 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例工具类与最佳实践效果演示1.日志工具类1.1Logger类实现classLogger{privatedomain:number;privateprefix:string;privateformat:string='
186.HarmonyOS NEXT系列教程之列表切换案例数据管理详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表切换案例数据管理详解效果演示1.数据模型设计1.1ListInfo类@ObservedexportclassListInfo{//列表项数据结构icon:ResourceStr='';//图标资源name:Resource
181.HarmonyOS NEXT系列教程之列表交换组件整体架构详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件整体架构详解效果演示1.组件概述1.1功能介绍ListExchangeViewComponent是一个支持列表项交换和删除的自定义组件，主要用于实现如扣款列表等场景。主要功能包括：列表项拖拽排序滑动删除自定义列表项
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
架构师必知必会系列：数据架构与数据管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍数据架构与数据管理介绍数据架构是指用来定义企业数据的逻辑结构、物理存储结构和数据的流转过程。它由数据中心和IT平台、数据库、文件系统、网络、安全、计算资源等构成。其目的是为了满足业务需求、提升组织效率和降低成本。数据架构包括数据字典、元数据、数据模型、数据流、数据仓库、数据管道、数据服务等。在应用中，将数据按照其自身特性进行划分、分类、归档、清洗和加工，才能
秒开WebView Android性能优化全攻略：深度解析与实战策略俊星学长 android 性能优化
秒开WebViewAndroid性能优化全攻略：深度解析与实战策略在Android开发中，WebView作为一个重要的组件，用于在应用中嵌入和展示网页内容。然而，WebView的性能往往成为影响用户体验的关键因素之一。实现WebView的“秒开”体验，不仅需要开发者对WebView的工作机制有深入的理解，还需要掌握一系列性能优化策略。本文将从多个维度深入探讨AndroidWebView的性能优化，
Java24的新特性 hello_ejb3 redis 数据库 java
Java语言特性系列Java5的新特性Java6的新特性Java7的新特性Java8的新特性Java9的新特性Java10的新特性Java11的新特性Java12的新特性Java13的新特性Java14的新特性Java15的新特性Java16的新特性Java17的新特性Java18的新特性Java19的新特性Java20的新特性Java21的新特性Java22的新特性Java23的新特性Java2
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
有奖直播 | NXP S32K31X 系列 ASIL-B 车身应用方案介绍 WPG大大通研讨会大大通研讨会汽车车身控制芯片智能
随着汽车智能化、电动化的快速发展，车身控制模块（BCM）作为汽车电子系统的核心组成部分，正面临着更高的功能安全要求和更复杂的系统集成需求。NXPS32K31X系列微控制器凭借其高性能、低功耗和符合ASIL-B功能安全等级的特性，成为车身控制应用的理想选择。本次研讨会将深入探讨S32K31X系列在车身控制中的应用方案，帮助开发者快速掌握相关技术，缩短产品开发周期。研讨会内容包含：一、S32K31X系
Spring事务失效的常见场景红云梦 spring java 数据库
1事务1.1数据库事务作为单个逻辑工作单元执行的一系列操作，要么完全执行，要么完全不执行1.2事务的四大特性（ACID）原子性(Atomicity)：要么成功，要么失败。一个事务内的所有SQL语句同步执行（依靠undo.log日志保证）一致性(Consistency)：事务前后总量不变，数据库完整性约束没有被破坏隔离性(Isolation)：一个事务执行不被其他事务干扰（锁+MVCC）持久性(Du
编译链接过程 YancyKahn 编译链接编译链接 GCC
编译链接过程C/C++程序从文本到可执行文件之间是一个复杂的过程.对于源代码(.c/.cpp)文件我们是不能直接运行的,必须经过一系列的处理才能转化为机器语言,再通过链接相应的文件转化为可执行程序.这个过程称为编译链接过程.本文篇幅较长,想直接看分析过程点击这里下面是从源代码到可执行文件的整个编译链接的过程:整个编译链接过程无非就分为编译过程和链接过程1.编译过程C文件编译过程又可分为:编译和汇编
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
策略模式烟沙九洲设计模式策略模式 java
策略（Strategy）模式属于行为型模式的一种。策略模式的核心思想是定义一系列算法，将每个算法封装起来，并使它们可以互换。策略模式让算法独立于使用它的客户而变化，从而实现了算法族的独立扩展和替换。策略模式指在一个方法中，某些关键步骤的算法依赖调用方传入的策略，传入不同的策略，即可获得不同的结果，大大增强了系统的灵活性。策略模式的核心思想是在一个计算方法中把容易变化的算法抽出来作为“策略”参数传进
Bash 脚本基础 HXQ_晴天 linux bash chrome 开发语言
一、Bash脚本基础什么是Bash脚本：Bash脚本是一种文本文件，其中包含了一系列的命令，这些命令可以被Bashshell执行。它用于自动化重复性的任务，提高工作效率。Bash脚本的基本结构：以#!/bin/bash开头，表示使用Bash解释器来执行脚本。接下来是具体的命令和操作。二、编写和运行第一个Bash脚本创建脚本文件：使用命令nanohello.sh创建名为hello.sh的文件。编写脚
HTML实现酷炫3D相册算法与编程之美编程之美 css html js css3 javascript
欢迎点击「算法与编程之美」↑关注我们！本文首发于微信公众号："算法与编程之美"，欢迎关注，及时了解更多此系列文章。欢迎加入团队圈子！与作者面对面！直接点击！目录1、创建文件目录2、调背景色3、制作3D相册4、将图片散开，围成一圈。5、绘制透明底盘6、最终效果1、创建文件目录在Hbuilder在新建一个目录，创建css和js文件。图12、调背景色在style块里面给整个页面渲染成黑色调。*{padd
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
html.partial mvc5,[ASP.NET Core Razor Pages系列教程]ASP.NET Core Razor Pages中的Partial Views(部分视图)(04)... 安静的小屁孩儿 html.partial mvc5
PartialViews(部分视图)什么是PartialViews?PartialViews(之后统称:部分视图)是包含了HTML代码片段和服务端代码的Razor文件，它同样以.cshtml为扩展名。部分视图可以被包含在任意数量的页面或者布局中。部分视图可以用来将复杂的页面分解成更小的单元，从而减少复杂性，同时也可以在团队开发中被复用。什么时候使用部分视图(PartialViews)部分视图可以处
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
算法及数据结构系列 - 滑动窗口诺亚凹凸曼算法及数据结构算法数据结构 java
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法算法及数据结构系列-动态规划算法及数据结构系列-双指针算法及数据结构系列-回溯算法算法及数据结构系列-树文章目录滑动窗口框架思路经典题型76.最小覆盖子串567.字符串的排列438.找到字符串中所有字母异位词3.无重复字符的最长子串滑动窗口框架思路/*滑动窗口算法框架*/voidslidingWindow(strings,str
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?