斗志昂-杨

大数据高级开发工程师——Spark学习笔记（6）

文章目录

Spark内存计算框架
- Spark SQL
- - SparkSQL概述
  - - 1. SparkSQL的前世今生
    - 2. 什么是 SparkSQL
  - SparkSQL的四大特性
  - - 1. 易整合
    - 2. 统一的数据源访问
    - 3. 兼容Hive
    - 4. 支持标准的数据库连接
  - DataFrame概述
  - - 1. DataFrame发展
    - 2. DataFrame是什么
    - 3. DataFrame和RDD的优缺点
    - - RDD
      - DataFrame
  - 初识DataFrame
  - - 1. 读取文件文件
    - 2. 读取json文件
    - 3. 读取parquet文件
    - 4. 通过StructType动态指定Schema
  - DataFrame常用操作
  - - 1. DSL风格语法
    - 2. SQL风格语法(常用)
  - DataSet概述
  - - 1. DataSet是什么
    - 2. 如何构建DataSet
    - 3. RDD、DataFrame、DataSet对比
  - 读取外部数据源
  - - 1. SparkSQL读取MySQL数据
    - 2. Spark操作CSV文件并将结果写入MySQL
    - 3. Spark与Hive整合
    - - spark整合hive——通过SparkSql-shell
      - spark的thrift server与hive进行远程交互
    - 4. 读写Hive数据
    - 5. 读写HBase数据
  - SparkSQL自定义函数
  - - 1. 自定义UDF函数：一对一
    - 2. 自定义UDAF函数：多对一
    - 3. 自定义UDTF函数：一对多

Spark内存计算框架

Spark SQL

SparkSQL概述

1. SparkSQL的前世今生

Shark 是专门针对于 spark 的，构建大规模数据仓库系统的一个框架。
Shark 依赖 hive、与 Hive 兼容、同时也依赖于 Spark 版本。
HiveSql底层把 sql 解析成了 mapreduce 程序，Shark 是把 sql 语句解析成了 Spark 任务。
随着性能优化的上限，以及集成 SQL 的一些复杂的分析功能，发现 Hive 的 MapReduce 思想限制了 Shark 的发展。
最后 Databricks 公司终止对 Shark 的开发，决定单独开发一个框架，不再依赖 hive，把重点转移到了 sparksql 这个框架上。

2. 什么是 SparkSQL

官方文档：https://spark.apache.org/sql/

Spark SQL is Apache Spark’s module for working with structured data.

SparkSQL是 Apache Spark 用来处理结构化数据的一个模块。

SparkSQL的四大特性

1. 易整合

将 SQL 查询与Spark 程序无缝混合
- 即对结构化数据进行查询，可以使用 sql 分析；
- 也可以使用 DataFrame、DataSet api；
- 可以使用不同的语言进行代码开发java、scala、python、R

2. 统一的数据源访问

以相同的方式(相同风格的API)连接到任何数据源

// sparksql 可以采用一种统一的方式去对接任意的外部数据源
val dataFrame = sparkSession.read.文件格式的方法名("该文件格式的路径")

3. 兼容Hive

Spark 支持 SQL 以及 HiveQL 语法；
支持 Hive SerDes；
支持 UDF；
可以接入已存在的 Hive 数仓；
Spark SQL 使用 Hive 的 metastore 服务。

4. 支持标准的数据库连接

Spark SQL 支持标准的数据库连接JDBC或者ODBC。

DataFrame概述

Spark Core：操作 RDD ==>> 封装了数据 ==>> 对应的操作入口类 SparkContext。
Spark SQL：编程抽象 DataFrame ==>> 对应的操作入口类 SparkSession。
从 Spark 2.0 开始，SparkSession 是 Spark 新的查询起始点，其内部封装了 SparkContext，所以计算的本质还是由 SparkContext 完成。

1. DataFrame发展

DataFrame 的前身是 schemaRDD，这个 schemaRDD 是直接继承自 RDD，它是 RDD 的一个实现类。
在 Spark 1.3.0 之后把 schemaRDD 改名为 DataFrame
- 它不再继承自 RDD；
- 而是自己实现 RDD 上的一些功能。
也可以把 DataFrame 转换成一个 RDD：通过调用 DataFrame 的一个方法 val rdd = dataFrame.rdd

2. DataFrame是什么

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库的二维表格。
DataFrame 带有数据的结构信息：
- Schema元信息；
- DataFrame所表示的二维表数据集的每一列都带有名称和类型，但底层做了更多的优化。
DataFrame 可以从很对数据源构建，比如：已经存在的RDD、结构化文件、外部数据库、Hive表等。
RDD 可以把它内部元素看成是一个java对象，DataFrame 可以把内部看成是一个个Row对象，它表示一行一行的数据。

总结：
- 可以把 DataFrame 这样去理解：RDD + schema 元信息
- dataFrame相比于rdd来说，多了对数据的描述信息（schema元信息）。

3. DataFrame和RDD的优缺点

RDD

优点：
- 编译时类型安全：开发会进行类型检查，在编译的时候及时发现错误
- 具有面向对象编程的风格
缺点：
- font color=red>构建大量的java对象占用了大量heap堆空间，导致频繁的GC
  - 由于数据集RDD它的数据量比较大，后期都需要存储在heap堆中，这里有heap堆中的内存空间有限，出现频繁的垃圾回收（GC）
  - 程序在进行垃圾回收的过程中，所有的任务都是暂停（STW stop the world），影响程序执行的效率
- 数据的序列化和反序列性能开销很大
  - 在分布式程序中，对象(对象的内容和结构)是先进行序列化，发送到其他服务器，进行大量的网络传输
  - 然后接受到这些序列化的数据之后，再进行反序列化来恢复该对象

DataFrame

优点：
- DataFrame引入了schema元信息和off-heap(堆外内存)
- DataFrame引入off-heap
  - 大量的对象构建直接使用操作系统层面上的内存，不在使用heap堆中的内存
  - 这样一来heap堆中的内存空间就比较充足，不会导致频繁GC，程序的运行效率比较高
  - 它是解决了RDD构建大量的java对象占用了大量heap堆空间，避免导致频繁的GC这个缺点。
- DataFrame引入了schema元信息：就是数据结构的描述信息
  - spark程序中的大量对象在进行网络传输的时候，只需要把数据的内容本身进行序列化就可以，数据结构信息可以省略掉
  - 这样一来数据网络传输的数据量是有所减少
  - 数据的序列化和反序列性能开销就不是很大了
  - 它是解决了RDD数据的序列化和反序列性能开销很大这个缺点
缺点：DataFrame引入了schema元信息和off-heap(堆外)它是分别解决了RDD的缺点，同时它也丢失了RDD的优点
- 编译时类型不安全：编译时不会进行类型的检查，这里也就意味着前期是无法在编译的时候发现错误，只有在运行的时候才会发现
- 不在具有面向对象编程的风格：类似二维表

初识DataFrame

1. 读取文件文件

resources目录下创建文件 person.txt，内容如下

1 youyou 38
2 Tony 25
3 laowang 18
4 dali 30

代码实现：

object Case01_ReadText {
  def main(args: Array[String]): Unit = {
    // 创建 SparkSession
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName)
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .master("local[*]")
      .getOrCreate()

    val df: DataFrame = spark.read.text(this.getClass.getClassLoader.getResource("person.txt").getPath)

    /**
      * 打印schema信息
      * root
      * |-- value: string (nullable = true)
      */
    df.printSchema

    println("----------------")
    println(df.count()) // 4

    /**
      * +------------+
      * |       value|
      * +------------+
      * | 1 youyou 38|
      * |   2 Tony 25|
      * |3 laowang 18|
      * |   4 dali 30|
      * +------------+
      */
    println("----------------")
    df.show()

    ss.stop()
  }
}

改造代码，输出成对象形式的二维表格

case class Person(id: String, name: String, age: Int)

object Case02_ReadTextV2 {
  def main(args: Array[String]): Unit = {
    // 创建 SparkSession
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName)
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .master("local[*]")
      .getOrCreate()

    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")

    // 添加隐式转换
    import spark.implicits._

    val rdd1: RDD[Array[String]] = sc.textFile(this.getClass.getClassLoader.getResource("person.txt").getPath)
      .map(x => x.split(" "))
    // 将 rdd 与样例类进行关联
    val personRDD: RDD[Person] = rdd1.map(x => Person(x(0), x(1), x(2).toInt))

    // 将 rdd 转成 DataFrame
    val df = personRDD.toDF

    /**
      * root
      * |-- id: string (nullable = true)
      * |-- name: string (nullable = true)
      * |-- age: integer (nullable = false)
      */
    df.printSchema()

    /**
      * +---+-------+---+
      * | id|   name|age|
      * +---+-------+---+
      * |  1| youyou| 38|
      * |  2|   Tony| 25|
      * |  3|laowang| 18|
      * |  4|   dali| 30|
      * +---+-------+---+
      */
    df.show()

    spark.stop()
  }
}

2. 读取json文件

在 resources 目录新建 person.json 文件，内容如下：

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

代码实现

object Case03_ReadJson {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName)
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .master("local[*]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    val df: DataFrame = spark.read.json(this.getClass.getClassLoader.getResource("person.json").getPath)

    /**
      * root
      * |-- age: long (nullable = true)
      * |-- name: string (nullable = true)
      */
    df.printSchema

    println("--------------")

    /**
      * +----+-------+
      * | age|   name|
      * +----+-------+
      * |null|Michael|
      * |  30|   Andy|
      * |  19| Justin|
      * +----+-------+
      */
    df.show()
    
    spark.stop()
  }
}

3. 读取parquet文件

Spark 自带样例文件 spark-2.3.3-bin-hadoop2.7/examples/src/main/resources/users.parquet 复制到自己的工程的 resources 目录
代码实现：

object Case04_ReadParquet {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName)
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .master("local[*]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    val df: DataFrame = spark.read.parquet(this.getClass.getClassLoader.getResource("users.parquet").getPath)

    /**
      * root
      * |-- name: string (nullable = true)
      * |-- favorite_color: string (nullable = true)
      * |-- favorite_numbers: array (nullable = true)
      * |    |-- element: integer (containsNull = true)
      */
    df.printSchema

    /**
      * +------+--------------+----------------+
      * |  name|favorite_color|favorite_numbers|
      * +------+--------------+----------------+
      * |Alyssa|          null|  [3, 9, 15, 20]|
      * |   Ben|           red|              []|
      * +------+--------------+----------------+
      */
    df.show

    spark.stop()
  }
}

4. 通过StructType动态指定Schema

应用场景：在开发代码之前，无法确定需要的 DataFrame 对应的 Schema 元信息，这时需要在开发代码的过程中指定。
代码实现：

object Case05_StructTypeSchema {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()

    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")

    val rdd: RDD[Array[String]] = sc.textFile(this.getClass.getClassLoader.getResource("person.txt").getPath)
      .map(x => x.split(" "))

    // 将rdd与Row对象关联
    val rowRDD: RDD[Row] = rdd.map(x => Row(x(0), x(1), x(2).toInt))

    // 指定dataFrame的schema信息，这里指定的字段个数和类型必须要跟Row对象保持一致
    val schema = StructType(
      StructField("id", StringType) ::
        StructField("name", StringType) ::
        StructField("age", IntegerType) :: Nil
    )

    // 利用rdd生成DataFrame
    val df: DataFrame = spark.createDataFrame(rowRDD, schema)

    /**
      * root
      * |-- id: string (nullable = true)
      * |-- name: string (nullable = true)
      * |-- age: integer (nullable = true)
      */
    df.printSchema

    /**
      * +---+-------+---+
      * | id|   name|age|
      * +---+-------+---+
      * |  1| youyou| 38|
      * |  2|   Tony| 25|
      * |  3|laowang| 18|
      * |  4|   dali| 30|
      * +---+-------+---+
      */
    df.show()

    // 用sql的方式查询结构化数据
    df.createTempView("person")

    /**
      * +---+-------+---+
      * | id|   name|age|
      * +---+-------+---+
      * |  1| youyou| 38|
      * |  2|   Tony| 25|
      * |  3|laowang| 18|
      * |  4|   dali| 30|
      * +---+-------+---+
      */
    spark.sql("select * from person").show()

    spark.stop()
  }
}

DataFrame常用操作

1. DSL风格语法

就是 sparksql 中的 DataFrame 自身提供了一套自己的 Api，可以去使用这套 api 来做相应的处理
在 Case02_ReadTextV2.scala 中：

	// 将 rdd 转成 DataFrame
    val personDF = personRDD.toDF
    personDF.printSchema()
    personDF.show()
    
	/************************** DSL风格语法 start *************************/
    // 1. 查询指定字段
    personDF.select("name").show
    personDF.select($"name").show

    // 2. 实现 age+1
    personDF.select($"name", $"age", $"age" + 1).show

    // 3. 实现 age>30 过滤
    personDF.filter($"age" > 30).show

    // 4. 按照 age 分组统计
    personDF.groupBy("age").count.show

    // 5. 按照age分组统计次数降序
    personDF.groupBy("age").count().sort($"age".desc).show
    /************************** DSL风格语法 end *************************/

2. SQL风格语法(常用)

可以把 DataFrame 注册成一张表，然后通过 sparkSession.sql(sql语句) 操作

    /************************** SQL风格语法 start *************************/
    // 1. DataFrame注册成表
    personDF.createTempView("person")

    // 2. 使用SparkSession调用sql方法统计查询
    spark.sql("select * from person").show
    spark.sql("select name from person").show
    spark.sql("select name, age from person").show
    spark.sql("select * from person where age > 30").show
    spark.sql("select count(*) from person where age > 30").show
    spark.sql("select age, count(*) from person group by age").show
    spark.sql("select age, count(*) as count from person group by age").show
    spark.sql("select * from person order by age desc").show
    /************************** SQL风格语法 end *************************/

DataSet概述

1. DataSet是什么

DataSet 是分布式的数据集合，Dataset 提供了强类型支持，也是在 RDD 的每行数据加了类型约束。
DataSet 是 DataFrame 的一个扩展，是 SparkSQL1.6 后新增的数据抽象，API 友好
- 它集中了 RDD 的优点（强类型和可以用强大lambda函数）
- 以及使用了 Spark SQL 优化的执行引擎。
DataFrame 是 DataSet 的特例，type DataFrame=DataSet[Row]
- 可以通过 as 方法将 DataFrame 转换成 DataSet
- Row 是一个类型，可以是 Person、Animal，所有的表结构信息都用 Row 来表示
优点：
- DataSet 可以在编译时检查类型
- 并且是面向对象的编程接口

2. 如何构建DataSet

方式一：通过 sparkSession 调用 createDataset 方法

val ds = spark.createDataset(1 to 10) 	// scala 集合
ds.show

val ds = spark.createDataset(sc.textFile("/person.txt"))  //rdd
ds.show

方式二：使用 scala 集合和 rdd 调用 toDS 方法

sc.textFile("/person.txt").toDS
List(1,2,3,4,5).toDS

方式三：把一个 DataFrame 转换成 DataSet

val ds = dataFrame.as[强类型]

方式四：通过一个 DataSet 转换生成一个新的 DataSet

List(1,2,3,4,5).toDS.map(x => x * 10)

3. RDD、DataFrame、DataSet对比

关系是怎样的？

首先，Spark RDD、DataFrame 和 DataSet 是 Spark 的三类 API，他们的发展过程：
- DataFrame 是 spark1.3.0 版本提出来的，spark1.6.0 版本又引入了 DateSet；
- 但是在 spark2.0 版本中，DataFrame 和 DataSet 合并为DataSet。
那么你可能会问了：那么，在2.0以后的版本里，RDD是不是不需要了呢？
- 答案是：NO！
- 首先，DataFrame 和 DataSet 都是基于 RDD 的，而且这三者之间可以通过简单的API调用进行无缝切换。

数据有什么区别？

三者 API 特点

RDD：
- 优点：相比于传统的 MapReduce 框架，Spark 在 RDD 中内置很多函数操作，group、map、filter等，方便处理结构化或非结构化数据。面向对象编程，直接存储的 java 对象，类型转化也安全。
- 缺点：由于它基本和 hadoop 一样万能的，因此没有针对特殊场景的优化，比如对于结构化数据处理相对于 sql 来比非常麻烦。默认采用的是 java 序列号方式，序列化结果比较大，而且数据存储在 java 堆内存中，导致 gc 比较频繁。
DataFrame：
- 优点：结构化数据处理非常方便，支持Avro、CSV、ElasticSearch 和 Cassandra 等 kv 数据，也支持 HIVE tables、MySQL 等传统数据表。有针对性的优化：采用 Kryo 序列化；由于数据结构元信息 spark 已经保存，序列化时不需要带上元信息，大大的减少了序列化大小；而且数据保存在堆外内存中，减少了 gc 次数，所以运行更快。hive兼容，支持hql、udf等。
- 缺点：编译时不能类型转化安全检查，运行时才能确定是否有问题。对于对象支持不友好，rdd 内部数据直接以 java 对象存储，dataframe 内存存储的是 row 对象而不能是自定义对象。
DataSet：
- 优点：DateSet 整合了 RDD 和 DataFrame 的优点，支持结构化和非结构化数据。和 RDD 一样，支持自定义对象存储。和 ataFrame 一样，支持结构化数据的 sql 查询。采用了堆外内存存储，gc 友好。类型转化安全，代码友好。

三者如何相互转换

涉及到RDD，DataFrame，DataSet之间操作时，需要隐式转换导入：import spark.implicits._
这里的 spark 不是包名，而是代表了 SparkSession 的那个对象名，所以必须先创建 SparkSession 对象再导入

case class Person(id: String, name: String, age: Int)

object Case06_SparkConversion {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("WARN")
    // 隐式转换
    import spark.implicits._

    val rdd = sc.textFile(this.getClass.getClassLoader.getResource("person.txt").getPath)
      .map(x => x.split(" "))

    // 把rdd与样例类进行关联
    val personRDD = rdd.map(x => Person(x(0), x(1), x(2).toInt))

    // 1. rdd -> df
    val df1 = personRDD.toDF
    df1.show

    // 2. rdd -> ds
    val ds1 = personRDD.toDS
    ds1.show

    // 3. df -> rdd
    val rdd1 = df1.rdd
    println(rdd1.collect.toList)

    // 4. ds -> rdd
    val rdd2 = ds1.rdd
    println(rdd2.collect.toList)

    // 5. ds -> df
    val df2: DataFrame = ds1.toDF
    df2.show

    // df -> ds
    val ds2: Dataset[Person] = df2.as[Person]
    ds2.show

    spark.stop()
  }
}

读取外部数据源

1. SparkSQL读取MySQL数据

Spark SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建 DataFrame，通过对 DataFrame 一些列的计算后，还可以将数据再写回关系型数据库中。
代码示例：

/**
  * 使用 SparkSQL读写MySQL表中的数据
  */
object Case07_ReadMySQL {
  def main(args: Array[String]): Unit = {
    // 1. 创建 SparkConf 对象
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")

    // 2. 创建 SparkSession 对象
    val spark = SparkSession.builder().config(conf).getOrCreate()

    // 3. 创建 DataFrame
    val url = "jdbc:mysql://192.168.254.132:3306/mydb?characterEncoding=UTF-8"
    val tableName = "jobdetail"
    val props = new Properties()
    props.setProperty("user", "root")
    props.setProperty("password", "123456")
    val mysqlDF: DataFrame = spark.read.jdbc(url, tableName, props)

    // 4. 读取 MySQL 表中的数据
    // 4.1 打印schema信息
    mysqlDF.printSchema()
    // 4.2 展示数据
    mysqlDF.show()
    // 4.3 将dataFrame注册成表
    mysqlDF.createTempView("job_detail")

    spark.sql("select * from job_detail where city = '广东'").show()

    spark.stop()
  }
}

2. Spark操作CSV文件并将结果写入MySQL

object Case08_ReadCsvWriteMySQL {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")
    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    val df: DataFrame = spark.read.format("csv")
      .option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ") // 时间转换
      .option("header", "true") // 第一行数据都是head(字段属性的意思)
//      .option("multiLine", "true") // 数据可能换行
      .load(this.getClass.getClassLoader.getResource("data").getPath)

    df.createOrReplaceTempView("job_detail")
    spark.sql("select job_name,job_url,job_location,job_salary,job_company,job_experience,job_class,job_given,job_detail,company_type,company_person,search_key,city from job_detail where job_company = '北京无极慧通科技有限公司'").show(80)

    val props = new Properties()
    props.put("user", "root")
    props.put("password", "123456")

    df.write.mode(SaveMode.Append).jdbc(
      "jdbc:mysql://192.168.254.132:3306/mydb?useSSL=false&useUnicode=true&characterEncoding=UTF-8",
      "mydb.jobdetail_copy", props
    )
  }
}

3. Spark与Hive整合

Spark on hive：Spark 通过 Spark SQL 使用 Hive 的语句操作 Hive，底层运行的还是 spark rdd：
- 通过 spark sql，加载 hive 的配置文件，获取到 hive 的元数据信息；
- spark sql 获取到 hive 的元数据信息之后就可以拿到 hive 的所有表的数据；
- 接下来就可以通过 spark sql 来操作 hive 表中的数据。
Hive on spark：将 Hive 查询，从 MapReduce的 MR(Hadoop计算引擎) 操作替换为 spark rdd(spark执行引擎)操作。相对于 spark on hive，这个实现起来则麻烦很多，必须重新编译你的 spark 和导入 jar 包，不过目前大部分使用的是 spark on hive。

spark整合hive——通过SparkSql-shell

拷贝 hive-site.xml 配置文件：将 node03 服务器安装的 hive 目录下 conf 文件夹下面的 hive-site.xml 拷贝到 spark 安装的各个机器节点，node03 执行以下命令进行拷贝

$ pwd
/bigdata/install/hive-3.1.2/conf
$ scp hive-site.xml node01:/bigdata/install/spark-2.3.3-bin-hadoop2.7/conf/
$ scp hive-site.xml node02:/bigdata/install/spark-2.3.3-bin-hadoop2.7/conf/
$ scp hive-site.xml node03:/bigdata/install/spark-2.3.3-bin-hadoop2.7/conf/

拷贝 mysql 驱动包：将 hive 当中 mysql 的连接驱动包拷贝到 spark 安装家目录下的 jars 目录下，node03 执行下命令拷贝 mysql 的 lib 驱动包

$ ll mysql-connector-java-5.1.38.jar 
-rw-rw-r--. 1 hadoop hadoop 983911 12月  6 2021 mysql-connector-java-5.1.38.jar
$ pwd
/bigdata/install/hive-3.1.2/lib
$ scp mysql-connector-java-5.1.38.jar node01:/bigdata/install/spark-2.3.3-bin-hadoop2.7/jars/
$ scp mysql-connector-java-5.1.38.jar node02:/bigdata/install/spark-2.3.3-bin-hadoop2.7/jars/
$ scp mysql-connector-java-5.1.38.jar node03:/bigdata/install/spark-2.3.3-bin-hadoop2.7/jars/

进入 spark-sql 直接操作 hive 数据库当中的数据：
- 在 spark2.0 版本后，由于出现了 sparkSession，在初始化 sqlContext 时，会设置默认的 spark.sql.warehouse.dir=spark-warehouse，此时将 hive 与 spark sql 整合完成后，在通过 spark-sql 脚本启动时，会在当前目录下创建一个 spark.sql.warehouse.dir 为 spark-warehouse 的目录，存放由 spark-sql 创建数据库和创建表的数据信息，与之前 hive 的数据信息不是放在同一个路径下(可以互相访问)。但是此时 spark-sql 中表的数据在本地，不利于操作，也不安全。
- 所有在启动的时候需要加上下面这样一个参数，以保证 spark-sql 启动时不再产生新的存放数据的目录，sparksql 与 hive 最终使用的是 hive 统一存放数据的目录。

--conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse

在 hive 中创建表并插入数据：

CREATE EXTERNAL TABLE `student`(
	`ID` bigint COMMENT '',
	`CreatedBy` string COMMENT '创建人',
	`CreatedTime` string COMMENT '创建时间',
	`UpdatedBy` string COMMENT '更新人',
	`UpdatedTime` string COMMENT '更新时间',
	`Version` int COMMENT '版本号',
	`name` string COMMENT '姓名'
) COMMENT '学生表'
PARTITIONED BY (`dt` String COMMENT 'partition')
row format delimited fields terminated by '\t'
location '/student';

INSERT INTO TABLE student partition(dt='2022-07-12') VALUES(1, "xxx", "2022-07-12", "", "", 1, "zhangsan");
INSERT INTO TABLE student partition(dt='2022-07-12') VALUES(2, "xxx", "2022-07-12", "", "", 2, "lisi");

通过 shell 方式：node01 直接执行以下命令，进入 spark-sql 交互界面，然后操作 hive 当中的数据

$ spark-sql --master local[2] \
--executor-memory 512m --total-executor-cores 3 \
--conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse

# 执行查询
select * from student;

通过脚本方式：编写如下脚本并执行

#!/bin/sh
# 定义 spark sql 提交脚本的头信息
SUBMIT_INFO="spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 4 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
# 定义一个 sql 语句
SQL="select * from student;"
# 执行 sql 语句，类似于 hive -e sql 
echo "$SUBMIT_INFO"
echo "$SQL"
$SUBMIT_INFO -e "$SQL"

执行：

$ sh spark_on_hive.sh

spark的thrift server与hive进行远程交互

除了可以通过 spark-shell 来与 hive 进行整合之外，我们也可以通过 spark 的 thrift 服务来远程与 hive 进行交互。
node03 执行以下命令修改 hive-site.xml 的配置属性，添加以下几个配置

<property>
	<name>hive.metastore.urisname>
	<value>thrift://node03:9083value>
	<description>Thrift URI for the remote metastoredescription>
property>
<property>
	<name>hive.server2.thrift.min.worker.threadsname>
	<value>5value>
property>
<property>
	<name>hive.server2.thrift.max.worker.threadsname>
	<value>500value>
property>

修改完的配置文件后，分发到其他机器：

$ pwd
/bigdata/install/hive-3.1.2/conf
$ scp hive-site.xml node01:/bigdata/install/spark-2.3.3-bin-hadoop2.7/conf/
$ scp hive-site.xml node02:/bigdata/install/spark-2.3.3-bin-hadoop2.7/conf/
$ scp hive-site.xml node03:/bigdata/install/spark-2.3.3-bin-hadoop2.7/conf/

node03 启动 metastore 服务

hive --service metastore

node03 执行以下命令启动 spark 的 thrift server：hive 安装在哪一台，就在哪一台服务器启动spark 的 thrift server

$ pwd
/bigdata/install/spark-2.3.3-bin-hadoop2.7/sbin
$ ./start-thriftserver.sh --master local[*] --executor-memory 2g --total-executor-cores 5

直接使用 beeline 来连接：直接在 node03 服务器上面使用 beeline 来进行连接 spark-sql

$ beeline --color=true 
beeline> !connect jdbc:hive2://node03:10000
Connecting to jdbc:hive2://node03:10000
Enter username for jdbc:hive2://node03:10000: hadoop
Enter password for jdbc:hive2://node03:10000: ******

4. 读写Hive数据

添加依赖：

<dependency>
  <groupId>org.apache.sparkgroupId>
  <artifactId>spark-hive_2.11artifactId>
  <version>2.3.3version>
dependency>

将服务端配置 hive-site.xml，放入到 idea 的 resources 目录下
代码实现：

object Case09_SparkSQLOnHive {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[*]")
      .enableHiveSupport() // 启用hive
      .config("spark.sql.warehouse.dir", "hdfs://node01:8020/user/hive/warehouse")
      .getOrCreate()

    val df: DataFrame = spark.sql("select * from student")
    df.show()
    // 直接写表达式，通过 insert into 插入
    df.write.saveAsTable("student1")
    spark.sql("insert into student1 select * from student")
  }
}

5. 读写HBase数据

需要添加依赖：

<dependency>
    <groupId>org.json4sgroupId>
    <artifactId>json4s-jackson_2.11artifactId>
    <version>3.3.0version>
dependency>

创建 HBase 表，并插入数据：

create 'spark_hbase','info'
put 'spark_hbase','0001','info:name','tangseng'
put 'spark_hbase','0001','info:age','30'
put 'spark_hbase','0001','info:sex','0'
put 'spark_hbase','0001','info:addr','beijing'
put 'spark_hbase','0002','info:name','sunwukong'
put 'spark_hbase','0002','info:age','508'
put 'spark_hbase','0002','info:sex','0'
put 'spark_hbase','0002','info:addr','shanghai'
put 'spark_hbase','0003','info:name','zhubajie'
put 'spark_hbase','0003','info:age','715'
put 'spark_hbase','0003','info:sex','0'
put 'spark_hbase','0003','info:addr','shenzhen'
put 'spark_hbase','0004','info:name','bailongma'
put 'spark_hbase','0004','info:age','1256'
put 'spark_hbase','0004','info:sex','0'
put 'spark_hbase','0004','info:addr','donghai'
put 'spark_hbase','0005','info:name','shaheshang'
put 'spark_hbase','0005','info:age','1008'
put 'spark_hbase','0005','info:sex','0'
put 'spark_hbase','0005','info:addr','tiangong'

create "spark_hbase_copy",'info'

代码实现：

object Case10_SparkSQLOnHBase {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[*]")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    import spark.implicits._

    val hconf: Configuration = HBaseConfiguration.create
    hconf.set(HConstants.ZOOKEEPER_QUORUM, "node01:2181,node02:2181,node03:2181")
    val hbaseContext = new HBaseContext(spark.sparkContext, hconf)

    // 定义映射的 catalog
    val catalog: String = "{\"table\":{\"namespace\":\"default\",\"name\":\"spark_hbase\"},\"rowkey\":\"key\",\"columns\":{\"f0\":{\"cf\":\"rowkey\",\"col\":\"key\",\"type\":\"string\"},\"f1\":{\"cf\":\"info\",\"col\":\"addr\",\"type\":\"string\"},\"f2\":{\"cf\":\"info\",\"col\":\"age\",\"type\":\"boolean\"},\"f3\":{\"cf\":\"info\",\"col\":\"name\",\"type\":\"string\"}}}";

    // 读取HBase数据
    val ds: DataFrame = spark.read.format("org.apache.hadoop.hbase.spark")
      .option(HBaseTableCatalog.tableCatalog, catalog)
      .load()
    ds.show(10)

    val catalogCopy: String = catalog.replace("spark_hbase", "spark_hbase_out")
    // 数据写入HBase
    ds.write.format("org.apache.hadoop.hbase.spark")
      .option(HBaseTableCatalog.tableCatalog, catalogCopy)
      .mode(SaveMode.Overwrite)
      .save()
  }
}

SparkSQL自定义函数

用户自定义函数类别分为以下三种：
- ① UDF：输入一行，返回一个结果(一对一)
- ② UDAF：输入多行，返回一行，这里的是 aggregate，聚合的意思，如果业务复杂，需要自己实现聚合函数
- ③ UDTF：输入一行，返回多行(一对多)，在 SparkSQL 中没有，因为 Spark 中使用 flatMap 即可实现这个功能

1. 自定义UDF函数：一对一

需求：读取深圳二手房成交数据，对房子的年份进行自定义函数处理，如果没有年份，那么就给默认值1990。

object Case11_SparkUDF {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).getOrCreate()

    val df: DataFrame = spark.read.format("csv")
      .option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ")
      .option("header", "true")
      .option("multiLine", "true")
      .load("/Volumes/F/MyGitHub/bigdata/spark-demo/src/main/resources/深圳链家二手房成交明细.csv")

    df.createOrReplaceTempView("house_sale")

    // 注册UDF
    spark.udf.register("house_udf", new UDF1[String, String] {
      val pattern: Pattern = Pattern.compile("^[0-9]*$")

      override def call(input: String): String = {
        val matcher = pattern.matcher(input)
        if (matcher.matches()) input
        else "1990"
      }
    }, DataTypes.StringType)

    // 使用UDF
    spark.sql("select house_udf(house_age) from house_sale limit 200").show()
    spark.stop()
  }
}

2. 自定义UDAF函数：多对一

需求：自定义UDAF函数，读取深圳二手房数据，然后按照楼层进行分组，求取每个楼层的平均成交金额

object Case12_SparkUDAF {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).getOrCreate()

    val df: DataFrame = spark.read.format("csv")
      .option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ")
      .option("header", "true")
      .option("multiLine", "true")
      .load("/Volumes/F/MyGitHub/bigdata/spark-demo/src/main/resources/深圳链家二手房成交明细.csv")

    df.createOrReplaceTempView("house_sale")

    spark.sql("select floor from house_sale limit 30").show()
    spark.udf.register("udaf", new MyAverage)
    spark.sql("select floor, udaf(house_sale_money) from house_sale group by floor").show()
    df.printSchema()

    spark.stop()
  }
}
class MyAverage extends UserDefinedAggregateFunction {
  // 聚合函数输入函数的数据类型
  override def inputSchema: StructType = StructType(StructField("floor", DoubleType) :: Nil)

  // 聚合缓冲区中值的数据类型
  override def bufferSchema: StructType = {
    StructType(StructField("sum", DoubleType) :: StructField("count", LongType) :: Nil)
  }

  // 返回值类型
  override def dataType: DataType = DoubleType

  // 对于相同输入是否一直返回相同的输出
  override def deterministic: Boolean = true

  // 初始化
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    // 用于存储不同类型的楼房的总成交额
    buffer(0) = 0D
    // 用于存储不同类型的楼房的总个数
    buffer(1) = 0L
  }

  // 相同Execute间的数据合并(分区内聚合)
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    if (!input.isNullAt(0)) {
      buffer(0) = buffer.getDouble(0) + input.getDouble(0)
      buffer(1) = buffer.getLong(1) + 1
    }
  }

  // 不同Execute间的数据合并(分区外聚合)
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getDouble(0) + buffer2.getDouble(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }

  // 计算最终结果
  override def evaluate(buffer: Row): Any = buffer.getDouble(0) / buffer.getLong(1)
}

3. 自定义UDTF函数：一对多

需求：自定义UDTF函数，读取深圳二手房数据，然后将 part_place(部分地区)以空格切分进行展示

object Case13_SparkUDTF {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).getOrCreate()

    import spark.implicits._

    val df: DataFrame = spark.read.format("csv")
      .option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ")
      .option("header", "true")
      .option("multiLine", "true")
      .load("/Volumes/F/MyGitHub/bigdata/spark-demo/src/main/resources/深圳链家二手房成交明细.csv")

    df.createOrReplaceTempView("house_sale")

    // 注册UDTF算子，这里无法使用sparkSession.udf.register()，注意包全路径
    spark.sql("CREATE TEMPORARY FUNCTION MySplit as 'com.yw.spark.example.sql.cases.MySplit'")

    spark.sql("select part_place, MySplit(part_place, ' ') from house_sale limit 50").show()

    spark.stop()
  }
}

class MySplit extends GenericUDTF {

  override def initialize(args: Array[ObjectInspector]): StructObjectInspector = {
    if (args.length != 2) {
      throw new UDFArgumentLengthException("UserDefinedUDTF takes only two argument")
    }
    // 判断第一个参数是不是字符串参数
    if (args(0).getCategory() != ObjectInspector.Category.PRIMITIVE) {
      throw new UDFArgumentException("UserDefinedUDTF takes string as a parameter")
    }
    // 列名：会被用户传递的覆盖
    val fieldNames: ArrayList[String] = new ArrayList[String]()
    fieldNames.add("col1")

    // 返回列以什么格式输出，这里是string，添加几个就是几个列，和上面的名字个数对应个数
    val fieldOIs: ArrayList[ObjectInspector] = new ArrayList[ObjectInspector]()
    fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector)

    ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs)
  }

  override def process(objects: Array[AnyRef]): Unit = {
    // 获取数据
    val data: String = objects(0).toString
    // 获取分隔符
    val splitKey: String = objects(1).toString
    // 切分数据
    val words: Array[String] = data.split(splitKey)

    // 遍历写出
    words.foreach(x => {
      // 将数据放入集合
      val tmp: Array[String] = new Array[String](1)
      tmp(0) = x
      forward(tmp)
    })
  }

  override def close(): Unit = {
    // 没有流操作
  }
}

相关代码 github 地址：https://github.com/shouwangyw/bigdata/tree/master/spark-demo/src/main/scala/com/yw/spark/example/sql

你可能感兴趣的:(大数据,大数据,SparkSQL,DataFrame,DataSet,SparkSQL自定义函数)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
MATLAB中的函数编写有哪些最佳实践 2401_85812053 matlab 算法人工智能
在MATLAB中，函数是执行特定任务的代码块，可以通过自定义函数来提高代码的可重用性和模块化。以下是一些关于MATLAB函数编写的最佳实践：函数结构和语法：MATLAB函数由函数名、参数列表和函数体组成。函数名必须以字母开头，后面可以跟字母、数字或下划线。参数列表包含函数接收的输入变量，用逗号分隔。函数体包含要执行的代码。functiony=my_function(x)%函数体y=x^2;end参
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
如何“选择不同的“?跨越 pandas 中的多个数据框列? 潮易 pandas
在pandas中，如果你想要选择不同的列，你可以使用DataFrame的loc属性和iloc属性的组合。loc属性是基于标签的，iloc属性则是基于索引的。如果你想要选择多个列，你只需要将它们放入一个列表即可。以下是一个代码示例：```pythonimportpandasaspd#创建一个数据框df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
详解 Pandas 的 query 函数文刀小桂 Pandas pandas python 开发语言
Pandas的query()方法能够使用字符串表达式来筛选DataFrame数据的行，类似于SQL的where子句importpandasaspddf=pd.DataFrame({"A":[1,3,5,6,7],"B":[11,10,9,8,12],"C":["hello","pandas","python","java","shell"],"D":["2024-02-01","2023-12-1
详解 Pandas 的 isin 用法文刀小桂 Pandas pandas python
Pandas的isin()方法可以判断数据值是否在某个数据集合中，若与集合中的某个值相等则返回True，反之返回False。importpandasaspddf=pd.DataFrame({"title":["one","two","three","four"],"type":["small","common","middle","large"],"num":[10,20,30,40]})#1.判
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri