Robin_Liew

八、Spark SQL

一、基本概念

Spark SQL提供了一种特殊的RDD，叫做SchemaRDD。
SchemaRDD是存放Row对象的RDD，每个Row对象代表一行记录。
SchemaRDD支持RDD上所没有的一些新操作，比如运行SQL查询。
SchemaRDD可以从外部数据源创建，也可以从查询结果或普通RDD中创建。

二、连接Spark SQL

1.Spark SQL依赖等信息

跟spark其他程序库一样，需要在应用中引入Spark SQL需要添加一些额外的依赖。这种分离机制使得spark内核编译无需依赖大量额外的包。
Apache Hive是Hadoop上的SQL引擎，Spark SQL编译时可以包含Hive支持，也可以不包含。
包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)、SerDe(序列化格式和反序列化格式)，以及Hive查询语言(HiveSql/HQL)。
需要强调的一点，如果要在Spark SQL中包含Hive库，并不需要事先安装Hive。
如果下载的二进制版本的Spark，它已经在编译时添加了Hive支持。如果从代码编译Spark，应该使用sbt/sbt -Phive assembly编译，以打开Hive支持。
带有Hive支持的Spark SQL的Maven索引

groupId = org.apache.spark
artifactId = spark-hive_2.10
version = 1.2.0

如果你不能引入Hive依赖，那就应该使用工件spark-sql_2.10代替spark-hive_2.10

2.Spark SQL编程入口

当使用Spark SQL进行编程时，根据是否使用Hive支持，有两个不同入口。
推荐使用的入口是HiveContext,它可以提供HiveQL以及其他依赖于Hive的功能的支持。
更为基础的SQLContext则支持Spark SQL功能的一个子集，子集中去掉了需要依赖于Hive的功能。
这种分离主要是为了那些可能会因为引入Hive的全部依赖而陷入依赖冲突的用户设计的。
使用HiveContext不需要事先部署好Hive。

3.Spark SQL连接Hive

若要把Spark SQL连接到一个部署好的Hive上，需要把hive-site.xml复制到Spark的配置文件目录中($SPARK_HOmE)。即使没有部署好Hive，Spark SQL也可以运行。
如果没有部署好Hive，Spark SQL会在当前的工作目录中创建出自己的Hive元数据仓库，叫做metastore_db。此外，如果你尝试使用HiveQL中的CREATE TABLE(CREATE EXTERNAL TABLE)语句来创建表，这些表会被放在你默认的文件系统中的/user/hive/warehouse目录中(如果你的classpath中有配好的hdfs-site.xml,默认的文件系统就是HDFS，否则就是本地文件系统)。
hive-site.xml文件




  
  
  
  
  
    hive.metastore.warehouse.dir
    /user/map_navi_spark/hive/warehouse
    location of default database for the warehouse
  
  
    hive.metastore.uris
    thrift://10.153.53.249:9083
   
  
    hive.exec.scratchdir
    /user/map_navi_spark/hive/data-scratchdir
    Scratch space for Hive jobs
  


   
	hive.exec.stagingdir
    /user/map_navi_spark/hive/data-stagingdir
   
   
    hive.metastore.client.socket.timeout
    60
   

   
    hive.cache.expr.evaluation
    false
    cache evaluation will make sogou common-lib udfs not work, so disable it.

三、在应用中使用Spark SQL

初始化Spark SQL
基本查询示例

//    val sc = new SparkContext(conf)
//    val hiveCtx = new HiveContext(sc)
//    //"Use SparkSession.builder.enableHiveSupport instead", "2.0.0"
//    val input = hiveCtx.jsonFile("inputFile")
//      //注册输入的SchemaRDD
//    input.registerTempTable("tweets")
//    //依据retweetCount(转发计数)选出推文
//    val topTweets = hiveCtx.sql("SELECT text,retweetCount FROM tweets ORDER BY retweetCount LIMIT 10")


val spark: SparkSession = SparkSession.builder.
        appName("retweetCount").
        master("local[3]").
        enableHiveSupport().
        config(conf).
        getOrCreate
        
//    import spark.implicits._
//    import spark.sql
//    sql("SELECT text,retweetCount FROM tweets ORDER BY retweetCount LIMIT 10")
    //上下文对象
val sc: SparkContext = spark.sparkContext
//sqlContext
val hiveCtx: SQLContext = spark.sqlContext

val input = hiveCtx.read.json("inputFile")
//注册输入的SchemaRDD
input.createOrReplaceTempView("tweets")
//依据retweetCount(转发计数)选出推文
val topTweets = hiveCtx.sql("SELECT text,retweetCount FROM tweets ORDER BY retweetCount LIMIT 10")

1.SchemaRDD(DataFrame)

读取数据和执行查询都会返回SchemaRDD。SchemaRDD和传统数据库中的表的概念类似。
从内部机理来看，SchemaRDD是由Row对象组成的RDD，附带包含每列数据类型的结构信息。
Row对象只是对基本数据类型（如整型和字符串等）的数组的封装。
spark1.3后，SchemaRDD名字改为DataFrame
SchemaRDD任然是RDD，所以可以对其应用已有的RDD转化操作，比如map()和filter()。最重要的是，你可以把任意SchemaRDD注册为临时表，这样就可以使用HiveContext.sql或SQLContext.sql来对它进行查询了。
Spark SQL/HiveQL类型与Scala等类型对应表(参考146页)
使用Row对象。在Scala/Java中，Row对象有一系列getter方法，可以通过获得下表获取每个字段的值。

2.缓存

我们知道每列的类型信息，所以Spark可以更加高效地存储数据。
为了确保使用更节约内存的表示方式进行缓存而不是存储整个对象，应当使用专门的hiveCtx.cacheTable(“tableName”)方法。
这些缓存只会在驱动器程序的生命周期里保留在内存中。
你也可以使用HiveQL/SQL语句来缓存表。只需要运行CACHE TABLE tableName或UNCACHE TABLE tableName来缓存或者删除已有的缓存即可。

四、读取和存储数据

当你使用SQL查询Hive表、JSON和Parquet等这些数据源中的数据时，Spark SQL可以智能地扫描这些用到的字段，而不是像SparkContext.hadoopFile中那样简单粗暴地扫描全部数据。
你也可以在程序中通过指定结构信息，将常规的RDD转化为SchemaRDD。

1.Apache Hive

val spark: SparkSession = SparkSession.builder.
    appName("retweetCount").
    master("local[3]").
    enableHiveSupport().
    config(conf).
    getOrCreate
//上下文对象
val sc: SparkContext = spark.sparkContext
//sqlContext
val hiveCtx: SQLContext = spark.sqlContext
val rows = hiveCtx.sql("SELECT key,value FROM mytable")
val keys = rows.map(row => row.getInt(0))

2.Parquet

Parquet是一种流行的列式存储结构，可以高效地存储具有嵌套字段的记录。
Parquet格式经常在Hadoop生态圈中被使用，它也支持Spark SQL的全部数据类型。Spark SQL提供了直接读取和存储Parquet格式文件的方法。
读取Parquet数据

val spark: SparkSession = SparkSession.builder.
      appName("retweetCount").
      master("local[3]").
      enableHiveSupport().
      config(new SparkConf()).
      getOrCreate
                             
val df = spark.read.parquet("inputpath")

存储Parquet数据

val passLinkDF = passLinkSaved.toDF()
passLinkDF.write.format("parquet").mode(SaveMode.Append).partitionBy("cdate").parquet("/user/map_navi_spark/stat/q4_all_passlink_parquet")

3.JSON

如果想从获得的数据中推断出来的结构信息，可以在生成的SchemaRDD上调用printSchema方法。
例子

root
 |-- tripID: string (nullable = true)
 |-- from: struct (nullable = true)
 |    |-- status: string (nullable = true)
 |    |-- tripID: string (nullable = true)
 |    |-- gpsTm: long (nullable = true)
 |    |-- originX: double (nullable = true)
 |    |-- originY: double (nullable = true)
 |    |-- prjX: double (nullable = true)
 |    |-- prjY: double (nullable = true)
 |    |-- link: struct (nullable = true)
 |    |    |-- id: integer (nullable = true)
 |    |    |-- direct: integer (nullable = true)
 |    |    |-- length: double (nullable = true)
 |    |    |-- trip_index: integer (nullable = true)
 |    |-- distError: double (nullable = true)
 |    |-- angleError: double (nullable = true)
 |-- to: struct (nullable = true)
 |    |-- status: string (nullable = true)
 |    |-- tripID: string (nullable = true)
 |    |-- gpsTm: long (nullable = true)
 |    |-- originX: double (nullable = true)
 |    |-- originY: double (nullable = true)
 |    |-- prjX: double (nullable = true)
 |    |-- prjY: double (nullable = true)
 |    |-- link: struct (nullable = true)
 |    |    |-- id: integer (nullable = true)
 |    |    |-- direct: integer (nullable = true)
 |    |    |-- length: double (nullable = true)
 |    |    |-- trip_index: integer (nullable = true)
 |    |-- distError: double (nullable = true)
 |    |-- angleError: double (nullable = true)
 |-- v_prop: double (nullable = true)
 |-- seqLink: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- id: integer (nullable = true)
 |    |    |-- direct: integer (nullable = true)
 |    |    |-- length: double (nullable = true)
 |    |    |-- trip_index: integer (nullable = true)
 |-- length: double (nullable = true)
 |-- passspeed: double (nullable = true)

4.基于RDD

除了读取数据，也可以基于RDD创建SchemaRDD。在Scala中，带有case class的RDD可以隐式转换成SchemaRDD。

case class HappyPerson(handle: String,favouriteBeverage: String)
val happyPersonRdd = sc.parallelize(List("holden","coffee"))
import spark.implicits._
val happyPersonDf = happyPersonRdd.toDF
happyPersonDf.createOrReplaceTempView("viewName")
//接下来就可以使用sql语句进行查询了

五、JDBC/ODBC服务器(理解还有些问题)

Spark SQL的JDBC服务器与Hive中的HiveServer2相一致。由于使用了Thrift通信协议，它也被称为"Thrift server"。
注意，JDBC服务器支持需要Spark在打开Hive支持的选项下编译。
服务器可以通过Spark目录中的sbin/start-thiftserver.sh启动。
beeline客户端

六、Spark SQL通过JDBC连接外部数据库

1.DBC connection properties

属性名称和含义
- url：要连接的JDBC URL。列如：jdbc:mysql://ip:3306
- dbtable:应该读取的JDBC表。可以使用括号中的子查询代替完整表。
- driver:用于连接到此URL的JDBC驱动程序的类名,列如：com.mysql.jdbc.Driver
partitionColumn, lowerBound, upperBound, numPartitions：
- 这些options仅适用于read数据。这些options必须同时被指定。他们描述，如何从多个workers并行读取数据时，分割表。
- partitionColumn：必须是表中的数字列。
- lowerBound和upperBound仅用于决定分区的大小，而不是用于过滤表中的行。
  表中的所有行将被分割并返回。
fetchsize：仅适用于read数据。JDBC提取大小，用于确定每次获取的行数。这可以帮助JDBC驱动程序调优性能，这些驱动程序默认具有较低的提取大小（例如，Oracle每次提取10行）。
batchsize：仅适用于write数据。JDBC批量大小，用于确定每次insert的行数。
这可以帮助JDBC驱动程序调优性能。默认为1000。
isolationLevel：仅适用于write数据。事务隔离级别，适用于当前连接。它可以是一个NONE，READ_COMMITTED，READ_UNCOMMITTED，REPEATABLE_READ，或SERIALIZABLE，对应于由JDBC的连接对象定义，缺省值为标准事务隔离级别READ_UNCOMMITTED。请参阅文档java.sql.Connection。
truncate：仅适用于write数据。当SaveMode.Overwrite启用时，此选项会truncate在MySQL中的表，而不是删除，再重建其现有的表。这可以更有效，并且防止表元数据（例如，索引）被去除。但是，在某些情况下，例如当新数据具有不同的模式时，它将无法工作。它默认为false。
createTableOptions：仅适用于write数据。此选项允许在创建表（例如CREATE TABLE t (name string) ENGINE=InnoDB.）时设置特定的数据库表和分区选项。

2.spark jdbc read MySQL

方式一：使用DataFrameReader 类提供的load()方法从指定数据库读取数据

val jdbcDF1 = spark.read.format("jdbc")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("url", "jdbc:mysql://ip:3306")
      .option("dbtable", "db.user_test")
      .option("user", "test")
      .option("password", "123456")
      .option("fetchsize", "3")
      .load()
jdbcDF1.show

val jdbcDF2 = spark.read.format("jdbc").options(
      Map(
        "driver" -> "com.mysql.jdbc.Driver",
        "url" -> "jdbc:mysql://ip:3306",
        "dbtable" -> "db.user_test",
        "user" -> "test",
        "password" -> "123456",
        "fetchsize" -> "3")).load()
jdbcDF2.show

方式二：使用DataFrameReader 类提供的jdbc()方法从指定数据库读取数据

jdbc(url: String, table: String, properties: Properties): DataFrame

import java.util.Properties

// jdbc(url: String, table: String, properties: Properties): DataFrame
val readConnProp1 = new Properties()
readConnProp1.put("driver", "com.mysql.jdbc.Driver")
readConnProp1.put("user", "test")
readConnProp1.put("password", "123456")
readConnProp1.put("fetchsize", "3")

val jdbcDF3 = spark.read.jdbc(
      "jdbc:mysql://ip:3306",
      "db.user_test",
      readConnProp1)
jdbcDF3.rdd.partitions.size //默认并行度为1
jdbcDF3.show

val jdbcDF4 = spark.read.jdbc(
      "jdbc:mysql://ip:3306",
      "(select * from db.user_test where gender=1) t",  // 注意括号和表别名，必须得有，这里可以过滤数据
      readConnProp1)
jdbcDF4.show()

方式三

jdbc(url: String, table: String,
     columnName: String, lowerBound: Long, upperBound: Long, numPartitions: Int,
     connectionProperties: Properties): DataFrame

import java.util.Properties

val readConnProp2 = new Properties()
readConnProp2.put("driver", "com.mysql.jdbc.Driver")
readConnProp2.put("user", "test")
readConnProp2.put("password", "123456")
readConnProp2.put("fetchsize", "2")

val columnName = "uid"
val lowerBound = 1
val upperBound = 6
val numPartitions = 3

val jdbcDF5 = spark.read.jdbc(
      "jdbc:mysql://ip:3306",
      "db.user_test",
      columnName,
      lowerBound, //lowerBound和upperBound仅用于决定分区的大小，而不是用于过滤表中的行。表中的所有行将被分割并返回。
      upperBound,
      numPartitions,
      readConnProp2)

jdbcDF5.rdd.partitions.size //并行度为3，对应于numPartitions
jdbcDF5.show

方式四

dbc(url: String, table: String, predicates: Array[String], connectionProperties: Properties): DataFrame
predicates: Condition in the WHERE clause for each partition.

import java.util.Properties

val readConnProp3 = new Properties()
readConnProp3.put("driver", "com.mysql.jdbc.Driver")
readConnProp3.put("user", "test")
readConnProp3.put("password", "123456")
readConnProp3.put("fetchsize", "2")

val arr = Array(
      (1, 50),
      (2, 60))

// 此处的条件，既可以分割数据用作并行度，也可以过滤数据
val predicates = arr.map {
      case (gender, age) =>
        s" gender = $gender " + s" AND age < $age "
}

val predicates1 =
      Array(
        "2017-05-01" -> "2017-05-20",
        "2017-06-01" -> "2017-06-05").map {
        case (start, end) =>
          s"cast(create_time as date) >= date '$start' " + s"AND cast(create_time as date) <= date '$end'"
}

val jdbcDF6 = spark.read.jdbc(
      "jdbc:mysql://ip:3306",
      "db.user_test",
      predicates,
      readConnProp3)

jdbcDF6.show

3.spark jdbc write MySQL

// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._

val dataList: List[(Double, String, Double, Double, String, Double, Double, Double, Double)] = List(
      (0, "male", 37, 10, "no", 3, 18, 7, 4),
      (0, "female", 27, 4, "no", 4, 14, 6, 4),
      (0, "female", 32, 15, "yes", 1, 12, 1, 4),
      (0, "male", 57, 15, "yes", 5, 18, 6, 5),
      (0, "male", 22, 0.75, "no", 2, 17, 6, 3),
      (0, "female", 32, 1.5, "no", 2, 17, 5, 5),
      (0, "female", 22, 0.75, "no", 2, 12, 1, 3),
      (0, "male", 57, 15, "yes", 2, 14, 4, 4),
      (0, "female", 32, 15, "yes", 4, 16, 1, 2))

val colArray: Array[String] = Array("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating")

val df7 = dataList.toDF(colArray: _*) //将colArray当做参数序列seq处理

df7.write.mode("overwrite").format("jdbc").options(
      Map(
        "driver" -> "com.mysql.jdbc.Driver",
        "url" -> "jdbc:mysql://ip:3306",
        "dbtable" -> "db.affairs",
        "user" -> "test",
        "password" -> "123456",
        "batchsize" -> "1000",
        "truncate" -> "true")).save()

七、用户自定义函数(后期研究)

八、Spark SQL性能

如果我们只需要在spark中读取某些特定的记录，标准的方法是读入整个数据集，然后在上面执行筛选条件。
在Spark SQL中，如果底层的数据存储支持只读取键值在一个范围内的记录，或是其他某些限制条件，Spark SQL就可以把查询语句中的筛选限制条件推到数据存储层，从而大大减少需要读取的数据。
性能调优选项(参考《Spark快速大数据分析》158页)
例：性能选项spark.sql.parquet.compression.codec

 val sparkSession = SparkSession.builder()
    .appName("metric_speed_sample")
    .config(conf)
    .config("spark.sql.parquet.compression.codec", "snappy")
    .getOrCreate()

例：性能选项spark.sql.codegen

在Scala中打开codegen选项
conf.set("spark.sql.codegen","true")

扫码关注公众号

后台回复“Spark学习资料”免费获取更多Spark学习教材及实战资料

【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
（转）java.sql包介绍
数据库连接包：实现JDBC的类库；DriverManager类此类用于装载驱动程序，它所有的成员都是静态成员，所以在程序中无须对它进行实例化，直接通过类名就可以访问它。DriverManager类是JDBC的管理层，作用于用户和驱动程序间加载驱动程序Class.forName(“公司名.数据库名.驱动程序名”)如：Class.forName(“sun.jdbc.odbc.jdbcOdbcDrive
网络安全协议之SSL协议北邮23级网安 ssl web安全网络
SSL协议简介什么是SSL协议？SSL协议是一种安全套接层协议，它可以在TCP协议的基础上提供数据的加密、身份验证和完整性保护。SSL协议主要由两部分组成：握手协议和记录协议。握手协议负责建立安全连接，交换公钥和证书，商定对称密钥等；记录协议负责使用对称密钥对数据进行加密和解密，以及检测数据的完整性。SSL协议常用于Web浏览器和Web服务器之间的通信，例如HTTPS。（HTTPS是一种安全的HT
MySQL(118)如何使用SSL进行加密连接？
使用SSL进行加密连接可以有效地保护数据在传输过程中的安全性，防止数据被窃取或篡改。下面我们将详细介绍如何在Java应用中使用SSL与MySQL数据库建立加密连接。一.准备工作在开始之前，请确保你已经安装了MySQL，并且有Java开发环境（如JDK和Maven）。二.生成SSL证书生成自签名证书：你可以使用OpenSSL工具来生成自签名证书。以下是生成CA证书、服务器证书和客户端证书的步骤。#生
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
PostgreSQL系列- 6 - PgBouncer连接池 IfNotExists postgresql 数据库
目录PgBouncer连接池...11、为什么要使用连接池...12、软件安装...13、连接池的配置文件...14、PgBouncer启动和管理...71、为什么要使用连接池1.1能够缓存和PostgreSQL的连接，当有连接请求进来的时候，直接分配空闲进程，而不需要PostgreSQLfork出新进程来建立连接，以节省创建新进程，创建连接的资源消耗。1.2能够有效提高连接的利用率，避免过多的无
php pgsql 连接池,PostgreSQL数据库连接池PgBouncer的搭建 weixin_39612499 php pgsql 连接池
最近有些项目我们是采用PostgreSQL进行后端数据库，由于要对客户端的连接使用类型和连接数进行控制，因此我们采用PgBouncer来进行最近有些项目我们是采用PostgreSQL进行后端数据库，由于要对客户端的连接使用类型和连接数进行控制，因此我们采用PgBouncer来进行实施。PgBouncer相关的基本文档pgsqldb中文站已经有不少文档，这里我就不再作过多的说明，我将集中对其中的几个
PostgreSQL之Pgbouncer连接池安装
PostgreSQL之Pgbouncer连接池安装(1)Pgbouncer功能介绍PgBouncer作为PostgreSQL数据库的连接池中间件，PgBouncer仅作为一个连接池和代理层为PostgreSQL和应用之间提供服务。PgBouncer能够缓存和PostgreSQL的连接，当有连接请求进来的时候，直接分配空闲进程，而不需要PostgreSQLfork出新进程来建立连接，以节省创建新进程
paimon.disk包：磁盘处理
FileIOChannel接口FileIOChannel是Paimon内部用于磁盘I/O操作的一个核心抽象，尤其在需要将大量数据溢出（spill）到本地磁盘的场景（例如外部排序）中扮演着关键角色。它代表了对一个底层文件的I/O通道，并提供了一套管理其生命周期（创建、读写、关闭、删除）的标准化方法。下面我们分部分来解析这个接口。这个接口定义了一个I/O通道的基本行为。//...existingcod
2、Connecting to Kafka 虾条_花吹雪 Spring for Apache Kafka kafka 分布式 ai
KafkaAdmin-请参阅配置主题ProducerFactory-请参阅发送消息ConsumerFactory-请参阅接收消息从2.5版本开始，每个版本都扩展了KafkaResourceFactory。这允许在运行时通过向引导服务器的配置中添加Supplier来更改引导服务器：setBootstrapServersSupplier（（）->…）。所有新连接都将调用此命令以获取服务器列表。消费者和
Android音视频通话
Android音视频通话前言一、准备工作1、编写Jni接口2、通过javah工具生成头文件3、集成speex、webrtc二、初始化工作三、开启socketudp服务四、判断socket是否可读五、发送数据到远端1、视频数据1.1、初始化MediaCodec1.2、通过MediaCodec进行H264编码2、音频数据2.1、webrtc消回声2.2、speex编码压缩六、断开连接前言Android
【Python】深入解析 Hydra 库宅男很神经 python 开发语言
第一章:混沌的终结：在配置泥潭中挣扎与Hydra的曙光在任何一个软件项目的生命周期中，无论是小型的个人脚本，还是大型的企业级分布式系统，我们都无法回避一个核心问题：如何管理配置。配置，是连接我们静态的代码逻辑与动态的运行环境之间的桥梁。它决定了我们的程序连接哪个数据库、使用哪个API密钥、以多大的批次处理数据、模型的学习率应该是多少、日志应该输出到哪里、以何种级别输出…可以说，配置定义了程序的行为
什么是TCP的三次握手秋恬意 tcp/ip 网络网络协议
TCP（传输控制协议）的三次握手是一个用于在两个网络通信的计算机之间建立连接的过程。这个过程确保了双方都有能力接收和发送数据，并且初始化双方的序列号。以下是三次握手的详细步骤：第一次握手（SYN）：客户端发送一个带有SYN（同步序列编号）标志的TCP段到服务器，这个SYN报文段包含一个初始序列号（ISN）。客户端进入SYN-SENT状态，等待服务器的确认。第二次握手（SYN-ACK）：服务器收到客
Java NIO 核心知识总结
NIO简介在传统的JavaI/O模型（BIO）中，I/O操作是以阻塞的方式进行的。也就是说，当一个线程执行一个I/O操作时，它会被阻塞直到操作完成。这种阻塞模型在处理多个并发连接时可能会导致性能瓶颈，因为需要为每个连接创建一个线程，而线程的创建和切换都是有开销的。为了解决这个问题，在Java1.4版本引入了一种新的I/O模型—NIO（NewIO，也称为Non-blockingIO）。NIO弥补了同
Windows环境下串口通信开发实战工具包八大山狗
本文还有配套的精品资源，点击获取简介：在Windows操作系统中，串口是一种用于计算机与外部设备通信的接口，尤其适用于旧式硬件和特定嵌入式系统。串口通信简单且实用，适合点对点或多点数据传输。本文介绍了Windows环境下如何使用串口开发工具进行调试和开发。提供了包括串口模拟工具和串口命令收发工具在内的实用程序，这些工具可以帮助开发者无需实际连接硬件即可测试和验证串口通信协议，提高开发和调试效率。同
2025最新如何解决VSCode远程连接开发机失败/解决方案大全猫头虎 vscode ide 编辑器 html5 npm chrome devtools 前端框架
前言在当下的混合开发环境中，VSCodeRemote-SSH、Remote-WSL、DevContainers等扩展极大地提升了本地编辑远程主机代码的体验。但复杂的网络、中间代理、系统配置、磁盘空间、版本兼容等多方面因素，也常常带来连接失败的烦恼。本文基于2025年最新实测，系统地整理了从通用“重启”到深度排查SSH、WebSocket、磁盘、WSL等层面的所有可能方案，帮助你在最短时间内恢复开发
C++ 变量作用域写代码的小球 java 前端 javascript
一般来说有三个地方可以定义变量：在函数或一个代码块内部声明的变量，称为局部变量。在函数参数的定义中声明的变量，称为形式参数。全局变量在所有函数外部定义的变量（通常是在程序的头部），称为全局变量。全局变量的值在程序的整个生命周期内都是有效的。全局变量可以被任何函数访问。也就是说，全局变量一旦声明，在整个程序中都是可用的。在所有函数外部声明的变量，称为全局变量。作用域是程序的一个区域，变量的作用域可以
android stm32 蓝牙模块,STM32+USART+蓝牙模块(BT04) thomasschulzz android stm32 蓝牙模块
硬件：正点原子战舰V3蓝牙模块BT04(HC-05也一样的，不过指令不一样)USB转TTL模块软件：XCOM串口调试助手(PC)蓝牙调试宝(安卓平台)昨晚调试蓝牙模块，这个蓝牙模块因为只需要连接串口就可以正常工作，应该来说比较简单。但是还是遇到一个小问题，找了很久的原因，调试了很长时间。我想要测试的功能是利用手机APP发送命令控制LED灯，下面是主函数：intmain(void){u16t;u16
Mysql中3表连接 Orange-one mysql
简要概述表连接分为等值连接和外连接两种。外连接又分为：左连接（leftjoin)；右连接(rightjoin)；全连接(union)举例对以下三张表展开连接，分别为stu、cou、teastu中，字段为t_id;t_name;t_cidcou中，字段为t_cid;c_name;t_idtea中，字段为t_id;t_name例1：对三表进行等值连接语句：select*fromstu,cou,teaw
计算机网络socket通信底层原理你一身傲骨怎能输计算机网络计算机网络网络网络协议
Socket通信是计算机网络中一种常见的通信方式，它允许不同计算机之间通过网络进行数据交换。Socket通信的底层原理涉及多个层次的协议和机制，包括应用层、传输层、网络层和数据链路层。以下是Socket通信的底层原理的详细解释：1.概述Socket是网络通信的端点，通常用于在客户端和服务器之间建立连接并交换数据。Socket通信可以基于不同的传输协议，如TCP（传输控制协议）和UDP（用户数据报协
Elasticsearch 启动失败？从日志分析到最终解决（磁盘空间不足案例） Leaton Lee elasticsearch 大数据搜索引擎
问题背景最近在本地运行一个SpringBoot项目时，突然遇到Elasticsearch(ES)连接超时的问题：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'awardController':Unsatisfieddependencyexpressedthroug
z-library 镜像网站 0x0007 linux 运维服务器
基于各种你知道的，你不知道的原因，z-library的访问，尤其在国内的访问需要很多手段，没有一劳永逸的方法，只有与时俱进，不忘初心，砥砺前行，永不停歇收集了一些镜像站，随时可能失效，不定期更新：https://annas-archive.org/https://zlib.apphttps://zbook.lol/https://zlibrary.mlhttps://zlib.missuo.me/
Ubuntu 14.04连接上海大学ShuWlan-1X与eduroam
无线配置GUI窗口界面配置无线：安全-WPA及WAP2企业认证-受保护的EAP(PEAP)CAZ证书-不需要内部认证-MSCHAPv2eduroam的用户名为学号@sdvip.shu.edu.cn，密码为一卡通密码。ShuWlan-1X的用户名学号，密码为一卡通密码。
如何在YashanDB中使用SQL实现复杂查询数据库
在当今的数据驱动环境中，数据库查询性能至关重要，尤其是复杂查询的实现与优化。复杂查询通常涉及多表连接、聚集计算或者子查询，相对于简单查询，更高的计算要求极大地影响了执行速度。因此，了解如何在YashanDB中高效地实现复杂查询，不仅可以优化应用的性能，还能提升整体的数据处理效率。复杂查询的实现方法多表关联查询在YashanDB中，多表关联查询是复杂查询中最常用的形式之一。通过使用INNERJOIN
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
thinkphp5.0项目配置多MySQL数据库连接 thinkphp5mysql
公司项目需要连接2个MySQL数据库背景介绍:公司项目是基于fastadmin1.4.0.20230711开发的,里面用到的thinkphp版本是5.0.25,项目涉及到小程序端和设备端,之前做的是两个项目,但是部署在同一台服务器上,分别对应两个数据库,之前两个项目之间的交互是通过互相调用对方接口的方式实现的,优化的时候就想通过在一个项目中连接两个MySQL数据库的方式,避免互相调用带来的性能开销
使用跳板机上传(下载)包 L?z ^f my utils
本地构建打包，压缩得到.tar.gz包$tar-zcvfxxx.tar.gz文件夹名称#例如tar-zcvftest_aa.tar.gzdist使用跳板机上传包打开Xshell，连接xx.xx.xx.xx服务器（跳板服务器）进入一个文件夹目录，将压缩包拖至窗口内，即上传文件输入命令ll查看所有文件(可以看到自己上传的包即可)将包发到10.4.0.11服务器（目标服务器）上（如下操作）#发包：scp
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
各种版本Android Studio下载地址
官网各种AndroidStudio版本：https://developer.android.com/studio/archive，如下：当前（2025-07-05）官方提供的版本最旧的只能到2017年的版本了，有时候想安装旧的版本，比如我在学Gradle时，有教程在讲解时使用的AndroidStudio是较旧的版本，所以我想保持开发环境一样，这时就需要下载到旧的版本，但是官网上已经找不到下载链接了
TMC4361A 使用（未验证） m0_55576290 嵌入式工作一二三单片机嵌入式硬件嵌入式
prompt我用STM32F103C8T6来控制TMC4361A运动控制芯片，我配置STM32F103C8T6的SPI1与TMC4361A进行通信，配置PA4作为片选线，配置PA8作为RCC_MCO输入时钟输入到TMC4361A,并将其连接到TMC4361A的CLK_EXT引脚。我想控制TMC4361A,你要认真仔细阅读TMC4361A的手册，然后帮我实现控制。主要功能：硬件配置：SPI1配置（P
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

八、Spark SQL

一、基本概念

二、连接Spark SQL

1.Spark SQL依赖等信息

2.Spark SQL编程入口

3.Spark SQL连接Hive

三、在应用中使用Spark SQL

1.SchemaRDD(DataFrame)

2.缓存

四、读取和存储数据

1.Apache Hive

2.Parquet

3.JSON

4.基于RDD

五、JDBC/ODBC服务器(理解还有些问题)

六、Spark SQL通过JDBC连接外部数据库

1.DBC connection properties

2.spark jdbc read MySQL

3.spark jdbc write MySQL

七、用户自定义函数(后期研究)

八、Spark SQL性能

扫码关注公众号

你可能感兴趣的:(大数据,Spark,SparkSQL,Spark连接Hive,Spark连接外部数据源)