不将就的cris

Spark Sql常见的几种数据源

前言

Spark SQL的DataFrame接口支持多种数据源的操作。可以使用关系转换进行操作，也可以被注册为临时视图。将DataFrame注册为临时视图，即可以通过SQL进行数据查询。

Spark SQL的默认数据源格式为Parquet文件格式，修改配置项spark.sql.sources.default即可更改默认的数据源格式。

一. 通用加载/保存功能

操作默认数据源

//load用于read读取文件时加载文件中的数据
val usersDF = spark.read.load("../examples/src/main/resources/users.parquet")
//save用于write写文件时存储写出的数据,未指定具体保存路径的情况下,则文件保存在bin目录下
usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

手动指定选项
当数据源格式不是默认的Parquet格式的文件时，需要手动指定将要使用的数据源格式，数据源格式需要指定全名(例如org.apache.spark.sql.parquet)，但内置的来源，则使用短名称(json, parquet, jdbc, orc, libsvm, csv, text)来指定数据的格式。从任何数据源类型加载的DataFrame都可以使用此语法转换为其他类型。

可以使用SparkSession提供的read.load方法加载数据，使用write.save方法保存数据。

1.1 加载json文件:

val peopleDF = spark.read.format("json").load("../examples/src/main/resources/people.json")
peopleDF.select("name", "age").write.format("parquet").save("namesAndAges.parquet")

1.2 加载csv文件:

val peopleDFCsv = spark.read.format("csv").option("sep", ";").option("inferSchema", "true").option("header", "true").load("../examples/src/main/resources/people.csv")
 peopleDFCsv.select("name", "age").write.format("parquet").save("namesAndAges2.parquet")

在写操作期间还会使用额外的选项。例如:可以控制ORC数据源的Bloom过滤器和字典编码。

//创建bloom过滤器,favorite_color并为name和使用字典编码favorite_color。
usersDF.write.format("orc").option("orc.bloom.filter.columns", "favorite_color").option("orc.dictionary.key.threshold", "1.0").save("users_with_options.orc")

除了使用读取API将文件加载到DataFrame中并进行查询之外，还可以直接在文件上运行SQL

val sqlDF = spark.sql("SELECT * FROM parquet.`../examples/src/main/resources/users.parquet`")

保存操作
保存操作可以选择SaveMode来执行，SaveMode定义了对数据的处理模式。重要的是，这些保存模式不使用任何锁定且不是原子操作。此外，当使用OverWrite执行时，会在输出新数据之前删除旧数据。
SaveMode详细介绍如下表:

Scala/Java	任何语言	含义
SaveMode.ErrorIfExists （默认）	“error” or “errorifexists” （默认）	将DataFrame保存到数据源时，如果已经存在数据，则将引发异常。
SaveMode.Append	“append”	将DataFrame保存到数据源时，如果已经存在数据/表，则应该将DataFrame的内容附加到现有数据中。
SaveMode.Overwrite	“overwrite”	将DataFrame保存到数据源时，如果已经存在数据/表，则预期现有数据将被DataFrame的内容覆盖。
SaveMode.Ignore	“ignore”	将DataFrame保存到数据源时，如果已经存在数据，则预期保存操作将不保存DataFrame的内容并且不更改现有数据。这类似于CREATE TABLE IF NOT EXISTSSQL中的。

保存到永久表
DataFrames也可以使用以下saveAsTable命令作为持久表保存到Hive Metastore中。注意，使用此功能不需要现有的Hive部署。Spark会创建一个默认的本地Hive Metastore(使用Derby)。

与createOrReplaceTempView命令不同，saveAsTable将具体化DataFrame的内容，并在Hive元存储中创建一个指向数据的指针。即使重新启动Spark程序，持久表仍将存在，只要保持与同一metastore的连接即可。可以使用表名在SparkSession上调用方法来创建持久表的DataFrame 。

对于文本，Parquet，json等基于文件的数据源，保存时可以通过path选项指定自定义表路径，例如df.write.option(“path”, “/some/path”).saveAsTable(“t”)。(存储在指定路径下的文件格式为parquet)。删除表后，自定义表路径将不会删除，且表数据仍然存在。如果未指定自定义表路径，Spark会将数据写入仓库目录下的默认表路径。删除表时，默认表路径也将被删除。

从Spark 2.1开始，持久数据源表在Hive元存储中存储了按分区的元数据。这带来了几个好处：

1)由于元存储只能返回查询的必要分区，因此不再需要在第一个查询中将所有分区发现到表中。

2)Hive DDL，例如ALTER TABLE PARTITION … SET LOCATION现在可用于使用Datasource API创建的表。
需要注意的是，在创建外部数据源表（带有path选项的表）时，默认情况下不会收集分区信息。要同步元存储中的分区信息，可以调用MSCK REPAIR 表名，例:MSCK REPAIR people。

分桶、排序和分区
对于基于文件的数据源，也可以对输出进行存储和分类或分区。分桶和排序仅适用于持久表：

peopleDF.write.bucketBy(42, "name").sortBy("age").saveAsTable("people_bucketed")

当使用DataSet的API时，对于save和saveastable，都可以使用分区。

//会在HDFS上的当前用户路径下产生一个文件夹namesPartByColor.parquet，里面包含了两个分区文件夹
usersDF.write.partitionBy("favorite_color").format("parquet").save("namesPartByColor.parquet")
//会在/user/hive/warehouse/namespartbycolor产生一个分区表。
userDF.write.partitionBy("favorite_color").format("parquet").saveAsTable("namesPartByColor")

可以对单个表同时使用分区和分桶：

usersDF.write.partitionBy("favorite_color").bucketBy(42, "name").saveAsTable("users_partitioned_bucketed")

partitionBy按照以下二.2节“分区自动识别”部分中的描述创建目录结构。因此，它对具有高基数的列的适用性有限。相反， bucketBy将数据分布在固定数量的存储桶中，并且当许多唯一值不受限制时可以使用。

二. Parquet文件

Parquet是一种列存储格式的文件，支持许多的数据处理系统。Spark SQL提供对Parquet文件的读写支持，该文件会自动保留原始数据的结构。编写Parquet文件时，出于兼容性原因，所有列都将自动转换为可为null的类型。

以编程方式加载数据

// Encoders for most common types are automatically provided by importing spark.implicits._
import spark.implicits._
val peopleDF = spark.read.json("../examples/src/main/resources/people.json")

// DataFrames can be saved as Parquet files, maintaining the schema information
peopleDF.write.parquet("people.parquet")

// Read in the parquet file created above
// Parquet files are self-describing so the schema is preserved
// The result of loading a Parquet file is also a DataFrame
val parquetFileDF = spark.read.parquet("people.parquet")

// Parquet files can also be used to create a temporary view and then used in SQL statements
parquetFileDF.createOrReplaceTempView("parquetFile")
val namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19")
namesDF.map(attributes => "Name: " + attributes(0)).show()
// +------------+
// |       value|
// +------------+
// |Name: Justin|
// +------------+

分区自动识别

表分区是Hive等系统中常用的优化方法。在分区表中，数据通常存储在不同的目录中，分区列值编码在每个分区目录的路径中。所有内置文件源（包括Text / CSV / JSON / ORC / Parquet）都可以自动发现和推断分区信息。例如，我们可以使用以下目录结构将之前使用的所有填充数据存储到一个分区表中，该目录结构具有两个额外的列gender并country作为分区列：

path
└── to
    └── table
        ├── gender=male
        │   ├── ...
        │   │
        │   ├── country=US
        │   │   └── data.parquet
        │   ├── country=CN
        │   │   └── data.parquet
        │   └── ...
        └── gender=female
            ├── ...
            │
            ├── country=US
            │   └── data.parquet
            ├── country=CN
            │   └── data.parquet
            └── ...

通过传递path/to/table给SparkSession.read.parquet或SparkSession.read.load，Spark SQL将自动从路径中提取分区信息。现在，返回的DataFrame的架构变为：

root
|-- name: string (nullable = true)
|-- age: long (nullable = true)
|-- gender: string (nullable = true)
|-- country: string (nullable = true)

请注意，分区列的数据类型是自动推断的。目前仅支持numeric， date, timestamp 和String类型。有时，用户可能不希望自动推断分区列的数据类型。对于这些用例，可以配置自动类型推断spark.sql.sources.partitionColumnTypeInference.enabled，默认为true。禁用类型推断时，string类型将用于分区列。

从Spark 1.6.0开始，默认情况下，分区发现仅在给定路径下查找分区。对于上面的示例，如果用户传递path/to/table/gender=male给 SparkSession.read.parquet或SparkSession.read.load，gender则不会被视为分区列。如果用户需要指定分区发现应开始的基本路径，则可以basePath在数据源选项中进行设置。例如，当path/to/table/gender=male数据路径是且用户设置basePath为时path/to/table/，gender将是一个分区列。

模式合并

与Protocol Buffer、Avro和Thrift一样，Parquet也支持模式演化。用户可以从一个简单的架构开始，然后根据需要逐渐向架构中添加更多列。这样，用户可能最终得到具有不同但相互兼容的架构的多个Parquet文件。现在，Parquet数据源能够自动检测到这种情况并合并所有这些文件的模式。

由于架构合并是一项相对昂贵的操作，并且在大多数情况下不是必需的，因此默认情况下，我们从1.5.0开始将其关闭。可以通过以下方式启用:

1). 在读取Parquet文件时，将数据源选项设置mergeSchema为true(如下例所示)。
2). 将全局SQL选项spark.sql.parquet.mergeSchema设置为true。

// This is used to implicitly convert an RDD to a DataFrame.
import spark.implicits._

// Create a simple DataFrame, store into a partition directory
val squaresDF = spark.sparkContext.makeRDD(1 to 5).map(i => (i, i * i)).toDF("value", "square")
squaresDF.write.parquet("data/test_table/key=1")

// Create another DataFrame in a new partition directory,
// adding a new column and dropping an existing column
val cubesDF = spark.sparkContext.makeRDD(6 to 10).map(i => (i, i * i * i)).toDF("value", "cube")
cubesDF.write.parquet("data/test_table/key=2")

// Read the partitioned table
val mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table")
mergedDF.printSchema()

// 最终的模式由Parquet 文件中的所有3列组成
// 分区列出现在分区目录路径中
// root
//  |-- value: int (nullable = true)
//  |-- square: int (nullable = true)
//  |-- cube: int (nullable = true)
//  |-- key: int (nullable = true)

Hive Metastore Parquet表转换

在读取和写入Hive metastore Parquet表时，为获得更好的性能，Spark SQL将尝试使用其自己的Parquet支持而不是Hive SerDe(序列化和反序列化)。此行为由spark.sql.hive.convertMetastoreParquet配置控制，且默认情况下处于启用状态。

4.1 Hive/Parquet架构协调

从表模式处理的角度来看，Hive和Parquet之间有两个关键区别。
4.1.1 Hive不区分大小写，而Parquet则区分大小写
4.1.2 Hive认为所有列都可为空，而Parquet中字段的的可为空性(nullability)很重要

由于这个原因，在将Hive Metastore Parquet表转换为Spark SQL Parquet表时，我们必须使Hive Metastore模式与Parquet模式协调一致。协调规则为：
1). 在两个模式中具有相同名称的字段必须具有相同的数据类型，而不考虑可为空性。协调字段应具有Parquet端的数据类型，以便遵守可空性。
2). 需要被协调的架构完全包含在Hive Metastore架构中定义的那些字段（即，如果一些字段仅仅在Hive Metastore的schema中定义，那么这个schema就是需要被协调一致的schema）
a. 任何仅出现在Parquet模式中的所有字段都将被放入已协调一致的模式中。
b. 任何仅出现在Hive Metastore模式中的所有字段都将在已协调一致的模式中添加为可空字段。

4.2 元数据刷新

Spark SQL缓存Parquet元数据以获得更好的性能。启用Hive metastore Parquet表转换后，这些转换表的元数据也会被缓存。如果这些表是通过Hive或其他外部工具更新的，则需要手动刷新它们以确保元数据一致。

// spark is an existing SparkSession
spark.catalog.refreshTable("my_table")

可以使用SparkSession中的setConf方法或使用SQL命令行运行命令SET key=value来完成Parquet的配置。

Property	Default	Meaning
spark.sql.parquet.binaryAsString	false	编写Parquet模式时，其他一些Parquet产生系统，尤其是Impala，Hive和旧版本的Spark SQL，不会区分二进制数据和字符串。该标志告诉Spark SQL将二进制数据解释为字符串，以提供与这些系统的兼容性。
spark.sql.parquet.int96AsTimestamp	true	一些Parquet生产系统，尤其是Impala和Hive，将时间戳存储到INT96中。此标志告诉Spark SQL将INT96数据解释为时间戳，以提供与这些系统的兼容性。
spark.sql.parquet.compression.codec	snappy	设置编写Parquet文件时使用的压缩编解码器。如果在表特定的选项/属性中指定了“压缩”或“ parquet.compression”，则优先级将为“压缩”，“ parquet.compression”，“ spark.sql.parquet.compression.codec”。可接受的值包括：none，未压缩，snappy，gzip，lzo，brotli，lz4，zstd。请注意，在Hadoop 2.9.0之前，`zstd`要求安装`ZStandardCodec`，`brotli`要求安装`BrotliCodec`。
spark.sql.parquet.filterPushdown	true	设置为true时启用Parquet过滤器下推优化。
spark.sql.hive.convertMetastoreParquet	true	设置为false时，Spark SQL将使用Hive SerDe用于Parquet表，而不是内置支持。
spark.sql.parquet.mergeSchema	false	如果为true，则Parquet数据源将合并从所有数据文件收集的架构，否则从摘要文件或随机数据文件（如果没有摘要文件可用）中选取该架构。
spark.sql.parquet.writeLegacyFormat	false	如果为true，将以Spark 1.4及更早版本的方式写入数据。例如，十进制值将以Apache Parquet的固定长度字节数组格式编写，其他系统（例如Apache Hive和Apache Impala）将使用该格式。如果为false，将使用Parquet中较新的格式。例如，小数将以基于int的格式编写。如果Parquet输出打算用于不支持这种较新格式的系统，请设置为true。

三. ORC文件

从Spark 2.3开始，Spark支持矢量化ORC读取器，该读取器对ORC文件而言，具有一个新的ORC文件格式。为此，需要新添加以下配置。当spark.sql.orc.impl 设置为native且spark.sql.orc.enableVectorizedReader设置为true时，矢量化阅读器可用于本机ORC表（例如，使用USING ORC子句创建的表）。
对于Hive ORC Serde表（例如，使用子句USING HIVE OPTIONS (fileFormat ‘ORC’)创建的表），将矢量化阅读器spark.sql.hive.convertMetastoreOrc设置为true时，矢量化读取器才可以被使用。

Property	Default	Meaning
spark.sql.orc.impl	hive	ORC实现的名称。可以是native和hive之一。native表示基于Apache ORC 1.4构建的本机ORC支持。“ hive”是指Hive 1.2.1中的ORC库。
spark.sql.orc.enableVectorizedReader	true	在native实现中启用向量化ORC解码。如果为false，则在native实现中使用新的非矢量化ORC读取器。由于是hive实现，这将被忽略。

四. JSON文件

Spark SQL可以自动推断JSON数据集的架构,并将其作为Dataset[Row]类型加载。在任一Dataset[String]或JSON文件上使用SparkSession.read.json()，也可以实现这种转换。
请注意，以json文件形式提供的文件不是典型的JSON文件。每行必须包含一个单独的，自包含的有效JSON对象。有关更多信息，请参见 JSON Lines文本格式，也称为newline分隔的JSON。
对于常规的多行JSON文件，请将multiLine选项设置为true。

// Primitive types (Int, String, etc) and Product types (case classes) encoders are
// supported by importing this when creating a Dataset.
import spark.implicits._

// A JSON dataset is pointed to by path.
// The path can be either a single text file or a directory storing text files
val path = "../examples/src/main/resources/people.json"
val peopleDF = spark.read.json(path)

// The inferred schema can be visualized using the printSchema() method
peopleDF.printSchema()
// root
//  |-- age: long (nullable = true)
//  |-- name: string (nullable = true)

// Creates a temporary view using the DataFrame
peopleDF.createOrReplaceTempView("people")

// SQL statements can be run by using the sql methods provided by spark
val teenagerNamesDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19")
teenagerNamesDF.show()
// +------+
// |  name|
// +------+
// |Justin|
// +------+

// Alternatively, a DataFrame can be created for a JSON dataset represented by
// a Dataset[String] storing one JSON object per string
val otherPeopleDataset = spark.createDataset(
  """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil)
val otherPeople = spark.read.json(otherPeopleDataset)
otherPeople.show()
// +---------------+----+
// |        address|name|
// +---------------+----+
// |[Columbus,Ohio]| Yin|
// +---------------+----+

五. Hive表

Spark SQL还支持读写存储在Apache Hive中的数据。但是，由于Hive具有大量依赖关系，因此默认的Spark分发中不包含这些依赖关系。如果可以在类路径上找到Hive依赖项，Spark将自动加载它们。
请注意，这些Hive依赖项也必须存在于所有工作节点(worker nodes)上，因为它们需要访问Hive序列化和反序列化库（SerDes）才能访问存储在Hive中的数据。
通过将hive-site.xml，core-site.xml（对于安全性配置）和hdfs-site.xml（对于HDFS配置）文件放置在Hive conf/中来配置。
使用Hive时，必须实例化一个支持Hive的SparkSession，包括与永久性Hive元存储库的连接，对Hive Serdes的支持以及Hive用户定义的功能。没有现有Hive部署的用户仍可以启用Hive支持。如果未配置hive-site.xml，则上下文(Context)会在当前目录中自动创建metastore_db，并会创建一个由spark.sql.warehouse.dir配置的目录，该目录默认为spark-warehouse，位于启动Spark应用程序的当前目录中。
请注意，自Spark 2.0.0起，在hive-site.xml中的hive.metastore.warehouse.dir属性已被标记为过时，不推荐使用。而是使用spark.sql.warehouse.dir指定仓库中数据库的默认位置。您可能需要向启动Spark应用程序的用户授予写权限。

import java.io.File
import org.apache.spark.sql.{Row, SaveMode, SparkSession}

case class Record(key: Int, value: String)

// warehouseLocation points to the default location for managed databases and tables
val warehouseLocation = new File("spark-warehouse").getAbsolutePath
val spark = SparkSession.builder().appName("Spark Hive Example").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate()

import spark.implicits._
import spark.sql

sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
sql("LOAD DATA LOCAL INPATH '../examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sql("SELECT * FROM src").show()
// +---+-------+
// |key|  value|
// +---+-------+
// |238|val_238|
// | 86| val_86|
// |311|val_311|
// ...

// The results of SQL queries are themselves DataFrames and support all normal functions.
val sqlDF = sql("SELECT key, value FROM src WHERE key < 10 ORDER BY key")

// The items in DataFrames are of type Row, which allows you to access each column by ordinal.
val stringsDS = sqlDF.map {
  case Row(key: Int, value: String) => s"Key: $key, Value: $value"
}
stringsDS.show()
// +--------------------+
// |               value|
// +--------------------+
// |Key: 0, Value: val_0|
// |Key: 0, Value: val_0|
// |Key: 0, Value: val_0|
// ...

// You can also use DataFrames to create temporary views within a SparkSession.
val recordsDF = spark.createDataFrame((1 to 100).map(i => Record(i, s"val_$i")))
recordsDF.createOrReplaceTempView("records")

// Queries can then join DataFrame data with data stored in Hive.
sql("SELECT * FROM records r JOIN src s ON r.key = s.key").show()
// +---+------+---+------+
// |key| value|key| value|
// +---+------+---+------+
// |  2| val_2|  2| val_2|
// |  4| val_4|  4| val_4|
// |  5| val_5|  5| val_5|
// ...

// Create a Hive managed Parquet table, with HQL syntax instead of the Spark SQL native syntax// `USING hive`
sql("CREATE TABLE hive_records(key int, value string) STORED AS PARQUET")
// Save DataFrame to the Hive managed table
val df = spark.table("src")
df.write.mode(SaveMode.Overwrite).saveAsTable("hive_records")
// After insertion, the Hive managed table has data now
sql("SELECT * FROM hive_records").show()
// +---+-------+
// |key|  value|
// +---+-------+
// |238|val_238|
// | 86| val_86|
// |311|val_311|
// ...

// Turn on flag for Hive Dynamic Partitioning
spark.sqlContext.setConf("hive.exec.dynamic.partition", "true")
spark.sqlContext.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
// Create a Hive partitioned table using DataFrame API
df.write.partitionBy("key").format("hive").saveAsTable("hive_part_tbl")
// Partitioned column `key` will be moved to the end of the schema.
sql("SELECT * FROM hive_part_tbl").show()
// +-------+---+
// |  value|key|
// +-------+---+
// |val_238|238|
// | val_86| 86|
// |val_311|311|
// ...

spark.stop()

指定Hive表的存储格式

创建Hive表时，需要定义该表应如何从文件系统读取/写入数据，即“输入格式”和“输出格式”。还需要定义该表应如何将数据反序列化为行，或将行序列化为数据，即“ serde”。
以下选项可用于指定存储格式（“ serde”，“ input format”，“ output format”），例如CREATE TABLE src(id int) USING hive OPTIONS(fileFormat ‘parquet’)。
默认情况下，我们将以纯文本形式读取表文件。请注意，创建表时尚不支持Hive存储处理程序，您可以在Hive端使用存储处理程序创建表，并使用Spark SQL读取表。

Property Name	Meaning
fileFormat	fileFormat是一种存储格式规范的软件包，其中包括“ serde”，“ input format”和“ output format”。目前，我们支持6种文件格式：“ sequencefile”，“ rcfile”，“ orc”，“ parquet”，“ textfile”和“ avro”。
inputFormat, outputFormat	这两个选项将相应的InputFormat和OutputFormat类的名称指定为字符串文字，例如org.apache.hadoop.hive.ql.io.orc.OrcInputFormat。这两个选项必须成对出现，如果已经指定`fileFormat`选项，则不能指定它们。
serde	此选项指定Serde类的名称。当指定`fileFormat`选项时，如果给定的`fileFormat`已经包含serde信息，则不要指定此选项。当前，“ sequencefile”，“ textfile”和“ rcfile”不包含Serde信息，您可以将此选项与这3种fileFormats一起使用。
fieldDelim, escapeDelim, collectionDelim, mapkeyDelim, lineDelim	这些选项只能与“文本文件” fileFormat一起使用。它们定义了如何将定界文件读取为行。

用定义的所有其他属性OPTIONS将被视为Hive serde属性。

与Hive Metastore的不同版本进行交互

与Hive metastore的交互是Spark SQL对Hive的最重要支持之一，它使Spark SQL能够访问Hive表的元数据。从Spark 1.4.0开始，使用以下描述的配置，可以使用Spark SQL的单个二进制版本来查询Hive元存储的不同版本。请注意，与用于与metastore进行通信的Hive版本无关，Spark SQL在内部将针对Hive 1.2.1进行编译，并将这些类用于内部执行（serdes，UDF，UDAF等）。
以下选项可用于配置用于检索元数据的Hive版本：

Property	Default	Meaning
spark.sql.hive.metastore.version	1.2.1	Hive Metastore的版本。可用的选项是0.12.0通过2.3.3。
spark.sql.hive.metastore.jars	builtin	用于实例化HiveMetastoreClient的jar的位置。此属性可以是以下三个选项之一： 1.builtin使用Hive 1.2.1，该模块在-Phive启用时与Spark组件捆绑在一起。选择此选项时，spark.sql.hive.metastore.version必须1.2.1定义或不定义。 2.maven使用从Maven存储库下载的指定版本的Hive jar。通常不建议将此配置用于生产部署。 3.JVM的标准格式的类路径。该类路径必须包括所有Hive及其依赖项，包括正确的Hadoop版本。这些罐子只需要存在于驱动程序中，但是如果您以纱线簇模式运行，则必须确保将它们与您的应用程序打包在一起。
spark.sql.hive.metastore.sharedPrefixes	com.mysql.jdbc,org.postgresql,com.microsoft.sqlserver,oracle.jdbc	以逗号分隔的类前缀列表，应使用在Spark SQL和特定版本的Hive之间共享的类加载器加载。应该共享的类的一个示例是与元存储区进行对话所需的JDBC驱动程序。其他需要共享的类是与已经共享的类进行交互的类。例如，log4j使用的自定义追加程序。
spark.sql.hive.metastore.barrierPrefixes	(empty)	以逗号分隔的类前缀列表，应为Spark SQL与之通信的每个Hive版本显式重新加载。例如，在通常将被共享的前缀中声明的Hive UDF（即org.apache.spark.*）。

六. JDBC到其他数据库

Spark SQL还包括一个数据源，该数据源可以使用JDBC从其他数据库读取数据。与使用JdbcRDD相比，应优先使用此功能。这是因为结果以DataFrame的形式返回，并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。
JDBC数据源也更易于从Java或Python使用，因为它不需要用户提供ClassTag。（请注意，这与Spark SQL JDBC服务器不同，后者允许其他应用程序使用Spark SQL运行查询）。
首先，您需要在spark类路径上包含特定数据库的JDBC驱动程序。
例如，要从Spark Shell连接到postgres，您可以运行以下命令：

bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars postgresql-9.4.1207.jar

例如，要从Spark Shell连接到MySQL数据库，您可以运行以下命令：

bin/spark-shell --driver-class-path ../examples/jars/mysql-connector-java-5.1.47-bin.jar --jars ../examples/jars/mysql-connector-java-5.1.47-bin.jar

可以使用Data Sources API将远程数据库中的表作为DataFrame或Spark SQL临时视图加载。用户可以在数据源选项中指定JDBC连接属性。 user和password通常用于登录到数据源提供为连接属性。除了连接属性，Spark还支持以下不区分大小写的选项：

Property Name	Meaning
url	要连接的JDBC URL。特定于源的连接属性可以在URL中指定。例如，jdbc:postgresql://localhost/test?user=fred&password=secret
dbtable	应该从中读取或写入的JDBC表。请注意，在读取路径中使用它时，可以使用SQL查询子句中有效的任何东西。例如，除了完整表之外，您还可以在括号中使用子查询。不允许同时指定dbtable和query选项。
query	用于将数据读入Spark的查询。指定的查询将加括号，并在FROM子句中用作子查询。Spark还将为子查询子句分配一个别名。例如，spark将向JDBC源发出以下形式的查询。SELECT FROM () spark_gen_alias。以下是使用此选项时的一些限制。 1.不允许同时指定dbtable和query选项。 2.不允许同时指定`query`和`partitionColumn`选项。当需要指定`partitionColumn`选项时，可以使用`dbtable`选项来指定子查询，而分区列可以使用`dbtable`中提供的子查询别名来限定。例：spark.read.format(“jdbc”).option(“url”, jdbcUrl).option(“query”, “select c1, c2 from t1”).load()
driver	用于连接到该URL的JDBC驱动程序的类名。
partitionColumn, lowerBound, upperBound	如果指定了这些选项，则必须全部指定。另外， numPartitions必须指定。他们描述了从多个工作程序并行读取时如何对表进行分区。 partitionColumn必须是相关表格中的数字，日期或时间戳列。请注意，lowerBound和upperBound仅用于确定分区的步幅，而不是用于过滤表中的行。因此，表中的所有行都将被分区并返回。此选项仅适用于阅读。
numPartitions	表读写中可用于并行处理的最大分区数。这也确定了并发JDBC连接的最大数量。如果要写入的分区数超过此限制，我们可以通过coalesce(numPartitions)在写入之前进行调用将其降低到此限制。
queryTimeout	驱动程序将等待Statement对象执行到给定秒数的秒数。零表示没有限制。在写路径中，此选项取决于JDBC驱动程序如何实现API setQueryTimeout，例如，h2 JDBC驱动程序检查每个查询的超时而不是整个JDBC批处理。默认为0。
fetchsize	JDBC提取大小，该大小确定每次往返要提取多少行。这可以帮助提高JDBC驱动程序的性能，该驱动程序默认为低获取大小（例如，具有10行的Oracle）。此选项仅适用于阅读。
batchsize	JDBC批处理大小，它决定每次往返插入多少行。这可以帮助提高JDBC驱动程序的性能。此选项仅适用于写作。默认为1000。
isolationLevel	事务隔离级别，适用于当前连接。它可以是一个NONE，READ_COMMITTED，READ_UNCOMMITTED，REPEATABLE_READ，或SERIALIZABLE，对应于由JDBC的连接对象定义，缺省值为标准事务隔离级别READ_UNCOMMITTED。此选项仅适用于写作。请参阅中的文档java.sql.Connection。
sessionInitStatement	在向远程数据库打开每个数据库会话之后并开始读取数据之前，此选项将执行自定义SQL语句（或PL / SQL块）。使用它来实现会话初始化代码。例：option(“sessionInitStatement”, “”“BEGIN execute immediate ‘alter session set “_serial_direct_read”=true’; END;”"")
truncate	这是与JDBC编写器相关的选项。当SaveMode.Overwrite启用时，该选项的原因星火截断，而不是删除和重建其现有的表。这可以更有效，并防止删除表元数据（例如索引）。但是，在某些情况下（例如，新数据具有不同的架构时），它将不起作用。默认为false。此选项仅适用于写作。
cascadeTruncate	这是与JDBC编写器相关的选项。如果由JDBC数据库（当前为PostgreSQL和Oracle）启用并支持，则此选项允许执行a TRUNCATE TABLE t CASCADE（在PostgreSQL的情况下，TRUNCATE TABLE ONLY t CASCADE执行a可以防止无意中截断后代表）。这将影响其他表，因此应谨慎使用。此选项仅适用于写作。它默认为isCascadeTruncate每个JDBCDialect中指定的有关JDBC数据库的默认级联截断行为。
createTableOptions	这是与JDBC编写器相关的选项。如果指定，则此选项允许在创建表（例如CREATE TABLE t (name string) ENGINE=InnoDB.）时设置特定于数据库的表和分区选项。此选项仅适用于写作。
createTableColumnTypes	创建表时要使用的数据库列数据类型，而不是缺省值。数据类型信息应以与CREATE TABLE列语法相同的格式指定（例如：“name CHAR(64), comments VARCHAR(1024)”)。指定的类型应为有效的spark sql数据类型。此选项仅适用于写入。
customSchema	用于从JDBC连接器读取数据的自定义架构。例如，“id DECIMAL(38, 0), name STRING”。您还可以指定部分字段，其他使用默认类型映射。例如，“id DECIMAL(38, 0)”。列名应与JDBC表的相应列名相同。用户可以指定Spark SQL的相应数据类型，而不必使用默认值。此选项仅适用于阅读。
pushDownPredicate	用于启用或禁用谓词下推到JDBC数据源的选项。默认值为true，在这种情况下，Spark将尽可能将过滤器下推到JDBC数据源。否则，如果设置为false，则不会将任何过滤器下推到JDBC数据源，因此所有过滤器将由Spark处理。当Spark进行谓词筛选的速度比JDBC数据源执行谓词筛选的速度快时，通常会关闭谓词下推。

生成MSQL数据库：

CREATE DATABASE spark;
USE spark;
/*Table structure for table `data` */
DROP TABLE IF EXISTS data;
CREATE TABLE data (
  id int(11) NOT NULL AUTO_INCREMENT,
  name varchar(100) DEFAULT NULL,
  PRIMARY KEY (id)
) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=utf8;

/*Data for the table data */
insert  into data(id,name) values (1,'java'),(2,'hadoop'),(3,'spark');

// Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods
// Loading data from a JDBC source

import java.util.Properties
val jdbcDF = spark.read.format("jdbc")
	.option("url", "jdbc:mysql://192.168.14.1:3306/spark?useUnicode=true&characterEncoding=utf8")
	.option("dbtable", "data")
	.option("user", "root")
	.option("password", "123456")
	.load()
jdbcDF.show()

val connectionProperties = new Properties()
connectionProperties.put("user", "root")
connectionProperties.put("password", "123456")
val jdbcDF2 = spark.read
	.jdbc("jdbc:mysql://192.168.14.1:3306/spark?useUnicode=true&characterEncoding=utf8", "data2", connectionProperties)
jdbcDF2.show()

// Specifying the custom data types of the read schema
connectionProperties.put("customSchema", "id Integer, name STRING")
val jdbcDF3 = spark.read
	.jdbc("jdbc:mysql://192.168.14.1:3306/spark?useUnicode=true&characterEncoding=utf8", "data3", connectionProperties)
jdbcDF3.show()

// Saving data to a JDBC source
jdbcDF.write.format("jdbc")
	.option("url", "jdbc:mysql://192.168.79.1:3306/spark?useUnicode=true&characterEncoding=utf8&useSSL=false")
	.option("dbtable", "save")
	.option("user", "root")
	.option("password", "123456")
	.save()
	
jdbcDF2.write
	.jdbc("jdbc:mysql://192.168.14.1:3306/spark?useUnicode=true&characterEncoding=utf8&useSSL=false", "save2", connectionProperties)

// Specifying create table column data types on write
jdbcDF.write
	.option("createTableColumnTypes", "id CHAR(64), name VARCHAR(1024)")
	.jdbc("jdbc:mysql://192.168.14.1:3306/spark?useUnicode=true&characterEncoding=utf8&useSSL=false", "save3", connectionProperties)

你可能感兴趣的:(Spark Sql常见的几种数据源)

Java中的参数传递机制：值传递与引用传递的真相啊sen丶 java 开发语言
在Java编程中，参数传递机制是每个开发者都必须理解的基本概念之一。然而，关于Java的参数传递机制，常常存在一些误解。很多人会问：“Java是按值传递还是按引用传递？”本文将通过详细的解释和代码示例，帮助你彻底理解Java的参数传递机制。一、值传递与引用传递的基本概念（一）值传递（PassbyValue）值传递是指在调用方法时，将实际参数的值复制一份传递给方法。在方法内部对参数的修改不会影响到原
AJAX PHP：深入理解与实际应用 wjs2024 开发语言
AJAXPHP：深入理解与实际应用引言随着互联网技术的不断发展，前端与后端交互变得更加频繁。AJAX（AsynchronousJavaScriptandXML）和PHP（HypertextPreprocessor）作为两种流行的技术，在实现动态网页和应用程序方面扮演着重要角色。本文将深入探讨AJAXPHP的工作原理、应用场景以及实际开发中的注意事项。AJAXPHP概述AJAXAJAX是一种基于Ja
车载Android音频系统 CarAudioService Code_onepage android
CarAudioService是车载音频系统的核心服务，负责管理多音源协调、音频路由、音量策略、硬件控制等关键功能，处理车载环境下特有的音频场景（如倒车提示音、车门状态联动等）。一、核心功能模块1.音频焦点管理焦点栈机制(mFocusStack)使用Stack管理不同音源的优先级处理导航/USB/蓝牙等音源的抢占逻辑//示例：焦点切换时的音频路由switchSource(null,AudioAtt
二进制矩阵全零转换问题 | DFS @Mr.stone 深度优先算法
问题描述在一个古老的实验室里，两个研究员，小星和小月，获得了一个mxn的电路图，表示为二进制矩阵grid。在这个矩阵中，他们可以对任意一个电路单元进行翻转操作。翻转操作会将所选单元的状态从0改为1，或从1改为0，同时影响与其相邻的上下左右单元。小星和小月希望通过最少的翻转次数，将整个电路图变成全0的状态。如果这个目标无法实现，则返回-1。测试样例样例1：输入：grid=[[0,1],[1,0]]输
构建我们的Python代码库依赖图 openwin_top python编程示例系列二 python 开发语言
构建我们的Python代码库依赖图作者：GeorgeFarcasiu,NoahKim,JaconBrugh,JiahaoLi,HudsonRiverTrading引言与我们在高频交易的根基保持一致，HudsonRiverTrading（HRT）行动迅速。与任何工程指标一样，速度有其权衡。在过去的五年中，由于一种通常更重视“足够好”而非“完美”的工程文化，一个鼓励团队间代码共享的协作工作环境，以及一
K8S学习之基础二十八：k8s中的configMap 云上艺旅 K8S学习 kubernetes 学习容器云原生
k8s中的configMapconfigMap是k8s的资源对象，简称cm，用于保存非机密性的配置，数据可以用key/value键值对形式保存，也可以通过文件形式保存在部署服务的时候，每个服务都有自己的配置文件，如果一台服务器上部署多个服务：nginx、tomcat、apache等，那么这些配置都存在这个节点上，假如一台服务器不能满足线上高并发的要求，需要对服务器扩容，扩容之后的服务器还是需要部署
1000并发的系统服务器配置,1000人并发服务器配置海边的骑士 1000并发的系统服务器配置
1000人并发服务器配置内容精选换一换多个用户同时通过ssh登录堡垒机管理下的任一服务器时，允许登录的帐号数有上限，当登录的帐号数超出上限值时，必须退出一个帐号才能再登录一个账号。该问题是由于并发数限制导致的。云堡垒机支持100、200、500、1000、2000、5000资产规格配置，不同规格云堡垒机的并发数配置有差异，不同的资产规格的配置差异请参见服务版本差异。建议您扩容思考时间可选配置。为了
python 重构 Python 代码隔壁小红馆 python cpython python面试 python cpython
将for循环转换为list/dictionary/set表达式我们在时经常遇到的一个情况是，创建一个值的集合。比如我们创建一个列表，然后迭代地用值填充它，这里我们想创建一个立方数字的列表。大多数语言的标准方法如下：cubes=[]foriinrange(20):cubes.append(i**3)在Python中，我们可以使用列表表达式，生成需要的数据。就可以将代码简化为一行，省去定义列表，然后再
python代码重构技巧_Python代码重构指南，老师Bryan Beecham完结 weixin_39916479 python代码重构技巧
本套课程由BryanBeecham，全球知名敏捷开发教练主讲的：Python代码重构指南。重构是软件改进的核心，它使软件拥有更好的结构和性能，也使代码更易于理解、修改和扩展。尽管重构并不是新事物，但是软件开发人员仍然会苦恼于如何正确地进行重构。随着敏捷运动的发展，DevOps之类的概念不断追求高质量和精心设计的代码，以实现更快的部署和反馈。不过，现有的很多关于重构的教程都基于Java语言，关于Py
python读取excel数字数据是object类型_Python使用反射实现Excel与对象之间的转换 weixin_39638859
Python使用反射实现Excel与对象之间的转换代码在最下方，伸手党直接滚动到最后场景需要从Excel中加载到内存中，转换为class对象执行操作环境Python3.8openpyxl==3.0.5前置知识反射(仅介绍这个帮助类用到的几个反射方法)setattr、getattrclassPerson():name=Nonedef__init__(self,name):self.name=name
python语言对代码的块结构不敏感_浅谈python（二）--python代码规范初夏之菡
对于每一门语言来说，都有自己的编码规则，编程时是不可以违背这些准则的，一旦不遵守这个准则，程序就会报错无法执行，本节将介绍下python的一些编码规则。1、代码缩进与冒号首先介绍下代码缩进有什么用处，代码缩进是指通过在一行代码的前输入若干空格或者制表符来表示行与行之间的层次关系，每一种编程语言一般都需要代码缩进进行规范程序代码的层次结构，让代码清晰易于解读。对于其它的语言来说，代码缩进作为一种良好
Python编码系列—Python代码重构：提升代码质量学步_技术 Python编码 python 重构开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
Spring Boot 多级缓存实战：基于 Redis+Redisson 构建高并发解决方案 Isaac_Gao 缓存 spring boot redis
SpringBoot多级缓存实战：基于Redis+Redisson构建高并发解决方案本文适合人群：中高级Java开发工程师、系统架构师、对高并发场景优化感兴趣的技术人员一、为什么需要多级缓存？在百万级并发的电商系统中，我们曾遇到这样的性能瓶颈：本地缓存导致各节点数据不一致单纯依赖Redis造成带宽瓶颈缓存雪崩导致DB被打挂多级缓存架构通过结合本地缓存与分布式缓存的优势，实现了：热点数据纳秒级访问分
lua C语言api学习3 lua中调用C语言函数刘阿去 lua lua c语言学习
本文介绍如何在lua中如何调用自定义C语言函数1C函数要求Lua可以调用C语言函数，但这并不意味着Lua可以调用所有的C函数。当Lua调用C函数时，这个C函数必须遵循某种规则来获取参数和返回结果。此外，当Lua调用C函数时，我们必须注册该函数，即必须以一种恰当的方式为Lua提供该C函数的地址。所有在lua中注册的函数必须遵循下面原型。typedefint(*lua_CFunction)(lua_S
autohotkey应用3-剪贴板的使用刘阿去 autohotkey 经验分享
在autohotkey的使用剪贴板非常方便,有专门的变量%Clipboard%和监测事件,再搭配热键使用很简单,下面介绍使用(下面例子均为纯文本复制粘贴):文章目录1-显示剪贴板内容.ahk2-热键显示剪贴板内容.ahk3-将剪贴板内容保存为文本文件.ahk4-热键保存剪贴板内容.ahk5-剪贴板内容监视.ahk6-剪贴板监视保存文本.ahk1-显示剪贴板内容.ahk;显示当前剪贴板内容Msgbo
blockly二次开发刘阿去
目前有的问题1.文档少,主要是因为谷歌的网站上不去,2.BlocklyDevelopTools使用有问题,预览有问题,暂时无法解决.目前源码下载难度较大github下载速度慢,自己在gitee上弄了一份.https://gitee.com/liuaqu/blockly
Dubbo、SpringCloud框架学习种豆走天下 dubbo spring cloud 学习
学习Dubbo和SpringCloud框架是微服务架构的一个重要部分。这两个框架在分布式系统中起着重要的作用，分别是阿里巴巴和Spring团队开发的。下面我将为你提供一些基础知识和学习路线，帮助你更好地理解和掌握这两个框架。1.Dubbo框架学习1.1什么是DubboDubbo是阿里巴巴开源的一款高性能的微服务框架。它提供了RPC（远程过程调用）、服务注册与发现、负载均衡、容错、监控等功能。Dub
Java代码优化提升系统性能种豆走天下 java 开发语言
优化可以涉及许多方面，例如算法优化、内存管理、线程管理、I/O性能等。以下是一些常见的优化建议和技巧：1.优化算法和数据结构选择合适的算法：优化性能的首要步骤是选择正确的算法。例如，使用二分查找代替线性查找，或者使用合适的排序算法来替代简单的冒泡排序。选择合适的数据结构：数据结构的选择对系统的性能有很大影响。例如，如果需要频繁的插入和删除操作，使用LinkedList而不是ArrayList可能会
lua5.3 交叉编译到安卓 polygenelubricants linux 错误整理 gcc/gdb编译调试 linux lua android
lua5.3交叉编译到安卓提示:如果只是打算在终端使用lua的话,可以尝试termux,或者说只打算获得lua的可执行文件,也可以安装termux,直接在~/../usr/bin目录下就可以找到lua的可执行文件(前提是你安装过了)开始##前言因为lua使用了readline库,而readline库中的一些函数(例如:tputs)是在ncurses库中实现,所以编译lua前要先编译这两个库:1.下
【python】函数重构划过手的泪滴t python 每日一练云计算运维 python 重构服务器开发语言每日一练运维
函数重构函数重构pycharm函数重构步骤函数重构练习函数重构函数重构是指对现有函数进行修改和优化的过程。重构的目的是改善代码的可读性、可维护性和灵活性，同时保持其功能不变。函数重构通常包括以下步骤：理解函数的功能和目的。了解函数的作用和期望结果，确定重构的目标。检查函数的代码质量。查看函数的代码是否清晰、简洁、可读，有无可改进之处。提取重复的代码。如果函数中有重复的代码块，可以将其提取为单独的函
C++ Primer Plus：第八章 - 函数探幽我是一片小树叶 C++基础构建函数探幽
0、本章内容：内联函数。引用变量。如何按引用传递函数参数。默认参数。函数重载。函数模板。函数模板具体化。1、C++内联函数：为提高程序运行速度所做的一项改进。在函数声明前加上关键字inline，在函数定义前加上关键字inline。不能使用递归。2、引用变量：2.1创建引用变量指向相同的值和内存单元，会一起变换。引用在声明的时候必须初始化。使用指针也不能修改引用的指向。2.2将引用作为函数参数2.3
K8S之QoS详解 RedCong 云原生 k8s Openshift kubernetes 容器云原生
PodQoS类服务质量（QualityofService，QoS）类，阐述Kubernetes如何根据为Pod中的容器指定的资源约束为每个Pod设置QoS类。Kubernetes依赖这种分类来决定当Node上没有足够可用资源时要驱逐哪些Pod。QoS类（QualityofServiceclasses）Kubernetes对你运行的Pod进行分类，并将每个Pod分配到特定的QoS类中。Kuberne
Python入门实战：Python的代码重构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能大数据人工智能语言模型 AI LLM Java Python 架构设计
1.背景介绍Python是一种基于社区发展、易用性、生态系统完善、可扩展性强、性能卓越等特点的高级编程语言。作为一门解释型语言，它具有高效率、简洁语法、丰富的库函数、跨平台能力和多种开发范式等优点。但随着项目不断迭代更新，代码量逐渐增加，导致代码结构混乱、缺乏模块化设计、重复逻辑过多、命名不规范等问题。如何有效地组织、管理和维护代码、提升代码质量、更好地实现功能，是一个技术人的日常工作。如何进行代
学校打算用十万购买一台服务器，大家有什么推荐吗？ m0_59732961 云服务器阿里云
上云吧！上云是趋势，先po几条有的没的：北京市国税局与阿里云达成战略合作共同推进“智慧税务”建设...阿里云为12306提供技术支持...浙江启动“十万企业上云”计划...为什么要上云：1、自购服务器很可能会遇到技术壁垒，面对技术问题没有成熟的解决方案；2、运维成本低，几乎没什么运维成本；3、云服务器三副本可靠性高，自己买一台服务器还要考虑到容灾的问题吧；4、灵活扩展在线升降配，不会造成资源浪费冗
DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别？ facaixxx2024 AI大模型人工智能算法深度学习
deepseek-r1的1.5b、7b、8b、14b、32b、70b和671b有啥区别？码笔记mabiji.com分享：1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型，671B是基础大模型，它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本和不同使用场景：deepseek-r1的1.5b、7b、8b、14b、32b、70b和671b参数规模参数规模的区别，模
python提取excel数据批量生成固定格式的word文件的问题鱼弦【HOT】技术热谈 excel word
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）使用Python从Excel中提取数据并生成固定格式的Word文档1.介绍本项目旨在介绍如何使用Python从Excel中提取数据并生成固定格式的Word文档
优化 Java 数据结构选择与使用，提升程序性能与可维护性 chenOnlyOne 学习 java 数据结构开发语言
优化Java数据结构选择与使用，提升程序性能与可维护性引言在软件开发中，数据结构的选择是影响程序性能、内存使用以及代码可维护性的关键因素之一。Java作为一门广泛使用的编程语言，提供了丰富的内置数据结构，如数组、链表、栈、队列、树、图以及集合框架中的各种接口实现（如List,Set,Map等）。然而，面对不同的应用场景，如何合理地选择和优化数据结构，成为了一个值得深入探讨的话题。本文将介绍几种常见
python 使用microsoft-Florence-2-base进行图片描述生成哦里哦里哦里给 AI 大语言模型实战 python microsoft 开发语言
目录一、Florence-2简介二、代码实践三、多语言模型一、Florence-2简介Florence-2是一个先进的视觉基础模型，采用基于提示（prompt）的方式，处理广泛的视觉和视觉-语言任务。Florence-2能够解析简单的文本提示，执行如图像描述、物体检测和分割等任务。该模型利用FLD-5B数据集，该数据集包含54亿个注释，涵盖1.26亿张图像，用于掌握多任务学习。模型的序列到序列架构
django自动添加接口文档 LCY133 #django项目实战2023 django sqlite 数据库
以下是使用Django和django-rest-swagger（或替代方案drf-yasg）生成API接口文档的详细指南。由于django-rest-swagger已停止维护，推荐使用drf-yasg（支持Swagger2.0和OpenAPI3.0），但两种方法均会说明：一、方案选择与安装1.方案对比库名维护状态支持规范功能特点django-rest-swagger已弃用Swagger2.0旧项目
docker compose的使用 LCY133 docker 容器运维
以下是关于DockerCompose的详细使用指南和核心功能解析：一、DockerCompose核心价值DockerCompose是用于定义和编排多容器应用的工具，通过YAML文件实现以下功能：•一键启停：用单条命令管理多个关联容器•环境隔离：为每个服务创建独立运行环境•依赖管理：自动处理服务启动顺序•配置复用：标准化开发/测试/生产环境二、完整使用流程1.安装DockerCompose#Linu
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi