weixin_30666943

Spark 系列（十）—— Spark SQL 外部数据源

一、简介

1.1 多数据源支持

Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。

CSV
JSON
Parquet
ORC
JDBC/ODBC connections
Plain-text files

注：以下所有测试文件均可从本仓库的resources 目录进行下载

1.2 读数据格式

所有读取 API 遵循以下调用格式：

// 格式
DataFrameReader.format(...).option("key", "value").schema(...).load()

// 示例
spark.read.format("csv")
.option("mode", "FAILFAST")          // 读取模式
.option("inferSchema", "true")       // 是否自动推断 schema
.option("path", "path/to/file(s)")   // 文件路径
.schema(someSchema)                  // 使用预定义的 schema      
.load()

读取模式有以下三种可选项：

读模式	描述
`permissive`	当遇到损坏的记录时，将其所有字段设置为 null，并将所有损坏的记录放在名为 _corruption t_record 的字符串列中
`dropMalformed`	删除格式不正确的行
`failFast`	遇到格式不正确的数据时立即失败

1.3 写数据格式

// 格式
DataFrameWriter.format(...).option(...).partitionBy(...).bucketBy(...).sortBy(...).save()

//示例
dataframe.write.format("csv")
.option("mode", "OVERWRITE")         //写模式
.option("dateFormat", "yyyy-MM-dd")  //日期格式
.option("path", "path/to/file(s)")
.save()

写数据模式有以下四种可选项：

Scala/Java	描述
`SaveMode.ErrorIfExists`	如果给定的路径已经存在文件，则抛出异常，这是写数据默认的模式
`SaveMode.Append`	数据以追加的方式写入
`SaveMode.Overwrite`	数据以覆盖的方式写入
`SaveMode.Ignore`	如果给定的路径已经存在文件，则不做任何操作

二、CSV

CSV 是一种常见的文本文件格式，其中每一行表示一条记录，记录中的每个字段用逗号分隔。

2.1 读取CSV文件

自动推断类型读取读取示例：

spark.read.format("csv")
.option("header", "false")        // 文件中的第一行是否为列的名称
.option("mode", "FAILFAST")      // 是否快速失败
.option("inferSchema", "true")   // 是否自动推断 schema
.load("/usr/file/csv/dept.csv")
.show()

使用预定义类型：

import org.apache.spark.sql.types.{StructField, StructType, StringType,LongType}
//预定义数据格式
val myManualSchema = new StructType(Array(
    StructField("deptno", LongType, nullable = false),
    StructField("dname", StringType,nullable = true),
    StructField("loc", StringType,nullable = true)
))
spark.read.format("csv")
.option("mode", "FAILFAST")
.schema(myManualSchema)
.load("/usr/file/csv/dept.csv")
.show()

2.2 写入CSV文件

df.write.format("csv").mode("overwrite").save("/tmp/csv/dept2")

也可以指定具体的分隔符：

df.write.format("csv").mode("overwrite").option("sep", "\t").save("/tmp/csv/dept2")

2.3 可选配置

为节省主文篇幅，所有读写配置项见文末 9.1 小节。

三、JSON

3.1 读取JSON文件

spark.read.format("json").option("mode", "FAILFAST").load("/usr/file/json/dept.json").show(5)

需要注意的是：默认不支持一条数据记录跨越多行 (如下)，可以通过配置 multiLine 为 true 来进行更改，其默认值为 false。

// 默认支持单行
{"DEPTNO": 10,"DNAME": "ACCOUNTING","LOC": "NEW YORK"}

//默认不支持多行
{
  "DEPTNO": 10,
  "DNAME": "ACCOUNTING",
  "LOC": "NEW YORK"
}

3.2 写入JSON文件

df.write.format("json").mode("overwrite").save("/tmp/spark/json/dept")

3.3 可选配置

为节省主文篇幅，所有读写配置项见文末 9.2 小节。

四、Parquet

Parquet 是一个开源的面向列的数据存储，它提供了多种存储优化，允许读取单独的列非整个文件，这不仅节省了存储空间而且提升了读取效率，它是 Spark 是默认的文件格式。

4.1 读取Parquet文件

spark.read.format("parquet").load("/usr/file/parquet/dept.parquet").show(5)

2.2 写入Parquet文件

df.write.format("parquet").mode("overwrite").save("/tmp/spark/parquet/dept")

2.3 可选配置

Parquet 文件有着自己的存储规则，因此其可选配置项比较少，常用的有如下两个：

读写操作	配置项	可选值	默认值	描述
Write	compression or codec	None, uncompressed, bzip2, deflate, gzip, lz4, or snappy	None	压缩文件格式
Read	mergeSchema	true, false	取决于配置项 `spark.sql.parquet.mergeSchema`	当为真时，Parquet 数据源将所有数据文件收集的 Schema 合并在一起，否则将从摘要文件中选择 Schema，如果没有可用的摘要文件，则从随机数据文件中选择 Schema。

更多可选配置可以参阅官方文档：https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

五、ORC

ORC 是一种自描述的、类型感知的列文件格式，它针对大型数据的读写进行了优化，也是大数据中常用的文件格式。

5.1 读取ORC文件

spark.read.format("orc").load("/usr/file/orc/dept.orc").show(5)

4.2 写入ORC文件

csvFile.write.format("orc").mode("overwrite").save("/tmp/spark/orc/dept")

六、SQL Databases

Spark 同样支持与传统的关系型数据库进行数据读写。但是 Spark 程序默认是没有提供数据库驱动的，所以在使用前需要将对应的数据库驱动上传到安装目录下的 jars 目录中。下面示例使用的是 Mysql 数据库，使用前需要将对应的 mysql-connector-java-x.x.x.jar 上传到 jars 目录下。

6.1 读取数据

读取全表数据示例如下，这里的 help_keyword 是 mysql 内置的字典表，只有 help_keyword_id 和 name 两个字段。

spark.read
.format("jdbc")
.option("driver", "com.mysql.jdbc.Driver")            //驱动
.option("url", "jdbc:mysql://127.0.0.1:3306/mysql")   //数据库地址
.option("dbtable", "help_keyword")                    //表名
.option("user", "root").option("password","root").load().show(10)

从查询结果读取数据：

val pushDownQuery = """(SELECT * FROM help_keyword WHERE help_keyword_id <20) AS help_keywords"""
spark.read.format("jdbc")
.option("url", "jdbc:mysql://127.0.0.1:3306/mysql")
.option("driver", "com.mysql.jdbc.Driver")
.option("user", "root").option("password", "root")
.option("dbtable", pushDownQuery)
.load().show()

//输出
+---------------+-----------+
|help_keyword_id|       name|
+---------------+-----------+
|              0|         <>|
|              1|     ACTION|
|              2|        ADD|
|              3|AES_DECRYPT|
|              4|AES_ENCRYPT|
|              5|      AFTER|
|              6|    AGAINST|
|              7|  AGGREGATE|
|              8|  ALGORITHM|
|              9|        ALL|
|             10|      ALTER|
|             11|    ANALYSE|
|             12|    ANALYZE|
|             13|        AND|
|             14|    ARCHIVE|
|             15|       AREA|
|             16|         AS|
|             17|   ASBINARY|
|             18|        ASC|
|             19|     ASTEXT|
+---------------+-----------+

也可以使用如下的写法进行数据的过滤：

val props = new java.util.Properties
props.setProperty("driver", "com.mysql.jdbc.Driver")
props.setProperty("user", "root")
props.setProperty("password", "root")
val predicates = Array("help_keyword_id < 10  OR name = 'WHEN'")   //指定数据过滤条件
spark.read.jdbc("jdbc:mysql://127.0.0.1:3306/mysql", "help_keyword", predicates, props).show() 

//输出：
+---------------+-----------+
|help_keyword_id|       name|
+---------------+-----------+
|              0|         <>|
|              1|     ACTION|
|              2|        ADD|
|              3|AES_DECRYPT|
|              4|AES_ENCRYPT|
|              5|      AFTER|
|              6|    AGAINST|
|              7|  AGGREGATE|
|              8|  ALGORITHM|
|              9|        ALL|
|            604|       WHEN|
+---------------+-----------+

可以使用 numPartitions 指定读取数据的并行度：

option("numPartitions", 10)

在这里，除了可以指定分区外，还可以设置上界和下界，任何小于下界的值都会被分配在第一个分区中，任何大于上界的值都会被分配在最后一个分区中。

val colName = "help_keyword_id"   //用于判断上下界的列
val lowerBound = 300L    //下界
val upperBound = 500L    //上界
val numPartitions = 10   //分区综述
val jdbcDf = spark.read.jdbc("jdbc:mysql://127.0.0.1:3306/mysql","help_keyword",
                             colName,lowerBound,upperBound,numPartitions,props)

想要验证分区内容，可以使用 mapPartitionsWithIndex 这个算子，代码如下：

jdbcDf.rdd.mapPartitionsWithIndex((index, iterator) => {
    val buffer = new ListBuffer[String]
    while (iterator.hasNext) {
        buffer.append(index + "分区:" + iterator.next())
    }
    buffer.toIterator
}).foreach(println)

执行结果如下：help_keyword 这张表只有 600 条左右的数据，本来数据应该均匀分布在 10 个分区，但是 0 分区里面却有 319 条数据，这是因为设置了下限，所有小于 300 的数据都会被限制在第一个分区，即 0 分区。同理所有大于 500 的数据被分配在 9 分区，即最后一个分区。

6.2 写入数据

val df = spark.read.format("json").load("/usr/file/json/emp.json")
df.write
.format("jdbc")
.option("url", "jdbc:mysql://127.0.0.1:3306/mysql")
.option("user", "root").option("password", "root")
.option("dbtable", "emp")
.save()

七、Text

Text 文件在读写性能方面并没有任何优势，且不能表达明确的数据结构，所以其使用的比较少，读写操作如下：

7.1 读取Text数据

spark.read.textFile("/usr/file/txt/dept.txt").show()

7.2 写入Text数据

df.write.text("/tmp/spark/txt/dept")

八、数据读写高级特性

8.1 并行读

多个 Executors 不能同时读取同一个文件，但它们可以同时读取不同的文件。这意味着当您从一个包含多个文件的文件夹中读取数据时，这些文件中的每一个都将成为 DataFrame 中的一个分区，并由可用的 Executors 并行读取。

8.2 并行写

写入的文件或数据的数量取决于写入数据时 DataFrame 拥有的分区数量。默认情况下，每个数据分区写一个文件。

8.3 分区写入

分区和分桶这两个概念和 Hive 中分区表和分桶表是一致的。都是将数据按照一定规则进行拆分存储。需要注意的是 partitionBy 指定的分区和 RDD 中分区不是一个概念：这里的分区表现为输出目录的子目录，数据分别存储在对应的子目录中。

val df = spark.read.format("json").load("/usr/file/json/emp.json")
df.write.mode("overwrite").partitionBy("deptno").save("/tmp/spark/partitions")

输出结果如下：可以看到输出被按照部门编号分为三个子目录，子目录中才是对应的输出文件。

8.3 分桶写入

分桶写入就是将数据按照指定的列和桶数进行散列，目前分桶写入只支持保存为表，实际上这就是 Hive 的分桶表。

val numberBuckets = 10
val columnToBucketBy = "empno"
df.write.format("parquet").mode("overwrite")
.bucketBy(numberBuckets, columnToBucketBy).saveAsTable("bucketedFiles")

8.5 文件大小管理

如果写入产生小文件数量过多，这时会产生大量的元数据开销。Spark 和 HDFS 一样，都不能很好的处理这个问题，这被称为“small file problem”。同时数据文件也不能过大，否则在查询时会有不必要的性能开销，因此要把文件大小控制在一个合理的范围内。

在上文我们已经介绍过可以通过分区数量来控制生成文件的数量，从而间接控制文件大小。Spark 2.2 引入了一种新的方法，以更自动化的方式控制文件大小，这就是 maxRecordsPerFile 参数，它允许你通过控制写入文件的记录数来控制文件大小。

 // Spark 将确保文件最多包含 5000 条记录
df.write.option(“maxRecordsPerFile”, 5000)

九、可选配置附录

9.1 CSV读写可选配置

读\写操作	配置项	可选值	默认值	描述
Both	seq	任意字符	`,`(逗号)	分隔符
Both	header	true, false	false	文件中的第一行是否为列的名称。
Read	escape	任意字符	\	转义字符
Read	inferSchema	true, false	false	是否自动推断列类型
Read	ignoreLeadingWhiteSpace	true, false	false	是否跳过值前面的空格
Both	ignoreTrailingWhiteSpace	true, false	false	是否跳过值后面的空格
Both	nullValue	任意字符	“”	声明文件中哪个字符表示空值
Both	nanValue	任意字符	NaN	声明哪个值表示 NaN 或者缺省值
Both	positiveInf	任意字符	Inf	正无穷
Both	negativeInf	任意字符	-Inf	负无穷
Both	compression or codec	None, uncompressed, bzip2, deflate, gzip, lz4, or snappy	none	文件压缩格式
Both	dateFormat	任何能转换为 Java 的 SimpleDataFormat 的字符串	yyyy-MM-dd	日期格式
Both	timestampFormat	任何能转换为 Java 的 SimpleDataFormat 的字符串	yyyy-MMdd’T’HH:mm:ss.SSSZZ	时间戳格式
Read	maxColumns	任意整数	20480	声明文件中的最大列数
Read	maxCharsPerColumn	任意整数	1000000	声明一个列中的最大字符数。
Read	escapeQuotes	true, false	true	是否应该转义行中的引号。
Read	maxMalformedLogPerPartition	任意整数	10	声明每个分区中最多允许多少条格式错误的数据，超过这个值后格式错误的数据将不会被读取
Write	quoteAll	true, false	false	指定是否应该将所有值都括在引号中，而不只是转义具有引号字符的值。
Read	multiLine	true, false	false	是否允许每条完整记录跨域多行

9.2 JSON读写可选配置

读\写操作	配置项	可选值	默认值
Both	compression or codec	None, uncompressed, bzip2, deflate, gzip, lz4, or snappy	none
Both	dateFormat	任何能转换为 Java 的 SimpleDataFormat 的字符串	yyyy-MM-dd
Both	timestampFormat	任何能转换为 Java 的 SimpleDataFormat 的字符串	yyyy-MMdd’T’HH:mm:ss.SSSZZ
Read	primitiveAsString	true, false	false
Read	allowComments	true, false	false
Read	allowUnquotedFieldNames	true, false	false
Read	allowSingleQuotes	true, false	true
Read	allowNumericLeadingZeros	true, false	false
Read	allowBackslashEscapingAnyCharacter	true, false	false
Read	columnNameOfCorruptRecord	true, false	Value of spark.sql.column&NameOf
Read	multiLine	true, false	false

9.3 数据库读写可选配置

属性名称	含义
url	数据库地址
dbtable	表名称
driver	数据库驱动
partitionColumn, lowerBound, upperBoun	分区总数，上界，下界
numPartitions	可用于表读写并行性的最大分区数。如果要写的分区数量超过这个限制，那么可以调用 coalesce(numpartition) 重置分区数。
fetchsize	每次往返要获取多少行数据。此选项仅适用于读取数据。
batchsize	每次往返插入多少行数据，这个选项只适用于写入数据。默认值是 1000。
isolationLevel	事务隔离级别：可以是 NONE，READ_COMMITTED, READ_UNCOMMITTED，REPEATABLE_READ 或 SERIALIZABLE，即标准事务隔离级别。默认值是 READ_UNCOMMITTED。这个选项只适用于数据读取。
createTableOptions	写入数据时自定义创建表的相关配置
createTableColumnTypes	写入数据时自定义创建列的列类型

数据库读写更多配置可以参阅官方文档：https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html

参考资料

Matei Zaharia, Bill Chambers . Spark: The Definitive Guide[M] . 2018-02
https://spark.apache.org/docs/latest/sql-data-sources.html

更多大数据系列文章可以参见 GitHub 开源项目： 大数据入门指南

转载于:https://www.cnblogs.com/heibaiying/p/11347390.html

老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
MySQL数据库备份与恢复 Kboy01 SQL 数据库 mysql 程序人生
好的，我现在需要处理用户关于MySQL数据库备份和恢复的问题。首先，我要仔细阅读提供的搜索结果，从中提取有用的信息，并按照要求引用相应的网页编号。用户的问题是关于MySQL数据库的备份和恢复，我需要确保答案涵盖备份方法、恢复步骤以及最佳实践。根据提供的搜索结果，网页[1]、[2]、[3]、[4]、[5]、[7]、[8]、[9]、[10]都提到了相关内容，而网页[6]虽然涉及远程备份，但内容可能不够
Cannl 数据同步-ES篇小Ti客栈中间件中间件
Cannl数据同步目录Cannl数据同步一、概述1、简介2、原理3、模块二、配置MySQL1、使用版本使用版本2、环境要求1）操作系统2）MySQL要求三、配置Canal-server1、下载安装2、**修改配置****单机配置****集群配置****分库分表配置**四、配置canal-adapter1.同步ES配置1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步启动4.验证2.注意
2025年开源大模型全景：语言、多模态与开发工具的前沿探索软件职业规划开源
语言类开源大模型1.Llama系列开发者：Meta发布时间：2024年7月参数量：8B、70B、405B特点：Llama系列模型以其强大的多语言支持和广泛的自然语言处理能力而闻名。它支持文本生成、问答、翻译等多种任务，尤其在处理长篇文本时表现出色，支持高达128K的上下文长度。Meta与超过25个合作伙伴共同推出该系列模型，包括亚马逊云科技、Databricks和英伟达等，推动了开源大模型在工业界
AS32X601双核锁步MCU技术优势分析国科安芯产品单片机嵌入式硬件
AS32X601是国科安芯公司研制的一系列基于32位RISC-V指令集车规级MCU处理器芯片。主频高达180MHz，支持双核锁步架构，基于软错误防护技术加持，显著提高芯片安全性能。产品具有高安全、低失效、多IO、低成本、抗辐照等特点。一、功能安全与可靠性设计AS32X601的设计符合ISO26262ASIL-B功能安全标准（数据手册第2.4节），通过延迟锁步方法对关键模块进行冗余校验。当检测到错误
高安全可靠MCU芯片AS32X601应用解析国科安芯产品单片机嵌入式硬件 risc-v 架构 fpga开发
1.AS32X601简介AS32X601系列是国科安芯基于32位RISC-V指令集研发的高性能MCU产品，具备高安全、低失效、多接口、低成本等核心优势。该系列包含工业级（AS32I601ZIT6）、车规级（AS32A601ZIT3）、企业宇航级（AS32S601ZIT2）及企军级（AS32M601ZIT2）四个型号，覆盖工业控制、汽车电子、航天及军工等严苛场景。其关键特性包括：高安全设计：支持AS
Win32 SDK Gui编程系列之--Win32 API通用控件「已注销」 Win32 SDK Gui C/C++工具 C windows c++c语言
要使用普通控件的话，包含语句#include通过追加和初始化InitCommonControls();是必要的。也可以通过InitCommonControlsEx函数单独注册使用的类。另外，需要导入comctl32.dll。1.标签、控件只显示标签、控件的程序tabctrl.c和根据按下的标签进行显示的程序tabcontr0l.c和各自的执行结果如下所示。Tabctrl01.c#include#i
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
【ARM系列】ARM常用汇编指令阿兹尔猫 ARM系列 arm开发汇编
本文目录前言数据传送指令MOV算数运算指令ADD(不带进位加法指令)SUB(不带进位减法指令)MUL(32位乘法指令)比较和跳转指令CMP(直接比较指令)BEQBNQBBL加载-存储指令LDRSTR移位指令LSLLSR系统寄存器访问指令MSRMRS逻辑运算指令AND(逻辑与指令)ORR(逻辑或指令)BIC(位清除指令)UBFXBFI前言在调试芯片启动代码或者分析ARMcore运行流程的过程中，尝尝
MySql数据库等级考试学习分享3（Day7） weixin_53545579 学习
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。题目以下关于MySQL的叙述中，错误的是（）。OA、MySQL为多种编程语
Langchain链式开发：打造高效、可扩展的AI应用小南AI学院 langchain 人工智能软件工程
1.Langchain链是什么?Langchain是一个开源框架，专门用于开发基于大型语言模型(LLMs)的应用程序。它允许开发者将各种组件(如模型、数据源、工具等)连接在一起，构建复杂的AI应用程序。“链”(Chain)在Langchain中是一个核心概念，它代表了多个组件的有序连接，用于完成特定任务。2.Langchain链的职责是什么?Langchain链的主要职责包括：流程编排：管理多个组
RISC-V汇编学习（二）—— 汇编语法禾仔仔 RISC-V risc-v 汇编
在具体汇编指令和汇编实战之前，还是有必要对RISC-V汇编进行下介绍，我一般称之为RISC-V汇编的“语法”，可能“语法”较少，也相对比较简单的原因，大部分的博主都是一笔带过，但本着循序渐进的原则，还是简单概述下，以便加深认识。RISCV汇编学习系列：RISC-V汇编学习（一）——基础认识RISC-V汇编学习（二）——汇编语法RISC-V汇编学习（三）——RV指令集RISC-V汇编学习（四）——R
springboot 整合 elk （Elasticsearch+Logstash+Kibana）高大王竟然被注册 spring 运维
Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。Kibana也是一个开源和免费的工具，它Kibana可以为Logstash和ElasticSearch提供的日志分析友好的Web界
小白十分钟速通 Spring Boot 基础 Gao_雪 Spring spring boot 后端 java spring vscode
SpringBoot介绍随着Spring体系的不断庞大，加上现代互联网应用体积庞大，构建一个应用还是非常困难的，Spring团队重新打造了一个新的面向微服务的框架SpringBoot。严格来说SpringBoot不能是一个框架，它更是一个方案，Spring工程的快速上手方案，它极大的降低了JavaWeb工程的创建和运行和部署的难度。在过去这些都是Java工程师的老大难，所以说SpringBoot的
鸿蒙 @ohos.arkui.node 淼学派对 harmonyos 华为
鸿蒙@ohos.arkui.node在鸿蒙开发中，@ohos.arkui.node模块提供了一系列用于构建和管理自定义节点的API。这些API组织在一起，方便开发者进行导出和使用。本文将详细介绍@ohos.arkui.node模块的功能和使用方法。一、模块功能概述@ohos.arkui.node模块提供了以下功能：（一）BuilderNode模块功能：提供能够挂载原生组件的自定义节点Builder
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
vue处理接口返回EventStream数据并进行展示 zuo-yiran vue学习笔记 js vue.js 前端 javascript
1、在Vue组件中连接外部SSE接口HTML：来自本地文件的SSE流数据：-----+++++JS：mounted(){//http://localhost:3001/sse-stream为返回EventStream数据的地址consteventSource=newEventSource('http://localhost:3001/sse-stream');//监听消息事件eventSource
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Flask-Login完整使用案例 BirdMan98 Flask Python flask oracle 数据库
下面是一个完整的Flask-Login使用案例，涵盖以下功能：用户注册用户登录访问受保护页面退出登录1.安装依赖pipinstallflaskflask-loginflask-wtfflask-sqlalchemywerkzeug2.创建Flask项目结构flask_login_demo/│──app.py#Flask入口文件│──models.py#数据库模型│──forms.py#表单│──c
flask 如何实现高并发 Msura flask python 后端开发语言
在Flask中，可以通过一些方法来实现高并发：使用Gunicorn或uWSGI作为WSGI容器，可以将Flask应用部署到多个工作进程上，实现多进程并发处理请求。使用Flask-SocketIO可以将Flask应用扩展为WebSocket应用，可以通过它实现长连接和消息推送功能，从而实现高并发。使用Flask-SQLAlchemy可以将Flask应用与数据库进行集成，可以使用数据库连接池来实现高效
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
STM32与HAL库开发实战：深入探索ESP8266的多种工作模式坏柠嵌入式开发笔记 stm32 单片机嵌入式硬件
STM32与HAL库开发实战：深入探索ESP8266的多种工作模式一、硬件平台简介STM32F103C8T6‌（BluePill核心板）作为主控芯片，通过‌HAL库‌直接驱动‌ESP8266WiFi模块‌，实现以下核心功能：STA模式‌：连接外部WiFi路由器AP模式‌：自建WiFi热点TCP客户端/服务器模式‌：实现网络数据传输混合模式‌：STA+AP共存低功耗模式‌：深度睡眠控制二、硬件连接在
FLASK核心操作之ORM 爬山的小明 Flask Flask ORM
ORM一、概要1、说明ORM，即Object-RelationalMapping（对象关系映射），它的作用是在关系型数据库和业务实体对象之间作一个映射，这样，我们在具体的操作业务对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作对象的属性和方法,2、核心模块SQLAlchemyORM和SQLAlchemyCoreCore是一种构建在表达式语言之上的一种API，一种SQL抽象工具包，允
全国产飞腾+FPGA架构，支持B码+12网口+多串电力通讯管理机解决方案深圳信迈科技DSP+ARM+FPGA 飞腾+FPGA 电力新能源 fpga开发架构电力通讯管理机全国产
行业痛点:中国的电力网络已经成为当今世界覆盖范围最广、结构最为复杂的人造科技系统。随着国家和各部委颁布了一系列法律法规，如国家颁布的《中华人民共和国网络安全法》、工信部颁布的《工业控制系统信息安全防护指南》、发改委颁布的14号令《电力监控系统安全防护规定》、国家能源局颁布的《关于印发电力监控系统安全防护总体方案等安全防护方案和评估规范的通知》，凸显了电力行业的网络安全防护工作的重要性。基于电力行业
【Springboot知识】开发属于自己的中间件健康监测HealthIndicate 问道飞鱼微服务相关技术 spring boot 中间件后端 HealthIndicate
文章目录**一、技术栈****二、项目结构****三、依赖配置(pom.xml)****四、配置文件(application.yml)****五、自定义健康检查实现****1.Redis健康检查****2.Elasticsearch健康检查****3.Kafka健康检查****4.MySQL健康检查****六、自定义健康检查接口(可选)****七、测试与验证****八、高级功能扩展****九、部署
SQLite学习（十一）使用JDBC读写SQLite数据，基于Java实现 Designer 小郑 SQLite从入门到实战 sqlite 数据库 sql java jdbc
1.前言2.基础工作2.1创建Java项目2.2依赖Jar包3.连接SQLite4.查询SQLite数据5.新增SQLite数据6.总结1.前言在上一篇《SQLite学习（十）SQLite的注入问题的防范、数据库文件导入和导出》中，讲解了SQLite的SQL注入问题和应对措施，在本篇博客中，将继续讲解如何使用JDBC读写SQLite数据。同学们将学习到：JDBC是什么使用JDBC读写SQLite请
MsSqlServer2022的jdbc的url的连接属性 kfepiza Database数据库 sql 关系型非关系型 nosql JAVA microsoft sqlserver 数据库
MsSqlServer2022的jdbc的url的连接属性官方文档LearnSQL连接设置连接属性https://learn.microsoft.com/zh-cn/sql/connect/jdbc/setting-the-connection-properties?view=sql-server-ver16下载JDBC驱动程序可以通过多种方式指定连接字符串的属性：当使用DriverManager
sql语句编写逻辑賢843 mysql sql
一、SQL语句的「书写顺序」与「执行顺序」书写顺序（人类思维逻辑）SELECT字段列表--第3步：确定要输出的内容FROM表名--第1步：确定数据来源[JOIN表ON条件]--第2步：处理表连接关系WHERE筛选条件--第4步：过滤原始数据GROUPBY分组字段--第5步：数据分组HAVING分组后条件--第6步：过滤分组结果ORDERBY排序字段--第7步：排序结果LIMIT分页参数--第8步：
基于k3s部署Nginx、MySQL、SpringBoot和Redis的详细教程
1.安装k3s集群1.1单节点快速部署#使用root或sudo权限执行curl-sfLhttps://get.k3s.io|sh-#验证安装sudokubectlgetnodes#输出应为Ready状态sudosystemctlstatusk3s1.2配置kubectl权限（可选）mkdir-p~/.kubesudocp/etc/rancher/k3s/k3s.yaml~/.kube/config
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

Spark 系列（十）—— Spark SQL 外部数据源

一、简介

1.1 多数据源支持

1.2 读数据格式

1.3 写数据格式

二、CSV

2.1 读取CSV文件

2.2 写入CSV文件

2.3 可选配置

三、JSON

3.1 读取JSON文件

3.2 写入JSON文件

3.3 可选配置

四、Parquet

4.1 读取Parquet文件

2.2 写入Parquet文件

2.3 可选配置

五、ORC

5.1 读取ORC文件

4.2 写入ORC文件

六、SQL Databases

6.1 读取数据

6.2 写入数据

七、Text

7.1 读取Text数据

7.2 写入Text数据

八、数据读写高级特性

8.1 并行读

8.2 并行写

8.3 分区写入

8.3 分桶写入

8.5 文件大小管理

九、可选配置附录

9.1 CSV读写可选配置

9.2 JSON读写可选配置

9.3 数据库读写可选配置

参考资料

你可能感兴趣的:(Spark 系列（十）—— Spark SQL 外部数据源)