BIT_666

Spark 3.0 - 1.Spark 新特性简介与 WordCount Demo 实践

一.引言

二.Spark 3.0 特性

1.Improving the Spark SQL engine [改进的SQL引擎]

1.1 Dynamic Partition Pruning [动态分区修剪]

1.2 ANSI SQL compliant [兼容 ANSI SQL]

1.3 Join hints [连接提示]

2.Enhancing the Python APIs: PySpark and Koalas [增强Python API：PySpark和Koalas]

3.Hydrogen, streaming and extensibility [性能与容错的支持]

3.1 Accelerator-aware scheduling [加速器感知调度]

3.2 New UI for structured streaming [结构化流媒体的新UI]

3.3 Observable metrics [可观察指标]

3.4 New catalog plug-in API [新的目录插件 API]

4.Other updates in Spark 3.0 [其他更新]

三.搭建 Spark 3.0 Maven 项目

1.创建 Maven 项目

2.添加 Scala SDK

3.添加 POM 依赖

4.创建文件与文件夹

四.Spark 3.0 WordCount Demo

1.数据文件

2.WordCount

五.总结

一.引言

Spark 2.x 作为大数据开发的主力版本已经使用多时，自 2020 年6月18日 Spark 3.x 发布以来，随着 Spark 3.x 的逐渐完善，开发者也应该熟悉 Spark 3.x 相关内容与特性。本文将主要介绍 Spark 3.0 的新特性并通过 Idea 创建一个 Maven 工程实现 Spark 3.0 x Scala 的 WordCount Demo。

二.Spark 3.0 特性

以下是Spark 3.0 中最大的新功能：

- 高效：通过自适应查询执行、动态分区修剪和其他优化，TPC-DS的性能比 Spark 2.4 提高了 2 倍

- 兼容：兼容 ANSI SQL

- 优化：Pandas API 的重大改进，包括 Python 类型提示和其他 Pandas UDF

- 异常处理：更好的 Python 异常处理，简化 PySpark 异常

- 全新UI：结构化流媒体的新 UI

- 协作：调用 R 用户定义函数的速度可提高40倍

- 全面优化：解决了3400多个 Jira<项目与事务> 问题

上图为新版本解决的问题在 Spark 项目中的占比，除此之外，使用 Spark 3.x 无需对代码进行过多修改，但在集群提交或编译时可能略有不同，实战环境下同学们需要注意。从图中也可以看出来，SQL 的优化占比最高达到 46%，因此 Spark 3.x 最大的优化就是 SQL 效率的优化。

1.Improving the Spark SQL engine [改进的SQL引擎]

Spark SQL 是支持大多数 Spark 应用程序的引擎。例如，在 Databricks 上，我们发现 90% 以上的 Spark API 调用使用 DataFrame、Dataset 和 SQL API 以及 SQL 优化器优化的其他库。这意味着，即使是 Python 和 Scala 开发人员也会通过 Spark SQL 引擎来完成大部分工作。在Spark 3.0版本中，46% 的补丁都是针对 SQL 的，提高了性能和 ANSI 兼容性。如下图所示，Spark 3.0 在总运行时间上的表现大约是 Spark 2.4的两倍。接下来，我们将解释Spark SQL引擎中的四个新特性。

新的自适应查询执行（AQE）框架通过在运行时生成更好的执行计划来提高性能并简化优化，即使初始计划由于缺少 / 不准确的数据统计数据和错误估计的成本而不是最佳的。由于 Spark 中的存储和计算分离，数据到达可能是不可预测的。由于所有这些原因，Spark 的运行时适应性比传统系统更为关键。此版本引入了三种主要的自适应优化：

- Dynamically coalescing shuffle partitions [大小分区合并自适应]

动态合并混洗分区可以简化甚至避免调整混洗分区的数量。用户可以在开始时设置相对较多的shuffle分区，然后 AQE 可以在运行时将相邻的小分区合并为较大的分区。

- Dynamically switching join strategies [Join 连接优化自适应]

动态切换连接策略部分避免了由于缺少统计信息和/或大小估计错误而执行次优计划。这种自适应优化可以在运行时自动将排序合并联接转换为广播哈希联接，从而进一步简化优化并提高性能。

- Dynamically optimizing skew joins [数据倾斜感知自适应]

动态优化歪斜连接是另一个关键的性能增强，因为数据倾斜会导致工作的极度不平衡，并严重降低性能。AQE从 Shuffle 文件统计数据中检测到任何倾斜后，它可以将倾斜分区拆分为较小的分区，并将它们与另一侧的相应分区连接起来。这种优化可以并行化倾斜分区的处理并实现更好的总体性能。

基于 3TB TPC-DS 基准测试，与没有 AQE 相比，使用 AQE 的 Spark 可以为两个查询提供 1.5 倍以上的性能加速，为另外 37 个查询提供 1.1 倍以上的加速。

Tips:

TPC-DS 是一套决策支持系统测试基准，主要针对零售行业。提供多个 SQL 查询，分析数据量大，测试数据与实际商业数据高度相似，其中 1TB、3TB 代表 TPC-DS 的标度因子，除此之外还有 10TB、30TB、100TB 的数据库规模用于进行有效性能测试。

1.1 Dynamic Partition Pruning [动态分区修剪]

当优化器无法在编译时识别它可以跳过的分区时，将应用动态分区修剪。这在星型模式中并不少见，星型模式由一个或多个引用任意数量维度表的事实表组成。在这样的联接操作中，我们可以通过识别筛选维度表所产生的分区来修剪联接从事实表中读取的分区。在 TPC-DS 基准测试中，102个查询中有 60 个查询的速度明显提高了2倍到18倍。

1.2 ANSI SQL compliant [兼容 ANSI SQL]

ANSI SQL 合规性对于从其他SQL引擎到 Spark SQL 的工作负载迁移至关重要。为了提高法规遵从性，此版本切换到 Proleptic Gregorian 日历，并允许用户禁止使用 ANSI SQL 的保留关键字作为标识符。此外，我们在数值操作中引入了运行时溢出检查，并在将数据插入具有预定义模式的表时引入了编译时类型强制。这些新的验证提高了数据质量。

Tips:

ANSI 即美国国家标准化组织是一个核准多种行业标准的组织。SQL 作为关系型数据库使用的标准语言，最初是基于 IBM 的实现 1986 年被批准的。1987年，国际标准化组织(ISO) 把ANSI SQL作为国际标准。这个标准在1992年进行了修订 (SQL-92)，1999年再次修订 (SQL-99)。最新的是SQL-2011。我们可以理解 Spark 3.x SQL 符合行业标准。

1.3 Join hints [连接提示]

尽管我们继续改进编译器，但不能保证编译器在任何情况下都能做出最佳决策，联接算法的选择都是基于统计和启发式的。当编译器无法做出最佳选择时，用户可以使用联接提示来影响优化器选择更好的计划。此版本通过添加新的提示来扩展现有的连接提示：SHUFFLE_MERGE、SHUFFLE_HASH 和 SHUFFLE_REPLICATE_NL。

2.Enhancing the Python APIs: PySpark and Koalas [增强Python API：PySpark和Koalas]

Python 现在是 Spark 上使用最广泛的语言，因此也是 Spark 3.0 开发的重点领域。Databricks 上68% 的笔记本命令使用 Python。Apache Spark Python API PySpark 在 PyPI（PythonPackage Index）上的月下载量超过500万，不过博主作为 Java 大数据开发工程师，日常使用中还是 Scala 居多，这个大家根据自己实际场景决定即可。

许多 Python 开发人员使用 Pandas API 进行数据结构和数据分析，但它仅限于单节点处理。我们还继续开发 Koalas，这是 Apache Spark 之上的 Pandas API 的实现，以使数据科学家在分布式环境中处理大数据时更高效。Koalas 消除了在 PySpark 中构建许多功能（例如，绘图支持）的需要，从而在集群中实现高效性能。

经过一年多的开发，Koalas API 对 Pandas API 的覆盖率接近 80%。Koalas 的每月 PyPI 下载量已迅速增长到 85 万，Koalas 正在以每两周发布一次的节奏快速发展。虽然 Koalas 可能是从单节点 Pandas 代码中迁移的最简单方法，但许多人仍然使用 PySpark API，这种 API 也越来越受欢迎。

Spark 3.0 为 PySpark API 带来了几个增强：

- New pandas APIs with type hints [带有类型提示的 Pandas API]

Pandas UDF 最初在 Spark 2.3 中引入，用于扩展 PySpark 中的用户定义函数，并将 Pandas API 集成到 PySpark 应用程序中。然而，当添加更多的 UDF 类型时，很难理解现有的接口。此版本引入了一个新的 pandas UDF接口，该接口利用 Python 类型提示来解决 pandas 的 UDF 类型激增问题。新界面变得更加 Pythonic 和可描述。

- New types of pandas UDFs and pandas function APIs [Pandas API 新类型]

此版本添加了两种新的 Pandas UDF 类型，系列迭代器到系列迭代者，多系列迭代尔到系列迭代器。它对于数据预取和昂贵的初始化非常有用。此外，还添加了两个新的 Pandas 函数API，map 和 co-grouped map。

- Better Error Handling [更好的异常处理]

PySpark 错误处理对 Python 用户并不总是友好的。此版本简化了 PySpark 异常，隐藏了不必要的 JVM 堆栈跟踪，并使其更具 Python 特性。

3.Hydrogen, streaming and extensibility [性能与容错的支持]

通过 Spark 3.0 完成了 Hydrogen 项目的关键组件，并引入了新的功能来改进流媒体和可扩展性。

3.1 Accelerator-aware scheduling [加速器感知调度]

Hydrogen 项目是 Spark 的一项重大计划，旨在更好地统一 Spark 上的深度学习和数据处理。GPU和其他加速器已广泛用于加速深度学习工作负载。为了使 Spark 充分利用目标平台上的硬件加速器，此版本增强了现有的调度器，使集群管理器能够感知加速器。用户可以在发现脚本的帮助下通过配置指定加速器。然后，用户可以调用新的 RDD API 来利用这些加速器。

Tips:

Spark 3.x 着重优化了 ML 机器学习大数据项目，而 RDD 对应的 MLLIb 项目后续的维护可能会越来越少。

3.2 New UI for structured streaming [结构化流媒体的新UI]

结构化流媒体最初是在 Spark 2.0 中引入的。在 Databricks 上的使用量同比增长4倍后，使用结构化流媒体每天在 Databrick 上处理超过 5 万亿条记录。此版本添加了一个专用的新 Spark UI，用于检查这些流作业。这个新的UI提供了两组统计信息：1）已完成的流式查询作业的聚合信息和2）有关流式查询的详细统计信息。

3.3 Observable metrics [可观察指标]

持续监控数据质量的变化是管理数据管道的一个非常理想的特性。此版本引入了对批处理和流式应用程序的监控。可观测度量是可以在查询（DataFrame）上定义的任意聚合函数。一旦 DataFrame 的执行到达完成点（例如，完成批处理查询或到达流时代），就会发出一个命名事件，其中包含自上一个完成点以来处理的数据的度量。

上图为 Spark Streaming 流媒体指标。

3.4 New catalog plug-in API [新的目录插件 API]

新的目录插件API：现有的数据源API缺乏访问和操作外部数据源元数据的能力。此版本丰富了数据源V2 API，并引入了新的目录插件API。对于同时实现目录插件API和数据源V2 API的外部数据源，用户可以在注册相应的外部目录后，通过多部分标识符直接操作外部表的数据和元数据。

4.Other updates in Spark 3.0 [其他更新]

Spark 3.0 是社区的一个主要版本，解决了 3400 多个 Jira 问题。这是 440 多位贡献者的贡献，包括个人以及 Databricks、谷歌、微软、英特尔、IBM、阿里巴巴、Facebook、英伟达、Netflix、Adobe 等公司。本文强调了 Spark 中的一些关键 SQL、Python 和流媒体技术的进步，但在这个3.0 里程碑中还有许多其他功能没有在这里介绍。在发布说明中了解更多信息，并发现Spark的所有其他改进，包括数据源、生态系统、监控等。

Performance 性能优化 - 这里有我们熟悉的 AQE 自适应优化，Join 联结提示等等

Built-in Data Sources 内置数据源 - 常用的列式存储 Parquet、Orc 等等

Richer APIs 丰富的 API - 更多的内置函数提供，在实际使用中可以发现

SQL Compatibility 兼容性 - 更强的兼容性可以使得 Spark SQL 轻松高效的替代 HiveSql

Extensibility and Ecosystem 可扩展性与生态 - 新版 DataSource、Hadoop3、Hive 2/3、Java 11...

Monitoring and Debuggability 监控与调试 - 结构化 Streaming API、可视化统计指标...

三.搭建 Spark 3.0 Maven 项目

上面介绍了 Spark 3.0 的特性，除了 Scala 外，很多优化都基于 PySpark，下面的示例将基于 Idea + Spark 3.0.2 + Scala 2.12.10 介绍。

1.创建 Maven 项目

在 Idea 中选择 New -> Project 新建 Maven 项目：

2.添加 Scala SDK

新的 Maven 项目默认只能创建 java.class，所以需要引入 Scala SDK，通过 File -> Project Structure 选择添加：

A.添加 SDK

B.选择对应版本

传统 Spark 2.x 多见于使用 Scala 2.11.x，Spark 3.x 则使用 Scala 2.12.x 居多，这里选择 2.12.10

3.添加 POM 依赖

Spark 选择 3.0.2 版本，Scala 选择 2.12.10 版本，JAVA 选择 8，Spark Core、Sql、Mllib 均选择 2.12 系列。



    4.0.0

    org.example
    sparkV3
    1.0-SNAPSHOT

    
        UTF-8
        3.0.2
        2.12.10
    

    

        
        
            org.apache.spark
            spark-sql_2.12
            ${spark.version}
            provided
        

        
            org.apache.spark
            spark-mllib_2.12
            ${spark.version}
            provided
        

        
            org.apache.spark
            spark-core_2.12
            ${spark.version}
            provided
        

        
        
            org.scala-lang
            scala-library
            ${scala.version}
        

        
        
            com.alibaba
            fastjson
            1.2.76

4.创建文件与文件夹

将 Java 目录 Rename 为 Scala，随后新建目录并创建 Scala Class 即完成 Spark 3.0 项目的创建。

四.Spark 3.0 WordCount Demo

WordCount 对于 Spark 就像是 HelloWordl 对于程序员一样，是 Spark 最基础最入门的示例。

1.数据文件

这里本地创建文件模拟几条逗号分隔的数据 test.txt：

flink,java,scala
spark,good,bad
spark,hadoop,flink
spark,hive,tensorflow
hbase,redis,spark

2.WordCount

package org.example.Chap1

import org.apache.spark.internal.Logging
import org.apache.spark.sql.SparkSession


object WordCount extends Logging {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .master("local")
      .appName("WordCount")
      .getOrCreate()

    spark.sparkContext.setLogLevel("error")

    import spark.implicits._

    // 读取为 Sql DataFrame 形式
    val data = spark.read.text("~/sparkV3/src/main/scala/org/example/Chap1/test.txt")
    data.as[String].rdd.flatMap(_.split(","))
      .map((_, 1))
      .reduceByKey(_ + _)
      .collect()
      .sortBy(-_._2)
      .foreach(println(_))

  }

}

SparkSession - Spark 会话，使用 read.text 读取文件后获得 sql.DataFram

as[String] - implict 隐式转换，将 Row 转换为 String

flatMap + map + reduceByKey - 累计数据

collect - 将结果下拉至本地

sortBy - 按照 count 频次降序排列

foreach + println - 遍历打印

上述操作都是 Spark 最基础的操作，与 Spark 2.x 差异很小，运行上述代码获取下述结果：

Tips：

A. import spark.implicits._

这里涉及到隐式转换，如果没有该引入，sql.DataFrame 的 Row 数据类型无法通过 as[String] 转换为 String 类型并进行后续的 split 操作。

B.Logging + setLogLevel

默认情况下，Spark 会打印很多 [info] 日志，影响运行结果的观察，可以继承 Logging 类并设置日志类型为 error 减少系统日志，下图为未设置 logLevel，日志数量非常多：

五.总结

上面简单介绍了 Spark 3.0 的特性以及如何通过 Idea 快速搭建一个 Spark 3.0 Demo 并运行，这些对于使用 2.x Spark 版本的同学来说十分轻松，因为二者差异很小，很多优化特性我们都是不感知的。后续将优先基于 Spark 3.0 + ML 介绍基于机器学习的大数据分析与挖掘，待该部分内容介绍完毕后讲解 Spark 3.x SQL 系列。

其中关于 Spark 3.0 特性的部分翻译自 www.databricks.com，参考链接：Introducing Apache Spark 3.0 - The Databricks Blog。

OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用（144）青云交大数据新视界 Java 大视界 java 大数据智慧农业精准灌溉施肥决策数据分析机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
【监控系列】open-falcon yunqi1215 Monitor 自动化
Open-Falcon是一款由小米开源的分布式监控系统，具备高性能、高可用性和易扩展的特点。以下从多个维度对其进行详细解析：1.核心特点分布式架构：模块化设计，各组件独立部署，支持水平扩展。高性能：单实例可处理百万级监控指标，采用RPC通信和数据分片优化。灵活的数据模型：支持Tag（标签）标记数据，便于多维查询。实时告警：支持多条件策略、表达式告警及依赖管理。可视化：提供Dashboard和图表，
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
spring +kotlin 配置redis 和redis的常用方法 LCY133 spring后端 spring java 后端
在SpringBoot+Kotlin项目中，可以同时使用RedissonClient（提供分布式对象和高级功能）和RedisTemplate（SpringDataRedis的标准操作）。以下是完整配置和用法示例：1.添加依赖在build.gradle.kts中引入依赖：dependencies{//SpringDataRedisimplementation("org.springframework
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
Operating System Concepts读书笔记——操作系统本质、类型与发展【1】墨汁儿操作系统
文章目录一、操作系统基础概念1.操作系统功能2.计算机系统组成部分3.用户角度对操作系统的需求4.系统角度二、各类型操作系统1.大型机系统1.1批处理系统1.2多道程序系统1.3分时系统2.桌面系统3.多处理器系统4.分布式系统4.1客户机-服务器系统4.2对等系统5.集群系统6.实时系统7.手持系统三、其它1.功能迁移2.计算环境2.1传统计算2.2基于Web的计算2.3嵌入式计算一、操作系统基
探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？云策量化量化交易量化软件量化炒股量化炒股 QMT 量化交易入门教程 PTrade 股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》标题：股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？正文：在金融投资的世界里，量化投资以其科学、系统和客观的特点，成为了众多投资者追求的“圣杯”。而在量化投资领域，蒋菲以其独特的大数据量化投资模型而闻名。本文将深入探讨蒋菲如何利用大数据优化其量化投资模型，以及她的数据来源有哪些。一、量化投资模型的优化
我与DeepSeek读《大型网站技术架构》- 总结诺亚凹凸曼架构
文章目录读后感一、总结二、反思三、创新四、展望当代大型网站架构一、架构分层模型二、关键组件与技术选型三、架构演进策略四、架构突破口读后感一、总结架构演化优先于设计大型网站架构不是预先设计的产物，而是通过反复迭代和试错演化形成的。技术选型的核心动机是对业务需求的深刻理解，而非盲目模仿。典型案例包括淘宝架构因业务爆发力被迫转型为分布式系统。开放与协作的价值互联网的开放生态通过API经济（如淘宝Open
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
如何设计一个高可用的 Seata 集群？码农技术栈 java spring boot spring cloud 微服务架构 spring
——从零搭建永不宕机的分布式事务协调系统一、为什么需要高可用Seata集群？在分布式系统中，事务协调器TC是全局事务的“大脑”。一旦TC单点故障：灾难性后果：所有进行中的全局事务将卡死，业务完全不可用数据不一致风险：已提交的事务可能无法完成最终提交或回滚因此，构建高可用Seata集群是生产环境的必选项！二、Seata高可用架构设计核心要点1.TC集群化部署多节点部署：至少部署3个TC实例（奇数节点
SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析耶耶Norsea 网络杂烩 spring cloud
摘要在探讨SpringCloud框架中的两种注册中心之前，有必要回顾单体架构与分布式架构的特点。单体架构将所有业务功能集成在一个项目中，优点是架构简单、部署成本低，但耦合度高。分布式架构则根据业务功能对系统进行拆分，每个模块作为独立服务开发，降低了服务间的耦合，便于升级和扩展，然而其复杂性增加，运维、监控和部署难度也随之提高。关键词SpringCloud,注册中心,单体架构,分布式架构,服务拆分一
Spring Cloud Config 快速介绍与实例 oscar999 Spring Boot实战开发大全 Spring Boot Cloud Config
SpringCloudConfig是什么？SpringCloudConfig是一个用于分布式系统的配置管理工具，提供集中化的外部配置支持。它适用于微服务架构，能够将各个服务的配置集中存储在服务端（如Git仓库），客户端按需动态获取配置，解决了配置分散、环境切换复杂等问题。SpringCloudConfig核心概念ConfigServer：配置中心服务端，统一管理配置，支持Git、本地文件等存储方式
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解 Cloud_. java-rabbitmq spring boot rabbitmq MQ 消息队列
RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
基于Redis分布锁+事务补偿解决数据不一致性问题 yiridancan 并发编程 Redis 分布式 redis 数据库缓存
基于Redis的分布式设备库存服务设计与实现概述本文介绍一个基于Redis实现的分布式设备库存服务方案，通过分布式锁、重试机制和事务补偿等关键技术，保证在并发场景下库存操作的原子性和一致性。该方案适用于物联网设备管理、分布式资源调度等场景。代码实现importjava.util.HashMap;importjava.util.Map;importorg.slf4j.Logger;importorg
http协议与https协议网络文化渗透 http https 网络协议网络
HTTP（HyperTextTransferProtocol：超文本传输协议）是一种用于分布式、协作式和超媒体信息系统的应用层协议。简单来说就是一种发布和接收HTML页面的方法，被用于在Web浏览器和网站服务器之间传递信息。HTTP默认工作在TCP协议80端口，用户访问网站http://打头的都是标准HTTP服务HTTP协议以明文方式发送内容，不提供任何方式的数据加密，如果攻击者截取了Web浏览器
AsyncHttpClient使用说明书有梦想的攻城狮 netty学习专栏 Java asynchttpclient 异步处理 netty
[[toc]]AsyncHttpClient（AHC）是一个高性能、异步的HTTP客户端库，广泛用于Java和Scala应用中，特别适合处理高并发、非阻塞的HTTP请求。它基于Netty或Java原生的异步HTTP客户端实现，支持HTTP/1.1和HTTP/2协议，适用于微服务、API调用、爬虫等场景。1.核心特性特性说明异步非阻塞基于事件驱动模型，避免线程阻塞，支持高并发（如每秒数千请求）。HT
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
使用GitHub API进行智能文档加载 fgayif github python
GitHub是一个强大的开发者平台，提供了代码存储、管理和分享的功能。它采用Git软件，增强了分布式版本控制，同时提供了访问控制、错误跟踪、软件功能请求、任务管理、持续集成和项目的wiki等功能。随着AI技术的发展，我们可以利用GitHub的API实现智能文档加载，以便更好地进行代码管理和分析。下面我将介绍如何使用GitHubAPI进行文档加载，并通过实用的代码示例来帮助大家理解。技术背景介绍Gi
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

Spark 3.0 - 1.Spark 新特性简介与 WordCount Demo 实践

一.引言

二.Spark 3.0 特性

1.Improving the Spark SQL engine [改进的SQL引擎]

1.1 Dynamic Partition Pruning [动态分区修剪]

1.2 ANSI SQL compliant [兼容 ANSI SQL]

1.3 Join hints [连接提示]

2.Enhancing the Python APIs: PySpark and Koalas [增强Python API：PySpark和Koalas]

3.Hydrogen, streaming and extensibility [性能与容错的支持]

3.1 Accelerator-aware scheduling [加速器感知调度]

3.2 New UI for structured streaming [结构化流媒体的新UI]

3.3 Observable metrics [可观察指标]

3.4 New catalog plug-in API [新的目录插件 API]

4.Other updates in Spark 3.0 [其他更新]

三.搭建 Spark 3.0 Maven 项目

1.创建 Maven 项目

2.添加 Scala SDK

3.添加 POM 依赖

4.创建文件与文件夹

四.Spark 3.0 WordCount Demo

1.数据文件

2.WordCount

五.总结

你可能感兴趣的:(Spark3.0,Scala,Spark3.0,大数据,分布式,WordCount)