Hadoop技术博文

一文理解 Apache Spark DataSource V2 诞生背景及入门实战

五年总结：过往记忆大数据原创精选，欢迎收藏转发。

Data Source API 定义如何从存储系统进行读写的相关 API 接口，比如 Hadoop 的 InputFormat/OutputFormat，Hive 的 Serde 等。这些 API 非常适合用在 Spark 中使用 RDD 编程的时候使用。使用这些 API 进行编程虽然能够解决我们的问题，但是对用户来说使用成本还是挺高的，而且 Spark 也不能对其进行优化。为了解决这些问题，Spark 1.3 版本开始引入了 Data Source API V1，通过这个 API 我们可以很方便的读取各种来源的数据，而且 Spark 使用 SQL 组件的一些优化引擎对数据源的读取进行优化，比如列裁剪、过滤下推等等。

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop

Data Source API V1 为我们抽象了一系列的接口，使用这些接口可以实现大部分的场景，这些接口如下（参见 org.apache.spark.sql.sources.interfaces.scala 文件）：

常见的读取 JSON、CSV、JDBC、Kafka 以及最近开源的 Detla Lake 等都是通过 Data Source API V1 实现的。这个版本的 Data Source API 有以下几个优点：

接口实现非常简单
能够满足大部分的使用场景

但是随着 Spark 的不断发展，以及使用的用户越来越多，这个版本的 Data Source API 开始暴露出一些问题。

Data Source API V1 不足

部分接口依赖 SQLContext 和 DataFrame

一般而言，Data Source API 应该是比较底层的 API，但是这个版本的 Data Source API 依赖了上层的 API，比如 SQLContext、DataFrame 以及 RDD 等。在 Spark 2.0 中，SQLContext 已经被遗弃了，逐渐被 SparkSession 替代，同理，DataFrame 也被 Dataset API 取代。但是 Spark 无法更新数据源 API 以反映这些变化。我们可以看到高层次的 API 随着时间的推移而发展。较低层次的数据源 API 依赖于高层次的 API 不是一个好主意。 扩展能力有限，难以下推其他算子 当前数据源 API 仅支持 filter 下推和列修剪（参见上面的 PrunedFilteredScan 接口的 buildScan 方法）。如果我们想添加其他优化，比如添加 limiy 优化，那么我们需要添加其他接口： buildScan(limit)

buildScan(limit, requiredCols)

buildScan(limit, filters)

buildScan(limit, requiredCols, filters)

这样下去对我们来说是一个噩梦！ 缺乏对列式存储读取的支持 从上面的 buildScan API 可以看出，Spark 数据源进支持以行式的形式读取数据。即使 Spark 内部引擎支持列式数据表示，它也不会暴露给数据源。但是我们知道使用列式数据进行分析会有很多性能提升，所以 Spark 完全没必要读取列式数据的时候把其转换成行式，然后再再 Spark 里面转换成列式进行分析。 缺乏分区和排序信息 物理存储信息（例如，分区和排序）不会从数据源传递到 Spark 计算引擎，因此不会在 Spark 优化器中使用。这对于像 HBase/Cassandra 这些针对分区访问进行了优化的数据库来说并不友好。在 Data Source V1 API 中，当 Spark 从这些数据源读取数据时，它不会尝试将处理与分区相关联，这将导致性能不佳。 写操作不支持事务 当前的写接口非常通用。它的构建主要是为了支持在 HDFS 等系统中存储数据。但是像数据库这样更复杂的 Sink 需要更多地控制数据写入。例如，当数据部分写入数据库并且作业出现异常时，Spark 数据源接口将不会清理这些行。这个在 HDFS 写文件不存在这个问题，因为写 HDFS 文件时，如果写成功将生成一个名为 _SUCCESS 的文件，但是这种机制在数据库中是不存在的。在这种情况下，会导致数据库里面的数据出现不一致的状态。这种情况通常可以引入事务进行处理，但是 Data Source V1 版本不支持这个功能。 不支持流处理 越来越多的场景需要流式处理，但是 DataSource API V1 不支持这个功能，这导致想 Kafka 这样的数据源不得不调用一些专用的内部 API 或者独自实现。正是因为 DataSource API V1 的这些缺点和不足，引入 DataSource API V2 势在必行。 Data Source API V2 为了解决 Data Source V1 的一些问题，从 Apache Spark 2.3.0 版本开始，社区引入了 Data Source API V2，在保留原有的功能之外，还解决了 Data Source API V1 存在的一些问题，比如不再依赖上层 API，扩展能力增强。Data Source API V2 对应的 ISSUE 可以参见 SPARK-15689 。本文以最新的 Apache Spark 2.4.3 版本进行介绍，这个版本的 Data Source API V2 主要抽象出以下几个接口：

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop

这些抽象出来的类全部存放在 sql 模块中 core 的 org.apache.spark.sql.sources.v2 包里面，咋一看好像类的数目比之前要多了，但是功能、扩展性却比之前要好很多的。从上面的包目录组织结构可以看出，Data Source API V2 支持读写、流数据写、微批处理读（比如 KafkaSource 就用到这个了）以及 ContinuousRead（continuous stream processing）等多种方式读。在 reader 包里面有 SupportsPushDownFilters、SupportsPushDownRequiredColumns、SupportsReportPartitioning、SupportsReportStatistics 以及 SupportsScanColumnarBatch，分别对应的含义是算子下推、列裁剪、数据分区、统计信息以及批量列扫描等。

为了加深大家对 Data Source API V2 的印象，本文将介绍使用 Data Source API V2 编写一个读取 MySQL 数据的程序。

实现 ReadSupport 接口

为了使用 Data Source API V2，我们肯定是需要使用到 Data Source API V2 包里面相关的类库，对于读取程序，我们只需要实现 ReadSupport 相关接口就行，如下：

我们定义了一个 DefaultSource 的类，实现了 ReadSupport 接口，并使用 DataSourceV2 标记这是一个 Data Source API V2 的程序。注意，Data Source API V2 的程序必须实现 ReadSupport 或 WriteSupport 接口中的一个或两个，分别代表读和写的逻辑。这里为了简便起见，我们只实现了 ReadSupport 接口。

实现读 MySQL 相关操作 前面我们实现了 ReadSupport 接口，并重写了 createReader 方法。这里我们需要实现 DataSourceReader 接口相关的操作，如下：

DataSourceReader 接口我们需要分别实现 readSchema 和 planInputPartitions 方法，分别代表我们程序需要读取的列相关信息，以及每个分区拆分及读取逻辑等。细心的同学肯定可以想到，读取操作不是可以弄一些算子下推，列裁剪相关的优化吗？没错，由于 DataSource V2 的优化，我们可以在这里加上 SupportsPushDownFilters、SupportsPushDownRequiredColumns、SupportsReportPartitioning 等相关的优化，完整的程序如下：

上面程序我们加上了列裁剪和算子下推。其中 pushedFilters 和 pushFilters 方法分别代码可以推下去的过滤以及不可以推下去的过滤。具体那些可以推下去，哪些不可以推下去是根据我们自己实现的。比如本例中只支持下推等于(EqualTo)、大于（GreaterThan）以及不为空（IsNotNull）的过滤条件，其他不支持。pruneColumns 这个方法就是列裁剪，就是我们 Spark SQL 中需要使用到的列，比如 select id, name from iteblog where age > 10 and state != 1 这条 SQL 列裁剪需要的列为 id、name 以及 state，其他的列不需要读取到 Spark 层面上来。

大家再仔细思路可以看出，DataSource V2 把每种优化都写到单独的一个接口里面，这样我们需要哪个优化就可以加哪个，这样就可以排列组合出很多种用法，这明显比 DataSource V1 版本的 PrunedFilteredScan 要灵活很多。假如我们需要将 limit 下推，我们只需要定义一个类似于 SupportsPushDownLimit 接口即可，非常的灵活。

最后一个需要我们实现的就是分片读取，在 DataSource V1 里面缺乏分区的支持，而 DataSource V2 支持完整的分区处理，也就是上面的 planInputPartitions 方法。在那里我们可以定义使用几个分区读取数据源的数据。比如如果是 TextInputFormat，我们可以读取到对应文件的 splits 个数，然后每个 split 构成这里的一个分区，使用一个 Task 读取。为了简便起见，我这里使用了只使用了一个分区，也就是 List[InputPartition[InternalRow]](MySQLInputPartition(requiredSchema, supportedFilters.toArray, options)).asJava。

分区读取实现

到这里，我们需要定义每个分区具体是如何读取的，这里就是真实的数据读取实现逻辑，比如本文例子的实现如下：

具体分区读取是需要实现 InputPartitionReader 接口的，大家可以看到，这里面就是真正的 MySQL 查询 SQL 的拼接，以及我们平时参见的 MySQL 数据查询方法。仔细的同学可以看出拼接的 SQL 中 where 条件里面的就是我们的算子下推逻辑；而 select 部分就是我们的列裁剪部分。

使用 DataSource V2

到这里，我们已经使用 DataSource V2 API 定义了一个读取 MySQL 的类库，我们可以像正常 Spark 类库一样使用这个类库，如下：

这条 SQL 没有使用到 select，所以会使用到表中所有的列，并且以为我们已经支持大于等算子下推，所以 id > 10 这个应该是会下推到 MySQL 端执行的，具体的执行计划如下：

从上面可以清晰看到 id > 10 已经下推了，见 Filters: [isnotnull(id#0), (id#0 > 10)]。对应拼接出来的 SQL 为

SELECT ID,ip,count,times,total FROM search_info WHERE `id` IS NOT NULL AND `id` > 10

在看下下面的测试：

对应的执行计划如下：

从上面的 Physical Plan 可以看出，count#2 >= 10 这个并没有推到数据源执行，以为我们这个例子里面没有实现大于等于算子的下推。本例我们使用了 select，并且指定了 id、ip 列，再加上没有推到 MySQL 端的列，所以这次执行只需要获取 id、ip 以及 count 三列即可，最后拼接后的 SQL 如下: SELECT ID,ip,count FROM search_info WHERE `count` IS NOT NULL AND `id` IS NOT NULL AND `id` > 10 好了，DataSource API V2 的 demo 到这里就介绍的差不多了。目前 DataSource API V2 还在不断演化中，不同版本的 API 可能和这里介绍的不一样，比如 Spark 2.3.x 支持分区的 API 是 createDataReaderFactories，而 Spark 2.4.x 是 planInputPartitions，详见 SPARK-24073 。同时，Apache Spark DataSource API V2 是一个比较大的 Feature ，虽然早在 Spark 2.3 版本中已经引入了，但是其实还有很多功能未发布，内置的各种数据源实现基本上都是基于 DataSource API V1 实现的；而且在 Apache Spark 2.x 版本中也不是很稳定，关于 Spark DataSource API V2 版本的稳定性工作以及新功能可以分别参见 SPARK-25186 以及 SPARK-22386 。 Spark DataSource API V2 最终稳定版以及新功能将会随着年底和 Apache Spark 3.0.0 版本一起发布，其也算是 Apache Spark 3.0.0 版本的一大新功能。猜你喜欢

欢迎关注本公众号：iteblog_hadoop:

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

回复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结专刊

回复 all 获取本公众号所有资料

0、回复 电子书 获取 本站所有可下载的电子书

1、五年总结：过往记忆大数据原创精选

2、重磅 | Apache Spark 社区期待的 Delta Lake 开源了

3、Apache Spark 3.0 将内置支持 GPU 调度

4、分布式原理：一致性哈希算法简介

5、分布式快照算法: Chandy-Lamport 算法

6、Apache Spark 2.4 回顾以及 3.0 展望

7、分布式原理：一文了解 Gossip 协议

8、列式存储和行式存储它们真正的区别是什么

9、HBase Rowkey 设计指南

10、HBase 入门之数据刷写详细说明

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop) 12、Flink中文文档： http://flink.iteblog.com 13、Carbondata 中文文档： http://carbondata.iteblog.com

doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
Flutter 按钮组件 ElevatedButton 详解帅次 Flutter flutter android ios macos android studio web app taro
目录1.引言2.ElevatedButton的基本用法3.主要属性4.自定义按钮样式4.1修改背景颜色和文本颜色4.2修改按钮形状和边框4.3修改按钮大小4.4阴影控制4.5水波纹效果5.结论相关推荐1.引言在Flutter中，ElevatedButton是一个常用的按钮组件，它带有背景颜色和阴影效果，适用于强调操作。ElevatedButton继承自ButtonStyleButton，相比Tex
源自神话的写作要义之英雄之旅博文视点生活情感框架体育
源自神话的写作要义之英雄之旅英雄之旅从本质上说，不论如何变化，英雄的故事总是一段旅程。英雄离开舒适、平淡的地方，到充满挑战的陌生世界去冒险。它可以是外部之旅，去一个明确的地点：迷宫、森林、洞穴、陌生的城市或者国度——这个新的地域会成为英雄和反派及挑战者角力的竞技场。而也有很多故事让英雄去经历一段内心之旅，在头脑、内心、精神领域里展开旅途。在所有精彩的故事中，英雄都会成长和改变，在旅途中改变自己的人
HTML星球大冒险之路线图我自纵横2023 HTML教程 html 前端
第一章：欢迎来到HTML星球！1.1宇宙的基石：HTML是什么？比喻：HTML是网页世界的「乐高积木」，用标签搭建一切可见内容目标：理解HTML的作用，掌握第一个声明1.2认识HTML文档的「骨骼结构」趣味比喻：HTML文档像汉堡包是包装盒（根标签）是配料表（元信息）是汉堡本体（可见内容）示例：打印「Hello,HTML星球！」第二章：标签大狂欢：从基础到变形2.1文本标签的魔法咒语✨幽默教学：：
程序化广告行业（11/89）：洗牌期与成熟期的变革及行业生态解析 lilye66 程序化广告 kafka flink 时序数据库
程序化广告行业（11/89）：洗牌期与成熟期的变革及行业生态解析大家好！一直以来，我都在钻研程序化广告行业，在学习过程中积累了不少干货，特别想和大家分享，一起学习进步。这篇文章接着上一篇，深入剖析程序化广告行业在洗牌期和成熟期的发展变化，以及整个行业生态的构成。一、洗牌期的行业变革2017-2018年，程序化广告行业进入洗牌期，这是行业发展过程中自我调整、去伪存真的关键阶段。在前期的燥热发展中，行
白话设计模式之（53）：迭代器模式——数据遍历的“百变魔方” 一杯年华@编程空间白话设计模式设计模式迭代器模式
白话设计模式之（53）：迭代器模式——数据遍历的“百变魔方”大家好！在软件开发的学习过程中，我们都在不断探索如何让代码更加高效、灵活且易于维护。设计模式作为编程领域的关键知识，为我们解决各种复杂问题提供了有力的工具。今天，咱们继续深入研究迭代器模式，它就像一个“百变魔方”，不仅能实现基本的数据遍历功能，还能通过各种扩展和变化，满足不同场景下的数据访问需求。希望通过这篇博客，能和大家一起更全面地理解
聊天模型集成指南三月七꧁ ꧂ langchain+llm microsoft 语言模型 prompt 人工智能自然语言处理开发语言 llama
文章目录聊天模型集成指南Anthropic聊天模型集成PaLM2聊天模型集成OpenAl聊天模型集成聊天模型集成指南随着GPT-4等大语言模型的突破，聊天机器人已经不仅仅是简单的问答工具，它们现在广泛应用于客服、企业咨询、电子商务等多种场景，为用户提供准确、快速的反馈。在这样的背景下，开发者们急需一套可以轻松切换、集成不同平台的工具。正是基于这样的需求，Anthropic、PaLM2和Op
深入理解 Java 中 synchronized 的使用和锁升级谢家小布柔 java中的面试题 java 开发语言
目录一、synchronized的使用方式（一）修饰普通方法（二）修饰静态方法（三）修饰代码块二、synchronized的锁升级（一）无锁（二）偏向锁（三）轻量级锁（四）重量级锁在Java并发编程中，synchronized是一个非常重要的关键字，用于实现线程同步，保证在同一时刻只有一个线程可以访问被同步的代码块或方法，从而避免多线程带来的数据不一致等问题。同时，Java虚拟机（JVM）为了提高
Java面向对象编程进阶：深入理解static、单例模式与继承 shy2005_5_31 Java全栈开发学习 java 单例模式开发语言
在面向对象编程（OOP）中，掌握高级特性是提升代码质量和设计能力的关键。本文基于Java语言，深入探讨static关键字、单例设计模式、继承等核心概念，并结合实际应用场景与深度思考，帮助读者构建系统化的知识体系。一、static关键字：共享与效率的基石1.静态变量vs实例变量静态变量：用static修饰，属于类，内存中仅一份，被所有对象共享。应用场景：全局计数器、配置参数。publicclassU
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
Mybatis的基本使用学c真好玩 mybatis
MyBatis简介MyBatis用于持久层框架,持久层是对数据库操作的部分，前版本iBatis由Apache软件基金组织进行更名并维护。特点:简化数据库的操作SQL映射灵活(半ORM框架)支持高级映射易于集成维护配置动态SQL缓存机制功能：替代JDBC,JDBC是java中提供的用于操作数据库的技术及方案数据库的连接控制难。连接池SQL语句硬编码。将sql语句存放到xml配置文件中参数传递问题。提
pjsip dtmf发送和接收（pjsua）小gpt& Pjsip 音视频 qt c++
DTMF（双音多频，Dual-ToneMulti-Frequency）是一种用于电话系统的信号技术，通过组合两个不同频率的音频信号来表示数字和符号。以下是DTMF的主要使用背景和应用场景：电话拨号DTMF最常见的用途是电话拨号。当用户按下电话键盘上的数字或符号时，电话会生成两个特定频率的音调，交换机接收并解码这些信号以确定用户拨打的号码。交互式语音应答（IVR）系统DTMF广泛用于IVR系统，用户
2024年Flutter从入门到精通全网最全学习路线指南高级技术工程师 flutter flutter flutter中文网 flutter中文官方文档
随着移动开发技术的快速发展，Flutter作为Google推出的跨平台开发框架，以其高效的热重载、统一的UI开发体验和卓越的性能表现，正逐渐成为众多开发者青睐的首选工具。为了帮助广大编程爱好者及职业开发者在2024年更好地掌握Flutter技术，本文将为您呈现一套全面且深度的Flutter学习路线图。flutter中文网flutterflutter中文官方文档第一阶段：基础入门与环境配置了解Flu
IDEA项目maven project没有出现plugins和Dependencies 冬瓜生鲜 IDEA Maven
背景：今天学习Springboot，但是用的apache-maven3.0，导入springboot1.5.19，Maven项目老是爆红线，还没有plugins和Dependencies方案一：方案二：jdk+SpringBoot+maven版本不对《我把maven版本换高，就成功解决了》Springboot版本SpringFrameworkjdk版本maven版本1.2.0版本之前63.01.2
ollama官方安装包哈拉少12 人工智能
一、官方安装包基本信息最新版本‌Windows版：v0.6.0.0（国内镜像版，大小999.8M）‌Linux版：v0.6.0（官方版，大小1.59G）‌macOS版：支持通过官网直接下载（版本号与Windows/Linux同步）‌支持平台‌桌面端：Windows（Win7及以上）、Linux（x86_64/ARM64）、macOS‌容器化部署：支持Docker（需配合DockerDesktop）
多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical 小小帅AIGC information extraction 人工智能自然语言处理语言模型多分类学术领域生物医学
AutomatedTextMiningofExperimentalMethodologiesfromBiomedicalLiterature从生物医学文献中自动挖掘实验方法文本paper：https://arxiv.org/abs/2404.13779github：本文做的就是微调DistilBERT去做多分类任务，训练自己的数据集，分类每个句子对应的实验方法。没有什么讲的。文章目录～1.背景动机
Spring Cloud 与微服务学习总结（14）—— 云原生时代，如何从 Java 开发者转型微服务？一杯甜酒 Spring Cloud与微服务 java 云原生 spring cloud 微服务微服务架构
前言根据维基百科定义，微服务不是整体应用程序中的一个层。相反，微服务是一个独立的业务功能，具有清晰的接口，并且可以通过内部组件实现分层架构。从战略角度来看，微服务架构基本上遵循“做一件事，就要做得好”的Unix哲学。为了应对传统单体架构的缺陷，微服务架构被企业广泛应用。然而，实践之前有很多问题都需要提前考虑清楚，比如Java背景的开发者是否更有优势？微服务、容器化、DevOps和CI/CD之间的关
《基于单片机的交通灯设计与实现（附论文+源代码）》 Blossom.118 单片机课程设计系列单片机嵌入式硬件单片机课程设计 51单片机工科软硬件技术 stm32 c++
1、项目背景交通灯控制系统是城市交通管理的重要组成部分，其作用是合理分配道路资源，缓解交通拥堵，保障行人和车辆的安全。传统的交通灯系统多为固定时长控制，而基于单片机的交通灯控制系统可以通过编程实现更灵活的控制逻辑，例如根据车流量调整信号时长，甚至实现智能交通管理。2、设计思想交通灯设计是以单片机AT89C51芯片作为核心原件，LED灯、八段数码管等构成交通灯显示系统，利用单片机的电源电路、时钟电路
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
C++：std::vector常用函数及用法详解湫兮之风 c++c++算法开发语言
std::vector是C++标准库中最常用的动态数组容器，提供了丰富的操作方法，支持动态扩展、插入、删除等操作。本文将详细介绍vector的常用函数及其用法，并配合代码示例说明。1.std::vector的基本使用在C++中，vector需要包含头文件：#include示例：#include#includeintmain(){std::vectorvec={1,2,3,4,5};for(intn
【Rust指南】快速入门开发环境 hello world_rust开发是啥 2401_89213119 rust 开发语言后端
文章目录前言一、Rust语言的背景和特点1、为什么要用Rust？2、与其他编程语言相比较3、Rust特别擅长的领域4、Rust的用户和案例5、Rust的优缺点二、Rust的安装与开发工具1、安装Rust2、开发工具三、编写helloworld1、从零到一打印helloworld2、代码与运行过程分析前言本篇博客是Rust语言系列的开篇之作，以后有关Ru
深入理解 Rust 中的模式匹配语法 Hello.Reader rust rust 开发语言
一、匹配字面量在Rust中，可以直接对具体的字面量进行匹配。例如：fnmain(){letx=1;matchx{1=>println!("匹配到字面量1"),_=>println!("其他值"),}}当x的值为1时，匹配成功并打印出对应的信息。对于需要对特定具体值进行处理的场景，这种写法非常直观有效。二、匹配命名变量在模式匹配中，使用命名变量可以将匹配到的值绑定到一个变量上。需要注意的是，在mat
第五章：HTML5 大升级：解锁未来技能我自纵横2023 HTML教程 html5 前端 html
第五章：HTML5大升级：解锁未来技能5.1语义化标签的「身份认证」一、语义化概念理解在HTML的旧时代，我们就像一群建筑工人，只能用一些通用的和标签来搭建网页，就好比用千篇一律的砖块盖房子，虽然能把房子盖起来，但很难从外观上看出房子的各个部分是做什么用的。而HTML5引入的语义化标签，就像是给每一块砖块都赋予了特殊的形状和用途，让网页的结构变得一目了然，就像给每个房间都贴上了清晰的标签，告诉搜索
flutter 解决 iPhone X 等刘海屏手机导航栏/底部黑线遮挡布局的方法头发还没秃a Flutter SafeArea 导航栏/底部黑线遮挡刘海屏 iPhone X TabBar背景
在上一节（改变TabBar背景颜色的方法）中有发现的一个问题：在iPhoneX等刘海屏手机中，会出现页面被导航栏或者底部黑线遮挡的问题：解决办法有两种：使用以下代码获取手机状态栏和底部黑线的高度，然后设置Widget的Padding或者Margin：//获取状态栏高度（上边距）finaldoubletopPadding=MediaQuery.of(context).padding.top;//获取
Android - ViewPager 从基础到进阶 whd_Alive Android 基础 Android ViewPager
前言好记性不如烂笔头，学习的知识总要记录下来，通过本文来加深对ViewPager方方面面的理解：ViewPager的基础介绍PagerAdapter+FragmentPagerAdapter&FragmentStatePagerAdapter与Fragment+TabLayout的联动使用Banner轮播图自定义切换动画首次登录引导界面闲话少说，下面进入正题。基础介绍ViewPager是Andro
A800架构设计与实战智能计算研究中心其他
内容概要《A800架构设计与实战》围绕新一代计算架构的技术演进与工程落地展开系统性论述。全书以分布式运算优化原理为切入点，通过对核心模块的层级化拆解，深入剖析多节点协同计算中的资源分配、任务调度及通信瓶颈突破方法。为强化理论与实践的结合，书中引入智能制造与云渲染两大典型场景的完整案例，覆盖从需求分析、架构设计到性能调优的全生命周期。技术维度实现路径应用价值架构设计核心模块拆分与重组降低系统耦合度分
行业洞察：未来趋势与发展机遇分析智能计算研究中心其他
内容概要在当今竞争激烈的商业环境中，行业洞察显得尤为重要。企业与投资者需不断关注行业动态，分析和把握市场趋势以获得先机。未来的市场将受到技术进步、消费者需求变化及政策调整等多个因素的影响，因此，深入洞察这些变化有助于在复杂的环境中避免风险并抓住机遇。通过掌握行业趋势，决策者可以更有效地制定战略，有针对性地应对市场挑战。本文将综合现有数据及案例，深入探讨包括科技、金融、制造等关键行业的发展动向，识别
Batch Normalization理解 zhimengxiang 图像处理人工智能图像处理
BatchNormalization理解BatchNormalization：批归一化我们在图像预处理过程中通常会对图像进行标准化处理，这样能够加速网络的收敛，如下图所示，对于Conv1来说输入的就是满足某一分布的特征矩阵，但对于Conv2而言输入的featuremap就不一定满足某一分布规律了（注意这里所说满足某一分布规律并不是指某一个featuremap的数据要满足分布规律，理论上是指整个训练
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

一文理解 Apache Spark DataSource V2 诞生背景及入门实战

实现 ReadSupport 接口

分区读取实现

使用 DataSource V2

你可能感兴趣的:(一文理解 Apache Spark DataSource V2 诞生背景及入门实战)