weixin_40828249

根据官网文档看Spark Streaming对接Kafka的两种方式, 以及如何实现"Exactly Once"语义

注: 本文算是本人的学习记录, 中间可能有些知识点并不成熟, 不能保证正确性. 只能算是对官网文档作了个翻译和解读, 随时有可能回来更新和纠错

上一篇文章讨论了Spark Streaming的WAL(Write Ahead Log)机制, 最后给出了三个流处理的语义:

不仅是在Spark Streaming, 在其他的实时处理框架下, 这也还是需要面对的问题

先简单理解一下这三个语义:

At most once: 每个记录最多被处理一次. 说直白一点, 应该是类似于"只管发送, 不管接收"这么个意思
At least once: 每个记录至少被处理一次. 并且官网的描述说: 这肯定比"At most once"要好, 因为它保证了数据不会丢. 但是呢, 它可能会导致数据重复处理
Exactly once: 每个记录就是准确地只处理一次, 不多不少, 不丢数据也不会重复处理. 官网也说了, 这很明显是最好的. 不过呢, 事情总有两面性的, 它既然在功能上完胜前两者, 那么肯定不会这么容易就实现的

上一篇文章也说了, WAL可以保证"At least once"语义. 在Spark Streaming对接Kafka的时候, 就有用到这个WAL机制的地方, 就是Receiver方式
(贴一下官网上的具体地址, 官网的布局找起来是真的有点绕…可能是因为全是英文, 不太习惯)http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html#approach-2-direct-approach-no-receivers

简要翻译一下:

第一段说: Receiver是Kafka consumer的高级API(略). 在这种情况下, Kafka过来的数据是通过一个receiver存储在每个Spark的Executor上的
第二段说: 默认的配置下, 会出现数据丢失. 不过问题不大, 可以通过开启WAL机制来保证数据零丢失. 它会同步地将Kafka过来地数据用WAL保存到分布式文件系统(如HDFS, 保障完整性, 上一篇文章也有提到过一句)

重点: Receiver模式默认不开启WAL, 开启了只能保证数据不丢失, 即"At least once"

(跳过部署代码. 使用Receiver模式的话, 在API中是KafkaUtils.createStream()这个方法, 后面有时间的话单独写一篇分析一下源码)

接着往下看:

继续翻译:

第一段: 这种模式下, Kafka的partition数量跟Spark并没有什么相互依赖的关系, 通过参数可以提高Kafka的topic中的partition数量, 但这会提高单个receiver消费这个topic时的线程数, 这并不会提高Spark处理数据的并行度
这里好像有点复杂, 主要是有几个小知识点:
1. 无论是Kafka的partition, 还是Spark的partition, 都是提高并行度->加快运行/处理速度的设计
2. Spark的一个partition会对应一个小的Task, 而一个Task对应一个线程, 线程对应的是Core的数量(即CPU中的核数). 而Spark对接Kafka的时候, 数据是要给到executor上的, executor的Core和Memory在Spark-submit的时候可以指定
3. 线程并不是越多越好. 理论上来说, 比如CPU有N个Core, 那么N个线程是最大化的处理速度. 举个通俗的例子来说, 单核CPU的话就是单线程最快, 而不是多线程最快. 在单核CPU上进行多线程运行, 只会使性能下降, 因为会引起很多的CPU上下文切换, 而单核CPU+单线程就不会, N核CPU+N个线程也不会
第二段: Kafka的DStream可能由不同的group(Kafka的consumer group是指代多个consumer组成的集合. 在这个场景下, consumer指的就是executor上的receiver)和topic创建, 可以用大量的receiver来提高接收数据的并行度
分开来看, 先看逗号前的半句. DStream吧, 用一张图就可以概括:

接着, 说到Kafka的consumer group, 注意它有这么几个特点:
1) 同一个consumer group可以并发消费多个partition的消息
2) 同一个partition也可以由多个consumer group并发消费
3) 但是在同一个consumer group中, 每个partition只能由其中一个consumer消费
这三句话有点绕, 我也没想好很简单的表述, 尽量理解一下吧. 因为这样一来, 后半句话也很好理解了:
0) 最重要的: "增加receiver的数量"跟"增加每个receiver上的线程数量(即文档中第二段的说法)"不是一个概念!!!
1) 增加receiver的数量, 就可以直接提高partition处理的并行度, 也就会提高Kafka对数据的处理速度
第三段: 如果用了WAL且写入像HDFS这样的文件系统, 收到的数据还是会被多份备份在日志中(简单地说, 一定程度上加大了存储负担, 因为每份数据都要多份存储啊). 然后, 可以设置一个存储级别: StorageLevel.MEMORY_AND_DISK_SER
这里有个词MEMORY_AND_DISK_SER:
1) MEMORY_AND_DISK指的是内存和磁盘共同存储. 优先在内存存储(为的是速度, 保证实时性), 不够的时候再存储到磁盘. 内存当然指的是executor的内存了, 记不记得Spark-submit的时候指定了executor的Core数量, 也指定了内存大小memory?
2) SER指的是序列化. 序列化就是一种转换操作, 常用于数据存储和数据传输, 代价就是会增加CPU消耗. 所以照理说, 要综合CPU性能和存储空间两者一起考虑决定

此外, Kafka消费是要通过offset来进行的, Spark Streaming在这个Receiver模式下, offset是怎么管理的呢?

(这个文档不一定精确, 但我看这个是最接近的了)
大概是说, Kafka自身就可以周期性地自动提交offset, 但我们也可以自己手动提交

在Receiver模式下是自动提交的, 那么提交去哪儿呢?

我从别处盗了一张图来(因为还是没在官网上找到精确的文档和图, 这个网站属实有点陌生…)

也就是说, 可以把offset提交到Zookeeper上. 结合上面说的, 那就是Receiver模式下, Receiver会定期向Zookeeper更新offset
不过呢, 总要假设不靠谱的情况的. 如果WAL(注意是write ahead的, 肯定在所有动作之前)先保存了数据, 然后数据也消费好了, 但是最后更新消费的offset时, 即offset发送到Zookeeper的时候, 发送失败了呢? 好吧, 不过问题不大, 就从上一次保存的offset再重新消费一次就行了
所以, Receiver并不能保证"Exactly once", 只能保证"At least once"!

好了, 终于把Receiver模式讲完了. 不过呢, 很不幸, 它已经是过时的了… 新的Kafka版本下, 不支持Receiver模式了(应该没理解错吧?)

好吧, 但是按照常理, Yes的肯定有些地方比No的好. 那么来看看这另一种模式, Direct模式
先趁热打铁, 对比一下offset管理的过程(这图仍然是盗的, 官网上我是真找不到, 很无语…)

乍一看, Zookeeper那个铲子哥呢? 还有, Receiver呢? WAL呢?
ok, 怀着问题去学习, 挺好的

先看网页顶部这一段介绍

划重点: Kafka的partition和Spark的partition是1:1的. 什么意思? 上面已经解释过了, 就不用说了吧

简而言之, 数据partition的处理并行度可以有效地控制和提高了! 而不是干巴巴地通过增加线程来提高单个partition的处理速度！

接着看正文, 继续翻译

第一大段: 这是一种没有receiver的"direct"模式, 更强大的点对点保障(指的Kafka到Spark). 它周期性地去找Kafka要最新的offset, 每个topic中的每个partition都要, 根据offset的范围来处理每个批次. 当处理(Kafka)数据的(Spark)job连接, Kafka的低级API(应该是跟Receiver的高级API对应, 略, 暂时不知道低级高级是什么意思)将会去Kafka上读取定义好的offset范围, 就像从文件系统读文件一样. 其他就是说一下版本, 知道就行
几个重点:
1. 从Kafka取offset(看来offset的管理确实没用到Zookeeper了)
2. offset有范围, 按批读取(executor的进程根据offset range去读取该批次对应的消息即可, 一段offset在Kafka中能唯一确定一条消息的, 这个很好理解). 那么结合之前"Kafka和Spark的partiton 1:1", 是不是好像能有所联系?
  我的理解是这样: 在Receiver模式中, Spark的partition和Kafka中的partition并不是相关的, 所以如果增加Kafka每个topic的partition数量, 也仅仅是为receiver增加了处理消费对应topic的线程(此时数据已经到达executor了), 并没有增加Spark在处理数据上的并行度
  说白了, 单个Task的计算速度也许加快了, 可是Task的并行度很差. 即便加快了单个Task的执行速度, 可能也跑不过并行计算(这个道理很容易想明白, 像MapReduce这样的分布式计算框架, 本身就是单机的计算力不足的背景下所产生的. 既然不能直接扩展计算力了, 那就提高并行度, 也就是加机器来解决)
  那么就要说到Direct模式了, 它确实是Kafka的partition和Spark的partition一一对应. 这样的话, Spark Streaming对接Kafka的性能问题就全部交给了"partition数量(Task数量) = executor数量 * Core数量"这样一个公式(个人理解). 而executor数量和每个executor的Core数量都是可以设置的, 问题就简化了
  且相比Receiver模式来说, 使用Direct模式的Spark集群是不是有了更好的可扩展性? 我觉得这是非常直观的对比了
  此外, 我看到另外一个说法"Spark Streaming会周期性的获取Kafka中每个Topic的每个partition中的最新offsets, 即通过Kafka API读取Topic中每个partition最后一次读的offset, Spark的partition与之一一对应并根据这个offset与上一次的offset构成的范围进行读". 我觉得是比较有道理的, 但是官网上没有找到对应的描述, 还暂时存疑
3. 提到了"批次", 那么有一个概念强调一下: Spark Streaming并不是"真真正正的实时流处理", 它是一个"时间间隔很短的微小批处理", 而不是"来一条数据就直接处理掉". 放一张官网的图:
第二大段:
1. 简化的并行度. 使用KafkaUtils.directStream()这个API, Spark Streaming就会创建和Kafka partition一样多的RDD partition
2. 效率. 在Receiver模式下想要实现零数据丢失的话, 需要先来一个WAL, 而且它还要备份(如果是HDFS的话, 我猜是得等HDFS备份好了才算成功写入WAL). 数据在Kafka还需要备份(Leader复制两份给Follower), 然后还要WAL一次. 相比之下, Direct模式没有receiver, 也就不需要WAL. 然后, 数据备份工作由Kafka来, 可以保障数据恢复(但可没说数据消费零丢失哦)
  简而言之, 把WAL这个操作省去了(其实在这一段这么看来, 这个"需要进行备份"的"ahead"操作似乎是有点多余, 新版本的Kafka对它进行了No, 确实是挺有依据的, 好像确实没有必要等它完成, 太影响性能了)
3. Exactly once语义.前面几行"批判"了一下Receiver模式可能存在的多次消费问题, 然后追根溯源, 找到了这个的原因: offset最后更新到Zookeeper的时候可能发生意外. 所以, 在这个Direct模式下, 用的是低级的Kafka API, 不用Zookeeper了(这样看起来, 把offset交给Kafka管理真的是有道理的! 然后, 高级低级API的区别可能是能不能操作外部组件吧), offset将在checkpoint被保存(暂不讨论checkpoint). 这消除了Spark Streaming和Zookeeper/Kafka之间的不一致性(应该指的是保存的offset和实际消费到的offset保持一致), 即使出现意外情况, 也可以保证数据消费的Exactly once. 但是, 需要做额外的工作来保障这个Exactly once(前面说了吧, 不会那么容易实现的…). 给了两种方式, 一个是idempotent, 幂等; 一个是atomic transaction, 原子性的事务, 它们需要在程序中实现, 以正确保存result和offset

总的来说, Spark Streaming对接Kafka管理offset有两种方式:

通过checkpoint机制向HDFS存储metadata, 来实现offset的管理
通过代码逻辑对offset进行读取和提交

接着看, 附了一个蓝色链接提示我们去看, 先不急. 不如先思考一下, 为什么要用幂等和事务来处理呢? 如果不照做, 会怎么样呢? 真的就不能了吗?

既然说了是要在程序中实现, 那么代码一定有先后顺序对吧? 假设是这样的代码顺序:
("消费数据并保存result"一般来说就是业务逻辑, 可能长可能短, 但是是有可能崩的)

5. 最好的情况: 什么问题也不出, 正常执行. 这时候, 无论是先保存result, 还是先保存offset, 都没有关系
此时就是"Exactly once"语义, 但是并不是每次都能好运的, 要设计容错方案
6. 不太好的情况: 出问题了, 但是还好, 是result保存了, offset没保存. 即上面的程序执行了一半

这个时候呢, 是"At least once"语义, 即数据是不会少消费的, 但是不防止重复消费
7. 最不好的情况: 出问题了, 而且代码里是保存offset在先, 消费数据和保存result在后, 且程序又是执行到一半崩了

我觉得这应该就是"At most once"语义了…

所以, 从"两害相权取其轻"这个思想来说, 好像是应该先读取数据, 再保存offset? 不过我也只是初学不久, 没有实践过, 只是逻辑上的推导, 就不妄加推测了

那能不能出错的情况下实现"Exactly once"呢? 不然的话和之前的也没什么区别啊, 反正都要祈祷它不出错

那么现在应该点进去刚才那个蓝色链接了, 可以看到官网对这两个方式做了详细些的介绍:

坚持我们的主题, 根据官网文档学习
也就是继续翻译:

第一大段: 输出操作是有"At least once"语义的(应该说的是先保存result, 后保存offset的那种代码), 在一个worker(Spark的工作节点)挂掉的时候, 数据可能被重复消费. 写入的文件系统有可能不允许写入相同数据(以我的理解来说, 比如说MySQL的主键冲突), 总之需要额外的操作来达到"Exactly once"语义
第一大段之后, 开始介绍这两个了
1. 幂等性的更新. 多次的尝试也只会写入相同的数据
  幂等是数学的概念, 说的是f(x) = f(f(x)), 那也就是无论计算几次, 结果都一样
  从逻辑上讲, At least once + 幂等 = Exactly once, 借助上面那个幂等小公式应该也可以理解
  具体的话, 我推荐这篇文章(因为我不懂): https://cloud.tencent.com/developer/article/1430049
2. 事务性的更新. 保证"update"操作的原子性(拿上面的例子来说, 保存result和保存offset这两个操作必须同时执行. 要么同时成功, 要么同时失败, 不能分割开来执行!)
  简单回顾一下事务的原子性. 贴一下百度百科对"事务的原子性"的解释:
  
  插一句, 为什么叫"原子性"呢? 原子的其他三种性质(一致性/隔离性/持久性)其实按字面意思都很好理解, 就原子性有点抽象. 那就还是贴一下百度百科对"原子"的解释(我觉得原子性借助的是化学的原子概念, 究竟是什么那就不钻牛角尖了):
  
  顺便举个常见的事务例子, 银行转账, 张三转账500给李四, 也就是张三-500, 李四+500对吧, 那肯定不能张三-500, 李四没有+500啊, 出多大的故障都不能, 不然就出事了
  当然, 事务中处理错误也很简单, 回滚即可, 只要不提交都不算数. 以一段超简单的java操作JDBC代码为例:
  
  回到官网的文档上来, 其实也差不多了(主要是因为我不太懂具体怎么做…)
  i) 根据批处理的时间和partition在RDD中的序号, 创建一个identifier, 在Streaming Application中进行唯一区分
  说实话, 这个我没怎么看懂, 还需要点水平
  ii) 我觉得这里的思想是一个"upsert"的思想. 也就是说, 保存result的时候(因为说了是update external system, 那就肯定不是保存offset了), 先判断有没有这样的数据已经存在/提交过(比如说数据库的唯一主键), 没有的话就commit, 有就skip(跳过)

现在再看一下Spark Streaming以Direct模式对接Kafka的offset管理这幅图, 是不是就很好理解这个过程了呢?

然后再对比一下Receiver模式下的offset管理吧:

这样一趟, 我们根据官方文档, 把Spark Streaming对接Kafka的两种方式, 以及三种语义的实现(最重要的是Exactly once), 都学习了一遍. 有一说一, 我觉得很多知识点, 知道了一些核心设计和底层知识之后(比如partition的并行, CPU的核数与线程数的关系), 很多逻辑都能直接想到的. 我在写这篇文章的时候, 好几次根据前面的情况, 直接就猜想了一下它是怎么解决的, 然后看后面的文档, 果真如此

总而言之, 我觉得学大数据属实没有那么轻松, 知识面还是非常广的. 不仅有很多新的陌生的组件, 而且有好几门计算机基础课程的掌握和逻辑发散, 还是有很多很多地方需要学习的

el-table合并相同数据列屿东 vue.js javascript 前端 elementui
el-table合并相同数据列element-plus的文档给的合并行和列的示例都是写死的指定行或列，应用场景太小，对于下图需求完全不能满足。![在这里插入图片描述](https://img-blog.csdnimg.cn/871380c4f02843b7b8df1cb652785b88.png我们需要实现将表头第一行根据相同数据项进行合并列，以下是实现代码el-tabel添加合并方法逻辑代码//
Kafka、ActiveMQ、RabbitMQ、RocketMQ消息队列和消息中间件MQ与RabbitMQ面试题【推荐】王大师王文峰 Java基础到框架面经吐血整理 RabbitMQ 消息队列消息中间件面试题 kafka activeMQ
‍Kafka、ActiveMQ、RabbitMQ、RocketMQ消息队列和消息中间件MQ与RabbitMQ面试题【推荐】学习目标（附超链接传送门）❔消息队列前言❔面试官提问：为什么使用消息队列？消息队列有什么优点和缺点？❔消息队列怎么路由❔为什么使用消息队列，他的场景有哪些❔面试官问:MQ消息队列是什么❔消息队列怎么传输❔其他消息队列应用场景❔传统的做法有两种1.串行的方式；2.并行方式❔Kaf
[python][whl]pyltp的whl格式文件所有版本下载地址汇总 FL1623863129 Python python 开发语言
pyltp：Python中的中文自然语言处理工具在数字化时代，自然语言处理（NLP）成为了与机器进行交互的关键技术。对于中文，由于其独特的语言结构和复杂性，专门的工具和库显得尤为重要。pyltp正是这样一个为中文NLP任务设计的Python库，它封装了LTP（LanguageTechnologyPlatform）的核心功能，使得开发者能够轻松地在Python环境中进行中文文本的处理和分析。pylt
20250117面试鸭特训营第25天 Again_acme 面试鸭特训营面试网络职场和发展
更多特训营笔记详见个人主页【面试鸭特训营】专栏2501171.什么是用户态和内核态？用户态（UserMode）和内核态（KernelMode）是操作系统中的两种运行模式，用于区分应用程序与操作系统内核的操作权限。用户态（UserMode）权限应用程序在用户态下运行，权限较低，不能直接访问硬件或进行特权操作和敏感操作。应用程序需要通过系统调用与内核进行通信，由内核代为执行敏感操作。安全性用户态的优势
20241230面试鸭特训营第7天 Again_acme 面试鸭特训营面试职场和发展
更多特训营笔记详见个人主页【面试鸭特训营】专栏2412301.MySQL中的事务隔离级别有哪些？常见并发问题名称含义脏写一个事务修改了另一个未提交事务的数据脏读一个事务读取了另一个未提交事务修改的数据重复读一个事务多次读取同一数据时，由于其他事务的修改，返回了不同的结果幻读一个事务前后两次在进行范围查询时，由于另一个事务的插入操作，导致前后读取不一致读未提交一个事务可以看到其他事务未提交的数据修改
20250101面试鸭特训营第9天 Again_acme 面试鸭特训营面试职场和发展
更多特训营笔记详见个人主页【面试鸭特训营】专栏2501011.MySQL中如何解决深度分页的问题？什么是深度分页问题--查询第2页的10条数据，即第21~30条数据select*fromstudentorderbyidlimit2,10;--查询第200000页的10条数据，即第200001~200010条数据select*fromstudentorderbyidlimit200000,10;在分
20250110面试鸭特训营第18天 Again_acme 面试鸭特训营面试职场和发展
更多特训营笔记详见个人主页【面试鸭特训营】专栏2501101.常见的HTTP状态码有哪些？状态码由三位数组组成，且第一位数字表示类别常见的HTTP状态码分为五大类1xx：信息响应状态码标识含义100Continue服务器已接收请求的初步部分，客户端应继续请求101SwitchingProtocols服务器同意协议，如从HTTP切换到WebSocket2xx：成功状态码标识含义200OK请求成功，服
C++语言的区块链沈霁晨包罗万象 golang 开发语言后端
C++语言的区块链实现区块链技术作为一种新兴的分布式账本技术，近年来在金融、供应链管理、身份认证等多个领域得到了广泛关注与应用。C++语言因其高性能和精细的资源管理能力，成为实现区块链技术的重要选择之一。本文将探讨C++语言在区块链中的应用以及如何使用C++实现一个简单的区块链。一、区块链的基本概念区块链是一种由多个区块组成的链式数据结构，每个区块包含一定数量的交易信息和指向前一个区块的哈希值。区
Clojure语言的数据库编程网络空间站包罗万象 golang 开发语言后端
Clojure语言的数据库编程引言在当今社会，数据的处理和管理已经成为一个不可或缺的部分。无论是互联网应用、企业系统还是移动应用，都需要与数据库进行频繁的交互。因此，选择一种合适的编程语言和相应的库来进行数据库编程显得尤为重要。Clojure作为一门现代的函数式编程语言，因其独特的设计理念和强大的并发处理能力，越来越受到开发者的青睐。本文将详细介绍Clojure语言在数据库编程中的应用，包括连接数
强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN 洪小帅游戏 python gym pytorch 深度学习
强化学习代码实践1.DDQN:在CartPole游戏中实现DoubleDQN1.导入依赖2.定义Q网络3.创建Agent4.训练过程5.解释6.调整超参数在CartPole游戏中实现DoubleDQN（DDQN）训练网络时，我们需要构建一个使用两个Q网络（一个用于选择动作，另一个用于更新目标）的方法。DoubleDQN通过引入目标网络来减少Q-learning中过度估计的偏差。下面是一个基于PyT
深度学习中交叉熵函数的导数:(极简) 洪小帅深度学习人工智能神经网络 python
文章目录前言一.交叉熵函数的导数二.Z,y为有n条数据的矩阵前言另一个博主有更详细的推导https://blog.csdn.net/chaipp0607/article/details/101946040一.交叉熵函数的导数softmax:令一条数据最后的输出为[z1,z2,z3,z4,…,z10],这里令输出层的神经元数量为10pi=ezi∑j=110ezjpi=\frac{e^{z_i}}{\
Flask学习笔记(一):基本框架和HTTP处理洪小帅 flask 学习笔记 python web
文章目录前言flask学习笔记1.基本框架1.1视图函数与路由1.2模板与静态文件2.HTTP与flask2.1Request对象2.2request获取url参数2.2.1args.get()方法2.2.2args.getlist()方法2.3处理请求2.4重定向总结前言兄弟们,flak是真好用吧!本文是笔者学习flask时做的笔记的第一篇,记录了一些最基础且常用的入门级操作.flask学习笔记
深入解析Java中的动态代理与反射机制爪哇学长 Java应用程序编程接口 java python 开发语言
文章目录反射机制工作原理内部实现细节高级使用技巧示例代码动态代理工作原理内部实现细节高级使用技巧示例代码基于接口的代理（JDKProxy）CGLIB代理示例（需引入CGLIB库）实践总结反射机制工作原理Java反射机制允许程序在运行时检查或“自省”类的信息，并可以创建对象实例、调用方法、访问字段等操作。它主要通过java.lang.reflect包提供的API来实现。内部实现细节Class类：每个
Java 密封类 (Sealed Classes) 深度解析爪哇学长 Java应用程序编程接口 java python 开发语言
文章目录语法说明定义密封类定义子类使用场景探讨实际应用示例与其他语言特性的结合使用Java作为一种面向对象编程语言，提供了继承机制来实现代码复用和扩展。然而，无限制的继承可能导致代码库变得难以维护，甚至引入安全隐患。为了应对这一挑战，Java引入了密封类的概念。密封类允许开发者明确指定哪些类可以继承该类，从而创建一个封闭且可控的类层次结构。这不仅提高了代码的安全性和可维护性，还为模式匹配等高级特性
2025美赛数学建模B题思路+模型+代码+论文灿灿数模数学建模
2025美赛数学建模A题+B题+C题+D题+E题思路+模型+代码（1.24第一时间更新，更新见文末名片）论文数学建模感想纪念逝去的大学数学建模：两次校赛，两次国赛，两次美赛，一次电工杯。从大一下学期组队到现在，大三下学期，时间飞逝，我的大学建模生涯也告一段落。感谢建模路上帮助过我的学长和学姐们，滴水之恩当涌泉相报，写下这篇感想，希望可以给学弟学妹们一丝启发，也就完成我的想法了。拙劣的文笔，也不知道
flutter在使用gradle时的加速 LuiChun flutter
当我使用了一些过时的插件的时候，遇到了一些问题比如什么namespace问题等，因为有些插件库没有更新了，或者最新版本处于测试阶段于是我就删除这些旧插件(不符合我要求的插件)于是根据各论坛的解决方法去做了以下的工作1:项目中删除了这些插件2:项目中删除了这些引用3:删除了gradle的缓存4:更换了新版本的gradle的版本5:清除flutter缓存6:重新下载构建插件7:运行后报错这个办法居然行
Python 应用打包成 APK【全流程】今晚务必早点睡 Python 运维 python 开发语言 apk
将Python应用打包成APK。文章目录步骤1:安装Buildozer和其依赖Linux(Ubuntu)环境下安装:步骤2:创建你的Python应用步骤3:配置Buildozer步骤4:打包成APK总结步骤1:安装Buildozer和其依赖首先确保你的系统中已安装Python和pip。接下来，我们需要安装Buildozer以及一些必要的系统依赖。Linux(Ubuntu)环境下安装:安装Pytho
UE虚幻引擎No Google Play Store Key：No OBB found报错如何处理？东方猫虚幻游戏引擎
问题描述：UE成功打包APK并安装过后，启动应用时提示：```NoGooglePlayStoreKeyNoOBBfoundandnostorekeytotrytodownload.PleasesetoneupinAndroidProjectSettings```UE配置默认在打包APK时会附加生成一个OBB文件，如果只将APK拷贝到设备上安装就会出现这个错误。解决办法：解决办法有两种：打包目录自带
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Perl语言的语法糖网络空间站包罗万象 golang 开发语言后端
Perl语言的语法糖引言在编程语言的世界中，语法糖是一种极其重要的概念。它是指那些通过简单的语法或特定格式来增强语言可读性的功能，不仅可以简化代码，还能使得代码更加优雅。在众多编程语言中，Perl以其灵活性和强大的文本处理能力而著称。然而，Perl的语法糖更是其魅力所在，它不仅提高了开发效率，还使得代码更加直观易读。本文将深入探讨Perl语言中的语法糖，分析它们的工作原理及其对开发过程的影响。一、
ubuntu安装RabbitMQ xiegongmiao 消息队列 rabbitmq
一.RabbitMQ的安装1)首先必须要有Erlang环境支持安装之前要安装一些必要的库：#apt-getinstallbuild-essential#apt-getinstalllibncurses5-dev#apt-getinstalllibssl-dev#apt-getinstallm4#apt-getinstallunixodbcunixodbc-dev#apt-getinstallfre
Spring 6 第6章——单元测试：Junit qw949 Spring 6 spring 单元测试 junit
一、整合JUnit5在之前的测试方法中，几乎都能看到以下两行代码：ApplicationContextcontext=newClassPathXmlApplicationContext("xxx.xml");Xxxxxxx=context.getBean(Xxxx.class);这两行代码的作用是创建Spring容器，最终获取到对象，但是每次测试都需要重复编写针对上述问题，我们需要的是程序能自动帮
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
C语言蓝桥杯组题目小猿_00 C语言入门到超神 c语言蓝桥杯开发语言
文章目录前言创作不易，你的鼓励，我的动力，学有所成，则是意义；题目第一题.1,2,3,4能组成多少个互不相同且无重复数字的三位数？都是多少？第二题:一个整数，它加上100后是一个完全平方数，再加上168又是一个完全平方数，请问该数是多少？第三题:输入某年某月某日，判断这一天是这一年的第几天？第四题:输入三个整数X，Y，Z，请把这三个数由小到大输出第五题:C语言用*号输出字母C的图案1第六题:C语言
leetcode206-反转链表记得早睡~ 算法小课堂链表数据结构 leetcode 算法
leetcode206思路考虑使用双指针的方式来进行反转，定义一个pre指针，指向需要反转的位置，cur指针代表当前位置，一层层进行反转，中间需要一个临时指针也就是代码中的node，因为一旦反转，之前的链路就断开了，比如cur.next=pre设置以后，原来的cur.next就找不到了，所以需要设置一个临时指针保存原本的cur.next，这样才能继续下一步操作图片来自代码随想录实现varrever
在WSL上安装rabbitmq 小嘿黑15斤 ubuntu ubuntu
WSL在Windows10上安装适用于Linux的Windows子系统(WSL)资源rabbitmq依赖于erlang，所以要先安装erlang，最好不要用apt-getinstall安装，ubantu内自带的er-lang版本较低，再加上erlang和rabbitmq需要匹配，最好安装的都是最新的。一、资源地址RabbitMQ官网安装教程：https://www.rabbitmq.com/ins
C++数据结构——中序遍历二叉树祖安大龙 C/C++算法数据结构数据结构 c++算法
中序遍历二叉树按完全二叉树的层次遍历给出一棵二叉树的遍历序列（其中用0表示虚结点），要求输出该二叉树的深度及中序遍历该二叉树得到的序列。输入格式:首先输入一个整数T，表示测试数据的组数，然后是T组测试数据。每组测试数据首先输入一个正整数n（n≤1000），代表给出的二叉树的结点总数（当然，其中可能包含虚结点）。结点编号均为正整数,且各不相同。然后输入n个正整数，表示按完全二叉树（即第1层1个结点，
java testcase类_Junit核心——测试类（TestCase）、测试集（TestSuite）、测试运行器（TestRunner）... 勃对立 java testcase类
首先，把这三个定义简单的说明一下：1、测试类(TestCase)：一个包含一个或是多个测试的类，在Junit中就是指的是包含那些带有@Test注解的方法的类，同一样也被称作“测试用例”;2、测试集(TestSuite)：测试集是把多个相关测试归入一个组的表达方式，在Junit中，如果我们没有明确的定义一个测试集，那么Juint会自动的提供一个测试集，一个测试集一般将同一个包的测试类归入一组；3、测
react16版本之后开发中的注意点之setState异步 _云淡风轻_ react
setState（setState底层为异步的原因）防止短时间内多次修改setState影响虚拟dom的比对及render方法的执行。因此，setState是异步函数。那么及时获取state数据就要在异步函数执行完毕而非按照代码从上到下的执行来获取。如：state={inputValue:"12"};this.setState((prevState)=>({inputValue:''}),()=>
Logback 未按预期过滤到控制台输出的日志级别肉三 Java jvm java 开发语言
目标是：-Dlog.level=DEBUG通过JVMargs（）（默认）仅将所需的日志级别写入控制台输出INFO。（不起作用）将DEBUG级别写入ROLLING_FILE_DEBUG文件附加器。（工作正常）将INFO级别写入ROLLING_FILE文件附加器。（工作正常）我想定义在控制台中应输出什么，通过使用INFO默认方式传递JVM参数，RollingFileAppender附加程序按预期工作。
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

根据官网文档看Spark Streaming对接Kafka的两种方式, 以及如何实现"Exactly Once"语义

你可能感兴趣的:(根据官网文档看Spark Streaming对接Kafka的两种方式, 以及如何实现"Exactly Once"语义)