javastart

Spark Streaming 图片处理案例介绍

本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理，然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。

2 评论：

周明耀, 技术带头人、项目经理, HikVision

关闭 [x]

技术狂热爱好者、自由撰稿人，2004 年毕业于浙江大学，目前在国内一家著名物联网企业工作，担任大数据项目组项目经理、技术带头人，对 Java、Hadoop、开源技术、Linux 内核、MySQL 数据库等有较多研究。您可以通过 developerWorks 社区与周明耀进行交流。

2015 年 8 月 10 日

内容
- 前文回顾
- 流式处理框架特征
- 流式处理框架技术需求
- Spark Streaming 所处地位
- Spark Streaming 应用实例
- 结束语
- 参考资料
- 评论

在 IBM Bluemix 云平台上开发并部署您的下一个应用。

开始您的试用

前文回顾

前文《Spark Streaming 新手指南》介绍了 Spark Streaming 的基本工作原理，并以 WordCount 示例进行解释。此外，针对 Spark Streaming 的优缺点也做了一些描述。

本文重点主要是解释流式处理架构的工作原理，让读者对 Spark Streaming 的整体设计原理及应用场景有所了解。

回页首

流式处理框架特征

流式处理框架的特征主要有以下五个方面。

1. 强实时处理

流式处理需要确保数据的实时产生、实时计算，此外，也需要确保处理结果的实时发送。大多数流式处理架构多采用内存计算方式，即当数据到达后直接在内存中计算，只有少量数据会被保存到硬盘，或者干脆不保存数据。这样的系统架构可以确保我们能够提供低延迟计算能力，可以快速地进行数据计算，在数据较短的时间内完成计算，体现数据的有用性。对于时效性特别短、潜在价值又很大的数据可以优先计算。

2. 高容错能力

由于数据很容易丢失，这就需要系统具有一定的容错能力，要充分地利用好仅有的一次数据计算机会，尽可能全面、准确、有效地从数据流中得出有价值的信息。

3. 动态变化

一般采用流式处理架构的应用场景都存在数据速率不固定的情况，即可能存在前一时刻数据速率和后一时刻数据速率有较大的差异。这样的需求要求系统具有很好的可伸缩性，能够动态适应流入的数据流，具有很强的系统计算能力和大数据流量动态匹配的能力。一方面，在高数据流速的情况下，保证不丢弃数据，或者识别并选择性地丢弃部分不重要的数据；另一方面，在低数据速率的情况下，保证不会太久或过多地占用系统资源。

4. 多数据源

由于可能存在很多的数据源，而且各数据源、数据流之间又可能是相互独立的，所以无法保证数据是有序的，这就需要系统在数据计算过程中具有很好的数据分析和发现规律的能力，不能过多地依赖数据流间的内在逻辑或者数据流内部的内在逻辑。

5. 高可扩展

由于数据是实时产生、动态增加的，即只要数据源处于活动状态，数据就会一直产生和持续增加下去。可以说，潜在的数据量是无限的，无法用一个具体确定的数据实现对其进行量化。系统在数据计算过程中，无法保存全部数据。由于硬件中没有足够大的空间来存储这些无限增长的数据，也没有合适的软件来有效地管理这么多数据。

回页首

流式处理框架技术需求

针对具有强实时处理、高容错能力、动态变化、多数据源、高可扩展等特征的流式处理框架需求，那么理想的流式处理框架应该表现出低延迟、高吞吐、持续稳定运行和弹性可伸缩等特性，这需要系统设计架构、任务执行方式、高可用性技术等关键技术的合理规划和良好设计。

系统设计架构

系统架构是系统中各子系统间的组合方式，流式处理框架需要选择特定的系统架构进行流式计算任务的部署。当前，针对流式处理框架较为流行的系统架构主要有无中心节点的 point-point 架构和有中心节点的 Master-Slaves 架构两种。

(1) 对称式架构。如图 1 所示，系统中各个节点的作用是完全相同的，即所有节点之间互相可以做备份，这样整个系统具有良好的可伸缩性。但是由于不存在中心节点，因此在资源调度、系统容错、负载均衡等方面需要通过分布式协议帮助实现。目前商业产品 S4、Puma 属于这类架构，S4 通过 Zookeeper 实现系统容错、负载均衡等功能。

图 1. 无中心节点架构

(2) 主从式系统架构。如图 2 所示，系统存在一个主节点和多个从节点。主节点负责系统资源的管理和任务的协调，并完成系统容错、负载均衡等方面的工作，从节点负责接收来自于主节点的任务，并在计算完成后进行反馈。各从节点间可以选择是否数据往来，但是系统的整体运行状态依赖主节点控制。Storm、Spark Streaming 属于这种架构。

图 2. 有中心节点架构

任务执行方式

任务执行方式是指完成有向任务图到物理计算节点的部署之后，各个计算节点之间的数据传输方式。数据的传输方式分为主动推送方式和被动拉取方式两种。

(1) 主动推送方式。在上游节点产生或计算完数据后，主动将数据发送到相应的下游节点，其本质是让相关数据主动寻找下游的计算节点，当下游节点报告发生故障或负载过重时，将后续数据流推送到其他相应节点。主动推送方式的优势在于数据计算的主动性和及时性，但由于数据是主动推送到下游节点，往往不会过多地考虑到下游节点的负载状态、工作状态等因素，可能会导致下游部分节点负载不够均衡；

(2) 被动拉取方式。只有下游节点显式进行数据请求，上游节点才会将数据传输到下游节点，其本质是让相关数据被动地传输到下游计算节点。被动拉取方式的优势在于下游节点可以根据自身的负载状态、工作状态适时地进行数据请求，但上游节点的数据可能未必得到及时的计算。

大数据流式计算的实时性要求较高，数据需要得到及时处理，往往选择主动推送的数据传输方式。当然，主动推送方式和被动拉取方式不是完全对立的，也可以将两者进行融合，从而在一定程度上实现更好的效果。

高可用性技术

流式计算框架的高可用性是通过状态备份和故障恢复策略实现的。当故障发生后，系统根据预先定义的策略进行数据的重放和恢复。按照实现策略，可以被细分为被动等待 (passive standby)、主动等待 (active standby) 和上游备份 (upstream backup) 这 3 种策略。

(1) 被动等待策略

图 3 所示，主节点 B 进行数据计算，副本节点 B’处于待命状态，系统会定期地将主节点 B 上的最新的状态备份到副本节点 B’上。出现故障时，系统从备份数据中进行状态恢复。被动等待策略支持数据负载较高、吞吐量较大的场景，但故障恢复时间较长，可以通过对备份数据的分布式存储缩短恢复时间。该方式更适合于精确式数据恢复，可以很好地支持不确定性应用计算，在当前流式数据计算中应用最为广泛。

图 3. 被动等待策略

(2) 主动等待策略

图 4 所示，系统在为主节点 B 传输数据的同时，也为副本节点 B’传输一份数据副本。以主节点 B 为主进行数据计算，当主节点 B 出现故障时，副本节点 B’完全接管主节点 B 的工作，主副节点需要分配同样的系统资源。该种方式故障恢复时间最短，但数据吞吐量较小，也浪费了较多的系统资源。在广域网环境中，系统负载往往不是过大时，主动等待策略是一个比较好的选择，可以在较短的时间内实现系统恢复。

图 4. 主动等待策略

(3) 上游备份策略

每个主节点均记录其自身的状态和输出数据到日志文件，当某个主节点 B 出现故障后，上游主节点会重放日志文件中的数据到相应副本节点 B’中进行数据的重新计算。上游备份策略所占用的系统资源最小，在无故障期间，由于副本节点 B’保持空闲状态，数据的执行效率很高。但由于其需要较长的时间进行恢复状态的重构，故障的恢复时间往往较长，如需要恢复时间窗口为 30 分钟的聚类计算，就需要重放该 30 分钟内的所有元组。可见，于系统资源比较稀缺、算子状态较少的情况，上游备份策略是一个比较好的选择方案。如图 5 和图 6 所示。

图 5. 上游备份策略 1

图 6. 上游备份策略 2

回页首

Spark Streaming 所处地位

Spark Streaming 是 Spark 的扩展，专门用来实现流式分析方式处理数据。Spark Streaming 支持 Kafka、Flume、Twitter、ZeroMQ、Kinesis、TCP Sockets 等多种数据源。此外，也可以使用一个复杂的算法，如 map、reduce、join、window，这些来处理数据。处理完的数据可以被发送给文件系统、数据库、其他第三方。图 7 引用自 Spark Streaming 官网，比较好地描述了 Spark Streaming 的地位。

图 7. Spark Streaming 地位

Spark Streaming 接收输出数据流，然后将这些数据分割后放入批处理流程 (batches)，Spark 引擎稍后会处理这些数据，最终生成计算结果并发送到外部系统。

笔者的前一篇文章已经详细地通过 WordCount 示例介绍了 Spark Streaming 的运行次序、基本架构、RDD 概念，请读者参阅文章《Spark Streaming 新手指南》。

回页首

Spark Streaming 应用实例

我们以一个流式处理图片的例子作为本文的实例。我们把图片文件通过基于 Spark Streaming 的程序读取成数据流，重新将数据流写成图片文件并存储在文件系统上。

整个程序的流程图如图 8 所示。

图 8. 图片处理程序流程图

如图 8 所示，第一步我们需要实现一个服务，该服务不停地向 HDFS 文件系统里写入图片文件，这些图片文件后续会被用来当作数据源的原始数据，并被进行处理。代码如清单 1 所示。

清单 1. 循环写入图片文件代码

public ServerSocket getServerSocket(int port){
ServerSocket server=null;
try {
server = new ServerSocket();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return server;
}

public void sendData(String path,ServerSocket server){
OutputStream out=null;
FileInputStream in=null;
BufferedOutputStream bf =null;
try {
out = server.accept().getOutputStream();
File file = new File(path);
in = new FileInputStream(file);
bf = new BufferedOutputStream(out);
byte[] bt = new byte[(int)file.length()];
in.read(bt);
bf.write(bt);
} catch (IOException e) {
e.printStackTrace();
}finally{
if(in!=null){
try {
in.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
if(bf!=null){
try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
if(out!=null){
try {
out.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
if(!server.isClosed()){
try {
server.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}

public static void main(String[] args) {
if(args.length<4){
System.err.println("Usage:server3 <port> <file or dir> <send-times> <sleep-time(ms)>");
System.exit(1);
}

Map<Integer, String> fileMap = null;

Server s = new Server();
for (int i = 0; i < Integer.parseInt(args[2]) ; i++) {
ServerSocket server =null;
while(server==null){
server = s.getServerSocket(Integer.parseInt(args[0]));
try {
Thread.sleep(Integer.parseInt(args[3]));
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
while(!server.isBound()){
try {
server.bind(new InetSocketAddress(Integer.parseInt(args[0])));
System.out.println("第"+(i+1)+"个服务端绑定成功");
Thread.sleep(Integer.parseInt(args[3]));
} catch (NumberFormatException | IOException | InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

fileMap = s.getFileMap(args[1]);

System.out.println("fileMap.size="+fileMap.size());
//System.out.println("fileMap="+fileMap);

s.sendData(fileMap.get(s.getNum(0, fileMap.size()-1)), server);
//s.sendData(args[1], server);
}
}


public Map<Integer, String> getMap(String dir,Map<Integer, String> fileMap){
File file = new File(dir);
if(file.isFile()){
if(file.getName().endsWith(".jpg")||file.getName().endsWith(".bmp")|file.getName().
                                            endsWith(".JPG")||file.getName().endsWith(".BMP")){
if(file.length()<1024*1024*2){
fileMap.put(fileMap.size(),file.getAbsolutePath());
}
}else{
}
}
if(file.isDirectory()){
File[] files = file.listFiles();
for (int j = 0; j < files.length; j++) {
getMap(files[j].getAbsolutePath(), fileMap);
}
}
return fileMap;
}

public Map<Integer, String> getFileMap(String dir){
Map<Integer, String> fileMap = new HashMap<Integer, String>();
return getMap(dir, fileMap);
}

public int getNum(int offset,int max){
int i = offset+(int)(Math.random()*max);
if(i>max){
return i-offset;
}else{
return i;
}
}

接下来开启一个程序，实现开启 Socket 监听，从指定端口读取图片文件，这里使用的是 Spark Streaming 的 socketStream 方法获取数据流。程序代码是用 Scala 语言编写的，如清单 4 所示。

清单 2. 读取文件

val s = new SparkConf().setAppName("face")
 val sc = new SparkContext(s)
 val ssc = new StreamingContext(sc, Seconds(args(0).toInt))
 val img = new ImageInputDStream(ssc, args(1), args(2).toInt, 
                   StorageLevel.MEMORY_AND_DISK_SER)//调用重写的 ImageInputDStream 方法读取图片
 val imgMap = img.map(x => (new Text(System.currentTimeMillis().toString), x))
 imgMap.saveAsNewAPIHadoopFiles("hdfs://spark:9000/image/receiver/img", "", classOf[Text], 
           classOf[BytesWritable], classOf[ImageFileOutputFormat],
                       ssc.sparkContext.hadoopConfiguration)//调用 ImageFileOutputFormat 方法写入图片

 imgMap.map(x => (x._1, {
 if (x._2.getLength > 0) imageModel(x._2) else "-1"
 }))//获取 key 的值，即图片
 .filter(x => x._2 != "0" && x._2 != "-1")
 .map(x => "{time:" + x._1.toString +","+ x._2 + "},").print()

 ssc.start()
ssc.awaitTermination()

清单 2 代码设置 Spark 上下文环境，设置了每隔多少时间 (用户输入的第一个参数，单位：秒) 读取一次数据源，然后开始调用重写的方法读入图片，我们需要对图片进行分析，分析过程不是本程序关注的重点，这里忽略，读者可以自己网上搜索图片分析的开源库，导入即可实现图片分析功能。

清单 3 当中自己定义了一个 Scala 类 ImageInputDStream，用于加载 Java 的读入图片类。

清单 3. Scala 实现读取文件

class ImageInputDStream(@transient ssc_ : StreamingContext,host: String,port: 
                          Int,storageLevel: StorageLevel) extends 
                                                ReceiverInputDStream[BytesWritable](ssc_) with Logging{
 override def getReceiver(): Receiver[BytesWritable] = {
 new ImageRecevier(host,port,storageLevel)
 }
}


class ImageRecevier(host: String,port: Int,storageLevel: StorageLevel) extends 
                                        Receiver[BytesWritable](storageLevel) with Logging{
 override def onStart(): Unit = {
 new Thread("Image Socket"){
 setDaemon(true)
 override def run(): Unit = {
 receive()
 }
 }.start()
 }

 override def onStop(): Unit = {

 }

 def receive(): Unit ={
 var socket:Socket=null
 var in:InputStream =null
 try{
 logInfo("Connecting to " + host + ":" + port)
 socket = new Socket(host, port)
 logInfo("Connected to " + host + ":" + port)
 in= socket.getInputStream
 val buf = new ArrayBuffer[Byte]()
 var bytes = new Array[Byte](1024)
 var len = 0
 while(-1 < len){
 len=in.read(bytes)
 if(len > 0){
 buf ++=bytes
 }
 }
 val bw = new BytesWritable(buf.toArray)
 logError("byte:::::"+ bw.getLength)
 store(bw)
 logInfo("Stopped receiving")
 restart("Retrying connecting to " + host + ":" + port)
 }catch {
 case e: java.net.ConnectException =>
 restart("Error connecting to " + host + ":" + port, e)
 case t: Throwable =>
 restart("Error receiving data", t)
 }finally {
 if(in!=null){
 in.close()
 }
 if (socket != null) {
 socket.close()
 logInfo("Closed socket to " + host + ":" + port)
 }
 }
 }

清单 2 里面定义了写回图片文件时需要调用 ImageFileOutputFormat 类，这个类继承了 org.apache.hadoop.mapreduce.lib.output.FileOutputFormat 类，通过缓冲读取的方式加快数据读取。代码如清单 4 所示。

清单 4. 写入文件

public class ImageFileOutFormat extends FileOutputFormat<Text,BytesWritable> {
 @Override
 public RecordWriter<Text, BytesWritable> getRecordWriter(TaskAttemptContext taskAttemptContext)
                                                 throws IOException, InterruptedException {
 Configuration configuration = taskAttemptContext.getConfiguration();
 Path path = getDefaultWorkFile(taskAttemptContext, "");
 FileSystem fileSystem = path.getFileSystem(configuration);
 FSDataOutputStream out = fileSystem.create(path,false);
 return new ImageFileRecordWriter(out);
 }


 protected class ImageFileRecordWriter extends RecordWriter<Text, BytesWritable>{

 protected DataOutputStream out;
 private final byte[] keyValueSeparator;
 private static final String colon=",";

 public ImageFileRecordWriter(DataOutputStream out){
 this(colon,out);
 }

 public ImageFileRecordWriter(String keyValueSeparator,DataOutputStream out) {
 this.out=out;
 this.keyValueSeparator = keyValueSeparator.getBytes();
 }

 @Override
 public void write(Text text, BytesWritable bytesWritable) throws IOException, InterruptedException {
 if(bytesWritable!=null){
 out.write(bytesWritable.getBytes());
 }
 }

 @Override
 public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
 out.close();
 }
 }
}

通过清单 1-4 的程序，我们可以实现读入图片文件->对图片进行一些业务处理->写回分析成果物 (文本信息、图片)。

回页首

结束语

通过本文的学习，读者可以大致了解流式处理框架的设计原理、Spark Streaming 的工作原理，并通过一个读取、分析、写入图片的示例帮助读者进行加深了解。目前市面上发布的 Spark 中文书籍对于初学者来说大多较为难读懂，更没有专门针对 Spark Streaming 的文章。作者力求推出一系列 Spark 文章，让读者能够从实际入手的角度来了解 Spark Streaming。后续除了应用之外的文章，还会致力于基于 Spark 及 Spark Streaming 的系统架构、源代码解释等方面的文章发布。

参考资料

developerWorks 开源技术主题：查找丰富的操作信息、工具和项目更新，帮助您掌握开源技术并将其用于 IBM 产品。
加入 developerWorks 中文社区，查看开发人员推动的博客、论坛、组和维基，并与其他 developerWorks 用户交流。

条评论

请登录或注册后发表评论。

添加评论:

注意：评论中不支持 HTML 语法

有新评论时提醒我剩余 1000 字符

共有评论 (2)显示： 最新评论

不好意思，Server是自己实现的一个类，没有上传代码，你只要实现一个服务，这个服务内部通过Socket监听一个开启的端口，用以传输图片就可以了。

由 zmycoco 于 2015年11月02日发布

报告滥用

请问Server s = new Server();这里的server是引入的什么类，我在spark，hadoop，java里都没看到这个类啊

Python数据分析与程序设计-番外：在vscode中使用Jupyter Notebook 想当糕手 python 数据分析 vscode jupyter
前言在系列文章的第二篇中，我们介绍了使用“if__name__=="__main__":”来模拟c语言中的main函数+封装测试函数的方法来提高代码可读性。当然，这并不是最佳的选择，本篇博客为您将介绍更为高效便捷的工具，希望能对你有所帮助！关于JupyterNotebookJupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它是
纯HTML+CSS网页设计期末作业（个人网站） m0_67403143 前端 html vue.js typescript javascript
目录纯HTML+CSS网页设计期末作业（个人网站）源码链接效果展示index页面about页面hobbies页面书籍介绍页面元曲介绍页面源码index.htmlindex.cssabout.htmlhobbies.htmlhobbies.cssme.htmlme.cssbook1.htmlbook.cssyuanqu.htmlyuanqu.css缺陷纯HTML+CSS网页设计期末作业（个人网站）源
JupyterLab Debugger 安装和配置指南万毓璐
JupyterLabDebugger安装和配置指南debuggerAvisualdebuggerforJupyternotebooks,consoles,andsourcefiles项目地址:https://gitcode.com/gh_mirrors/de/debugger1.项目基础介绍和主要编程语言项目基础介绍JupyterLabDebugger是一个用于JupyterLab的视觉调试器扩展
技术晋升读书笔记—华为研发栈江湖华为技术转型技术管理
读完《华为研发》第三版，我深感震撼，书中的内容不仅详实地记录了华为公司的成长历程，还揭示了华为成功背后的管理理念和创新思路。这本书通过真实的案例和数据，展示了华为如何从一个小企业发展成全球通信行业的领导者。一、关键人物1、任正非任正非是华为的创始人和总裁，被视为华为发展的灵魂人物。他出生于1944年，家境贫寒，青年时期经历了艰苦的求学过程。任正非通过自己的努力考上大学，毕业后参军。1982年，任正
使用Python进行后端开发 code_welike python 开发语言后端
在现代的Web应用程序中，后端开发扮演着至关重要的角色。后端是负责处理数据、逻辑和业务规则的部分，它与前端交互并提供必要的功能和服务。Python是一种广泛使用的编程语言，具有丰富的库和框架，非常适合用于后端开发。本文将介绍如何使用Python进行后端开发，并提供一些示例代码。安装Python和相关工具首先，我们需要安装Python和一些常用的后端开发工具。你可以从Python官方网站（https
《一个月教你玩转C++》系列第九章：C++中的 if 和 else（2） c++布丁 C++c++开发语言
第九章：C++中的if和else（2）本章布丁将介绍elseif语句，关系运算符和逻辑运算符。我们将通过简单的例子来展示它们的用法哟！elseif语句elseif语句是if语句的扩展，它允许我们在第一个条件不满足时继续检查其他条件。基本用法：当我们需要根据多个条件执行不同的代码块时，elseif语句就显得非常有用。它的基本用法如下：if(条件1){//如果条件1为真，则执行这里的代码}elseif
改进yolov8缺陷检测+swin+transformer QQ_1309399183 计算机视觉实战项目集锦 YOLO transformer 深度学习人工智能计算机视觉 opencv 机器学习
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
自建 MongoDB 实战 | MongoDB 文档查询新钛云服 mongodb 数据库 nosql
新钛云服已累计为您分享703篇技术干货专题介绍：八篇文章，近五万字。自建MongoDB实践系列文章，为您阐述日常工作中常用的NoSQL产品——MongoDB运维相关的日常实战。主要涉及到：·MongoDB的安装及基本使用（点击进入）·MongoDB文档查询（本期内容）·MongoDB复制集的介绍及搭建（后续更新）·MongoDB分片集群的介绍及搭建（后续更新）·MongoDB的备份及恢复（后续更新
【java小灶课】详解java与python的不同之处 wit_@ python java big data web
以下是一篇详细的博客，全面介绍了Java与Python在多方面的区别，包括语法、类型系统、内存管理、面向对象特性、并发编程以及常见应用场景等，希望能帮助你深入理解这两门语言的异同，为学习或实际应用提供指导。目录语言概述语法对比类型系统内存管理与垃圾回收面向对象特性函数式编程与Lambda表达式异常处理标准库与第三方库生态并发和多线程运行效率与性能优化常见应用场景学习曲线与社区支持总结1.语言概述J
使用 Caffeine 和 Redis 实现高效的二级缓存架构微技术 redis 架构数据库缓存
在现代应用开发中，缓存是提升系统性能的关键手段。为了兼顾本地缓存的高性能和分布式缓存的扩展能力，常见的实现方式是结合使用Caffeine和Redis实现二级缓存架构。本文将详细介绍如何通过SpringBoot实现一个Caffeine+Redis二级缓存，并通过合理的架构设计和代码实现，确保缓存的一致性、性能和容错性。一、需求与挑战1.多级缓存的需求：•一级缓存（Caffeine）：快速响应，存储本
MacOS/C/C++下怎样进行软件性能分析(CPU/GPU/Memory) 捕鲸叉软件调试和诊断软件调试软件验证
在macOS环境下进行C/C++软件性能分析，可以使用多种工具和技术来测量和优化CPU、GPU和内存的性能。macOS提供了丰富的性能分析工具，如Instruments、gprof、Perf、以及NVIDIA和Intel的专用工具。下面详细介绍了实现思想和操作方法。1.性能分析的目标CPU：分析CPU的使用情况，找出性能瓶颈、热点代码。GPU：分析GPU的使用情况，确保GPU资源被有效利用。内存：
数据库的DQL(3) 比特知识工坊 MySQL专栏数据库
数据库的DQL(3)分组查询在MySQL中，groupby关键字可以根据一个或多个字段对查询结果进行分组groupby字段名1.分组函数有时也叫聚合函数count():查询表中的记录数量avg():求平均值sum():求和max():求最大值min():求最小值案例1：mysql>selectcount(empno),sum(sal),avg(sal)fromemp;+--------------
Python魔法方法__call__深入详解图灵学者 python精华 python 开发语言
目录1、魔法方法__call__初探‍♂️1.1什么是__call__?1.2基础用法演示1.3自定义行为与参数传递2、实现轻量级装饰器模式️2.1装饰器概念回顾2.2利用__call__构建装饰器2.3深入理解装饰器应用场景3、类实例变身函数调用3.1类似函数的行为模拟3.2动态执行与灵活性提升3.3实战案例：日志记录器4、实现状态机模式4.1状态机概念回顾4.2通过__call__管理状态转换
Python魔法参数：深入解析*args和**kwargs的强大用途图灵学者 python精华 python java linux
目录引言基础概念解析*args：处理位置参数**kwargs：处理关键字参数*args和**kwargs的实际应用场景1.函数装饰器中使用*args和**kwargs2.类构造函数中使用*args和**kwargs3.API调用中使用**kwargs与其他参数类型的结合使用结合默认参数位置参数与关键字参数的混合使用高级技巧和注意事项参数解包与重打包性能考量调试技巧案例研究场景描述实现步骤实际应用案
python封装成exe文件 wenangou python
这篇文章主要介绍了一个有趣的事情，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python打包exe文件方法汇总【4种】Python作为解释型语言，发布即公开源码，虽然是提倡开源但是有些时候就是忍不住想打包成exe，不仅仅是为了对代码进行加密，而是为了跨平台。防止有些没有安装py环境的电脑无法运行软件小神猪。目录对python代码打包成
使用Python解决数独谜题的实用指南 werf456456asddd python 开发语言
在这篇文章中，我们将探讨如何编写一个Python函数来解决数独谜题。这个函数将接收一个9x9的数独网格作为输入，并使用回溯算法来解决谜题。如果谜题无法解决，函数将返回None。此外，我们还会确保输入网格是一个有效的数独谜题。技术背景介绍数独是一种经典的逻辑游戏，目标是填满一个9x9的网格，使每列、每行和每个3x3的子网格都包含1到9之间的数字。在计算机科学中，数独可以通过回溯算法来求解，这是一种尝
服务器性能监控与优化系统：实战指南与代码案例我的运维人生服务器运维运维开发技术共享
服务器性能监控与优化系统：实战指南与代码案例在现代IT基础设施中，服务器性能监控与优化是确保业务连续性和高效运行的关键环节。通过实时监控和调优，能够及时发现并解决潜在的性能瓶颈，从而提升用户体验和系统稳定性。本文将详细介绍服务器性能监控与优化系统的实践方法，并通过具体代码案例进行说明。一、性能监控的重要性性能监控是服务器管理的核心任务之一，通过实时监控关键性能指标（如CPU使用率、内存使用率、磁盘
深入理解Oracle DB的事务小小不董 Oracle DB管理及运维 oracle 数据库服务器 linux dba
1.引言本节详细介绍OracleDB的事务。2.理解事务的基本概念与特性2.1事务的定义与特性2.1.1定义在Oracle数据库中，事务是一组逻辑相关的数据库操作单元，这些操作要么全部成功执行并提交（使数据库状态发生永久性改变），要么全部失败并回滚（撤销所有已执行的操作，使数据库恢复到事务开始前的状态）。例如，在银行转账系统中，从一个账户扣款并在另一个账户收款这两个操作就构成一个事务。2.1.2事
微信小程序使用蓝牙连接硬件保姆级教程技术需要沉淀gogo 原生微信小程序微信小程序小程序
一、蓝牙官方api文档设备/蓝牙-通用/wx.startBluetoothDevicesDiscovery(qq.com)二、蓝牙重要参数介绍以及自我理解参数1deviceid蓝牙设备的id这个参数是蓝牙设备的唯一id2uuid服务的id这个是通过deviceid获取到的这个设备服务的uuid3characteristic特性值这个是通过deviceid、uuid获取到的特性值重点：辅助理解这几个
纳米ITO, ATO, CTO, AZO, IZO, GZO都指的是什么？ Sun_13250243710 纳米氧化物纳米ito 纳米ato 纳米azo 纳米cto 纳米复合氧化物
这些材料均为常见的功能性纳米材料，在光电领域应用广泛。下面为你介绍纳米ITO、ATO、CTO、AZO、IZO、GZO：纳米ITO（氧化铟锡）成分结构：由氧化铟（In₂O₃）和10%的氧化锡（SnO₂）组成。50nm尺度下，其晶体结构呈现出规则有序排列，铟、锡原子与氧原子通过化学键紧密相连，形成稳定晶格结构。性能特点：具备出色的光学透明性，在可见光范围内的透光率可达80%以上。同时，电学性能优异，电
【Redis】使用redis-cli的“--bigkeys”选项查找大Key 奇墨 ITQM redis 数据库缓存
在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。下面将为大家介绍大Key的定义及查找方法：一、什么是大Key？通常我们会将含有较大数据或含有大量成员、列表数的Key称之为大Key，下面我们将用几个实际的例子对大Key的特
双非一本，非科班，外包，拿到互联网大厂 Offer！ java
大家好，我是R哥。之前分享过外包进自研、外包进国企的不可思议的案例，今天我再分享一个激动人心的面试辅导案例，外包进大厂。。。一个双非一本+非科班+外包的兄弟，离职后，通过我们的辅导，拿到两个offer:一个互联网大厂offer，涨幅40%+；一个互联网中厂offer，涨幅50%+；最终选择去了大厂，即使薪资少一丢丢，毕竟大厂的薪资要更稳，既能圆自己的大厂梦，实现了人生的逆袭，也能刷一下的履历。这兄
火山引擎数据飞轮探索零售企业大促新场景：下放营销活动权限人工智能
“营销节奏变得更快了。”小陈任职于一家国内知名服装零售企业，这是她在营销策划岗位的第三年，对于刚刚过去的双11，“节奏快”是她的第一感受。女王节、618、双11、双12、年货节，是零售行业面临的主要线上活动时间点，“过去，通常在活动正式开始前一个月，我们就会制定全盘营销规划，比如什么样的节点在不同平台上线什么样的活动，聚焦到每一场活动，再去拆分目标人群、营销物料以及被关联到的福利券等，”小陈介绍，
基于 WEB 开发的在线求职招聘系统设计与实现赵谨言论文经验分享毕业设计
标题:基于WEB开发的在线求职招聘系统设计与实现内容:1.摘要本文介绍了基于WEB开发的在线求职招聘系统的设计与实现。详细阐述了系统的背景、目的、方法、结果、结论和核心主题。通过对现有求职招聘系统的分析，结合用户需求，提出了系统的设计方案。采用了先进的WEB技术，实现了系统的各项功能。经过测试，系统性能稳定，用户体验良好。该系统为求职者和招聘者提供了一个便捷、高效的交流平台，具有重要的应用价值。关
包文件分析器 Webpack Bundle Analyzer Jayden_念旧开发工具 webpack 前端 node.js
webpack-bundle-analyzer是一个非常有用的工具，用于可视化和分析Webpack打包生成的文件。这使得开发者能够更好地理解应用的依赖关系、包的大小，以及优化打包的机会。以下是关于webpack-bundle-analyzer的详细介绍，包括它的安装、使用以及如何解读生成的报告。文档。安装你可以通过npm或yarn安装webpack-bundle-analyzernpminstal
微信机器人 DIY【Python 】碲矿微信机器人 python
前面微信机器人DIY从0到1介绍了WeChatFerry的前世今生。写的人是觉得挺清楚了，但读的人多半云里雾里。也对，我只是想开车而已，何必需要知道发动机怎么造的？快速使用于是我把WeChatFerry打了个包，可以一键安装：pipinstallwcferry当然，还是有前提的，正如开车上路也需要持证一样。为了正常使用WeChatFerry，需要两个条件：Windows因为PC微信跑在Window
【前端三剑客实现3D相册~爱她，就为她做一个3D相册吧！！！】烂然星陈前端动态集前端 3d html5 css3 javascript
爱她，就为她做一个3D相册吧！！！创建一个3D相册盒子效果的HTML页面引言一、技术栈二、页面结构三、样式设计四、JavaScript逻辑五、总结完整源码获取，私信了解更多！！！创建一个3D相册盒子效果的HTML页面引言在网页设计中，3D效果总能吸引用户的注意力，提升用户体验。本文介绍如何使用HTML、CSS和JavaScript创建一个3D相册盒子效果。这个效果不仅包含了3D旋转和缩放动画，还结
火山引擎数据飞轮2.0：聚焦Data+AI，驱动企业数智化转型大数据
数字化浪潮席卷全球，数据与人工智能的融合正给各行各业带来巨大变革，不仅重塑数据处理流程，更在决策支持、业务优化、产品创新等多个维度上展现巨大的潜力。近期，火山引擎数智平台技术和产品专家受邀出席DataFun首届“数据与人工智能解决方案大会”，围绕数据飞轮2.0模式，及Data+AI领域热门话题ChatBI、多模态数据湖展开分享。据介绍，2023年4月火山引擎发布了数据飞轮，其内核为“以数据消费促资
JVM学习指南(40)-Java调优工具介绍俞兆鹏 JVM学习指南 JVM
文章目录引言JVM调优工具概览工具详细解析JConsoleVisualVMMATJProfiler调优工具的选择与使用最佳实践与技巧总结引言在Java开发中，JVM（Java虚拟机）调优是一个至关重要的环节。它不仅关系到应用的性能，还直接影响到系统的稳定性和资源利用率。随着应用规模的扩大和业务需求的增加，合理地对JVM进行调优变得尤为重要。调优工具作为辅助我们进行性能优化的利器，能够帮助我们更直观
SIWAVE+ADS提取PCB走线寄生参数坐忘行仿真射频工程
第一章PCB参数提取与RF匹配调试仿真–软件及基础第二章CST仿真PCB操作说明第三章SIWAVE仿真PCB操作说明第四章Q3D提取PCB走线RLCG参数第五章CST仿真PCB射频通路间的隔离度第六章HFSS仿真PCB射频通路间的隔离度第七章HFSS3DLayout仿真PCB操作说明第八章SIWAVE+ADS提取PCB走线寄生参数————————————————前言前面介绍了Q3D仿真PCB走线寄
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

Spark Streaming 图片处理案例介绍

Spark Streaming 图片处理案例介绍

前文回顾

流式处理框架特征

流式处理框架技术需求

图 1. 无中心节点架构

图 2. 有中心节点架构

图 3. 被动等待策略

图 4. 主动等待策略

图 5. 上游备份策略 1

图 6. 上游备份策略 2

Spark Streaming 所处地位

图 7. Spark Streaming 地位

Spark Streaming 应用实例

图 8. 图片处理程序流程图

清单 1. 循环写入图片文件代码

清单 2. 读取文件

清单 3. Scala 实现读取文件

清单 4. 写入文件

结束语

参考资料

条评论

你可能感兴趣的:(Spark Streaming 图片处理案例介绍)