youdianjinjin

Spark-Spark Streaming例子整理(三)

一、解密SparkStreaming另类在线实验

二、瞬间理解SparkStreaming本质

Spark源码定制，自己动手改进Spark源码，通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务，如果Sprak官方版本没有你需要的业务功能，你自己可以定制、扩展Spark的功能，满足公司的业务需要。

选择SparkStreaming框架源码研究、二次开发的原因

1、Spark起初只有Spark Core基础框架没有其他的子框架（Spark SQL、Spark Streaming、Spark ML、Spark Graphx、Spark R等），在其后加入了各种子框架来满足不同的需求。而分析这些子框架发现，选择Spark Streaming框架来研究，是最明智的选择，通过研究Spark Core上的Spark Streaming子框架，是迈向精通Spark力量源泉和解决所有问题之道。

2、Spark有很多子框架，我们选择Spark Streaming而为什么不用其他框架？

　　Spark SQL涉及了很多SQL语法细节的解析和优化，当然分析其解析、优化从而集中精力去研究Spark而言是一件重要的事情，但不是最重要的事情，所以Spark SQL不太适合作为具体的子框架值得我们去研究。

　　目前Spark R现在不成熟，支撑功能有限。

　　图计算，从各版本演进而言Graphx几乎没有改进，这种趋势，Graphx是不是已经发展基本到尽头了；另外图计算而言有很多数学级别的算法，而要把Spark做到极致，数学对我们来说重要，但对于研究而言不是最重要的。

　　Mechine Learning在封装了Vector向量、Metrics构建了众多的算法库，从而涉及了太多的数学知识，所有选择ML其实也不是太好的选择。

　　最后筛选出SparkStreaming子框架才是最佳的研究切入黄金点。

　　Spark Streaming是流式计算框架，一切数据如果和流处理不相关的话都是无效的数据。流式处理才是我们真正对大数据的初步印象，数据流进来它立即会给我们一个反馈，而不是数据挖掘、图计算。Spark强悍地方是使用流处理可以完美的结合使用机器学习的成果、图计算的成果、Spark sql或者说spark R的成果。这得益于Spark的一体化、多元化的技术架构的设计，也就是说通过一个技术堆栈可以调用技术堆栈中所有的东西，根本不需要任何的设置，这是Spark无可匹敌之处也是SparkStreaming一统天下的根源。这个时代的流处理单打独斗是不行了，SparkStreaming和多个兄弟框架联合起来，无可匹敌。如果你精通SparkStreaming的话，恭喜你，因为SparkStreaming以及背后的几个兄弟框架正好展示了Spark大数据无穷的魅力。

整个Spark的所有应用程序，哪些程序容易出问题？肯定是SparkStreaming程序是最容易出问题的，因为数据是不断流入的，ss要动态的控制数据的流入、作业的切分、数据的处理，所以最容易出问题，但最容易出问题的地方同时也是最受关注的地方也是展示大数据最神奇魅力的地方。这些特色结合的话，也是最需要技术人才的地方。关注SparkStreaming在Spark的发展，你会很清晰知道，ss跟其他自框架不同之处，ss很象SparkCore上的一个应用程序。

　　正如世界万物发展一样，任何技术都有其关键点或转折点，SparkStreaming运行在SparkCore上，所以很多性能调优都是建立在SparkCore上的；Spark是大数据的龙脉，SparkStreaming是龙脉的穴位。

接下来感受一下龙脉和穴位

　　研究SparkStreaming时，有困惑你的东西，SparkStreaming数据不断流进来，根据batchInterval时间片不断生成Job，并将Job提交集群处理，如果能清晰的看到数据的流入和数据的处理，你心里会很很踏实。

　　如何能清晰的看到数据的处理过程呢？只需要一个小技巧：就是把SparkStreaming中的batchInterval放的足够大，例如说从30秒调整为1分钟一次batch，或者5分钟一次batch，你会很清晰的看到整个流程序的运行过程。

以广告点击在线黑名单的过滤为例

　　调整时间维度：

我们把时间从30秒调至300秒：

读取SparkStreaming Socket端口的数据：

　　打包程序发布至集群部署环境：

　　检查集群进程：

　　通过webui检查HDFS启动情况：

　　启动history-server监控进程及其对应的webui监控界面：

　至此整个集群环境启动一切OK。

　开始启动运行SparkStreaming应用程序

　启动外部请求SparkStreaming服务端口的客户端：

输入待处理的数据流：

看结果如下：

看webui控制台：

点击链接进入后产生了0~4个Job：

有意思的是SparkStreaming应用程序启动实际执行的是一个Job，但真正执行的是5个Job，其分别是Receiver Job，Output Job，Output Job，Output Job，Start Job.

第 0 个Job是不是我们逻辑中的代码？不是的，不是reduceByKey的执行结果Job，如下图：

SparkStreaming在启动的过程中会自动启动一些Job，如start操作：

SparkStreaming最像一个应用程序，就算是算一次，也执行了好几个Job，就像spark应用程序一样，可以启动不同的Job完成不同的功能。

继续看Job1：

通过Job告诉你内幕：通过追踪Receiver发现其会产生makeRDD，实际上作为整个Job独立的一个stage，只在一台机器上执行，而且执行了1.5分钟，刚才启动SparkStreaming，没有任务执行1.5分钟的，如下图：

思考一下什么东西执行了1.5分钟，而整个Job只运行了2分钟？

答案就是ReceiverTracker接收器运行的，它需要接收流入的数据。这个Job就是Receiver，并且执行了1.5分钟，而启动的Receiver就是一个Job。

结论：

SparkStreaming启动Receiver的是一个Job，在具体的Cluster的Worker上的executor中，启动Receiver是通过Job启动的。通过作业的运行时间看出，整个SparkStreaming运行的时间是2分钟，其中有个Job运行了1.5分钟，这个Job就是Receiver，其实指的是Receiver启动运行的时间，Receiver是在executor中运行的，也就是说SparkStreaming框架在启动Recevier是通过Job启动的。而且Receiver（可以启动多个receiver接收数据）就是在一个executor中运行且通过一个Task去接收我们的数据：

从这个角度讲Receiver接收数据和普通job有什么区别?没有区别。转过来给我们启发：在一个Spark application中可以启动很多的job，这些job之间可以相互配合。例如：SparkStreaming框架默认启动job给你接收数据，然后为后续的处理做准备，为你写复杂的应用程序奠定了一个良好的基础。这就是你写非常复杂的Spark应用程序的黄金切入点，复杂的程序一般都是有多个job构成的。

上图的Process_local即内存节点，SparkStreaming在默认情况下接收数据是memory_and_disk_ser_2的方式，也就是说接收的数据量比较少内存能存下的话默认情况下是不会存储磁盘的，在这里直接使用内存中。

看下第0个job：

在4个worker上启动4个executor，是在最大化的使用计算资源，通过第1个job 不断接收数据。

这里处理数据有shuffle read，shuffle write，通过socketTextStream即rdd，这里叫blockRdd，而且blockrdd来自于socketTextStream的方法：

其实是inputStream帮我们在固定时间间隔内会产生固定的rdd，接收数据是在一个executor的task中接收的，但现在处理数据是transform操作发生在executor里面的发生在4个executor，这个结果告诉我们在一台机器上接收数据，但实际上是在四台机器上处理数据的。最大化利用集群资源处理数据。SparkStreaming程序执行时就是一个batch级别的Job，里面做了很多事情。整个处理，其实只有一个Job真正在执行，但产生很多Job相互协调来完成复杂的业务处理，这个情况告诉我们SparkStreaming并不是网络、博客、书籍、官网上讲的那么简单。

SparkStreaming本身是随着流进来的数据按照时间为单位生成job，然后触发job在Cluster上执行的流式处理的引擎，它本身是加上以时间为维度的批处理，实例中以300秒为会产生一批数据，基于这一批数据会生成rdd，基于rdd会触发job，rdd的生成、job的触发，都是SparkStreaming框架去做的。SparkStreaming中有个至关只要的东西叫DStream，我们每隔一定时间都会生成rdd，产生rdd的依赖或触发job具体的执行。每隔时间，所以弄了一个DStream，DStream代表时空的概念，时间为维度，随着时间的推进不断产生rdd，实际上DStream就是rdd的集合，只不过是有时间的先后顺序；空间维度实际上是DStream的处理层面，我们对DStream进行处理实际上是对DStream里面的每个rdd的处理。整个时空是一个很大的概念，时间固定的话，可以锁定对空间的操作，操作其实就是transform，对DStream的操作会构建DStream Graph。

总结：

随着时间为维度有个DStream Graph，同时在时间维度下有个空间维度，空间维度就是操作，空间维度确定的情况下时间不断推进的时候他就不断把空间维度的DStream Graph实例化成rdd的graph，然后触发具体的job进行执行。

一、解密SparkStreaming运行机制

二、解密SparkStreaming架构

SparkStreaming运行时更像SparkCore上的应用程序，SparkStreaming程序启动后会启动很多job，每个batchIntval、windowByKey的job、框架运行启动的job。例如，Receiver启动时也启动了job，此job为其他job服务，所以需要做复杂的Spark程序，往往多个job之间互相配合。SparkStreaming是最复杂的应用程序，如果对SparkStreaming了如指掌的话，做其他的Spark应用程序没有任何问题。看下官网：Spark sql，SparkStreaming，Spark ml，Spark graphx子框架都是后面开发出来的，我们要洞悉Spark Core 的话，SparkStreaming是最好的切入方式。

进入Spark官网，可以看到SparkCore和其他子框架的关系：

SparkStreaming启动后，数据不断通过inputStream流进来，根据时间划分成不同的job、就是batchs of input data，每个job有一序列rdd的依赖。Rdd的依赖有输入的数据，所以这里就是不同的rdd依赖构成的batch，这些batch是不同的job，根据spark引擎来得出一个个结果。DStream是逻辑级别的，而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作，转过来是对其内部的RDD操作。

我是使用SparkCore 编程都是基于rdd编程，rdd间有依赖关系，如下图右侧的依赖关系图，SparkStreaming运行时，根据时间为维度不断的运行。Rdd的dag依赖是空间维度，而DStream在rdd的基础上加上了时间维度，所以构成了SparkStreaming的时空维度。

SparkStreaming在rdd的基础上增加了时间维度，运行时可以清晰看到jobscheduler、mappartitionrdd、shuffledrdd、blockmaanager等等，这些都是SparkCore的内容，而DStream、jobgenerator、socketInputDstream等等都是SparkStreaming的内容，如下图运行过程可以很清晰的看到：

现在通过SparkStreaming的时空维度来细致说明SparkStreaming运行机制

时间维度：按照固定时间间隔不断地产生job对象，并在集群上运行：

　　　　　包含有batch interval,窗口长度，窗口滑动时间等

空间维度：代表的是RDD的依赖关系构成的具体的处理逻辑的步骤，是用DStream来表示的：

　　　　1、需要RDD,DAG的生成模板

　　　　2、TimeLine的job控制器、

　　　　3、InputStream和outputstream代表的数据输入输出

　　　　4、具体Job运行在Spark Cluster之上，此时系统容错就至关重要

　　　　5、事务处理，在处理出现奔溃的情况下保证Exactly once的事务语义一致性

随着时间的流动，基于DStream Graph不断生成RDD Graph,也就是DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给Spark Cluster不断的执行，

由上图可知，RDD 与 DStream之间的关系如下：

　　1、RDD是物理级别的，而 DStream 是逻辑级别的；

　　2、DStream是RDD的封装模板类，是RDD进一步的抽象；

　　3、DStream要依赖RDD进行具体的数据计算；

Spark Streaming源码解析

1、StreamingContext方法中调用JobScheduler的start方法：

　　val ssc = new StreamingContext(conf, Seconds(5))

　　val lines = ssc.socketTextStream("Master", 9999)

　　......//业务处理代码略

　　ssc.start()
　　ssc.awaitTermination()

我们进入JobScheduler start方法的内部继续分析：

1、JobScheduler 通过onReceive方法接收各种消息并存入enventLoop消息循环体中。

2、通过rateController对流入SparkStreaming的数据进行限流控制。

3、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker，并且调用JobGenerator和ReceiverTacker的start方法。

ReceiverTacker的启动方法：

1、ReceiverTracker启动后会创建ReceiverTrackerEndpoint这个消息循环体，来接收运行在Executor上的Receiver发送过来的消息。

2、ReceiverTracker启动后会在Spark Cluster中启动executor中的Receivers。

JobGenerator的启动方法：

1、JobGenerator启动后会启动以batchInterval时间间隔发送GenerateJobs消息的定时器

a. Spark Streaming Job 架构和运行机制
b. Spark Streaming Job 容错架构和运行机制

注：本讲内容基于Spark 1.6.1版本（在2016年5月来说是Spark最新版本）讲解。

上节回顾:

上节课谈到Spark Streaming是基于DStream编程。DStream是逻辑级别的，而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作，归根结底还是对其RDD进行的操作。

如果将Spark Streaming放在坐标系中，并以Y轴表示对RDD的操作，RDD的依赖关系构成了整个job的逻辑应用，以X轴作为时间。随着时间的流逝，以固定的时间间隔（Batch Interval）产生一个个job实例，进而在集群中运行。

同时也为大家详细总结并揭秘 Spark Streaming五大核心特征：特征1：逻辑管理、特征2：时间管理、特征3：流式输入和输出、特征4：高容错、特征5：事务处理。最后结合Spark Streaming源码做了进一步解析。

开讲

由上一讲可以得知，以固定的时间间隔（Batch Interval）产生一个个job实例。那么在时间维度和空间维度组成的时空维度的Spark Streaming中，Job的架构和运行机制、及其容错架构和运行机制是怎样的呢？

那我们从爱因斯坦的相对时空讲起吧：

a、时间和空间是紧密联系的统一体，也称为时空连续体。
b、时空是相对的，不同的观察者看到的时间，长度，质量都可以不一样。
c、对于两个没有联系的事件，没有绝对的先后顺序。但是因果关系可以确定事件的先后，比如Job的实例产生并运行在集群中，那么Job实例的产生事件必然发生在Job运行集群中之前。

就是说Job的实例产生和单向流动的时间之间，没有必然的联系；在这里时间只是一种假象。

怎么更好的理解这句话呢？那我们就得从以下方面为大家逐步解答。

什么是Spark Streaming Job 架构和运行机制？

对于一般的Spark应用程序来说，是RDD的action操作触发了Job的运行。那对于SparkStreaming来说，Job是怎么样运行的呢？我们在编写SparkStreaming程序的时候，设置了BatchDuration，Job每隔BatchDuration时间会自动触发，这个功能是Spark Streaming框架提供了一个定时器，时间一到就将编写的程序提交给Spark，并以Spark job的方式运行。

通过案例透视Job架构和运行机制

案例代码如下：

将上述代码打成JAR包，再上传到集群中运行

集群中运行结果如下

运行过程总图如下

案例详情解析　

a、首先通过StreamingContext调用start方法，其内部再启动JobScheduler的Start方法，进行消息循环；

(StreamingContext.scala,610行代码)

（JobScheduler.scala,83行代码）

b、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker；

（JobScheduler.scala,82、83行代码）

c、然后调用JobGenerator和ReceiverTacker的start方法执行以下操作：

（JobScheduler.scala,79、98行代码）

（ReceiverTacker.scala,149、157行代码）

JobGenerator启动后会不断的根据batchDuration生成一个个的Job ；

（JobScheduler.scala,208行代码）

ReceiverTracker的作用主要是两点：

1.对Receiver的运行进行管理，ReceiverTracker启动时会调用lanuchReceivers()方法，进而会使用rpc通信启动Receiver(实际代码中，Receiver外面还有一层包装ReceiverSupervisor实现高可用)

（ReceiverTracker.scala,423行代码）

2.管理Receiver的元数据，供Job对数据进行索引，元数据的核心结构是receivedBlockTracker

（ReceiverTracker.scala,106~112行代码）

d、在Receiver收到数据后会通过ReceiverSupervisor存储到Executor的BlockManager中；

e、同时把数据的Metadata信息发送给Driver中的ReceiverTracker，在ReceiverTracker内部会通过ReceivedBlockTracker来管理接受到的元数据信息；

这里面涉及到两个Job的概念：

每个BatchInterval会产生一个具体的Job，其实这里的Job不是Spark Core中所指的Job，它只是基于DStreamGraph而生成的RDD的DAG而已，从Java角度讲，相当于Runnable接口实例，此时要想运行Job需要提交给JobScheduler，在JobScheduler中通过线程池的方式找到一个单独的线程来提交Job到集群运行（其实是在线程中基于RDD的Action触发真正的作业的运行）

为什么使用线程池呢？

a 、作业不断生成，所以为了提升效率，我们需要线程池；这和在Executor中通过线程池执行Task有异曲同工之妙；
b 、有可能设置了Job的FAIR公平调度的方式，这个时候也需要多线程的支持；

Spark Streaming Job 容错架构和运行机制

Spark Streaming是基于DStream的容错机制，DStream是随着时间流逝不断的产生RDD，也就是说DStream是在固定的时间上操作RDD，容错会划分到每一次所形成的RDD。

　　Spark Streaming的容错包括 Executor 与 Driver两方面的容错机制：

　　a、 Executor 容错：

　　　　1. 数据接收：分布式方式、wal方式，先写日志再保存数据到Executor

　　　　2. 任务执行安全性 Job基于RDD容错：

　　b、Driver容错： checkpoint 。

　　基于RDD的特性，它的容错机制主要就是两种：

　　　　1. 基于checkpoint；

　　　　　　在stage之间，是宽依赖，产生了shuffle操作，lineage链条过于复杂和冗长，这时候就需要做checkpoint。

　　　　2. 基于lineage（血统）的容错：

　　　　　　一般而言，spark选择血统容错，因为对于大规模的数据集，做检查点的成本很高。

　　　　　　考虑到RDD的依赖关系，每个stage内部都是窄依赖，此时一般基于lineage容错，方便高效。

　　总结： stage内部做lineage，stage之间做checkpoint。

你可能感兴趣的:(Spark-Spark Streaming例子整理(三))

解锁UV工具新玩法：让Python脚本运行更高效的实用技巧 marao python uv 深度学习开发语言人工智能
作为Python开发者，你是否经常被依赖安装的漫长等待、虚拟环境的繁琐管理，或是脚本分享时“环境不一致”的问题困扰？近年来，一款名为UV的工具悄然兴起，它不仅以极速安装依赖著称，更通过一系列创新设计重构了Python脚本的运行逻辑。本文主要介绍UV的三大实用技巧，从“依赖即代码”到“动态环境隔离”，体验真正“即写即跑”的高效开发模式。1.极速启动：1秒搞定依赖安装，告别虚拟环境烦恼传统Python
Kyle的天机学堂学习笔记 Z2475269074 学习笔记
本文将展示一个小白从0->1完成项目的全部历练已经心得PS:要求做到真正的自我思考而不是对着教程敲代码，并借用AI进行辅佐与思考DAY1Maven子工程会继承父工程所有依赖有三套生命周期，互不干扰且同一生命周期内执行命令会以此完成之前的命令1.clean2.default(compile,test，package,install)3.site(deploy)对象DTO数据传输对象，用于服务端与客户
Promise源码解析天涯学馆 Web大前端全栈架构前端 javascript 开发语言
Promise核心原理Promise状态管理机制Promise的核心在于其三种不可变状态的管理：pending(等待态)：初始状态，既不是成功也不是失败fulfilled(成功态)：操作成功完成rejected(失败态)：操作失败状态转换规则：pending→fulfilled(只能转换一次)pending→rejected(只能转换一次)fulfilled/rejected状态不可再改变//简化
zookeeper Curator(5):集群架构和集群搭建后会无期77 zookeeper Curator zookeeper 架构分布式
文章目录一、集群架构：Leader-Follower模式二、核心机制：ZAB协议三、Leader选举机制四、集群部署要点五、优势与挑战Zookeeper集群是一个由多个Zookeeper服务实例组成的分布式协调服务系统，通过奇数个节点（通常3、5、7个）的协作，提供高可用性、容错性和数据一致性，适用于分布式环境下的配置管理、命名服务、分布式锁等场景。以下从架构、核心机制、选举机制、数据模型、应用场
在 Excel 中实现引用另一个Excel文件中VBA代码的三种方法唐骁虎 excel windows
在Excel中，让第二个文件引用第一个文件中的VBA代码有以下几种方法：方法一：使用VBA项目引用操作步骤打开第一个包含VBA代码的Excel文件（假设为File1.xlsm）和第二个需要引用代码的Excel文件（假设为File2.xlsm）。在File2中，按下Alt+F11打开VBA编辑器。在VBA编辑器中，点击菜单栏的“工具”->“引用”。在弹出的“引用”对话框中，点击“浏览”按钮。找到并选
ASP.Net依赖注入！使用Microsoft.Extensions.DependencyInjection配置依赖注入 weixin_44710358 c#asp.net 依赖注入
文章目录前言一、依赖注入是什么？二、使用步骤三、示例四、依赖注入服务生命周期五、依赖注入的方式前言ASP.Net依赖注入！使用Microsoft.Extensions.DependencyInjection配置依赖注入一、依赖注入是什么？百度百科：控制反转（InversionofControl，缩写为IoC），是面向对象编程中的一种设计原则，可以用来减低计算机代码之间的耦合度。其中最常见的方式叫做
Vue中的v-if与emit事件传递：一个常见陷阱分析发现你走远了 vue.js javascript 前端
Vue中的v-if与事件传递：一个常见陷阱分析在Vue开发中，v-if与事件传递的组合可能会导致一些难以排查的问题。本文将分析一个典型案例，并提供解决方案。问题描述在一个登录流程中，我们有三个组件嵌套：InviteCodeDialog（邀请码验证组件）PcLogin（登录组件，包含InviteCodeDialog）PcLoginView（页面组件，包含PcLogin）每个组件都有自己的日志输出：/
如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
数智助农金融兴乡：中和农信双轮驱动农业现代化实践雷焰财经金融
植根三农服务最后一百米，中和农信以“小额信贷夯基，数智科技赋能”的创新实践，正在成为衔接中国小农户与现代农业的关键纽带。在我国小农户占比超80%的基本国情下，面对农村互联网普及率仅60%的数字鸿沟挑战，中和农信依托深耕多年建立的毛细血管式服务网络（5800名村级站长覆盖220万亩耕地）、科技金融双引擎（自研中和金服APP与乡助农技平台）及生态化服务闭环，累计服务480万农户，覆盖23省550县域。
多模态融合相机L3CAM moonsims 人工智能
多模态融合相机L3CAML3CAM是Beamagine公司推出的多模态传感器融合技术，结合了激光雷达（LiDAR）和可见光摄像头，旨在为自动驾驶、工业机器人和其他需要精确环境感知的应用场景提供高效、安全的解决方案。L3CAM技术参数L3CAM结合了LiDAR和可见光摄像头，使其能够提供三维空间感知及图像级别的环境识别能力激光雷达部分（LiDAR）探测范围：大约200米（具体范围根据不同环境和反射面
串口输出的三种方式 Ricardo.lucky STM32学习笔记 linux 运维服务器
目录一、输入输出重定向二、使用sprintf的Usart_SendString三、封装sprintf一、输入输出重定向这个是使用输入输出重定向，将输出的内容使用scanf()或getchar()从写入，使用printf的格式打印出来。使用这个输出重定向和输出重定向的时候需要使用头文件。输入重定向中只能通过使用这个函数是让scanf()或getchar()从串口读取一个字符。/*这个是输出重定向*/
Redis集群全流程实战指南代码中の快捷键 java redis
Redis集群全流程实战指南：从零搭建到生产优化1.开篇：理解Redis集群的核心价值Redis作为高性能内存数据库，在单机模式下存在三大瓶颈：容量限制：受单机内存大小制约性能瓶颈：单节点QPS上限可用性风险：单点故障问题Redis集群通过分布式架构完美解决这些问题，本文将带您完成从理论认知到生产部署的全流程实践。2.架构设计篇：深入Redis集群原理2.1数据分片机制哈希槽（HashSlot）：
阿里一面凉经一入JAVA毁终身面试记录面试
阿里一面（凉经）先说明我大二开始接触计算机学习总共不到两年，很菜加上我比较容易紧张，所以回答的有些不尽人意，事后反思了一下确实很多地方是有问题的，大家如果看出什么问题请告知我一下，我一定虚心接受。1.主体的流程自我介绍（不过多赘述了）挑选一个项目进行深入探讨八股拷打算法2.项目拷打在自我介绍里我大概介绍了一下我的三个项目，相比字节的面试官明显流程更加固定，而且也更正式，不会会和你多聊一些学习方面的
Python爬虫实战：借助工具高效采集微信公众号文章 Python爬虫项目 python 爬虫微信 facebook 音视频开发语言
导语微信公众号作为信息传播的重要平台，涵盖了新闻、技术、生活等各个领域的优质内容。对于数据分析师、内容整理者或研究人员而言，系统地采集公众号文章内容具有重要意义。然而，微信公众号对爬虫设置了较强的反爬机制，直接采集存在一定难度。本文将结合实际案例，介绍如何借助工具和Python技术高效采集微信公众号文章。1.项目目标与需求定义目标：采集指定微信公众号的历史文章，包括标题、链接、发布时间等信息；支持
url_luacher适配指南 harmonyos
ohos平台适配flutter三方库指导url_launcher1.准备工作下载待适配的三方插件：官方插件库本指导书，以适配url_launcher6.3.1为例2.插件目录lib：是对接dart端代码的入口，由此文件接收到参数后，通过channel将数据发送到原生端；android：安卓端代码实现目录；ios：ios原生端实现目录；example：一个依赖于该插件的Flutter应用程序，来说明
【软件系统架构】系列四：数字信号处理器（DSP）
目录一、什么是DSP？二、DSP的核心架构特点1.基本结构2.工作流程：3.关键特性：三、DSP与MCU/MPU/NPU的对比四、DSP与通用处理器的对比五、常用DSP算法类型六、常见DSP芯片平台七、开发工具链与语言支持八、典型应用场景举例通信领域：音频处理：图像与视频处理：工业控制：军事与航空航天：九、选型关键因素十、技术趋势总结一、什么是DSP？DSP（DigitalSignalProces
MQTT 和 CoAP物联网通信协议之争：MQTT 与CoAP 深度对比分析 34号树洞 #MQTT专栏物联网传输层通信专栏物联网通讯协议 MQTT CoAP
目录一、核心特性对比二、关键设计目标1.MQTT2.CoAP三、优缺点分析MQTT的优缺点CoAP的优缺点四、典型应用场景对比五、技术细节对比1.消息传输流程2.安全性实现3.资源发现机制六、选择建议1.优先选择MQTT的场景2.优先选择CoAP的场景3.混合使用策略七、未来趋势总结在物联网（IoT）领域，选择合适的通信协议对于设备性能、电池寿命、网络效率和应用可靠性至关重要。MQTT(Messa
ClickHouse：在 CentOS7.4 中编译 ClickHouse
目录一、环境准备二、创建编译使用的脚本三、编译ClickHouse一、环境准备1.1、CentOS版本为7.4.17081.2、从githubcloneClickHouse源码，checkout到tagv21.2.6.1-stable。cloneClickHOuse代码的时候需要把依赖的子项目也都clone下来，命令如下：gitclone--recursivehttps://github.com/
用万用表测量（TO-220）NMOS管的好坏 MingYue_SSS 元器件好坏测量嵌入式硬件经验分享笔记学习
第一步：用镊子或表笔短接MOS管的三个引脚，进行放电。第二步：万用表选择二极管档位。短接表笔，发出蜂鸣声说明万用表没问题。第三步：测量MOS管体二极管的好坏。用万用表测量2脚和3脚，正向导通，反向截至表示MOS管为好的。反之则是坏的。红表笔(+)测3脚源极S，黑表笔(-)测2脚漏极D，正常有一个导通压降，万用表数值在0.4V—0.9V左右。红表笔(+)测2脚漏极D，黑表笔(-)测3脚源极S，正常为
Redisson看门狗机制：分布式锁的可靠守护者小韩学长yyds Redisson 分布式 Redisson
个人主页：小韩学长yyds-CSDN博客⛺️欢迎关注：点赞留言收藏箴言：拥有耐心才是生活的关键目录一、引言二、Redisson简介三、看门狗机制原理剖析3.1自动续期核心逻辑3.2锁释放与取消续期3.3核心源码深度解读3.3.1scheduleExpirationRenewal方法3.3.2renewExpiration方法3.3.3cancelExpirationRenewal方法四、应用场景与
山西大同大学学生公寓管理系统（11402）
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
ahk入门的典型例子 aaa_111222aaa
热键有时也称为快捷键,因为它们能简便地触发动作(例如运行程序或键盘宏).在下面的例子中,Win+N被设置为启动记事本.磅的符号[#]表示Windows键,它被称为修饰符:#n::RunNotepadreturn在前面的最后一行中,return用来结束此热键.不过,如果热键只需要执行单行语句,那么此行可以直接放在双冒号的右边.换句话说,return可以省略:#n::RunNotepad要在热键中使用
【算法设计与分析】（三）二分搜索技术与大整数乘法珹洺 #算法设计与分析算法
【算法设计与分析】（三）二分搜索技术与大整数乘法前言一、二分搜索技术1.为什么需要二分搜索？2.二分搜索怎么做？3.为什么说它很快？4.哪些场景会用到？二、大整数乘法1.问题来了：数字太大怎么办？2.传统方法3.用分治思想优化4.Karatsuba算法：具体怎么算？5.效率提升有多大？6.实际应用场景总结前言在上一篇博客中，我们已深入剖析了递归的本质内涵与分治法的核心思想——通过将复杂问题分解为规
MyBatis实战指南（八）MyBatis日志珹洺 #MyBatis实战指南 mybatis tomcat java
MyBatis实战指南（八）MyBatis日志前言一、为什么需要日志？二、日志框架怎么选？1.手把手教你集成（以最常用的SLF4J+Logback为例）步骤1：添加依赖（Maven项目）步骤2：在MyBatis配置文件中开启日志步骤3：配置Logback日志文件三、配置方式详解1.MyBatis自身的日志配置2.日志级别控制3.SpringBoot中怎么配？四、源码解析：搞懂MyBatis日志底层
Docker 镜像制作 Ris Hen docker docker
目录镜像制作及原因快照方式制作镜像Dockerfile制作镜像为什么需要DockerfileDockerfile指令常见问题镜像制作及原因镜像制作是因为某种需求，官方的镜像无法满足需求，需要我们通过一定手段来自定义镜像来满足要求。制作镜像往往因为以下原因1.编写的代码如何打包到镜像中直接跟随镜像发布2.第三方制作的内容安全性未知，如含有安全漏洞3.特定的需求或者功能无法满足，如需要给数据库添加审计
【算法设计与分析】（四）Strassen 矩阵珹洺 #算法设计与分析算法矩阵线性代数
【算法设计与分析】（四）Strassen矩阵前言一、传统矩阵乘法二、Strassen矩阵乘法1.算法步骤2.效率提升三、实际应用场景四、算法的局限性与改进前言上一篇博客我们以生动形象的例子和清晰的步骤，为大家详细讲解了二分搜索技术与大整数乘法。接下来，这篇博客将带大家深入探索**Strassen矩阵**乘法，感受算法优化魅力。我的个人主页，欢迎来阅读我的其他文章https://blog.csdn.
解锁云原生微服务架构：搭建与部署实战全攻略奔跑吧邓邓子必备核心技能云原生架构微服务搭建与部署实战全攻略
目录一、引言二、微服务拆分2.1拆分的必要性2.2拆分方法2.3注意事项三、服务注册与发现3.1概念与原理3.2常用组件介绍3.3实践案例四、负载均衡4.1作用与原理4.2实现方式4.3负载均衡算法4.4案例与代码实现4.4.1项目依赖配置4.4.2配置Ribbon4.4.3代码实现负载均衡调用五、容器化部署5.1容器化技术基础5.2容器化部署流程5.2.1编写Dockerfile5.2.2构建D
解锁Ubuntu安装：从新手到高手的通关秘籍奔跑吧邓邓子必备核心技能 ubuntu linux 安装指南
目录一、前期准备1.1明确安装目标1.2硬件要求自查1.3安装方式抉择1.4必备工具下载二、虚拟机安装Ubuntu2.1VMwareWorkstation安装与设置2.2创建虚拟机2.3安装Ubuntu系统2.4安装VMwareTools三、双系统安装Ubuntu3.1磁盘空间准备3.2制作启动U盘3.3进入BIOS/UEFI设置3.4安装过程详解四、安装常见问题与解决4.1分区问题4.2安装包错
YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
从入门到实战：YOLOv13 安装与使用全攻略奔跑吧邓邓子必备核心技能 YOLO 目标跟踪人工智能安装使用全攻略
目录一、YOLOv13简介1.1目标检测与YOLO系列1.2YOLOv13核心技术亮点1.3性能优势展现二、前期准备2.1系统环境要求2.2软件依赖安装三、安装流程3.1获取源码3.2环境搭建3.3安装验证四、使用指南4.1模型验证4.2模型训练4.3模型推理4.4模型导出五、应用案例与技巧5.1实际应用场景展示5.2常见问题与解决方法5.3优化技巧分享六、总结与展望6.1YOLOv13回顾6.2
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu