Mr_zhujin

Spark学习笔记—Spark工作机制

一.Spark执行机制

1.执行机制总览
Spark应用提交后经历一系列转变，最后成为task在各个节点上执行。

RDD的Action算子触发job的提交，提交到Spark的Job生成RDD DAG，由DAGScheduler转换为Stage DAG，每个Stage中产生相应的Task集合，TaskScheduler将任务分发到Executor执行。每个任务对应的数据块，使用用户定义的函数进行处理。
2.Spark应用的概念
Spark应用(application)是用户提交的应用程序，执行模式有Local，Standalone，YARN，Mesos。根据Application的Driver Program是否在集群中运行又分为Cluster模式和Client模式。包含的组件如下：
Application:用户自定的Spark程序，提交后Spark为App分配资源将程序转换并执行。
Driver Program：运行Application的main()函数并创建SparkContext.
RDD Graph：当RDD遇到Action算子，将之前所有算子形成一个有向无环图DAG，在Spark中转换为Job并提交到集群中处理，一个App可以包含多个Job.
Job：一个RDD Graph触发的作业，在SparkContext中通过runJob方法提交。
Stage：每个Job会根据RDD的宽依赖关系被切分为很多Stage，每个Stage包含一组相同的Task，这一组Task也叫做TaskSet。
Task：一个分区对应一个Task，Task执行RDD中对应Stage中包含的算子。Task被封装好后放入Executor的线程池中执行。
3.应用的提交与执行方式
应用的提交方式分为以下两种：
Driver进程运行在客户端；主节点指定某个Worker节点启动Driver，负责整个应用的监控。
(1).Driver运行在客户端

流程描述如下：
1.用户启动客户端后，客户端运行程序，启动Driver。在Driver中启动或者实例化DAGScheduler等组件。客户端的Driver向Master注册。
2. Worker向Master注册，Master命令Worker启动Executor。Worker通过创建Executor-Runner线程，在ExecutorRunner线程内部启动ExecutorBackend进程。
3. ExecutorBackend启动后向客户端Driver进程内的SchedulerBackend注册，这样的话Driver进程就找到了计算资源。Driver中的DAGScheduler解析RDD DAG并生成相应的Stage，每个Stage包含的TaskSet通过TaskScheduler分配给Executor。
(2).Driver在Worker中运行

流程如下：

1.用户启动客户端，客户端提交应用程序给Master.
2.Master调度应用，针对每个应用分发给指定得一个Worker启动Driver，即SchedulerBackend。Worker接受到Master命令后，创建DriverRunner线程，在DriverRunner线程内创建SchedulerBackend进程。Driver是整个作业的主控进程
Master指定其他Worker启动Executor，即ExecutorBackend进程，提供计算资源。流程与上述相似，Worker创建ExecutorRunner线程，ExecutorRunner启动ExecutorBackend进程。
3.ExecutorBackend启动后向Driver的SchedulerBackend注册，这样的Driver就获得了计算资源。SchedulerBackend进程包含DAGScheduler，它会根据RDD的DAG拆分出Stage，生成TaskSet，并调度和分发Task到Executor。每个Stage的TaskSet都会放到TaskScheduler，其将任务分发到Executor。

二.Spark调度与任务分配模块

1.Spark应用程序之间的调度
Executor空间内每个应用是不共享的，一个Executor一个时间段只能分配给一个应用。因此应用程序之间就需要进行资源的调度。
(1).Standalone
默认情况下，采用FIFO (先进先出) 进行调度，每个应用会独占所有节点可用资源。用户可以配置spark.cores.max决定一个应用在整个集群中申请的CPU核数。
(2).Mesos
在Mesos运行模式下，若用户想要静态配置资源，可以设置spark.mesos.coarse为true，将Mesos设置为粗粒度调度模式。然后配置spark.cores.max决定集群的CPU核数以及spark.executor.memory配置每个Executor的内存使用量。Mesos还可以配置动态共享CPU core的执行模式，让mesos运行在细粒度模型下。这种模式下每个应用还是拥有独立和固定的内存分配，但当其空闲时，其他机器可以使用这些机器空闲的CPU core，该模式在集群存在大量不活跃应用情景下有用，如大量不同用户发起请求的场景下。
(3).YARN
当Spark运行在YARN平台时，用户可以配置num-executors选项控制为这个应用分配多少个executor，executor-memory以及executor-cores来控制应用被分到的每个executor占用的内存和CPU，这样可以限制提交的应用不会占用太多资源，提升YARN的吞吐量。
2.Spark应用中的Job调度
应用程序内部，不同线程提交得Job可以并行的。
(1).FIFO模式
默认情况下Spark的调度器是以FIFO(先进先出)方式调度Job。每个Job被切分成很多Stage，第一个Job优先获取所有可用资源，接下来第二个Job再获取剩余资源。若第一个Job没有占用所有资源，则第二个Job可以获取剩余资源，多个Job可以同时进行，若第一个Job占用所有资源，则第二个只能等待。
(2).FAIR模式
该模式下Spark在多个Job之间采用轮询的方式为任务分配资源，所有任务拥有大致相同的优先级来共享资源。
FAIR调度器也支持将Job分组加入调度池中调度，可以为调度池分配不同优先级。默认每个调度池拥有相同优先级。调度池中Job按照FIFO方式调度执行。
调度池配置：
调度模式:用户可以选择FIFO或者FAIR方式调度。
权重：每个调度池的权重。
minShare:该调度池需要多少CPU核就可以满足需求，剩下的分配给其他调度池。
3.Stage和TaskSetManager调度方式
(1).Stage调度
Stage的调度由DAGScheduler完成。由RDD的DAG切分出Stage的DAG，Stage的DAG通过最后执行的Stage为根进行广度优先遍历，遍历到最开始执行的Stage开始执行（最后执行的StageID最小为0，最先应该执行的StageID大，但调度机制时优先调度小的）。如果提交的Stage有还未完成的父Stage，则需要等待其父Stage执行完才能执行。DAGScheduler中有几个Key-Value集合用于确定Stage的状态。这样能避免Stage过早执行和重复提交。
waittingStages:记录仍然有未执行的父母Stage的Stage。
runningStages:记录正在执行的Stage。
failedStage:保存执行失败的Stage，需要重新执行。
(2).TaskSetManager
在TaskScheduler中对每个Stage对应的Task进行提交和调度。一个Application只有一个TaskScheduler，所有Action触发的Job的TaskSetManager都由这个TaskManager调度。
TaskSetManager调度分为两个步骤：
首先在调度池里不同Job的TaskSetManager先排序，先提交的Job的JobID小先执行。
然后每个Job内部又优先调度TaskSetManagerID小的，但是最先应该执行的是TaskSetManagerID大的，当有未执行完的Stage的TaskSetManager时，TaskSetManager则不会提交到调度池中。
4.Task调度
Task的调度由TaskSetManager完成，本质时Task在哪个节点执行。

三.Spark的I/O机制

1.序列化
序列化是将对象转换为字节流，本质上可以理解为将链表存储的非连续空间的数据存储转换为连续空间存储的数组里。
两个目的：
1）进程间通信：不同节点之间进行数据传输。
2）数据持久化存储到磁盘：本地节点将对象写入磁盘。
Spark可以使用Java的序列化库也可以用Kyro序列化库。Kyro具有紧凑，快速，轻量的优点，允许自定义序列化方法，且扩展性较好。
2.压缩
大片连续区域进行数据存储且数据重复性较高时可以考虑压缩。数组或者序列化后的数据可以压缩。
目前常用的两种压缩为Snappy和LZF，Snappy提供更高的压缩速度，LZF提供更高的压缩比。
3.Spark的块管理
RDD在逻辑上时按照Partition分块的，物理上则是以Block为单位一个Partition对应一个Block。用Partition的ID通过元数据映射到物理上的Block。物理上这个Block可以存在内存中也可以存在某个节点的磁盘的临时目录下。
整体的I/O管理分两个层次：
1）通信层：I/O模块也是采用Master-Slave结构来实现的，Master和Slave间传递控制和状态信息。
2）存储层：数据存储到内存或磁盘以及传输到远端的机器由存储层实现。
(1).实体的类
管理和接口：
1）BlockManager:当其他模块想和storage模块交互时，都要调用BlockManager接口实现。
通信层：
2）BlockManagerMasterActor:主节点创建，从节点通过这个Actor的引用向主节点传递信息和状态。
3）BlockManagerSlaveActor:从节点创建，主节点通过这个Actor的引用向从节点传递命令控制从节点的读写。
4）BlockManagerMaster：对Actor通信进行管理。
5）数据读写层：
DiskStore:提供Block在磁盘上以文件形式读写的功能。
MemoryStore：提供Block在内存上的读写功能。
ConnectionManager：提供本地机器和远端节点进行网络传输Block的功能。
BlockManagerWorker:对远端数据的异步传输进行管理。
(2).BlockManager中的通信
主节点和从节点通过Actor传递命令和状态。

其中在Master和Slave中创建BlockManager有所不同。
1）Master端
BlockManagerMaster对象拥有BlockManagerMasterActor的Actor引用以及所有Slave端的BlockManagerSlaveActor的Ref引用。即每个Slave端都有一个BlockManagerSlaveActor的Ref引用在Master端。
2）Slave端
每个Slave端的BlockManagerMaster拥有自己的BlockManagerSlaveActor的actor引用以及Master端的BlockManagerMasterActor的Ref引用。BlockManagerSlaveActor和BlockManagerMasterActor分别在各自的actor和ref之间通信。
BlockManager在内部封装BlockManagerMaster，并通过BlockManagerMaster进行通信。每个Spark在各节点创建各自的BlockManager，通过BlockManager对storage模块进行操作，BlockManager在SparkEnv中创建。
(3).读写流程
数据写

数据写入流程主要分为一下几步(读取差不过)：
1）RDD调用compute方法进行指定分区的写入。
2）CacheManager中调用BlockManager判断数据是否已经写入，若果未写入则写入。
3）BlockManager中数据和其他节点同步。
4）BlockManager根据数据存储级别写入指定的存储层。
5）BlockManager向主节点报告存储状态。
数据读
1）本地读取
本地读取首先看能否从内存中读取，如果不能读取则看能够从Tachyon中读取，如果仍然不行则看能否从磁盘读取。
2）远程读取
远程获取调用路径，然后getRemote调用doGetRemote，通过BlockManagerWorker.syncGetBlock从远程获取数据。
4.数据块读写管理
数据有三个类别的读写来源。内存=>本地磁盘=>其他节点
(1).MemoryStore内存块读写
内存Block块管理是通过链表实现的。
(2).DiskStore磁盘读写
在DiskStore中一个Block块对应一个文件，BlockID和一个文件路径进行映射，数据块读写相当于读写文件流。

四.Spark通信模块

Spark的Cluster Manager可以有Local，Standalone，Mesos，YARN等部署模式。下面主要介绍Standalone模式。
1.通信框架AKKA
Spark在模块间通信使用的是AKKA框架。其中使用的Actor之间通过消息来通信，一个Actor收到其他Actor的消息后，可以根据需要做出各种响应。Actor建立一个消息队列，每次收到消息后放入其中，每次也从其中取出消息处理。这个过程是循环的让Actor可以时刻接收和处理消息。
每一个应用创建一个ActorSystem即可。
AKKA Actor以树形结构组织，一个Actor可以把自己的任务分成更小的子任务，为了达到这个目的会开启自己的子Actor并负责监督这些子Actor。每一个Actor都会有一个自己的监督者就是创建这个Actor的Actor。
AKKA的优势：
1）并行和分布式：AKKA设计时采用了异步通信与分布式架构。
2）可靠性：本地和远程均有监督和回复机制。
3）高性能：1GB内存可以创建和保持250万个Actor.
4）去中心：区别于Master-Slave模式采用无中心节点结构。
5）可扩展性：可以在分布式环境下进行Scale out，线性扩充计算能力。
Spark中的Client，Master，Worker均是一个Actor。
2.Client，Master，Worker之间通信
Standalone模式下各模块的角色：
1）Client:提交作业。
2）Master:接受作业，并启动Driver和Executor管理Worker。
3）Worker:管理节点资源，启动Driver和Executor。
(1).模块间的主要消息
1）Client to Master
RegisterApplication：注册应用
2）Master to Client
RegisteredApplication：注册应用后回复给Client。
ExecutorAdded：通知Client Worker已经启动了Executor，当向Worker发送Launch-Executor时通知Client Actor。
ExecutorUpdated：通知Client Execurtor已经更新状态了。
3）Master to Worker
LaunchExecutor：启动Executor。
RegisteredWorker：Worker注册的回复。
RegisterWorkerFailed：注册Worker失败的回复。
KillExecutor：停止Executor进程。
4）Worker to Master
RegisterWorker：注册Worker。
Heartbeat：周期性向Master发送消息，心跳。
ExecutorStateChanged：通知Master，Executor状态已经更新。
(2).主要的通信逻辑
Actor之间，消息发送端通过“！”符号发送消息，接收端通过receive方法中的case模式匹配接受和处理消息。

五.容错机制

分布式数据有两种容错机制：数据检查点和记录数据的更新。Spark选择了记录更新的方式，但是如果更新粒度太细，那么成本也会很高。因此RDD只支持粗粒度的转换，即在大量记录上执行单个操作，将创建RDD的一系列Lineage（血统）记录下来。
1.Lineage机制
(1).Lineage简介
RDD的Lineage是记录粗粒度Transformation操作行为。当RDD的某个分区丢失时，可以通过Lineage获取足够的信息来进行回复。
(2).两种依赖
RDD在Lineage依赖方面分为两种
Narrow Dependencies：父RDD的每一个分区最多被一个子RDD分区所用，一个父RDD分区对应于一个子RDD分区或多个父RDD分区对应一个子RDD分区。
Shuffle Dependencies：子RDD分区依赖于父RDD的多个分区或所有分区，即一个父RDD的一个分区对应一个子RDD多个分区。
这两个概念主要运用在容错中和调度中构建DAG作为不同Stage的划分点。
(3).容错原理
1）Narrow Dependency
容错机制中如果一个节点死机了，而且运算的是Narrow Dependency则只需要把丢失的父RDD分区重算即可，不依赖其他节点，因为一个父RDD分区只对应一个子RDD分区。不存在冗余计算。
2）Shuffle Dependency
若一个节点死机，并且运算的是Shuffle Dependency，因为一个父RDD分区对应子RDD多个分区，这样重算父RDD分区的时候，该分区数据不是只给丢失的子RDD分区使用的，这样就存在一个冗余计算。比如一个子RDD分区需要父RDD所有分区中的数据，这样如果该子分区丢失就需要重算父RDD所有分区的数据，然后再在父RDD所有分区中找到丢失分区需要的数据聚集合并为丢失的分区。这样重算的父RDD数据中就有很多不属于丢失分区的数据也被重算了这就造成了很大的冗余计算。
2.Checkpoint机制
RDD中需要加检查点的情况：
1）DAG中的Lineage过长，如果重算开销太大。
2）在Shuffle Dependency上做检查点收益更大。
传统做检查点有两种方式：冗余数据和日志记录更新操作。
RDD中的doCheckPoint方法相当于通过冗余数据来缓存数据。在检查点（本质是将RDD写入Disk做检查点）将数据备份，然后Spark会删除以做检查点的RDD的祖先RDD依赖。为Lineage做容错的辅助，Lineage过程会照成开销过大。

六.Shuffle机制

Spark中的Shuffle像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。分为两个阶段：Shuffle Write和Shuffle Fetch阶段（该阶段包含聚集Aggregate）。在整个DAG中在每个Stage的承接阶段做Shuffle过程。

从最上端Stage2和3进行操作，每个Stage对每个分区进行流水线式的函数操作的，执行到每个Stage最后阶段进行Shuffle Write，将数据重新根据下一个分区数分成相应的Bucket，并将Bucket最后写入磁盘。
执行完Stage2和3后Stage1去存储有Shuffle数据节点的磁盘Fetch需要的数据，将数据Fetch到本地后进行用户定义的聚集函数操作，这个阶段就是Shuffle Fetch。
1.Shuffle Write
Spark中每个Stage通过任务来进行运算，Spark中只分两种任务ShuffleMapTask和ResultTask。其中ResultTask就是最底层的Stage也是整个任务执行最后阶段将数据输出到Spark执行空间的Stage，处理这个阶段执行ResultTask其他阶段都是执行ShuffleMapTask。
(1).Shuffle Write流程
Shuffle Write入口是ShuffleMapTask中的runTask方法，也是整个Shuffle Write的控制骨架。ShuffleWriter是一个抽象的特征（Trait），如HashShuffleWriter主要功能就是判断是否需要做MapSideCombine或者做普通的Shuffle，并未ShuffleWriter流程提供各种函数。
Spark支持两种类型的Shuffle：Shuffle和优化的Consolidate Shuffle(写入)
两种Shuffle主要区别在于Bucket的处理是否写入FileGroup中，FileGroup是一个文件数组，存储文件的引用，在内存中维持这些引用。

最终在HashShuffleWriter，将内存中的Bucket写入到磁盘，存储为文件，并将Shuffle的各个Bucket及映射信息返回给主节点。
(2).Shuffle和Consolidate Shuffle比较

图中为Shuffle流程，该Shuffle有三个Mapper和两个Reducer，会产生23=6个Bucket即6个Shuffle文件，产生Shuffle文件个数为MR其中M为Map任务个数，R为Reduce任务个数。

图中为Consolidate Shuffle流程，每一个Bucket并非对应一个Shuffle文件，而是对应文件中一个Segment，产生的Shuffle文件数与Spark Core个数相关。理论上将产生的Shuffle文件数为C*R其中C代表Spark集群的Core Number，R是Reducer数。Consolidate Shuffle能够显著减少Shuffle文件数，解决文件过多问题。
2.Shuffle Fetch
Reducer端的节点通过拉取写入的数据，获得需要的数据，该过程叫Fetch。Spark通过两个框架实现Fetch：NIO通过Socket连接区Fetch数据，OIO通过Netty去Fetch数据。

图中为ReduceByKey的Shuffle Fetch流程，在Stage0中将Fetch到的数据形成分区，所有分区形成Shuffled RDD，通过聚集函数将Shuffled RDD每个分区的每条数据存储到AppandOnlyMap（本质可以理解为一个哈希表），这个过程中执行的是用户自定义的聚集函数，做聚集操作，最后将形成的结果形成分区，所有分区形成MapPartitionsRDD。
Shuffle Fetch和聚集Aggregate的操作是边Fetch数据边聚集的。通过Aggregate的数据结构AppandOnlyMap（一个Spark封装的哈希表），Fetch得到每条数据，直接将其放入AppandOnlyMap中，如果该AppandOnlyMap已经有相应Key的数据，那么直接按照用户定义的聚集函数合并聚集数据。
3.Shuffle Aggregator
Spark的聚集分为两种：需要外排和不需要外排
1）不需要外排的在内存中的AppandOnlyMap中对数据进行聚集。
2）需要外排的先在内存中做聚集，当内存数据达到阈值，将数据排序后写入磁盘，由于磁盘的数据只是部分数据，最后再将磁盘数据进行合并聚集。
之所以需要外排的原因是，虽然reduce型的数据不断计算合并数据量不会暴增，但是如果是像groupByKey这样的操作，Reducer需要得到Key对应的所有Value，Spark需要把Key-Value全部存在HashMap中，并将Value合并为一个数组。必须确保每个分区足够小，内存能够存放这个分区。一般设计这种操作时，尽量增加分区数，也就是增加Reducer和Mapper的数量，可以减小分区大小，使得内存能够容纳这个分区。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Istio pilot-discovery服务发现源码解析（1.13版本） xidianjiapei001 #Istio istio 云原生服务发现
Istiopilot-discovery服务发现介绍工作机制初始化初始化Config控制器初始化Service控制器controller初始化NamespaceServiceNodePodPilotDiscovery各组件启动流程DiscoveryServer接收Envoy的gRPC连接请求流程Config变化后向Envoy推送更新的流程总结参考介绍IstioPilot的代码分为Pilot-Dis
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
详解C语言中的循环语句埋头编程~ C语言 c语言开发语言
文章目录1.前言2.while循环2.1if和whlie的对比2.2while语句的工作机制2.3while循环的实践3.for循环3.1for循环语法3.2for循环的工作机制3.3for循环实践4dowhile循环4.1dowhlie循环语法4.2dowhile循环的工作机理4.3dowhile循环实践5.break和continue语句5.1break举例5.2continue举例6.got
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Servlet容器的作用、HttpServlet的工作机制流程图烟雨国度 servlet 流程图 hive
HttpServletRequest解析过程是否GETPOST其他方法Servlet生命周期init-初始化Servletservice-处理请求destroy-销毁ServletgetMethod返回HTTP方法getRequestURI返回请求URIgetQueryString返回查询字符串getParameter返回特定参数值客户端发送HTTP请求服务器接收请求Web容器创建ServletR
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
深入理解Kubernetes：kube-scheduler源码解析 mujingluo kubernetes 容器云原生
Kubernetes的调度器（kube-scheduler）是整个系统中至关重要的组件，它负责将待调度的Pods分配到合适的节点上。本文将深入分析kube-scheduler的源码，揭示其内部工作机制。kube-scheduler的核心功能kube-scheduler的核心功能包括：监听Pod变化：通过KubernetesAPI监听所有未调度的Pods。过滤（Filtering）：根据一系列规则（
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
MyBatis 源码解析：XMLScriptBuilder 工作机制捕风捉你 MyBatis 源码解读 mybatis java
摘要MyBatis提供了强大的动态SQL功能，它通过解析XML配置文件中的动态SQL标签（如、、等），来实现灵活的SQL生成。而XMLScriptBuilder类则负责解析这些XML配置并生成最终的SQL语句。本文将详细解析XMLScriptBuilder的工作机制，并通过自定义实现来帮助您深入理解该类的功能。前言MyBatis中的动态SQL功能是通过解析XML配置文件实现的。XML文件中包含了动
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
经验笔记：Node.js 中的 process.nextTick 漆黑的莫莫笔记 node.js
Node.js中的process.nextTick经验笔记引言在Node.js环境中，process.nextTick是一个非常重要的API，用于在当前执行栈的所有同步操作完成后立即执行一个回调函数。这使得开发者能够在异步I/O操作和其他异步事件之前，执行一些需要立即响应的任务。本文将探讨process.nextTick的工作原理、使用场景以及注意事项。process.nextTick的工作机制N
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
Linux shell sed 命令详解 BugBear1989
详细的sed命令详解，请参考https://my.oschina.net/u/3908182/blog/1921761一、sed命令工作机制：每次读取一行文本至“模式空间(patternspace)”中，在模式空间中完成处理；将处理结果输出至标准输出设备；语法：sed[OPTION]...{script}[input-file]...参数说明-r支持扩展正则表达式-n静默模式-escript1-e
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http