茵茵的聪聪

Spark学习—— (3) 运行模式Local,Standalone,YARN

Spark有多种运行模式，包括——

local模式，本地运行
Standalone模式，使用Spark原生的资源调度器
YARN模式（生产模式中常用），使用Hadoop的YARN作为资源调度器
Mesos模式，使用Mesos作为资源调度器

本文主要介绍前面三种最常用的运行模式，其中每种模式又可细分为两种模式。在搭建好集群的基础上，使用各个模式分别运行，描述其运行过程。

关于集群搭建，可以参考上一篇笔记。

若有错误的地方，请大佬指正。

文章目录

1. 配置Spark历史服务器

1.1 配置
1.2 启动历史服务器

2. local模式

2.1 local[N]概念
2.2 local[N]运行过程
2.3 local-cluster概念
2.4 local-cluster运行过程

3. Standalone模式

3.1 概念定义
3.2 Client模式运行过程
3.3 Cluster模式运行过程

4. YARN模式

4.1 概念定义
4.2 Client模式运行过程
4.3 Cluster模式运行过程

Reference

1. 配置Spark历史服务器

在运行Spark程序过程中，可以通过http://driver:4040访问web UI，查看运行情况。但是运行结束后，就无法再查看。为了后面查看Spark任务的方便，这里先配置下Spark历史服务器。

1.1 配置

查看之前配置HDFS时设置的文件系统的位置，在hadoop/etc/hadoop/core-site.xml文件中，如下，之前设置端口号为9000

<configuration>
	<property>
		<name>fs.defaultFSname>
		<value>hdfs://master:9000value>   
	property>
	...
configuration>

修改spark/conf/spark-defaults.conf，目录下有对应的template文件，复制一下就好，在后面增加内容如下：

spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/spark/history

修改spark/conf/spark-env.sh，目录下有对应的template文件，复制一下就好，在后面增加内容如下：

#历史服务器
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory = hdfs://master:9000/spark/history -Dspark.history.ui.port=18080"

把文件发送到另外两个slave节点（不发也可以）

scp -r /opt/spark/conf Node@slave1:/opt/spark
scp -r /opt/spark/conf Node@slave2:/opt/spark

1.2 启动历史服务器

启动HDFS，启动相应的namenode和datanode

/opt/hadoop/sbin/start-dfs.sh

hdfs dfs -mkdir /spark
hdfs dfs -mkdir /spark/history

启动spark/sbin/start-history-server.sh

sbin/start-history-server.sh

验证是否启动成功，如下，看到HistoryServer，且Web UI可正常访问

Spark学习—— (3) 运行模式Local,Standalone,YARN_第1张图片

2. local模式

local模式包括 local[N] 模式和 local-cluster 模式，都是在单机上运行。

2.1 local[N]概念

本地运行模式，用单机的多个线程（单个进程，区分local-cluster模式）来模拟Spark的分布式计算，通常用于验证程序的逻辑是否有问题。

local[N]的N表示使用N个线程，每个线程有一个core。

若不指定，则N=1；若为*，则N等于机器上拥有的逻辑核的数量。（Run Spark locally with as many worker threads as logical cores on your machine.）

2.2 local[N]运行过程

使用local[N]模式运行时，无需启动Master、Worker守护进程（Standalone模式才需要）。

（这里使用ubuntu默认的python2.7我运行不了，参考Reference.6切换成3.5就可以了）

使用如下命令运行，在spark目录下，运行example程序，计算pi值，指定使用4个线程

spark-submit --master local[4] examples/src/main/python/pi.py 1000

查看运行时的进程，可以看到除了历史服务器相关的进程，只有一个SparkSubmit进程

Spark学习—— (3) 运行模式Local,Standalone,YARN_第2张图片

在历史服务器查看应用运行情况如下，可以看到按照设定的使用了4个线程

整体运行过程大致如下（按照Spark的运行流程来看）：

SparkSubmit充当client角色，提交Spark应用
SparkSubmit运行Driver程序，启动SparkContext
SparkSubmit创建一个Eexcutor，创建线程池，大小为4（个人理解为：SparkSubmit本身也是资源管理器，分配给自身）
Driver创建tasks，然后将这些tasks分配到Executor中执行

2.3 local-cluster概念

本地运行模式，与local[N]的区别在于local-cluster模式使用单机下的多个进程来更大程度地模拟集群的分布式场景，一般也是用于验证程序的逻辑是否有问题。

提交程序需要提供local-cluster[x,y,z]参数，x表示生成的executor数目，y表示每个executor拥有的core数/线程数，z表示每个executor的memory大小。

2.4 local-cluster运行过程

使用如下命令运行计算pi值的程序，指定使用2个executor，每个有4个core，memory为1024M

spark-submit --master local-cluster[2,4,1024]  examples/src/main/python/pi.py 1000

查看运行时的进程，可以看到有一个SparkSubmit进程和两个CoarseGrainedExecutorBackend进程

关于CoarseGrainedExecutorBackend进程，可以参考Reference.3

CoarseGrainedExecutorBackend 是 Executor 运行所在的进程名称，Executor 才是真正处理 Task 的对象，Executor 内部是通过线程池的方式来完成 Task 的计算的。

CoarseGrainedExecutorBackend 是一个消息通信体(其实现了 ThreadSafeRpcEndPoint) ，可以发送信息给 Driver 并可以接受 Driver 中发过来的指令，例如启动 Task 等。

Spark学习—— (3) 运行模式Local,Standalone,YARN_第3张图片

在历史服务器查看运行情况如下，可以看到driver和Executor不在同一个进程里，每个Executor有4个核

整体运行过程大致如下（按照Spark的运行流程来看）：

SparkSubmit充当client角色，提交Spark应用
SparkSubmit运行Driver程序，启动SparkContext，获取Executor的信息
本地启动CoarseGrainedExecutorBackend进程，向Driver进程进行Executor的注册，注册成功后在CoarseGrainedExecutorBackend中创建Executor对象
Driver创建tasks，然后将这些tasks发送给 CoarseGrainedExecutorBackend，ExecutorBackend通过调用LaunchTask将任务交给Executors中执行

（此处粗体只是简单地描述了Executor的运行过程，更详细的运行过程可以参考Reference.3）

3. Standalone模式

3.1 概念定义

Standalone模式是指使用Spark原生的资源管理器的集群运行模式。

在Standalone模式下，需要使用Master和Worker节点，其中，Master节点负责资源的调度，即为Cluster Manager，负责控制、管理、监控集群中的worker节点。

Standalone模式分为Client模式和Cluster模式，区别在于——

Client模式下，Client提交应用后，Driver程序在Client上运行
Cluster模式下，Client提交应用后，Client通知Master，Master随机选择一个满足Driver资源需求的Worker，在该Worker节点上运行Driver

Client模式适用于测试阶段，不能应用到生产环境中，因此假设提交client提交多个application到集群，则client节点上将会运行多个Driver程序，负载过大。

3.2 Client模式运行过程

使用start-all.sh启动集群（此处在spark-env.sh中设置SPARK_WORKER_INSTANCES=2），所以每个slave有两个Worker进程，如下：

Spark学习—— (3) 运行模式Local,Standalone,YARN_第4张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第5张图片

使用如下命令提交任务，指定master节点和class参数

spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.1.jar 1000

查看各进程如下和历史服务器如下：

Spark学习—— (3) 运行模式Local,Standalone,YARN_第6张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第7张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第8张图片

Client模式下运行过程如下：

Client提交Application，并在客户端启动Driver
Driver启动SparkContext，与Master通信，通知该Application需要在哪些Worker启动Executor
Master与对应的Worker通信发送启动Executor的消息
本地启动CoarseGrainedExecutorBackend进程，向Driver进程进行Executor的注册，注册成功后在CoarseGrainedExecutorBackend中创建Executor对象
Driver创建tasks，然后将这些tasks发送给 CoarseGrainedExecutorBackend，ExecutorBackend通过调用LaunchTask将任务交给Executors中执行

3.3 Cluster模式运行过程

使用如下命令提交任务，指定master节点、class参数、deploy-mode

spark-submit --master spark://master:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.1.jar 1000

查看各进程如下和历史服务器如下，注意到——
- slave2有DriverWrapper进程，即Driver在slave2上运行
- slave2其中一个Worker的core数少了一个，用于运行Driver

Spark学习—— (3) 运行模式Local,Standalone,YARN_第9张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第10张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第11张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第12张图片

Cluster模式下运行过程如下（与Client模式只有第一步有区别）：

Client提交Application，Client通知Master，Master随机选择一个满足Driver资源需求的Worker，在上面生成一个子进程DriverWrapper来启动driver程序
Driver启动SparkContext，与Master通信，通知该Application需要在哪些Worker启动Executor
Master与对应的Worker通信发送启动Executor的消息
本地启动CoarseGrainedExecutorBackend进程，向Driver进程进行Executor的注册，注册成功后在CoarseGrainedExecutorBackend中创建Executor对象
Driver创建tasks，然后将这些tasks发送给 CoarseGrainedExecutorBackend，ExecutorBackend通过调用LaunchTask将任务交给Executors中执行

4. YARN模式

4.1 概念定义

YARN模式是指使用Hadoop的YARN作为资源管理器的集群运行模式。

在YARN模式下，不需要使用Master和Worker节点，而是使用YARN下的RM节点与NM节点，对应Standalone模式下的Master节点和Worker节点。

YARN的运行流程如下（来自之前的笔记，可以先看一下），Spark的YARN模式流程基本相同。

Spark学习—— (3) 运行模式Local,Standalone,YARN_第13张图片

YARN模式同样分为两种，区别在于——

Client模式下，Client提交应用后，Driver程序在Client上运行
Cluster模式下，Client提交应用后，Client通知ResourceManager，Resource Manager在集群中的某个NodeManager上运行ApplicationMaster，该AM同时会执行driver程序

4.2 Client模式运行过程

使用start-yarn.sh启动yarn集群，如下：

Spark学习—— (3) 运行模式Local,Standalone,YARN_第14张图片

使用如下命令提交应用，指定master为YARN

spark-submit --master yarn --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.1.jar 1000

查看各节点进程与历史服务器，可以看到——
- Client节点有SparkSubmit进程，执行Driver程序
- slave2节点有ExecutorLauncher进程，启动AM
- 两个NM节点上都有CoarseGrainedExecutorBackend来并发执行程序

Spark学习—— (3) 运行模式Local,Standalone,YARN_第15张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第16张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第17张图片

运行过程如下（前两步相当于YARN中的”用户提交应用“，接下来为YARN的工作流程，而最后两步与Standalone相同，也就是AM分配作业的功能由Driver执行了）：

Client模式下，Client提交应用后，Driver程序在Client上运行
Driver程序向Resource Manager发送请求，启动ApplicationMaster
ResourceManager的ASM为该应用程序分配第一个Container，并与对应的NodeManager通信，在Container上启动ApplicationMaster
ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态
ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源
一旦ApplicationMaster申请到资源，则与对应的NodeManager通信，要求其启动任务
NodeManager获得container资源后，启动CoarseGrainedExecutorBackend进程，向Driver进程进行Executor的注册，注册成功后在CoarseGrainedExecutorBackend中创建Executor对象
Driver创建tasks，然后将这些tasks发送给 CoarseGrainedExecutorBackend，ExecutorBackend通过调用LaunchTask将任务交给Executors中执行

4.3 Cluster模式运行过程

使用如下命令提交应用，指定master为YARN，deploy-mode为cluster

spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.1.jar 1000

查看各节点进程与历史服务器，可以看到——
- Client节点有SparkSubmit进程
- slave2节点有ApplicationMaster进程，启动Driver，历史服务器也能看到driver在slave2上
- 两个NM节点上都有CoarseGrainedExecutorBackend来并发执行程序

Spark学习—— (3) 运行模式Local,Standalone,YARN_第18张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第19张图片

Spark学习—— (3) 运行模式Local,Standalone,YARN_第20张图片

运行过程如下（与Client模式的区别在于Driver不在Client上执行，而在AM节点上执行，相当于AM除了申请资源、要求NodeManager启动任务外，还具有任务调度能力）：

Client提交应用后，向ResourceManager请求启动ApplicationMaster
ResourceManager的ASM为该应用程序分配第一个Container，并与对应的NodeManager通信，在Container上启动ApplicationMaster，该节点同时执行Driver程序
ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态
ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源
一旦ApplicationMaster申请到资源，则与对应的NodeManager通信，要求其启动任务
NodeManager获得container资源后，启动CoarseGrainedExecutorBackend进程，向AM节点的Driver进程进行Executor的注册，注册成功后在CoarseGrainedExecutorBackend中创建Executor对象
Driver创建tasks，然后将这些tasks发送给 CoarseGrainedExecutorBackend，ExecutorBackend通过调用LaunchTask将任务交给Executors中执行

Reference

spark学习(基础篇)–(第三节)Spark几种运行模式
Spark多种运行模式
Spark内核第33课：Spark Executor内幕彻底解密：Executor工作原理图、ExecutorBackend注册源码解密、Executor实例化内幕、Executor具体工作内幕
spark 从spark-submit开始解析整个任务调度流程
Spark中Standalone的两种提交模式（Standalone-client模式与Standalone-cluster模式）
ubuntu下切换默认的python版本
Hadoop学习——(1) 基础知识
【Spark篇】—Spark中yarn模式两种提交任务方式

人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
C#入门学习记录（五）轻松掌握条件分支与循环语句 FAREWELL00075 c#学习前端
前言编程就像给计算机写一份"烹饪指南"，而条件分支和循环就是这份指南中的关键指令。想象你要教机器人做蛋糕：条件分支："如果没有鸡蛋了，就去超市买"（做决定）循环："重复搅拌面糊100次"（重复动作）本文会用简单易懂的语言和比喻，带你掌握C#中这两个核心概念。新手友好，放心食用！一、条件分支：让程序学会"做选择"1.if-else语句（基础版选择器）if(今天下雨){Console.WriteLin
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
学习记录之游标翻页实现 sjsjsbbsbsn Java学习之路项目实战技巧 java mysql redis
游标翻页本方案参考mallchat实现一.深翻页问题普通翻页前端一般会有个分页条。能够指定一页的条数，以及任意选择查看第几页,假设我们想查询第11页的内容传递过来的参数为:pageNo=11，pageSize=10对应的sql查询为:select*fromtablelimit100,10其中100代表需要跳过的条数，10代表跳过指定条数后，往后需要再取的条数。假设翻页到1w条,那我们要先扫描到这1
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
easyswoole学习记录司江龙 swoole PHP easyswoole swoole
php-fpm的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型，问题：一个work进程内只会处理一个请求，也就是说这个进程内在同一时刻只会处理一个request请求，不会处理多个，所以一台服务器的并发数就取决于服务器开启了多少个work进程
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
对象的行为-状态影响行为，行为影响状态 Java版蜡笔小新 java 学习开发语言
小白Java学习记录4一周掌握Java入门知识学习内容：对象的行为学习产出：你可以传值给方法d.bark(3);方法会运用形参。调用的一方会传入实参。实参是传给方法的值。当传入放后就成了形参。参数跟局部（local）变量是一样的。它有类型与名称，可以在方法内运用。重点是：如果某个方法需要参数，你就一定得传东西给它。那个东西得是适当类型的值。Dogd=newDog（）；d.bark（3）；voidb
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p