liweihope

Spark on YARN

文章目录

前言
YARN产生背景
在YARN上面能运行的框架
YARN架构简单介绍
Spark on Yarn 概述
Spark on Yarn

YARN上面启动Spark--理论
YARN上面启动Spark--测试
Spark Properties 属性

前言

Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行模式。

YARN产生背景

以前没有YARN的时候，每个分布式框架都要跑在一个集群上面，比如说Hadoop要跑在一个集群上，Spark用集群的时候跑在standalone上，MPI要跑在一个集群上面，等等。
而且每个分布式框架在各自的集群上跑的时候，都有高峰期低峰期的时候，每个时间点也可能不一样。
这样的话整个集群的资源的利用率非常的低。而且管理起来比较麻烦，因为每个框架都跑在各自的集群上，要去分别管理。
那么能不能进行统一的资源管理和调度？这样YARN就产生了。
那么在YARN上面能跑哪些框架呢？

在YARN上面能运行的框架

有了YARN之后，下图所有的框架都可以跑在YARN集群之上，所有的集群管理都由YARN来负责，可以把YARN理解为：一个操作系统级别的资源管理和调度的框架。
可以在YARN之上跑各种不同的框架，只要它符合YARN的标准就行。这样做的好处，多种计算框架可以共享集群资源，按需分配，你需要多少资源，就取YARN上面申请多少资源，这样可以提升整个资源的利用率。这就是要把各种框架跑在YARN上面的根本原因。

备注：Hive可以跑在MR上面，Tez上面，Spark上面。

YARN架构简单介绍

之前对YARN架构有详细介绍，这里简单说一下。
角色：RM、NM、AM、Container。
面试题必考：各个角色的职责？一个作业挂掉了之后，它怎么重试的，重试的机制？YARN的执行流程？

1.client（比如spark）提交一个作业到RM上；
2.RM会找一个NM，并在上面启动一个Container；
3.在Container里面跑AM(作业的主程序)；
4.一个作业如果要跑的话要申请资源的，所以AM要到RM上面去申请资源。假如说现在拿到了资源：可以在三个NM上面分别启动Container。
5.拿到了资源列表后，去三个NM上面启动分别启动Container来运行task。
上面是一个通用的执行流程。
对于MR来说，这个task是map task或者reduce task；对于Spark来说，这个task就是executor。
如果是MR的话，那么AM就是MapReduce的Application Master主程序（main函数驱动程序），如果是Spark的话就是Spark的的Application Master主程序（main函数驱动程序）。

Spark on Yarn 概述

直接上图:

关于之前讲的Spark的核心概念：
一个Spark应用程序包含一个driver和多个executor。
Driver program是一个进程，它运行应用程序application里面的main()函数，并在main函数里面创建SparkContext。在main函数里面创建了一堆RDD，遇到action的时候会触发job，所以程序会有很多job。
job：由Spark action触发的由多个tasks组成的并行计算。当一个Spark action（如save, collect）被触发，一个包含很多个tasks的并行计算的job将会生成。
每个job被切分成小的任务集，这些小的任务集叫做stages。
task是被发送给一个executor的最小工作单元。每个executor上面可以跑多个task。
Executor：在worker node上启动应用程序的进程，这个进程可以运行多个任务并将数据保存在内存或磁盘存储中。每个Spark应用程序都有它自己的一组executors。executor运行在Container里面。
executor是进程级别，一个进程上面可以并行的跑多个线程的，所以每个executor上面可以跑多个task。

MapReduce和Spark一个本质的区别：
在MapReduce里，每一个task都在它自己的进程里，map对应maptask，reduce对应reducetask，这些都是进程，当一个task完成（maptask或者reducetask）后，这个task进程就结束了。
但是在Spark里面是不一样的，在Spark里面，它的task能够并发的运行在一个进程里，就是说一个进程里面可以运行多个task，而且这个进程会在Spark Application的整个生命周期一直存在，Spark Application是包含一个driver和多个executor的，即使你的作业不再运行了，job运行完了，没有作业在running，它的executor还是一直在的，
对比MapReduce和Spark可知，MapReduce是基于进程的base-process，Spark是基于线程的base-thread。
这样的话，Spark带来的好处就是：
如果是MR的话，你跑task的进程资源都要去申请，用完之后就销毁；但是Spark的话，只要一开始拿到了这些进程资源，后面所有的作业，不需要申请资源，就可以直接快速的启动，是非常的快。用内存的方式进行计算。

当Spark Application去运行的时候，第一步是向Cluster Manager申请资源。
Spark 可以跑在local、Standalone、Apache Mesos、YARN、K8S上。
Cluster Manager可以适配以上各种模式，是Pluggable可插拔的。

ApplicationMaster：AM
每一个YARN上面的Application都有一个AM，这个AM进程，是在第一个Container里运行的，就是说第一个Container就是来运行AM的，AM去和RM互相通信请求资源，然后拿到资源后告诉NM，让NM启动其它的Container，给我们的进程使用，比如去跑executor。
在YARN里面，没有worker Node概念的，因为在YARN里面，executor是运行在container里面的，worker概念在standalone存在的。executor是在Container里运行的，所以Container的内存的设置要大于executor的内存的，不然跑不起来的。
Spark on yarn模式下，spark仅仅是一个客户端而已，生产中只需要在有gateway权限机器上直接解压部署spark即可，非常的方便，并不需要装一个集群。

Spark on Yarn

如何提交Spark应用程序，之前已经讲过，官网也有：
http://spark.apache.org/docs/latest/submitting-applications.html
Spark Running on Yarn看官网：
http://spark.apache.org/docs/latest/running-on-yarn.html
支持YARN上运行spark是在版本Spark 0.6.0上添加的，并在后续版本中进行了一些改善。

YARN上面启动Spark–理论

确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含hadoop集群配置文件的文件夹。这些配置用来写数据到hdfs，连接到YARN的resourceManager。（就是说要在配置文件中配置一下，告诉Spark，你要跑在YARN上面，怎么连接到上面等）。此目录中包含的配置将分发到YARN群集，以便应用程序使用的所有容器都使用相同的配置。（比如说，你启动了后，会有很多executor，那么这些executor的配置都是一样的，一样是因为读取的都是相同的文件配置）。如果配置引用了不受YARN管理的Java系统属性或环境变量，那么也应该在Spark应用程序的配置（driver，executors和AM在客户端模式下运行时）中进行设置。
（举例：export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/）
There are two deploy modes that can be used to launch Spark applications on YARN. In cluster mode, the Spark driver runs inside an application master process which is managed by YARN on the cluster, and the client can go away after initiating the application. In client mode, the driver runs in the client process, and the application master is only used for requesting resources from YARN.
有两种模式可以在YARN上启动Spark 应用。在集群模式下，Spark驱动程序运行在由集群上的YARN管理的application master进程（AM进程）内部，客户端可以在启动应用程序后关闭。在客户端模式下，驱动程序在客户端进程中运行， application master仅用于从YARN请求资源，客户端是不能关闭的，关掉的话作业就会挂掉。
Unlike other cluster managers supported by Spark in which the master’s address is specified in the --master parameter, in YARN mode the ResourceManager’s address is picked up from the Hadoop configuration. Thus, the --master parameter is yarn.
与Spark支持的其他集群管理器不同比如Spark standalone和Mesos模式，主节点地址在–master参数中指定，在YARN模式下，ResourceManager的地址从Hadoop配置中提取。因此，–master的参数是yarn。
To launch a Spark application in cluster mode:
$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] [app options]
For example:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    examples/jars/spark-examples*.jar \
    10

以上启动了运行默认Application Master的YARN客户端程序。SparkPi 将作为Application Master的一个子线程运行。客户端将定期轮询Application Master的状态更新并将其显示在控制台中。一旦你的应用结束运行，客户端将退出。
To launch a Spark application in client mode, do the same, but replace cluster with client. The following shows how you can run spark-shell in client mode:
$ ./bin/spark-shell --master yarn --deploy-mode client
–deploy-mode client不写的话默认就是client

YARN上面启动Spark–测试

在我自己的云主机上（4G内存，2个core）
先执行：export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/
运行命令：
spark-shell --master yarn --deploy-mode client
发现报错，修改下，把executor改成1个，内存改小一些，运行下面这个命令：

spark-shell --master yarn --deploy-mode client \
--executor-memory 500M \
--num-executors 1

还是报错，如下。一直没有解决，可能是云主机资源太少了的缘故。跑不起来。待解决。。。。。。

ERROR YarnClientSchedulerBackend: The YARN application has already ended! It might have been killed or the Application Master may have failed to start. Check the YARN application logs for more details.
ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Application application_1559720994730_0007 failed 2 times due to AM Container for appattempt_1559720994730_0007_000002 exited with  exitCode: 1
For more detailed output, check application tracking page:http://hadoop001:18088/proxy/application_1559720994730_0007/Then, click on links to logs of each attempt.
Diagnostics: Exception from container-launch.
Container id: container_1559720994730_0007_02_000001
Exit code: 1
Stack trace: ExitCodeException exitCode=1: 
.....
org.apache.spark.SparkException: Application application_1559720994730_0007 failed 2 times due to AM Container for appattempt_1559720994730_0007_000002 exited with  exitCode: 1
....
Container exited with a non-zero exit code 1
Failing this attempt. Failing the application.
.....

如果跑起来之后，可以通过web界面去看相应的job等等，上面有很多信息。
比如：一个job下面有多个stage，一个stage下面有多个task。
举例：

//在spark-shell上执行这个命令：
sc.textFile("hdfs://文件路径").flatMap(_.split("\t").map((_,1)).reduceByKey(_+_).collect

然后可以去界面上看DAG图：

可以看出，collect是一个action，遇到collect的时候触发了这个job；reduceByKey含有shuffle，遇到reduceByKey的时候拆分成两个stage。

然后deploy-mode为 cluster来启动，报错：

[hadoop@hadoop001 ~]$ spark-shell --master yarn --deploy-mode cluster
Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark shells.
        at org.apache.spark.deploy.SparkSubmit.error(SparkSubmit.scala:857)
        at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:292)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:143)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:924)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:933)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
[hadoop@hadoop001 ~]$

之前在yarn的运行架构的时候，提到过：由于driver是在集群上调度各个任务的，所以它应该靠近工作节点运行，最好是在同一局域网上运行。如果你想发送请求给远端的集群，最好向驱动程序打开RPC并让它从附近提交操作，而不是远离工作节点运行驱动程序。
所以把driver运行在集群里面，这样driver靠近工作节点（executor节点）运行，性能会更好一点。
但是，如果driver运行在本地local，它的日志就在本地，但是如果运行在集群里面，不知道AM运行在哪个节点上，日志不知道在哪里，你需要怎么看日志？
可通过yarn logs -applicationId 命令查询yarn上作业日志。

Spark Properties 属性

Spark的属性有：
spark.yarn.am.memory、spark.yarn.max.executor.failures、spark.executor.instances、spark.yarn.am.cores等等
这些都有默认值，也都是可以调的。

当这样启动spark-shell的时候：

[hadoop@hadoop001 ~]$ spark-shell --master yarn --deploy-mode client
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
 。。。。。

里面的这个：
Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
spark.yarn.jars和spark.yarn.archive没有被设置，会把SPARK_HOME下面的这些东西打个包上传到HDFS上面去，这个过程是非常耗性能的。
看一下SPARK_HOME下面，jars和conf路径下面有很多东西，如果打包上传到HDFS上面肯定要耗性能的。
可以通过下面这些参数进行设置，不让它上传（你可以自己先上传到HDFS上面去）
spark.yarn.dist.archives
spark.yarn.dist.files
spark.yarn.dist.jars
这个在生产上很有用的。

spark on yarn总结：
1）如果是local模式，driver跑在本地，driver调度task，把task任务发送给executor，如果是cluster模式，driver跑在集群里。
2）如果是local模式，客户端不可以在启动应用程序后关闭。如果是cluster模式，客户端可以在启动应用程序后关闭
2）AM：Application Master
本地local模式：AM仅仅用于申请资源
cluster集群模式：AM不仅仅用于申请资源，还有task的调度
（cluster集群模式：driver跑在AM进程里面，driver的对task的调度就由AM来执行了）

什么时候选择client，什么什么选择cluster？都可以的，你可以选择cluster，但是很多场景都是选择client模式的。

Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
Vue3 tailwindcss
1、安装tailwindcsspnpmi-Dtailwindcsspostcssautoprefixer#yarnadd-Dtailwindcsspostcssautoprefixer#npmi-Dtailwindcsspostcssautoprefixer2、创建TailwindCSS配置文件npxtailwindcssinit-ptailwind.config.js/**@type{impor
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
JSZip 使用详解啃火龙果的兔子开发DEMO 前端 javascript
JSZip使用详解JSZip是一个用于创建、读取和编辑ZIP文件的JavaScript库，完全在浏览器中运行，也支持Node.js环境。安装浏览器环境Node.js环境npminstalljszip#或yarnaddjszip基本使用1.创建一个ZIP文件constJSZip=require("jszip");//Node.js中需要constzip=newJSZip();//添加文本文件zip.
Mammoth.js 使用详解啃火龙果的兔子开发DEMO 前端 javascript
Mammoth.js使用详解Mammoth.js是一个用于将Word文档（.docx）转换为HTML或Markdown的JavaScript库，支持浏览器和Node.js环境。安装浏览器环境Node.js环境npminstallmammoth#或yarnaddmammoth基本使用1.将DOCX转换为HTML//浏览器中使用input[type=file]获取文件document.getEleme
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
pnpm的安装及其使用愉快的小跳蛙 vue.js 前端 javascript node.js npm
需求：拉取依赖时有时npm或者yarn无法拉取某个依赖思路：通过pnpm来拉取便能解决问题一.pnpm的安装1.通过npm来安装（node版本>18.12）###这个如果你使用了nvm等工具来管理node的话，当你切换node版本时nvm需要重新安装####全局安装pnpmnpminstall-gpnpm#验证安装pnpm--version2.通过脚本安装###这个安装之后不会随着node等版本的
React-Ts项目中配置路径别名@ wisuky 前端项目相关配置 react.js 前端前端框架
方案一：配置webpack.config.js在react脚手架搭建的项目中，webpack.config.js配置文件是隐藏的，需要通过npmruneject打开，并且该操作是不可逆的，所以不建议使用该方案。方案二：使用craco库1.安装cracoyarnadd-D@craco/cracoORnpmi-D@craco/craco2.在项目根目录中创建craco.config.js配置文件，并添
yarn、npm和cnpm区别差异和使用场景、详解配置夲奋亻Jay vue2.0 vue3 react npm 前端 node.js
yarn、npm和cnpm是Node.js应用程序的包管理器，它们用于安装和管理项目依赖。以下是它们的区别、差异和使用场景的详解：npm(NodePackageManager)官网:https://www.npmjs.com/默认:Node.js默认的包管理器。速度:直接连接到npm官方源，速度可能因地区而异。功能:提供了丰富的包生态和插件支持。使用场景:适用于大多数Node.js项目，特别是当需
node.js中yarn、npm、cnpm详解半桶水专家 node.js node.js npm arcgis
npm(NodePackageManager)npm是Node.js的默认包管理器，随Node.js一起安装。特点：官方包管理器，拥有最大的包生态系统自动处理依赖关系提供package.json文件管理项目依赖包含CLI工具用于安装、发布和管理包常用命令：npminit#初始化项目npminstall#安装包npminstall--save#安装并添加到dependenciesnpminstall
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Day.js 基础用法全方位详解超级土豆粉前端技术沉淀指南 javascript 开发语言 ecmascript
Day.js基础用法全方位详解目录Day.js基础用法全方位详解一、Day.js简介二、安装与引入1.NPM/Yarn安装2.CDN引入三、创建日期对象四、格式化日期五、解析日期（字符串转日期）六、日期运算1.加法`.add()`2.减法`.subtract()`3.支持的单位七、获取日期信息八、设置日期信息九、日期比较十、获取时间戳与原生Date十一、判断有效性与闰年十二、获取月初、月末、年初、
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
深入对比四大主流 JavaScript 包管理器：npm、Yarn、pnpm、Bun 止观止前端 javascript npm yarn pnpm Bun
引言在现代前端与Node.js开发中，包管理器（PackageManager）是构建高效工作流的关键工具，直接影响项目的安装速度、磁盘空间占用和团队协作效率。npm、Yarn、pnpm和Bun作为主流JavaScript包管理器，各有优劣。本文将基于权威资料（如npm官方文档、Yarn官方文档、pnpm官方文档、Bun官方文档），从核心原理、性能表现、依赖管理等维度进行深度解析，帮助开发者根据项目
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Angular 从框架搭建到开发上线的完整流程啃火龙果的兔子开发DEMO angular.js 前端 javascript
Angular从框架搭建到开发上线的完整流程一、环境准备与项目搭建1.环境要求Node.js(推荐LTS版本，当前16.x/18.x)npm(随Node.js安装)或yarnAngularCLI(最新稳定版)2.安装AngularCLInpminstall-g@angular/cli#或yarnglobaladd@angular/cli3.创建新项目ngnewmy-angular-app--sty
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Vue.js前端开发实战-----常用UI组件
1.进入命令行界面，执行yarncreatevite命令，输入项目名称，选择Vue框架，选择JavaScript，完成vue项目创建。2.在完成创建之后在其目录下通过yarn安装ElementPius，具体命令如下：[email protected].在VSCode中创建一个新的vue文件，文件名称命名分别为MyInfo.vue，RoommateDetail.vue
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
为什么程序员都在悄悄换掉npm？pnpm到底有什么魔力？
为什么程序员都在悄悄换掉npm？pnpm到底有什么魔力？一、pnpm是谁？包管理界的共享快递柜！想象你住在一个高档小区，每家每户都有独立快递柜。但每次网购，快递员都把包裹塞进你家柜子，结果100栋楼的快递柜里都塞满同一个快递——这就像传统npm/yarn的包管理方式，每个项目都重复下载相同依赖。pnpm就是那个聪明的物业管理员！它建了一个中央共享仓库，所有住户（项目）需要的包裹（依赖包）都存在这里
electron-vue + serialPort 使用 szxya node electron vue node
electron-vue搭建#安装vue-clinpminstall-gvue-clinpmintsall-gelectronvueinitsimulatedgreg/electron-vuemy-project#安装依赖和运行项目cdmy-projectyarn#ornpminstallyarnrundev#ornpmrundev引入SerialPort（串口调用）npminstallseria
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
【无标题】妮妮喔妮前端 javascript 开发语言
使用yarnaddclassnames安装。这是antd中关于button组件的写法！所以我们自己取类名也可以这么取！现在我们直接模仿antd官网中button组件的样式搜索网站UNPKG这是自己写组件的大致导入导出格式。写好组件之后记得引入。好像看到很多次JSX了确实应该了解一下然后图片的Base64格式也应该学习一下。目前的包管理器我知道的有npm、pnpm、yarn、cnpm这些，cnpm就
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D