E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习笔记
spark学习笔记
1、什么是Spark?Spark是一个用来实现快速而通用的集群计算的平台。1.1、特点能在内存中进行计算。1.2、SparkCore包含任务调度、内存管理、错误恢复、与存储系统交互等模块。1.3、SparkSQL通过SparkSQL,我们可以使用SQL或者Hive版本的SQL(HQL)来查询数据,支持多种数据源,比如Hive表、Parquet、JSON等。1.4、SparkStreaming对实时
seafreak
·
2020-01-31 02:36
Spark学习笔记
(四)—— Yarn模式
1、Yarn运行模式介绍Yarn运行模式就是说Spark客户端直接连接Yarn,不需要额外构建Spark集群。如果Yarn是分布式部署的,那么Spark就跟随它形成了分布式部署的效果。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出yarn-clus
三秋叶
·
2020-01-10 14:00
Spark学习笔记
(三)—— Standalone模式
上篇笔记记录了Local模式的一些内容,但是实际的应用中很少有使用Local模式的,只是为了我们方便学习和测试。真实的生产环境中,Standalone模式更加合适一点。1、基础概述Standalone不是单机模式,它是集群,但是是基于Spark独立调度器的集群,也就是说它是Spark特有的运行模式。有Client和Cluster两种模式,主要区别在于:Driver程序的运行节点。怎么理解呢?哪里提
三秋叶
·
2020-01-10 14:00
Spark学习笔记
(二)—— Local模式
Spark的运行模式有Local(也称单节点模式),Standalone(集群模式),SparkonYarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍第一种模式。1、Local模式Local模式就是运行在一台计算机上的模式,也称单节点模式。Local模式是最简单的一种Spark运行方式,它采用单节点多线程(CPU)方式运行,通常就是用于在本机学习或者测试使用的,对新手比较友好。
三秋叶
·
2020-01-09 13:00
Spark学习笔记
(一)——基础概述
本篇笔记主要说一下Spark到底是个什么东西,了解一下它的基本组成部分,了解一下基本的概念,为之后的学习做铺垫。过于细节的东西并不深究。在实际的操作过程中,才能够更加深刻的理解其内涵。1、什么是Spark?Spark是由美国加州伯克利大学的AMP实验室开发的,一款基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。说白了就是搞数据计算分析的框架,过于细节的东西在学习过程中
三秋叶
·
2020-01-09 11:00
Spark学习笔记
趁着工作业余时间,趁着内心对技术追求的热情,还是对Spark这个大数据内存计算框架动手了,毕竟人与人之间的差距都是在工作业余时间拉开的……Spark官网:http://spark.apache.org/一、Spark概述官网已经说的很明白了,我这里记录一些重点。Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既
coder、
·
2020-01-07 23:00
Spark学习笔记
(6)性能调优
1.调节并行度并行度是指各个stage中task的数量。1)官方推荐,task数量设置成sparkapplication总cpucore数量的2~3倍,比如150个cpucore,基本要设置task数量为300~500。2)设置并行度SparkConfconf=newSparkConf().set("spark.default.parallelism","500")2.RDD优化1)复用RDD2)
灯火gg
·
2020-01-04 07:35
Spark学习笔记
四:Spark Yarn集群搭建
Spark集群使用上篇文章【
Spark学习笔记
三:SparkStandalone集群搭建】安装的SparkStandalone集群。
开发者连小超
·
2019-12-24 15:30
Spark学习笔记
(5)Shuffle源码分析
概述RDD作为Spark对各种数据计算模型的同一抽象,被用于迭代计算过程以及任务结果的缓存读写。在MR模型中,shuffle是map到reduce的中间桥梁。经过map标记后,shuffle负责分发到各个reducer上。如果有大量数据需要shuffle,shuffle决定了整个计算引擎的性能和吞吐量。MappedRDD的iterator方法实际调用父类RDD的iterator方法/***RDD的
灯火gg
·
2019-12-14 06:48
spark学习笔记
(一)
概括我们公司使用spark已经有段时间了,现在我对我之前的学习知识进行整理,以便记录和大家共同学习,有一部分是网上摘抄,感谢网络共享大神。本文只是针对spark2,spark基本概念,简而言之就是:spark专门为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。是一种跟Hadoop相似的通用分布式并行计算框架,但是spark是基于内存计算的分布式执行框架,在执行速度上优于h
伯安知心
·
2019-11-09 17:00
Spark学习笔记
Spark开头别的不多说了,就说Spark为啥存在。他来到这就是为了代替MapReduce的!MR的缺点为啥要被代替呢?学过Hadoop知道,Hadoop早期,MR是基于数据集的计算,面向的是数据。基本运算规则是从存储介质中采集数据,然后进行计算,所以它的计算往往是一次性的,这就存在一定的局限性,不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。而且因为文件存储,性能不好!MR和Hadoop
AceCream佳
·
2019-11-01 18:43
Spark学习笔记
(一)
一、什么是Spark?Spark是一个针对大规模数据处理的快速通用引擎,类似于MapReduce,都是进行数据的处理。二、Spark的特点1.基于Scala语言开发、Spark基于内存的计算,运算速度快、所以从运算速度来将要比MapReduce快。2.易用:支持多种语言3.通用:SparkCore、SparkSQL、SparkStreaming(流式计算)4.兼容性好:完全兼容HadoopSpar
Jayboy.chen
·
2019-10-19 09:56
大数据
Spark学习笔记
3——RDD(下)
目录
Spark学习笔记
3——RDD(下)向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递(仅限于Java8及以上)常见的转化操作和行动操作基本RDD
隔壁老李头
·
2019-09-18 16:00
Spark学习笔记
3——RDD(下)
Spark学习笔记
3——RDD(下)目录
Spark学习笔记
3——RDD(下)向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递(仅限于Java8及以上
隔壁老李头
·
2019-09-18 16:00
Spark学习笔记
2——RDD(上)
目录
Spark学习笔记
2——RDD(上)RDD是什么?
隔壁老李头
·
2019-09-10 17:00
Spark学习笔记
1——第一个Spark程序:单词数统计
Spark学习笔记
1——第一个Spark程序:单词数统计笔记摘抄自[美]HoldenKarau等著的《Spark快速大数据分析》添加依赖通过Maven添加Spark-core_2.10的依赖程序找了一篇注释比较清楚的博客代码
隔壁老李头
·
2019-09-10 13:00
Spark学习笔记
0——简单了解和技术架构
目录
Spark学习笔记
0——简单了解和技术架构什么是Spark技术架构和软件栈SparkCoreSparkSQLSparkStreamingMLlibGraphX集群管理器受众起源和发展
Spark学习笔记
隔壁老李头
·
2019-09-10 12:00
Spark学习笔记
---workConut
Spark学习笔记
之—WordCount笔记。
wudonglianga
·
2019-08-28 00:16
Spark
大数据
Spark学习笔记
02:Spark下载与入门
Spark学习笔记
02:Spark下载与入门一、Spark下载与入门1、下载Sparkhttp://spark.apache.org/downloads.html2、安装Spark将安装包解压缩在/home
howard2005
·
2019-07-28 19:47
Spark
大数据基础
Spark学习笔记
(4)Spark2全面深度剖析--知识点视频,源码,调优,JVM,图计算,项目实战
26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,SparkSQL,SparkStreaming,Kafka,Flume,Scale,Python视频课程视频课程包含:26套Spark项目实战包含:大数据之Spark高级课程,企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理
wx5d089cc7a67a3
·
2019-06-19 16:38
spark
源码
调优
(十一)
Spark学习笔记
之数据倾斜
文章目录数据倾斜调优现象原因定位方法过滤引起数据倾斜的key提高shuffle操作的并行度对数据倾斜key使用随机数,实现两阶段聚合将hashshufflejoin转换成mapjoin使用Partitioner优化hashshufflejoin综合使用上述方法数据倾斜调优现象如果绝大多数task执行都非常快,但是个别task执行极慢。比如:总共有100个task,99个task都在1分钟内执行完成
DeaSun
·
2019-06-18 00:08
Spark
Spark学习笔记
SparkCore1.1RDD概念:ThemainabstractionSparkprovidesisaresilientdistributeddataset(RDD),whichisacollectionofelementspartitionedacrossthenodesoftheclusterthatcanbeoperatedoninparallel.RDD创建:parallelizinga
killianxu
·
2019-06-15 09:00
Spark学习笔记
之Spark中的RDD的具体使用
1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中
EVAO_大个子
·
2019-06-14 10:20
Spark学习笔记
之Spark SQL的具体使用
1.SparkSQL是什么?处理结构化数据的一个spark的模块它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用2.SparkSQL的特点多语言的接口支持(javapythonscala)统一的数据访问完全兼容hive支持标准的连接3.为什么学习SparkSQL?我们已经学习了Hive,它是将HiveSQL转换成MapReduce然后提交到集群上执行,大大简化了编写Ma
EVAO_大个子
·
2019-06-14 10:29
Spark学习笔记
Spark Streaming的使用
1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读
EVAO_大个子
·
2019-06-14 09:55
大数据系列——
Spark学习笔记
Spark Streaming
1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读
EVAO_大个子
·
2019-06-14 00:00
spark-streaming
大数据系列——
Spark学习笔记
之 Spark SQL
1.SparkSQL是什么?处理结构化数据的一个spark的模块它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用2.SparkSQL的特点多语言的接口支持(javapythonscala)统一的数据访问完全兼容hive支持标准的连接3.为什么学习SparkSQL?我们已经学习了Hive,它是将HiveSQL转换成MapReduce然后提交到集群上执行,大大简化了编写Ma
EVAO_大个子
·
2019-06-14 00:00
spark
大数据系列——
Spark学习笔记
之Spark中的RDD
1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中
EVAO_大个子
·
2019-06-14 00:00
spark
rdd
大数据系列——
Spark学习笔记
之初识Spark
1.Spark简介2009年,Spark诞生于伯克利大学的AMPLab实验室。最出Spark只是一个实验性的项目,代码量非常少,属于轻量级的框架。2010年,伯克利大学正式开源了Spark项目。2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期。第三方开发者贡献了大量的代码,活跃度非常高2014年2月,Spark以飞快的速度称为了Apache的顶级项目,同时大数据公司Clo
EVAO_大个子
·
2019-06-14 00:00
spark
Spark 之 SparkContext 原理剖析
这句话在
Spark学习笔记
之调度基本上都会被提及,这篇就从源码角度来剖析这个问题。首先从SparkContext源码入手:--SparkContext.scala//初始化Ta
DeaSun
·
2019-05-30 14:19
Spark
Py
Spark学习笔记
-数据读取与保存
1.常见的读取数据源文件格式和文件系统。对于存储在本地文件系统或分布式文件系统(比如HDFS)中的数据,Spark可以访问很多种不同的文件格式。包括文本文件、JSON、SequenceFile、以及protocolbuffer。SparkSQL中的结构化数据源。数据库和键值存储。Spark自带的库以及一些第三方库,可以用来连接HBase、JDBC源。格式名称结构化备注文件文件无结构普通的文本文件,
Sun_Sherry
·
2019-05-08 20:02
Py
Spark学习笔记
-数据分区
1.数据分区在分布式程序中,通信的代价较大,通过对数据集在节点间的分区进行控制以获得较少的网络传输从而提升整体性能。如果给定的RDD只需要被扫描一次,则完全没有必要对其预先进行处理。只有当数据集多次在诸如连接这种基于键的操作中使用时,分区才会有帮助。尽管Spark无法显示控制每个键具体落在哪一个工作节点,但Spark可以确保同一组的键出现在同一个节点上。以Join操作为例,如果未根据RDD中的键重
Sun_Sherry
·
2019-05-06 20:17
(九)
Spark学习笔记
之Spark on Yarn
文章目录SparkonyarnSparkonyarn的配置资源分配CPU资源内存资源分配资源资源分配的限制提交模式Client模式下的AM,Driver资源分配Cluster模式下AM,Driver分配的资源executor的资源分配SparkonyarnSpark支持可插拔的集群管理器(standalone,yarn),集群管理器负责启动executor进程。Spark支持四种集群管理器模式:s
DeaSun
·
2019-04-19 13:44
Spark
(五)
Spark学习笔记
之广播&累加器
文章目录spark共享变量实战广播变量BroadcastVariables累加器(Accumulator)spark共享变量实战通常,spark程序计算的时候,传递的函数是在远程集群节点上执行的,在函数中使用的所有变量副本会传递到远程节点,计算任务使用变量副本进行计算。这些变量被复制到每台机器上,对远程机器上的变量的更新不会返回到driver程序。因此,跨任务支持通用的读写共享将是低效的。但是,s
DeaSun
·
2019-04-18 23:01
Spark
(四)
Spark学习笔记
之缓存持久化
文章目录缓存实战项目中如何选择存储级别缓存实战缓存和持久化是RDD计算过程中的一种调优技术。缓存和持久化可以保存中间计算结果,以便在后续的stage重用总使用,而不需要再次从头计算。这些中间结果以RDD的形式保存在内存中,或者磁盘中。StorageLevel描述了RDD是如何被持久化的,可以提供:RDD持久化磁盘还是内存存储;RDD持久化手使用了off-leap;RDD是否需要被序列化;Stora
DeaSun
·
2019-04-18 23:55
Spark
(三)
Spark学习笔记
之分区
文章目录RDD分区partition概念partition的相关属性查看RDDPartition信息RDD的初始分区transformation操作对分区的影响分区的设置分区器HashPartitionerRangePartitionerCustomPartitionerRDD分区partition概念在处理大数据时,由于数据量太大,以至于单个节点无法完全存储、计算。所以这些数据需要分割成多个数据
DeaSun
·
2019-04-18 23:58
Spark
(二)
Spark学习笔记
之RDD
文章目录RDD(ResilientDistributedDataset,弹性分布式数据集)特点操作类型Transformation操作窄依赖宽依赖action操作创建RDD使用集合创建RDD从外部数据源创建RDD读取本地文件读取HDFS上的数据提交应用程序到Spark集群spark算子scalajavaTransformationmap和flatmap算子filter算子distinct算子map
DeaSun
·
2019-04-18 23:03
Spark
spark学习笔记
--RDD基础
文章目录创建RDDRDD操作转化操作map(func)flatMap(func)filter(func)sample集合操作union、intersection、subtract、cartesian去重distinct()行动操作reduce、fold、aggregatecount()take(n)、top(n)collect()foreach(func)持久化persistcacheRDD是一个
xFayChen
·
2019-03-15 16:22
大数据
Python &
Spark学习笔记
系列 【第三章】例子:Python+Spark+Hbase
这里我的原始数据在Hbase里,以下会介绍两种方式可以通过Spark达到操作Hbase的效果。第一种:Spark直连HBase代码如下,但是这里我遇到了一个问题,就是下边代码中使用到的org.apache.hadoop.hbase.io.ImmutableBytesWritable,我使用IDEA本地运行提示找不到这个类,报错是:java.lang.ClassNotFoundException:o
其实我是真性情
·
2019-03-04 10:55
Spark
【
Spark学习笔记
】1、Java-Maven-Spark项目环境搭建
现在学习个新技术,虽然网上资料多得很,但是质量参差不齐!恕在下愚昧,实在想不懂那些都不验证帖子里技术的正确性就直接转载的那些人,心里是怎么想的!你要是感觉帖子好,请默默的收藏到你的收藏夹里,等你确定帖子内容没错的时候你再转载好不好?你不知道你这样做,对这个技术的新手来说,无疑是灾难!你埋那么多坑,是怕别人学会了超越你吗?哎,言归正传,以下是我自己的学习总结,如果有哪里有错误、有问题,欢迎批评指正,
hellboy0621
·
2019-02-28 12:26
Java
Maven
Spark
Python &
Spark学习笔记
系列 【第二章】例子:单词统计+文件存储
一般Spark上来好像都是单词统计,这里我也写一个,之后再带上点其他的函数,Spark和Python语法是真的难理解,这里我把我的理解都写在程序代码注解上了,直接上代码frompysparkimportSparkContext,SparkConfimportos#没有这句会报错os.environ['JAVA_HOME']='D:\Java\jdk1.8.0_92'#没有这句最后一行代码访问HDF
其实我是真性情
·
2019-02-22 10:06
Spark
Python &
Spark学习笔记
系列 【第一章】环境搭建 pyspark安装
Python语言怎么安装这里就不写了,网上有好多,IDEA安装是我按的Python插件如下图:安装Python语言环境和插件以后,还要安装pyspark类库,因为默认Python是不带这些类库的。这里安装遇到一个小坑,简单说下。如果网络没问题的话可以直接cmd进入命令行,时候输入命令pipinstallpyspark,就可以安装了。但是默认是pyspark的latest版本,我写帖子的时候最后一版
其实我是真性情
·
2019-02-14 11:47
Spark
Python &
Spark学习笔记
系列---目录
作为一个Java程序员,到目前为基本不具备Python与Spark的经验。接下来会按学习步骤写下所有Python与Spark学习中遇到的坑。为什么选Python而不是Scala和Java,这里的原因是,Java的SparkAPI写法特别繁琐不好理解,Scala本身也没有经验。但是大数据分析后可能会继续学习机器学习人工智能相关的东西,现在最火的基本就是Python,因此学习Python,而不是Sca
其实我是真性情
·
2019-02-14 10:03
Spark
Spark学习笔记
(2)通信分析
什么是RPC通信RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数或者方法,由于不在同一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。SparkRPC通信Spark1.6+推出以RPCEnv,RPCEndopoint,RPCEndpointRef为核心的新型架构下的通信方式。具体实现方式又Akka和Netty两种方
灯火gg
·
2019-01-30 12:10
Spark学习笔记
: Spark Streaming
背景很多重要的应用要处理大量在线流式数据,并返回近似实时的结果,比如社交网络趋势追踪,网站指标统计,广告系统。所以需要具备分布式流式处理框架的基本特征,包括良好的扩展性(百级别节点)和低延迟(秒级别)。批处理MapReduce和SparkCore都是批处理:需要收集数据,然后分批处理,这样一般会有一定的延时。流式处理数据收集后,直接处理。流式计算框架SparkStreaming是微批(微小批处理)
GaryBigPig
·
2019-01-24 23:02
Spark
Spark学习笔记
:Spark SQL
背景从Spark1.0开始,SparkSQL成为Spark生态系统一员,是专门处理结构化数据(比如DB,Json)的Spark组件。它提供了2种操作数据的方式:1)SQLQueries;2)DataFrames/DatasetsAPI。SparkSQL=Schema+RDD,RDD可以表达所有的数据格式(包括结构化和非结构化),SparkSQL只表达结构化的数据。SparkSQL可以更快地编写和运
GaryBigPig
·
2019-01-23 00:00
Spark
Spark学习笔记
:程序设计
基本流程创建SparkContext对象封装了spark执行环境的上下文信息,必须有且只有一个;创建RDD可从Scala集合或Hadoop数据集上创建,利用Context对象的API创建RDD,可以将HBase表、MySQL表、本地文件等数据映射成RDD;在RDD之上进行Transformation和ActionSpark提供了多种Transformation和Action函数返回结果结果保存到H
GaryBigPig
·
2019-01-21 22:40
Spark
SparkConf、spark-submit以及spark-defaults.conf
北风网
spark学习笔记
SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性
htfenght
·
2019-01-14 16:47
大数据(hadoop
spark)
Spark学习笔记
导入必要的包frompysparkimportSparkConf,SparkContext上传本地文件到hdfshadoopfs-copyFromLocal/data/data.txt/spark/加载文件数据lines=sc.textFile('hdfs://localhost:9000/spark/data.txt)统计单词数量wordCount=lines.flatMap(lambdalin
alpha18
·
2019-01-12 15:53
py
spark学习笔记
: 一些环境配置问题
使用pyspark一些环境配置问题基本配置安装spark后,还需要修改Spark的配置文件spark-env.shcd/usr/local/sparkcp./conf/spark-env.sh.template./conf/spark-env.sh编辑spark-env.sh文件(vim./conf/spark-env.sh),在第一行添加以下配置信息:exportSPARK_DIST_CLASS
Never-Giveup
·
2019-01-01 21:40
大数据PySpark学习笔记
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他