E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习笔记
Spark学习笔记
(二)——分布式计算原理
Spark分布式计算原理Spark分布式计算原理一、SparkWordCount运行原理二、Stage1、stage概念2、为什么划分:3、划分的好处4、RDD之间的依赖关系5、spark中如何划分stage三、DAG工作原理四、SparkShuffle过程五、RDD持久化六、RDD共享变量1、广播变量2、累加器七、RDD分区设计1、设计概念2、数据倾斜八、数据源装载1、装载CSV数据源2、装载J
throws-Exception
·
2020-08-10 19:52
Spark
#
Spark学习笔记
spark
大数据
Spark学习笔记
-HBase操作
Scala版本操作HBaseimportorg.apache.spark.SparkContextimportorg.apache.spark._importorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.HTableDescriptorimportorg.apache.hadoop.hbase.cli
人生偌只如初见
·
2020-08-10 08:23
Spark
HBase
Spark学习笔记
-KNN算法实现
KNN算法原理可以参考:数据挖掘笔记-分类-KNN-1基于Spark简单实现算法代码如下:objectSparkKNNextendsSerializable{defmain(args:Array[String]){if(args.length!=4){println("error,pleaseinputthreepath.");println("1trainsetpath.");println("
人生偌只如初见
·
2020-08-10 08:23
DataMining
Spark
Spark Hadoop集群部署与Spark操作HDFS运行详解---
Spark学习笔记
10
目前spark的Runon的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上,所以我就拿spark0.91+hadoop0.20.2-cdh3u5来部署一个小集群,以供测试学习使用。一、环境概况Spark集群3台:web01:slaveweb02:masterdb01:slaveHadoop集群:h
OopsOutOfMemory
·
2020-08-03 05:24
spark
RDD Dependency详解---
Spark学习笔记
9
RDD的最重要的特性之一就是血缘关系,血缘关系描述了一个RDD是如何从父RDD计算得来的。这个性质可以理解为人类的进化,人是怎么从猿人一步步进化到现代的人类的,每个进化阶段可以理解为一个RDD。如果某个RDD丢失了,则可以根据血缘关系,从父RDD计算得来。总结:RDD可以描述为一组partition的向量表示,且具有依赖关系。Dependency(依赖):图中蓝色实心矩形就是一个个的partiti
OopsOutOfMemory
·
2020-08-01 02:27
spark
spark
rdd
scala
Spark学习笔记
--超全,所有知识点全覆盖总结
Spark架构,运行原理,任务调度和资源调度分析,内存管理分析,SparkSQL,SparkSreaming与kafaka,数据倾斜的解决,调优。Spark简介Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架。ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing
vitrovitro
·
2020-07-29 01:47
Spark
BigData
py
spark学习笔记
(一),修改列的dtype
先查看一下各列df.printSchema()root|--Id:string(nullable=true)|--groupId:string(nullable=true)|--matchId:string(nullable=true)|--assists:string(nullable=true)|--boosts:string(nullable=true)|--damageDealt:stri
冰色的圆
·
2020-07-28 21:28
pyspark学习
Spark学习笔记
:Spark进阶
目录Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数2.掌握Parquet文件3.SparkSQLJDBC4.HiveOnSpark二.SparkSQL开发三.SparkSQL性能调优Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数(1)load函数是用在SparkSQL中,加载不同的数据源默认的数据源是:Parque
SetsunaMeow
·
2020-07-28 02:29
Spark
spark学习笔记
4
SparkSQL,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFramesGettingStartedStartingPoint:SparkSessionCreatingDataFramesUntypedDatasetOperations(akaDataFrameOperations)RunningSQLQueriesProgrammat
keny风清扬
·
2020-07-28 01:32
spark
#
性能测试
#
性能测试ngrinder
Spark学习笔记
3——RDD(下)
目录
Spark学习笔记
3——RDD(下)向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递(仅限于Java8及以上)常见的转化操作和行动操作基本RDD
aou9515
·
2020-07-27 19:40
Spark学习笔记
(一)
Spark简介基于内存的集群计算框架,用scala程序编写近实时计算迭代DAG(一)spark的关键组件1.Master2.Worker3.SparkContext(客户端)4.CoarseGrainedExecutorBackend(standalone模式)(二)产生Rdd的三种APIRdd:计算单元,定义了输入输出类型以及算法转化(transformation),缓存(Cache)、行动(a
a_victory
·
2020-07-27 18:52
Spark
spark学习笔记
-spark集群搭建(7)
安装spark包11、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。22、解压缩spark包:tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。33、更改spark目录名:mvspark-1.3.0-bin-hadoop2.4spark44、设置spark环境变量5vi.bashrc6exportSPARK_H
aams46841
·
2020-07-15 19:58
大数据
scala
spark学习笔记
-CentOS 6.4集群搭建(2)
CentOS6.5安装1、使用课程提供的CentOS6.5镜像即可,CentOS-6.5-i386-minimal.iso。2、创建虚拟机:打开VirtualBox,点击“新建”按钮,点击“下一步”,输入虚拟机名称为spark1,选择操作系统为Linux,选择版本为RedHat,分配1024MB内存,后面的选项全部用默认,在VirtualDiskFilelocationandsize中,一定要自己
aams46841
·
2020-07-15 19:58
Py
Spark学习笔记
-RDD(键值对RDD)
1.pairRDDpairRDD,就是键值对RDD。pairRDD是很多程序的构成要素,因为pairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。用户也可以通过控制pairRDD在各个节点上的分布情况,大大减少应用的通信开销。pairRDD是一种特殊的RDD,所以普通RDD支持的算子都适用于pairRDD.2.ByKey类操作frompysparkimportSparkContex
Sun_Sherry
·
2020-07-15 11:57
PySpark
Spark学习笔记
1. 伪分布式&全分布式环境搭建
安装Linux、JDK等等解压:tar-zxvfspark-2.1.0-bin-hadoop2.7.tgz-C~/training/由于Spark的脚本命令和Hadoop有冲突,只设置一个即可(不能同时设置)配置文件:/root/training/spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh/root/training/spark-2.1.0-bin-ha
aimmon
·
2020-07-15 01:31
Spark
spark学习笔记
(二)----运行模式、spark-submit
spark运行模式1、applicationprogram组成Job:包含多个Task组成的并行计算,跟Sparkaction对应Stage:Job的调度单位,对应于TaskSetTaskset:一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集Task:被送到某个executor上的工作单元2、运行流程(以standalone为例)程序提交,sparkdriver内部RDDgrap
sunqingok
·
2020-07-14 23:27
spark
【
spark学习笔记
】在idea搭建开发环境
1.序我的工程是maven工程,通过maven不需要理会包的加载问题,很是方便。如果你还没有使用maven来管理工程的话那强烈建议你使用maven,尽管前期学习有点麻烦(主要是maven的默认下载镜像是国外)2.搭建详情下面是我建工程的截图1.jpg2.jpg3.jpg4.jpg5.jpg6.jpg7.jpg8.jpg9.jpg10.jpg11.jpg3.测试wordcount程序pom.xml4
代码足迹
·
2020-07-14 01:56
Spark计算Pi运行过程详解---
Spark学习笔记
4
上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexportYARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar
OopsOutOfMemory
·
2020-07-10 05:07
spark
Spark实例TopN---
Spark学习笔记
11
Spark是基于内存的分布式计算框架,性能是十分彪悍的。话接上回,部署完Spark集群之后,想要测试一下,Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件,是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob
OopsOutOfMemory
·
2020-07-10 05:07
spark
大数据系列——
Spark学习笔记
Spark Streaming
1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读
EVAO
·
2020-07-09 22:44
大数据
Spark集群中使用spark-submit提交jar任务包实战经验
转载:蜗龙徒行-
Spark学习笔记
【四】Spark集群中使用spark-submit提交jar任务包实战经验-cafuc46wingw的专栏-博客频道-CSDN.NEThttp://blog.csdn.net
zrc199021
·
2020-07-09 06:34
scala
spark
Spark学习笔记
(一)——RDD基础
Spark学习(一)之RDD编程基础RDD简介一、创建RDD二、RDD操作2.1转化操作2.2行动操作参考文献最近开始学习Spark,期望在以后实习和秋招过程中有所收获~~RDD简介弹性分布式数据集(ResilientDistributedDataset,RDD),是Spark对数据的核心抽象概念,RDD实际上就是分布式的元素集合。在Spark中,对数据的所有的操作不外乎就是三步:创建RDD,转化
Troy Zissman
·
2020-07-08 21:45
Spark学习笔记
Spark学习笔记
——读写MySQL
1.使用Spark读取MySQL中某个表中的信息build.sbt文件name:="spark-hbase"version:="1.0"scalaVersion:="2.11.8"libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.1.0","mysql"%"mysql-connector-java"%"5.1.31","or
weixin_34409741
·
2020-07-08 18:38
Spark学习笔记
1:Spark概览
Spark是一个用来实现快速而通用的集群计算的平台。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应用进行调度,分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点,因此Spark支持为各种不同应用场景专门设计的高级组件,这些组件关系密切并且可以互相调用。Spark各组件密切结合的设计原理的优点:软件栈中所有的
weixin_30426957
·
2020-07-08 13:44
Spark上提交运行简单WordCount程序---
Spark学习笔记
(1)
其实这个时候应该继续学习hadoop的,但是猛然发现目前的需求是spark,不过spark可以基于hadoop运行。目前使用的spark版本是:spark-1.6.2-bin-hadoop2.6运行Spark简单程序的思路是现在IDE上导入sparkAPI包并写好scala程序,然后像写HadoopMapReduce程序一样,导出做成jar包,接下来用spark-submit提交jar包,就可以运
miaote
·
2020-07-07 17:41
Spark
Spark学习笔记
:Spark算子及应用
目录Spark算子及应用1.RDD基础什么是RDD?创建RDD使用RDD的算子(函数、方法)对数据进行计算2.常见的算子以及示例常用的Transformation算子常用的Action算子RDD算子示例5.RDD的缓存机制通过实例进行测试6.RDD的Checkpoint(检查点)机制:容错机制本地目录HDFS目录7.RDD的依赖关系和Stage的划分依据Spark算子及应用1.RDD基础RDD(R
SetsunaMeow
·
2020-07-07 15:19
Spark
Spark学习笔记
(三)-开始第一个spark程序
Spark学习笔记
-开始第一个spark程序在安装完Spark,其实最疑惑还是Spark怎么用的问题,由于也是刚学习linux,也不是很习惯linux下的命令行操作。
log_zhan
·
2020-07-07 14:39
个人
Ubuntu
spark
spark学习笔记
1-基础部分
本文是对Spark基础知识的一个学习总结,包含如下几部分的内容:概述运行模式SparkShellRDD/DataFrame/DataSet独立可执行程序小结参考资料:1、Spark的核心代码是用scala语言开发的,且提供了针对scala,java,python几种语言的官方API,在本文的示例中,我们采用的是基于scala语言的API。所以需要对scala语言有个基础的了解。可以参考scala系
我是老薛
·
2020-07-06 17:22
20年清华扫地僧,整理的Storm、
Spark学习笔记
,面试官:拿来看看
写在前面大数据并不是一个突如其来的时兴科技词语,而是在厚积薄发中不断演变,时机到来时一下变得广为人知。传统数据库和数据仓库的统治地位本来看上去牢不可破,随着Hadoop等大数据技术的日趋成熟,这种情况到了终结的时候。作为当前最受关注的实时大数据开源平台项目,Storm和Spark都能为广大潜在用户提供良好的实时大数据处理功能。除在功能方面的部分交集外,Storm、Spark还各自拥有独特的特性与市
Java领域指导者
·
2020-07-04 01:05
架构
大数据
Java
大数据
spark
storm
架构
程序员
Spark 作业资源调度
北风网
spark学习笔记
静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。
htfenght
·
2020-07-02 09:44
spark
Spark入门(Python)--1.1 RDD基础
该系列
spark学习笔记
基于PythonSpark.RDD(弹性分布式数据集)是一个不可变的分布式对象集合,可以包含Python、Java、Scala中任意类型的对象,和用户自己定义的对象。
大尾巴狼呀
·
2020-06-29 17:10
spark学习笔记
3(使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化)
八、数据可视化1.Echarts(百度)的使用2.前面统计的结果存放在Mysql中,需要使用Echarts展示出来3.使用Echarts(详见百度官网)(1)从官网下载echarts.min.js(2)在html的头部引入echarts.min.js(3)在官网复制需要的图形的脚本文件并进行相应的修改4.使用idea创建web项目来进行之前的统计结果的展示(1)直接复制需求饼图的option(2)
我能想到的
·
2020-06-27 13:58
大数据
spark学习笔记
2(使用spark Sql进行离线数据分析项目)
网站日志分析实战.项目一、用户行为日志概述1.用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。2.用户的访问信息主要包括如下内容:(1)系统属性。(操作系统、浏览器)(2)点击的url,从什么url跳转过来(3)用户的sessionId、ip3.意义(1)网站的眼睛用于优化网站布局,用户网站的推广决策二、离线数据处理流程1.数据采集、(flume、logstash)将数据从网站的sev
我能想到的
·
2020-06-27 13:57
大数据
Spark学习笔记
MR的缺点:mr基于数据集的计算,所以面向数据1.基于运行规则从存储介质中获取(采集)数据,然后计算。最后将结果存储到介质中,主要应用于以一次性计算,不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。2.MR基于文件存储介质的操作,所以性能非常慢。Spark历史是一种基于内存的快速、通用、可扩展的大数据分析引擎。2013年6月发布Spark基于Hadoop1.x架构思想,采用自己的方式改善H
hvip
·
2020-06-25 07:35
学习笔记
Spark学习笔记
2
Overview每一个spark程序都是有一个驱动程序组成,并且通过main函数运行。spark有两个重要的抽象:RDD,分布式弹性数据集,他是一个跨越多个节点的分布式集合。另一个抽象是共享变量。spark支持两种类型的共享变量:一个是广播(broadcastvariables)他可以缓存一个值在集群的各个节点。另一个是累加器(accumulators)他只能执行累加的操作,比如可以做计数器和求和
wangmin
·
2020-06-24 14:02
Spark学习笔记
(三)-Spark Streaming
SparkStreaming支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(streamprocessing)。架构图特性如下:可线性伸缩至超过数百个节点;实现亚秒级延迟处理;可与Spark批处理和交互式处理无缝集成;提供简单的API实现复杂算法;更多的流方式支持,包括Kafka、Flume、Kinesis、Twi
萨姆大叔
·
2020-06-24 11:00
spark学习笔记
(二)
一、编程环境以下为Mac系统上单机版Spark练习编程环境的配置方法。注意:仅配置练习环境无需安装Hadoop,无需安装Scala。1,安装Java8注意避免安装其它版本的jdk,否则会有不兼容问题。https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2,下载spark并解压http
萨姆大叔
·
2020-06-24 11:00
Spark学习笔记
(二)-弹性分布式数据集RDDs
Spark-弹性分布式数据集RDDs 在阅读很多的Spark简介中,都及多的提到RDDs这个名词。官方文档指出:Spark核心的概念是ResilientDistributedDataset(RDD):一个可并行操作的有容错机制的数据集合。这句话说明RDD的本质是集合,这个集合带有并行操作和容错机制。 官方文档指出有两种方式创建RDD,一种是在你的驱动程序中并行化一个已经存在的集合。这句
log_zhan
·
2020-06-24 08:57
Ubuntu
spark
spark学习笔记
3
SparkStreamingProgrammingGuideOverviewAQuickExampleBasicConceptsLinkingInitializingStreamingContextDiscretizedStreams(DStreams)InputDStreamsandReceiversTransformationsonDStreamsOutputOperationsonDStre
keny风清扬
·
2020-06-24 00:28
#
性能测试ngrinder
#
性能测试
spark实战大全
【Spark】
Spark学习笔记
本文意在收集整理网络上对Spark讲解比较好的博文,希望能发挥一个“Spark字典”的作用。先列出一个比较好的入门级Spark教程:厦门大学数据库实验室的Spark教程。厦门大学Spark入门教程(Scala版)Scala菜鸟教程第一部分:Scala基础1.if语句Scala中的if表达式的值可以直接赋值给变量。valx=6vala=if(x>0)1else-1//a的值为12.for循环Scal
长相忆兮长相忆
·
2020-06-23 14:15
大数据
py
Spark学习笔记
py
Spark学习笔记
编译python,有些依赖需要下载下sudoyum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4
see you in September
·
2020-06-17 00:47
大数据之路
spark
【
Spark学习笔记
】 Scala DataFrame操作大全
1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.option","some-value").getOrCreate()imp
不可能打工
·
2020-06-16 11:39
Spark学习笔记
1
ApacheSparkisafastandgeneral-purposeclustercomputingsystem.spark提供了JavaScalaPythonand的API。在examples/src/main目录下有Java和Scala例子,用bin/run-example运行。通过运行:./bin/spark-shell–masterlocal[2]来进行交互式的操作,这是学习sprak
wangmin
·
2020-04-14 07:55
Spark学习笔记
3
读取HDFS中的数据,并简单分析,最后结果写入mysql数据库中。首先建立工程,pom文件中引入以下几个依赖org.apache.sparkspark-core_2.101.4.0mysqlmysql-connector-java5.1.13org.apache.hadoophadoop-client2.6.0junitjunit4.11test首先需要引入spark的包,这里使用的是spark1
wangmin
·
2020-04-09 10:07
[
Spark学习笔记
] RDD
什么是RDDRDD是整个Spark的计算基石。是分布式数据的抽象,为用户屏蔽了底层复杂的计算和映射环境RDD是不可变的,如果需要在一个RDD上进行转换操作,则会生成一个新的RDDRDD是分区的,RDD里面的具体数据是分布在多台机器上的Executor里面的。堆内内存和堆外内存+磁盘。RDD是弹性的。存储:Spark会根据用户的配置或者当前Spark的应用运行情况去自动将RDD的数据缓存到内存或者磁
猛男落泪为offer
·
2020-04-06 18:34
spark
py
spark学习笔记
(一)
在ipythonnotebook下运行pysparkjupyternotebookfrompysparkimportSparkConf,SparkContextappName='testSpark'defmain(sc):passif__name__=='__main__':#ConfigureSparkconf=SparkConf().setAppName(appName).setMaster(
深思海数_willschang
·
2020-03-20 18:48
Spark学习笔记
(二)Spark2.3 HA集群的分布式安装图文详解
本文实例讲述了Spark2.3HA集群的分布式安装。分享给大家供大家参考,具体如下:一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二
扎心了,老铁
·
2020-02-13 12:56
Spark学习笔记
(一)Spark初识【特性、组成、应用】
本文实例讲述了Spark基本特性、组成、应用。分享给大家供大家参考,具体如下:一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用来构建大型的
扎心了,老铁
·
2020-02-13 12:06
大数据系列:
Spark学习笔记
1.关于Spark2009年,spark诞生于伯克利大学的amplab。最重要的是,spark只是一个实验项目,只包含很少的代码,属于轻量级框架。2010年,伯克利大学正式启动了Spark项目。2013年6月,Spark成为Apache基金会的一个项目,并进入了高速开发阶段。第三方开发人员贡献了大量代码,并且非常活跃2014年2月,Spark被称为Apache的顶级项目。与此同时,大数据公司clo
yiyidsj
·
2020-02-07 16:39
大数据
人工智能
互联网
Spark
大数据
大数据开发
大数据分析
大数据学习
Spark学习笔记
Scala语法至于scala语法而言,大致上和Java的语法类似,增加了一些函数式编程,具体语法可以参考Scala语法Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。Scala也是一种函数式语言,其函数也能当成值来使用。Scala被特意设计成能够与Ja
卡卡xx
·
2020-02-01 00:32
上一页
1
2
3
4
5
6
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他