E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习
Spark学习
笔记(二)-弹性分布式数据集RDDs
Spark-弹性分布式数据集RDDs 在阅读很多的Spark简介中,都及多的提到RDDs这个名词。官方文档指出:Spark核心的概念是ResilientDistributedDataset(RDD):一个可并行操作的有容错机制的数据集合。这句话说明RDD的本质是集合,这个集合带有并行操作和容错机制。 官方文档指出有两种方式创建RDD,一种是在你的驱动程序中并行化一个已经存在的集合。这句
log_zhan
·
2020-06-24 08:57
Ubuntu
spark
spark学习
笔记3
SparkStreamingProgrammingGuideOverviewAQuickExampleBasicConceptsLinkingInitializingStreamingContextDiscretizedStreams(DStreams)InputDStreamsandReceiversTransformationsonDStreamsOutputOperationsonDStre
keny风清扬
·
2020-06-24 00:28
#
性能测试ngrinder
#
性能测试
spark实战大全
【Spark】
Spark学习
笔记
本文意在收集整理网络上对Spark讲解比较好的博文,希望能发挥一个“Spark字典”的作用。先列出一个比较好的入门级Spark教程:厦门大学数据库实验室的Spark教程。厦门大学Spark入门教程(Scala版)Scala菜鸟教程第一部分:Scala基础1.if语句Scala中的if表达式的值可以直接赋值给变量。valx=6vala=if(x>0)1else-1//a的值为12.for循环Scal
长相忆兮长相忆
·
2020-06-23 14:15
大数据
Spark学习
(权限错误)
在集群的master上执行spark-shell时出现如下错误:16/09/0915:42:14ERRORspark.SparkContext:ErrorinitializingSparkContext.org.apache.hadoop.security.AccessControlException:Permissiondenied:user=root,access=WRITE,inode=
接入信息
·
2020-06-23 13:43
4
学习笔记
大数据
Geo
Spark学习
--初识GeoSpark
背景传统的不足:数据存储方面:1、现有的数据存储主要是多依赖关系型数据库,比如Oracle等,但是关系型数据库在海量数据管理、高并发读写以及扩展性方面有很大的局限2、传统的空间数据存储方式不但难以扩展,而且随着数据的激增读写性能存在极大瓶颈3、传统的分布式文件系统虽然可以存放在不同的节点上,但这种分布式文件系统所支持的扩展性有限数据分析方面:大数据时代的数据是处处连接的,每个连接都是一个传感器,这
Franky47
·
2020-06-22 09:36
Spark
GeoSpark
Ubuntu
maven
大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录一、MapReduce理论基础二、Hadoop、
Spark学习
路线及资源收纳三、MapReduce编程实例1.自定义对象序列化需求分析报错:Exceptioninthread"main"java.lang.IllegalArgumentException
lzw2016
·
2020-06-21 03:20
Hadoop及Spark学习
大数据学习进阶
py
Spark学习
笔记
py
Spark学习
笔记编译python,有些依赖需要下载下sudoyum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4
see you in September
·
2020-06-17 00:47
大数据之路
spark
【
Spark学习
笔记】 Scala DataFrame操作大全
1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.option","some-value").getOrCreate()imp
不可能打工
·
2020-06-16 11:39
Spark学习
记录
Spark学习
中遇到的一些基本问题以及解决思路。
秋夜花开
·
2020-06-08 09:00
Spark学习
笔记1
ApacheSparkisafastandgeneral-purposeclustercomputingsystem.spark提供了JavaScalaPythonand的API。在examples/src/main目录下有Java和Scala例子,用bin/run-example运行。通过运行:./bin/spark-shell–masterlocal[2]来进行交互式的操作,这是学习sprak
wangmin
·
2020-04-14 07:55
Spark学习
笔记3
读取HDFS中的数据,并简单分析,最后结果写入mysql数据库中。首先建立工程,pom文件中引入以下几个依赖org.apache.sparkspark-core_2.101.4.0mysqlmysql-connector-java5.1.13org.apache.hadoophadoop-client2.6.0junitjunit4.11test首先需要引入spark的包,这里使用的是spark1
wangmin
·
2020-04-09 10:07
[
Spark学习
笔记] RDD
什么是RDDRDD是整个Spark的计算基石。是分布式数据的抽象,为用户屏蔽了底层复杂的计算和映射环境RDD是不可变的,如果需要在一个RDD上进行转换操作,则会生成一个新的RDDRDD是分区的,RDD里面的具体数据是分布在多台机器上的Executor里面的。堆内内存和堆外内存+磁盘。RDD是弹性的。存储:Spark会根据用户的配置或者当前Spark的应用运行情况去自动将RDD的数据缓存到内存或者磁
猛男落泪为offer
·
2020-04-06 18:34
spark
Hadoop概念学习系列之Hadoop、
Spark学习
路线
不多说,直接上干货!说在前面的话此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略!1Java基础:视频方面:推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面:推荐李兴华的《java开发实战经典》2Linux基础:视频方面:(1)马哥的高薪Linux
coderTG
·
2020-04-01 15:21
==22[教程]『 Spark 』3. spark 编程模式
spark-programming-model本系列文章链接『Spark』1.spark简介『Spark』2.spark基本概念解析『Spark』3.spark编程模式『Spark』4.spark之RDD『Spark』5.这些年,你不能错过的
spark
葡萄喃喃呓语
·
2020-03-24 05:38
Spark学习
Spark学习
一、Spark简介1.Hadoop中Map-Reduce计算框架的替代品2.运行在HDFS上,可以与Yarn配合3.将中间结果保存在内存而不是磁盘中4.提供了比Map、Reduce更多的高阶函数
一只小青鸟
·
2020-03-23 05:58
py
spark学习
笔记(一)
在ipythonnotebook下运行pysparkjupyternotebookfrompysparkimportSparkConf,SparkContextappName='testSpark'defmain(sc):passif__name__=='__main__':#ConfigureSparkconf=SparkConf().setAppName(appName).setMaster(
深思海数_willschang
·
2020-03-20 18:48
这样搭建
Spark学习
环境效率似乎更高
转自我的个人博客:https://showme.codes/2017-01-31/setup-spark-dev-env/像学习Spark这类大数据平台,搭建环境,是一件很费时费力的事情。特别是当你想使用多台机器模拟真实生产环境时。为了更有效的学习Spark,我决定将自己的学习环境按生产环境的要求来搭建。但是真实生产环境的群集往往由多个集群组成:Hadoop/Hbase集群、Zookeeper集群
翟志军
·
2020-03-18 13:32
Intellij之Spark Scala开发环境搭建
在开始
spark学习
之前,首先需要搭建Spark的开发环境,搭建开发环境可以基于eclipse或者intellij,今天主要以Intellij开发工具来搭建Spark开发环境。
就一个名字而已
·
2020-03-08 04:08
Spark学习
笔记 (二)Spark2.3 HA集群的分布式安装图文详解
本文实例讲述了Spark2.3HA集群的分布式安装。分享给大家供大家参考,具体如下:一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二
扎心了,老铁
·
2020-02-13 12:56
Spark学习
笔记(一)Spark初识【特性、组成、应用】
本文实例讲述了Spark基本特性、组成、应用。分享给大家供大家参考,具体如下:一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用来构建大型的
扎心了,老铁
·
2020-02-13 12:06
2018-11-17 Spark介绍系列文章
introduction-to-spark本系列文章链接『Spark』1.spark简介『Spark』2.spark基本概念解析『Spark』3.spark编程模式『Spark』4.spark之RDD『Spark』5.这些年,你不能错过的
spark
Albert陈凯
·
2020-02-12 23:38
大数据系列:
Spark学习
笔记
1.关于Spark2009年,spark诞生于伯克利大学的amplab。最重要的是,spark只是一个实验项目,只包含很少的代码,属于轻量级框架。2010年,伯克利大学正式启动了Spark项目。2013年6月,Spark成为Apache基金会的一个项目,并进入了高速开发阶段。第三方开发人员贡献了大量代码,并且非常活跃2014年2月,Spark被称为Apache的顶级项目。与此同时,大数据公司clo
yiyidsj
·
2020-02-07 16:39
大数据
人工智能
互联网
Spark
大数据
大数据开发
大数据分析
大数据学习
spark学习
第13天
在Scala中有两种弱变量val和var他们最主要的区别就是val不能再赋值,var可以在生命周期中被多次赋值。val:1scala>valmsg=”Hello,world!”;2msg:java.lang.String=Hello,world!3scala>msg=”Helloagain,world!”;4:5:error:reassignmenttoval5msg=”Helloagain,wo
哈弗h6
·
2020-02-06 21:00
spark学习
启动集群./root/app/spark/sbin/start-all.shspark-shell启动./spark-shell--masterspark://mini01:7077--total-executor-cores1--executor-memory1024m提交任务./spark-submit--masterspark://mini01:7077--classWordCount--t
若尘0328
·
2020-02-02 22:04
Spark学习
笔记
Scala语法至于scala语法而言,大致上和Java的语法类似,增加了一些函数式编程,具体语法可以参考Scala语法Scala是一种针对JVM将函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。Scala也是一种函数式语言,其函数也能当成值来使用。Scala被特意设计成能够与Ja
卡卡xx
·
2020-02-01 00:32
spark学习
笔记
1、什么是Spark?Spark是一个用来实现快速而通用的集群计算的平台。1.1、特点能在内存中进行计算。1.2、SparkCore包含任务调度、内存管理、错误恢复、与存储系统交互等模块。1.3、SparkSQL通过SparkSQL,我们可以使用SQL或者Hive版本的SQL(HQL)来查询数据,支持多种数据源,比如Hive表、Parquet、JSON等。1.4、SparkStreaming对实时
seafreak
·
2020-01-31 02:36
spark学习
(五)
(一)进入spark-shell命令界面(默认使用scala的命令界面)1,如果进入了spark安装目录则使用、1,一台机器启动spark:./bin/spark-shell--master命令可进入shell界面,master-url参数可为:local[*]使用逻辑CPU多线程启动,local[n],使用n个CPU线程启动2,集群下启动spark:spark://主机IP:7077(默认端口)
寂天风
·
2020-01-28 23:00
spark学习
(四)spark基本原理及安装
MapReduce与sparkMapReduce:操作单一,只有map,reducespark:提供多种操作:过滤,分组,排序....(一)spark生态环境:Mesos和YARN都是资源调度管理器HDFS:分布式系统存储组件S3:亚马逊提供的云端的简单的存储服务Tachyon:基于内存的分布式文件系统SparkCore:复杂批量数据处理,取代MapReduceHiveSparkStreaming
寂天风
·
2020-01-28 20:00
Spark学习
(三)Scala程序例子
例一:对目录下的单词文件进行单词统计/word/first.txt:/word/second.txt:/word/third.txt:运行结果:importjava.io.File;importjava.io.PrintWriter;importscala.io.Source;importcollection.mutable.Map;importcollection.SortedMap;objec
寂天风
·
2020-01-28 12:00
Spark学习
之路 (十七)Spark分区[转]
分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。为什么要进行分区数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在io和网络
C君。
·
2020-01-26 17:00
Spark学习
之路 (十五)SparkCore的源码解读(一)启动脚本[转]
启动脚本分析独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。启动master和slaves主要是执行/usr/dahua/spark/sbin目录下的start-master.sh和start-slaves.sh
C君。
·
2020-01-26 17:00
Spark学习
之路 (二十八)分布式图计算系统[转]
引言在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。图存储模式巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。边分割(Edge-Cut)每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进
C君。
·
2020-01-26 17:00
Spark学习
之路 (二十七)图简介[转]
图基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图,推荐产品、服务、人际关系或媒体术语顶点和边一般关系图中,事物为顶点,关系为边有向图和无向图在有向图中,一条边的两个顶点一
C君。
·
2020-01-26 17:00
Spark学习
笔记(四)—— Yarn模式
1、Yarn运行模式介绍Yarn运行模式就是说Spark客户端直接连接Yarn,不需要额外构建Spark集群。如果Yarn是分布式部署的,那么Spark就跟随它形成了分布式部署的效果。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出yarn-clus
三秋叶
·
2020-01-10 14:00
Spark学习
笔记(三)—— Standalone模式
上篇笔记记录了Local模式的一些内容,但是实际的应用中很少有使用Local模式的,只是为了我们方便学习和测试。真实的生产环境中,Standalone模式更加合适一点。1、基础概述Standalone不是单机模式,它是集群,但是是基于Spark独立调度器的集群,也就是说它是Spark特有的运行模式。有Client和Cluster两种模式,主要区别在于:Driver程序的运行节点。怎么理解呢?哪里提
三秋叶
·
2020-01-10 14:00
Spark学习
笔记(二)—— Local模式
Spark的运行模式有Local(也称单节点模式),Standalone(集群模式),SparkonYarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍第一种模式。1、Local模式Local模式就是运行在一台计算机上的模式,也称单节点模式。Local模式是最简单的一种Spark运行方式,它采用单节点多线程(CPU)方式运行,通常就是用于在本机学习或者测试使用的,对新手比较友好。
三秋叶
·
2020-01-09 13:00
Spark学习
笔记(一)——基础概述
本篇笔记主要说一下Spark到底是个什么东西,了解一下它的基本组成部分,了解一下基本的概念,为之后的学习做铺垫。过于细节的东西并不深究。在实际的操作过程中,才能够更加深刻的理解其内涵。1、什么是Spark?Spark是由美国加州伯克利大学的AMP实验室开发的,一款基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。说白了就是搞数据计算分析的框架,过于细节的东西在学习过程中
三秋叶
·
2020-01-09 11:00
Spark学习
笔记
趁着工作业余时间,趁着内心对技术追求的热情,还是对Spark这个大数据内存计算框架动手了,毕竟人与人之间的差距都是在工作业余时间拉开的……Spark官网:http://spark.apache.org/一、Spark概述官网已经说的很明白了,我这里记录一些重点。Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既
coder、
·
2020-01-07 23:00
Spark学习
记录|RDD分区的那些事
以前在工作中主要写SparkSQL相关的代码,对于RDD的学习有些疏漏。本周工作中学习了一些简单的RDD的知识,主要是关于RDD分区相关的内容。下面的内容都是自己亲身实践所得,如果有错误的地方,还希望大家批评指正。本文的目录如下:1、RDD特性-分区列表2、宽/窄依赖3、RDD的创建4、查看分区数据:mapPartitionsWithIndex5、笛卡尔积:cartesian6、数据分组:grou
文哥的学习日记
·
2020-01-04 17:33
Spark学习
笔记(6)性能调优
1.调节并行度并行度是指各个stage中task的数量。1)官方推荐,task数量设置成sparkapplication总cpucore数量的2~3倍,比如150个cpucore,基本要设置task数量为300~500。2)设置并行度SparkConfconf=newSparkConf().set("spark.default.parallelism","500")2.RDD优化1)复用RDD2)
灯火gg
·
2020-01-04 07:35
Spark学习
笔记四:Spark Yarn集群搭建
Spark集群使用上篇文章【
Spark学习
笔记三:SparkStandalone集群搭建】安装的SparkStandalone集群。
开发者连小超
·
2019-12-24 15:30
总体计划 -- Whatever It Takes
tensorflow,写文章深度学习、神经网络、人脸识别基于CNN的推荐算法优化3找工作,这个是二类事物Java基础、算法、数据结构、4毕业论文:Hadoop+Spark+推荐算法Hadoop环境搭建Hadoop编程
Spark
艾剪疏
·
2019-12-23 07:39
Spark学习
笔记(5)Shuffle源码分析
概述RDD作为Spark对各种数据计算模型的同一抽象,被用于迭代计算过程以及任务结果的缓存读写。在MR模型中,shuffle是map到reduce的中间桥梁。经过map标记后,shuffle负责分发到各个reducer上。如果有大量数据需要shuffle,shuffle决定了整个计算引擎的性能和吞吐量。MappedRDD的iterator方法实际调用父类RDD的iterator方法/***RDD的
灯火gg
·
2019-12-14 06:48
[语法]flatMap与map 的区别~Spark 中
spark中flatMap函数用法--
spark学习
(基础)-博客频道-CSDN.NEThttp://blog.csdn.net/u010824591/article/details/50732996说明在
葡萄喃喃呓语
·
2019-12-11 21:36
Spark之RDD
这篇文章讲的很详细
Spark学习
之路(三)Spark之RDD-扎心了,老铁-博客园总结一:RDD可以理解为java里面的方法,函数。
任嘉平生愿
·
2019-12-08 18:25
闲谈和
spark学习
日志第二天
2017.10.25更换下载源在“软件和更新”里面,推荐阿里的源查看软件位置:dpkg-L软件名一般使用apt-get安装的软件都在/usr/share下面,这就让我突然好奇,这几个文件夹到底是干什么的总结如下:/usr/lcoal通常用来放手动安装的软件/usr/share通常用来放数据文件和帮助加载的配置文件在/etc下可执行程序在/usr/bin下在apt-get里面会遇到两个命令updat
梅川潇酷子
·
2019-12-06 09:52
spark学习
笔记(一)
概括我们公司使用spark已经有段时间了,现在我对我之前的学习知识进行整理,以便记录和大家共同学习,有一部分是网上摘抄,感谢网络共享大神。本文只是针对spark2,spark基本概念,简而言之就是:spark专门为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。是一种跟Hadoop相似的通用分布式并行计算框架,但是spark是基于内存计算的分布式执行框架,在执行速度上优于h
伯安知心
·
2019-11-09 17:00
Spark学习
笔记
Spark开头别的不多说了,就说Spark为啥存在。他来到这就是为了代替MapReduce的!MR的缺点为啥要被代替呢?学过Hadoop知道,Hadoop早期,MR是基于数据集的计算,面向的是数据。基本运算规则是从存储介质中采集数据,然后进行计算,所以它的计算往往是一次性的,这就存在一定的局限性,不适用于数据挖掘和机器学习这样的迭代计算和图形挖掘计算。而且因为文件存储,性能不好!MR和Hadoop
AceCream佳
·
2019-11-01 18:43
Spark学习
笔记(一)
一、什么是Spark?Spark是一个针对大规模数据处理的快速通用引擎,类似于MapReduce,都是进行数据的处理。二、Spark的特点1.基于Scala语言开发、Spark基于内存的计算,运算速度快、所以从运算速度来将要比MapReduce快。2.易用:支持多种语言3.通用:SparkCore、SparkSQL、SparkStreaming(流式计算)4.兼容性好:完全兼容HadoopSpar
Jayboy.chen
·
2019-10-19 09:56
大数据
spark学习
-16-Spark的Map()和FlatMap()函数使用
原文链接:https://blog.csdn.net/qq_21383435/article/details/77477681版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_21383435/article/details/774776811。先看图解释:map函数和faltMap()函数都
远有青山
·
2019-10-14 11:24
BigData
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他