E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark学习
Spark学习
(1)——初识spark
Spark是什么?Spark是一种通用的大数据计算框架,就像传统的大数据技术Hadoop的MapReduce,Hive以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架;比如SparkCore勇于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX用于图计算。Spark主要用于大
Mbappe
·
2020-07-28 15:25
spark学习系列
Spark学习
(13)——scala函数式编程(集合操作)
scala的集合体系结构Scala中的集合体系主要包括:Iterable、Seq、Set、Map。其中Iterable是所有集合trait的根trait。这个结构与Java的集合体系非常相似。Scala中的集合是分成可变和不可变两类集合的,其中可变集合就是说,集合的元素可以动态修改,而不可变集合的元素在初始化之后,就无法修改了,分别对应scala.collection.mutable和scala.
Mbappe
·
2020-07-28 15:25
spark学习系列
Spark学习
(11)——scala面向对象编程(trait)
trait基础知识-将trait作为接口使用Scala中的trait是一种特殊的概念,首先我们可以将trait作为接口来使用,此时的trait就与Java中的接口非常类似,在Trait中可以定义抽象方法,就与抽象类中的抽象方法一样,只要不给出方法的具体实现即可,类可以使用extends关键字继承Trait,注意,这里不是implement,而是extends,在scala中没有implement的
Mbappe
·
2020-07-28 15:25
spark学习系列
Spark学习
(2)——Scala安装及Scala与Java的关系
Scala安装从Scala官方网站下载:http://www.scala-lang.org/,windows版本安装包是scala-2.12.6.msi.(这个是目前最新版本)使用下载下来的安装包安装Scala在PATH环境变量中,配置SCALA_HOME/bin目录。具体配置步骤类似于jdk的配置。配置好环境变量后,在windows命令行内可直接键入scala,打开scala命令行,可以进行sc
Mbappe
·
2020-07-28 15:25
spark学习系列
spark中flatMap函数用法--
spark学习
(基础)
说明在spark中map函数和flatMap函数是两个比较常用的函数。其中map:对集合中每个元素进行操作。flatMap:对集合中每个元素进行操作然后再扁平化。理解扁平化可以举个简单例子valarr=sc.parallelize(Array(("A",1),("B",2),("C",3)))arr.flatmap(x=>(x._1+x._2)).foreach(println)输出结果为A1B2
四木夕宁
·
2020-07-28 13:34
其他
scala
Spark学习
(六):map & mapPartitions
对于一些没有用过的函数或者操作,看文字描述总是觉得很晦涩,很难理解,所以学习的时候我比较倾向于先从小例程入手,以便有直观的理解。关于这两个函数网上的介绍很多,但找了很久才找到我认为更方便理解的例程和描述,我把原文1种的例程做了一点修改,并摘录了原文2的文字描述。map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。mapP
CocoMama190227
·
2020-07-28 11:04
py
spark学习
由于公司的项目需要用pyspark做数据清洗等工作,于是现学现用,也有很多不懂的地方,如果文章里面有什么总结得有问题的,欢迎大家指出。更详细的介绍也可以参考PySpark教程:使用Python学习ApacheSpark一.pyspark简介1.pyspark是什么要学习pyspark,肯定首先要知道pyspark是什么。ApacheSpark是用Scala编程语言编写的。为了让Spark支持Pyt
qq_36881881
·
2020-07-28 07:40
spark#pyspark
Linux
Spark学习
(六) 数据结构(迭代器、数组、元组)
Spark学习
(六)数据结构(迭代器、数组、元组)1、迭代器(Iterator)1)在Scala中迭代器不是一种集合,但是它提供了访问集合的一种方法2)迭代器包含两个基本操作:next和hasNext。
工紫新波
·
2020-07-28 06:43
Spark
Spark学习
-2.4.0-源码分析-1-Spark 核心篇-SparkContext
文章目录@[TOC]1、功能描述1.1源码描述2、相关组件3、代码分析3.1初始设置3.2创建执行环境SparkEnv3.3创建SparkUI3.4Hadoop相关配置3.5Executor环境变量3.6注册HeartbeatR`eceiver心跳接收器3.7创建任务调度器TaskScheduler3.8创建和启动DAGScheduler3.9TaskScheduler启动3.10启动测量系统Me
pre_tender
·
2020-07-28 04:14
Saprk
Spark学习
笔记:Spark进阶
目录Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数2.掌握Parquet文件3.SparkSQLJDBC4.HiveOnSpark二.SparkSQL开发三.SparkSQL性能调优Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数(1)load函数是用在SparkSQL中,加载不同的数据源默认的数据源是:Parque
SetsunaMeow
·
2020-07-28 02:29
Spark
spark学习
笔记4
SparkSQL,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFramesGettingStartedStartingPoint:SparkSessionCreatingDataFramesUntypedDatasetOperations(akaDataFrameOperations)RunningSQLQueriesProgrammat
keny风清扬
·
2020-07-28 01:32
spark
#
性能测试
#
性能测试ngrinder
Spark学习
(一)—— 论文翻译
================================弹性分布式数据集:基于内存集群计算的容错抽象摘要我们提出的弹性分布式数据集(RDDs),是一个让程序员在大型集群上以容错的方式执行基于内存计算的分布式内存抽象。RDDs受启发于两类使用当前计算框架处理不高效的应用:迭代算法和交互式数据挖掘工具。这二者在内存中保存数据性能能够提高一个数量级。为了有效容错,RDDs提供一种受限的共享内存,
Austing_cai
·
2020-07-27 20:32
Spark
学习周报20200627 | 项亮
往期回顾:学习周报20200517|搜索梳理、推荐、风控学习周报20200525|用户画像,推荐系统学习周报20200605|DLRS,大数据操作,搜索的思考学习周报20200613|
spark学习
学习周报
机智的叉烧
·
2020-07-27 19:09
Spark学习
笔记3——RDD(下)
目录
Spark学习
笔记3——RDD(下)向Spark传递函数通过匿名内部类通过具名类传递通过带参数的Java函数类传递通过lambda表达式传递(仅限于Java8及以上)常见的转化操作和行动操作基本RDD
aou9515
·
2020-07-27 19:40
大数据技术之_19_
Spark学习
_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化...
第1章SparkStreaming概述1.1什么是SparkStreaming1.2为什么要学习SparkStreaming1.3Spark与Storm的对比第2章运行SparkStreaming第3章架构与抽象第4章SparkStreaming解析4.1初始化StreamingContext4.2什么是DStreams4.3DStream的输入4.3.1基本数据源4.3.2高级数据源4.4DSt
aodawu2891
·
2020-07-27 19:35
Spark学习
笔记(一)
Spark简介基于内存的集群计算框架,用scala程序编写近实时计算迭代DAG(一)spark的关键组件1.Master2.Worker3.SparkContext(客户端)4.CoarseGrainedExecutorBackend(standalone模式)(二)产生Rdd的三种APIRdd:计算单元,定义了输入输出类型以及算法转化(transformation),缓存(Cache)、行动(a
a_victory
·
2020-07-27 18:52
Spark
Spark学习
(6)——scala数组操作
Array在scala中,Array代表的含义与Java类似,也是长度不可变的数组,此外由于Java和scala都是运行在JVM中,双方可以互相调用,因此scala的底层实际上是Java数组,例如字符串的数组在底层实际上就是Java的String[]数组整数数组在底层实际上是Java的int[]数组初始化后,长度就固定下来了,而且元素全部根据其类型初始化可以直接使用Array()创建数组,元素类型
Mbappe
·
2020-07-27 13:32
spark学习系列
py
spark学习
系列(三)利用SQL查询
对于spark中存在dataframe,我们可以用.creatOrReplaceTempView方法创建临时表。临时表创建之后我们就可以用SQL语句对这个临时表进行查询统计:frompyspark.sql.typesimport*#GenerateourownCSVdata#Thiswaywedon'thavetoaccessthefilesystemyet.stringCSVRDD=sc.par
仙人掌_lz
·
2020-07-16 06:33
spark
python
Spark学习
之standalone模式部署实战
Standalone模式部署实战spark有好几种运行模式,本次我们来挑一种standalone模式来操作一下,就是spark独自包揽除了存储文件操作之外的所有操作,包括集群管理,任务调度,程序计算等等,这种模式适合不大的程序,不需要yarn等将部署整的很复杂。专业点的描述就是,利用Spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构,为解决单点故障,可以采用Xoo
Kevin要奋斗
·
2020-07-16 06:20
spark
spark学习
计算平均年龄
使用Java自动生成1000个人的年龄,存储至本地,数据格式如下:左边一列为序号,右边为人的年龄.使用spark读取文件,并计算所有人的平均年龄:第一种方法:读入数据-->获取文件的第二列(年龄)-->将年龄生成键值对(1,age)-->所有年龄相加(相加之后的数据仍然是键值对(1,totalAge)),取value值-->计算结果.代码如下:/***读入数据-->split之后生成的是数组,取第
月落乌啼silence
·
2020-07-16 05:05
spark
spark学习
笔记-spark集群搭建(7)
安装spark包11、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。22、解压缩spark包:tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。33、更改spark目录名:mvspark-1.3.0-bin-hadoop2.4spark44、设置spark环境变量5vi.bashrc6exportSPARK_H
aams46841
·
2020-07-15 19:58
大数据
scala
spark学习
笔记-CentOS 6.4集群搭建(2)
CentOS6.5安装1、使用课程提供的CentOS6.5镜像即可,CentOS-6.5-i386-minimal.iso。2、创建虚拟机:打开VirtualBox,点击“新建”按钮,点击“下一步”,输入虚拟机名称为spark1,选择操作系统为Linux,选择版本为RedHat,分配1024MB内存,后面的选项全部用默认,在VirtualDiskFilelocationandsize中,一定要自己
aams46841
·
2020-07-15 19:58
Py
Spark学习
笔记-RDD(键值对RDD)
1.pairRDDpairRDD,就是键值对RDD。pairRDD是很多程序的构成要素,因为pairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。用户也可以通过控制pairRDD在各个节点上的分布情况,大大减少应用的通信开销。pairRDD是一种特殊的RDD,所以普通RDD支持的算子都适用于pairRDD.2.ByKey类操作frompysparkimportSparkContex
Sun_Sherry
·
2020-07-15 11:57
PySpark
Spark学习
之键值对(pair RDD)操作(3)
Spark学习
之键值对(pairRDD)操作(3)1.我们通常从一个RDD中提取某些字段(如代表事件时间、用户ID或者其他标识符的字段),并使用这些字段为pairRDD操作中的键。
weixin_33701617
·
2020-07-15 04:05
Spark学习
笔记1. 伪分布式&全分布式环境搭建
安装Linux、JDK等等解压:tar-zxvfspark-2.1.0-bin-hadoop2.7.tgz-C~/training/由于Spark的脚本命令和Hadoop有冲突,只设置一个即可(不能同时设置)配置文件:/root/training/spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh/root/training/spark-2.1.0-bin-ha
aimmon
·
2020-07-15 01:31
Spark
spark学习
笔记(二)----运行模式、spark-submit
spark运行模式1、applicationprogram组成Job:包含多个Task组成的并行计算,跟Sparkaction对应Stage:Job的调度单位,对应于TaskSetTaskset:一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集Task:被送到某个executor上的工作单元2、运行流程(以standalone为例)程序提交,sparkdriver内部RDDgrap
sunqingok
·
2020-07-14 23:27
spark
Spark学习
—— (6) 键值对RDD编程(基于Python)
键值对RDD是许多操作所需要的常见数据类型,也叫做pairRDD通常我们会从一个RDD提取某些信息作为新的RDD的键,构成一个键值对RDD。pairRDD也是RDD,所以上一篇笔记中介绍的RDD操作对pairRDD同样适用。本文介绍针对键值对RDD的常用操作及实例。文章目录1.pairRDD的创建2.pairRDD的Transformation操作2.1单个pairRDD2.2两个pairRDD3
茵茵的聪聪
·
2020-07-14 18:08
大数据学习记录
Spark学习
之路(六)——Spark编程基础(RDD)
1、RDD创建方式:①从文件系统中加载数据,②通过并行集合(数组)。从文件系统中加载数据:Spark的SparkContext通过TextFile()读取数据生成内存中的RDD(字符串类型)。.textFile()方法支持的数据类型:①本地文件系统(例:sc.textFile(“file:///[输入文件路径]”),注意:file后是3个“/”);②分布式文件系统(例:sc.textFile(“h
每一天U为明天
·
2020-07-14 05:33
大数据
Spark学习
之路(一)——Spark初识
1、Spark是一个实现快速通用的集群计算平台,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2、Spark是一个计算框架,替代Hadoop中MapReduce的原因是:MapReduce计算框架的中间结果会输出到磁盘上,进行存储和容错。Spark最大的特点是将计算数据、中间结果都存储在内存中,大大减少了读写磁盘的IO开销。因而Spark更适合于迭代运算比较多的数
每一天U为明天
·
2020-07-14 05:02
大数据
spark学习
——(一)spark简介
一、关于SparkSpark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms,MachinesandPeople)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为
Lynqwest
·
2020-07-14 05:43
Spark学习
Spark学习
中连接hdfs用户名设置问题
Spark学习
中连接hdfs用户名设置问题众所周知,连接hdfs时需要利用System.setProperty("HADOOP_USER_NAME","hadoop")将本机的用户名设置成hadoop集群的用户名
Little_FF
·
2020-07-14 05:17
错误处理
【
spark学习
笔记】在idea搭建开发环境
1.序我的工程是maven工程,通过maven不需要理会包的加载问题,很是方便。如果你还没有使用maven来管理工程的话那强烈建议你使用maven,尽管前期学习有点麻烦(主要是maven的默认下载镜像是国外)2.搭建详情下面是我建工程的截图1.jpg2.jpg3.jpg4.jpg5.jpg6.jpg7.jpg8.jpg9.jpg10.jpg11.jpg3.测试wordcount程序pom.xml4
代码足迹
·
2020-07-14 01:56
B站学习py
spark学习
记录
P11,P12,P13主要讲的是hadoop安装,如果以后有需要可以按照流程来装P141.hadoop基本命令hadoopfs-put/usr/local/test.txt(本地目录)/tmp(hdfs路径)//放置文件进去hadoopfs-get/tmp(hdfs路径/usr/local/test.txt(本地目录)//把资料拿出来hadoopfs-tail/tmp/txt(hdfs路径)//查
叫兽吃橙子
·
2020-07-13 22:10
Spark学习
之数据读取与保存(4)
Spark学习
之数据读取与保存(4)1.文件格式Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。
weixin_33753845
·
2020-07-13 17:16
Spark学习
—— (4+) SparkContext与SparkSession
SparkContext与SparkSessionSparkContext、SparkSession是对Spark计算集群的一个连接,当我们通过shell启动Spark时,会默认创建,如SparkContext会默认创建一个命名为sc的实例,而当自己编写应用要自己创建。1.SparkContext1.1是什么?如上图,SparkContext是Spark中Driver程序的一部分,向资源管理器cl
茵茵的聪聪
·
2020-07-13 10:23
大数据学习记录
Spark学习
之使用spark-shell读取mysql数据库
启动sparkcd/export/server/spark/sbinstart-all.sh查看sparkjps确保有worker进程执行命令:spark-shell\--masterspark://node2:7077\--executor-memory1g\--total-executor-cores2\--jars/export/server/hive/lib/mysql-connector
kerl-fashion
·
2020-07-10 13:30
Spark学习
(一)--Spark入门介绍和安装
本次主要介绍spark的入门概念和安装Spark概念Spark安装SparkHA高可用部署1.Spark概念1.1什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含Sp
xipenfei
·
2020-07-10 10:12
大数据
Spark
Spark学习
之路 (二)Spark2.3 HA集群的分布式安装
一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二、安装基础1、Java8安装成功2、zookeeper安装成功3、hadoop2.7
weixin_33811961
·
2020-07-10 07:51
Spark计算Pi运行过程详解---
Spark学习
笔记4
上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexportYARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar
OopsOutOfMemory
·
2020-07-10 05:07
spark
Spark实例TopN---
Spark学习
笔记11
Spark是基于内存的分布式计算框架,性能是十分彪悍的。话接上回,部署完Spark集群之后,想要测试一下,Spark的性能。1、环境集群概况可以参见SparkHadoop集群部署与Spark操作HDFS运行详解。现在集群里有一大约7G的文件,是手机号和IP地址的组合。hadoopdfs-dus/dw/spark/mobile.txthdfs://web02.dw:9000/dw/spark/mob
OopsOutOfMemory
·
2020-07-10 05:07
spark
Spark学习
—— (3) 运行模式Local,Standalone,YARN
Spark有多种运行模式,包括——local模式,本地运行Standalone模式,使用Spark原生的资源调度器YARN模式(生产模式中常用),使用Hadoop的YARN作为资源调度器Mesos模式,使用Mesos作为资源调度器本文主要介绍前面三种最常用的运行模式,其中每种模式又可细分为两种模式。在搭建好集群的基础上,使用各个模式分别运行,描述其运行过程。关于集群搭建,可以参考上一篇笔记。若有错
茵茵的聪聪
·
2020-07-09 23:36
大数据学习记录
大数据系列——
Spark学习
笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读
EVAO
·
2020-07-09 22:44
大数据
spark学习
- 创建RDD-操作RDD
创建RDD进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过SparkCore提供的transformation算子,对该RDD进行转换,来获取其他的RDDSparkCore提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用HDFS文件
小葫芦105
·
2020-07-09 14:46
Spark学习
1-入门必知
参见我的倔金前言:
spark学习
个人总结。主要参考已有的精品教程,部分加上自己的理解总结。引用未注明部分请联系更改。
sherlockerr
·
2020-07-09 14:51
---
Spark学习
-shuffle和RDD
文章目录SparkShuffleSparkShuffle两阶段Shuffle是个昂贵的操作Shuffle实现进化历史Shuffle相关组件HashShuffleManager:SortShuffleSortShuffle存在的问题?SortShuffle改进Tungsten计划sparkshuffle参数调优SparkRDDRDD机制RDD持久化原理不使用RDD的持久化使用持久化checkpoin
-无妄-
·
2020-07-09 13:18
Spark学习笔记
Spark学习
(1)——概述
Spark特点:高效(比MapReduce快10~100倍)内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销DAG引擎,减少多次计算之间中间结果写到HDFS的开销使用多线程池模型来减少task启动开销,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作易用提供了丰富的API,支持Java,Scala,Python和R种语言代码量比MapR
游骑小兵
·
2020-07-09 10:45
我的学习历程
BigData大数据学习与实战
Spark集群中使用spark-submit提交jar任务包实战经验
转载:蜗龙徒行-
Spark学习
笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验-cafuc46wingw的专栏-博客频道-CSDN.NEThttp://blog.csdn.net
zrc199021
·
2020-07-09 06:34
scala
spark
重新编译spark 增加spark-sql适配CDH
参考资料让clouderamanager装的spark支持hqlApache
Spark学习
:将Spark部署到Hadoop2.2.0上CDH内嵌spark版本不支持spark-sql,可能是因为cloudera
Dino系我
·
2020-07-09 05:12
spark
Spark学习
笔记(一)——RDD基础
Spark学习
(一)之RDD编程基础RDD简介一、创建RDD二、RDD操作2.1转化操作2.2行动操作参考文献最近开始学习Spark,期望在以后实习和秋招过程中有所收获~~RDD简介弹性分布式数据集(ResilientDistributedDataset
Troy Zissman
·
2020-07-08 21:45
Spark学习笔记
Spark学习
笔记——读写MySQL
1.使用Spark读取MySQL中某个表中的信息build.sbt文件name:="spark-hbase"version:="1.0"scalaVersion:="2.11.8"libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.1.0","mysql"%"mysql-connector-java"%"5.1.31","or
weixin_34409741
·
2020-07-08 18:38
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他