spark学习笔记第5页

Spark学习笔记（一）：关于RDD

RDD基础RDD（ResilientDistributedDataset），即弹性分布式数据集。它是分布在多个计算机节点上、可并行操作的元素集合，是Spark主要的编程抽象。RDD是不可变的分布式对象集合，每个RDD都被分为多个分区、可以运行在集群中不同的节点上。它是Spark对数据的核心抽象，Spark中对数据的操作，不外乎就是创建RDD、转化已有的RDD以及调用RDD操作进行求值。创建RDD创

CarlTortoise·2018-12-20 11:27

pyspark学习笔记（一）：Spark Web UI的使用

SparkWebUI是学习调试spark任务的入口，查看sparkUI任务日志也是一项必备技能。启动pyspark以后，在本地浏览器访问localhost:4040界面，就会看到spark的任务UI界面，查看各任务的信息。其中IP和port可以在pyspark启动的时候进行指定，也可以通过其它方式进行配置。SparkContext是Spark应用程序的入口。所有的Sparkjob都从SparkCo

Never-Giveup·2018-12-04 11:36

Spark学习笔记——1

一、Spark简介1、Spark：完全基于Hadoop的一种计算框架2、计算框架——》适用场景：SparkRDD——》离线批处理SparkCore——》流式计算SparkSQL——》交互式查询（基于Hive）SparkStreaming——》实时流式计算SparkMLlib——》机器学习SparkGraphX——》用于图计算3、Spark用于计算，Hadoop生态系统用于存储（HBase，HDFS

Mr_Effiya·2018-11-21 10:24

Spark学习笔记:数据读取和保存

spark所支持的文件格式1.文本文件在Spark中读写文本文件很容易。当我们将一个文本文件读取为RDD时，输入的每一行都会成为RDD的一个元素。也可以将多个完整的文本文件一次性读取为一个pairRDD，其中键是文件名，值是文件内容。在Scala中读取一个文本文件12valinputFile="file:///home/common/coding/coding/Scala/word-count/t

hellozhxy·2018-11-07 14:51

Spark学习笔记二：Spark.SQL

一、Spark.Sql简介Spark.sql是Spark四大组件之一，是Spark数据处理中用的最多的组件。SparkSQL在SparkCore的基础上对外提供了SQL接口，可以让熟悉SQL的技术人员快速上手。其编程入口为SparkSession。.SparkSQL所有的内容位于pyspark.sql这个模块下，包含了SparkSession、Column、Row等众多的核心内容。SparkSQL

DanyYan·2018-11-06 20:11

Spark学习笔记

文章目录Spark简介Spark的历史spark开发者spark比MR快的原因Spark的四种运行模式开发Spark的语言RDD（弹性分布式数据集）RDD简介RDD五大特性RDD的三种算子Transformation类算子Action类算子控制类算子Spark在集群中的大体运行流程提交Application的两种方式WordCount案例Spark集群搭建Spark简介Spark的历史Spark在

Hellomdk·2018-11-03 17:37

Spark学习笔记------Idea+Scala+Maven项目实例

之前的两篇文章是搭建Spark环境，准备工作做好之后接下来写一个简单的demo，功能是统计本地某个文件中每个单词出现的次数。开发环境为Idea+Maven，开发语言为scala，首先我们要在Idea中下载scala的插件，具体如下：一、Idea开发环境准备1.下载scala插件安装插件之前需确保Idea的JDK已经安装并配置好，然后打开Idea，选择File--->Settings，在新窗口中选择

abc4142·2018-10-31 11:00

Spark学习笔记：Spark Streaming数据存储与调优

目录SparkStreaming数据存储与调优一.缓存与持久化机制二.Checkpoint机制三.部署、升级和监控应用程序1.部署应用程序2.升级应用程序3.监控应用程序4.容错机制以及事务语义详解5.SparkSteraming架构原理6.性能调优SparkStreaming数据存储与调优一.缓存与持久化机制与RDD类似，SparkStreaming也可以让开发人员手动控制，将数据流中的数据持久

SetsunaMeow·2018-09-24 20:03

Spark学习笔记：Spark Streaming与Spark SQL协同工作

SparkStreaming与SparkSQL协同工作SparkStreaming可以和SparkCore，SparkSQL整合在一起使用，这也是它最强大的一个地方。实例：实时统计搜索次数大于3次的搜索词 packageStreamingDemo importorg.apache.log4j.{Level,Logger} importorg.apache.spark.SparkConf impo

SetsunaMeow·2018-09-19 17:48

Spark学习笔记：SparkSQL

目录SparkSQL一、什么是SparkSQL？二、SparkSQL的特点DataFrame一、什么是DataFrame？二、创建DataFrame三、使用DSL语句和SQL语句操作DataFrame1、DSL语句2、SQL四、临时视图(TemporaryView)1、什么是视图？2、类型3.创建与使用视图数据集（DataSet）创建和使用DataSetSparkSQL一、什么是SparkSQL？

SetsunaMeow·2018-09-06 09:01

Spark学习笔记：Spark基础

目录Spark基础1.Spark基础入门（1）什么是Spark（2）Spark生态圈（3）Spark的特点与MapReduce对比2.Spark体系结构与安装部署（1）Spark体系结构（2）Spark的安装与部署（3）SparkHA的实现3.执行SparkDemo（1）Spark-submit（2）Spark-shell（3）Spark实现WordCount（4）SparkWordCount的J

SetsunaMeow·2018-09-03 23:57

Spark学习笔记（一）——Spark编程

ApacheSpark是一个分布式计算框架，旨在简化运行于计算机集群上的并行程序的编写。Spark的前辈：MPI、MapReduce特性：迭代式计算、交互式探索、内存缓存计算Spark软件栈SparkCore：任务调度、内存管理、错误恢复、与存储系统交互，弹性分布式数据集（resilientdistributeddataset,RDD）SparkSQL：可与HiveMetastore交互Spark

Shingle_·2018-08-24 20:14

PySpark学习笔记

在spark2.0中,HiveContext,SQLContext,StreamingContext,SparkContext都被聚合到了spark模块中。另外要注意的一个事情是，读取文件时只能有一个活动进程，否则会报错。点击这里可以查看官方文档。[2020.12.6更新]3.0版本在Python和SQL功能方面带来了重大进展，通过启用自适应查询执行、动态分区裁剪等其他优化措施，相比于Spark2

IE06·2018-08-16 16:55

Spark学习笔记6——数据读取与保存

读写前的准备我用的是ubuntu系统，打开“终端”，进入Shell命令提示符状态，然后，在“/usr/local/spark/mycode”目录下，新建一个wordcount子目录，并在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt（你可以在文本文件中随意输入一些单词，用空格隔开）。打开“终端”（可以在Linux系统中使

建世伟业·2018-08-15 20:10

spark学习笔记【一】- 搭建spark开发环境【原创】

zhenggm·2018-08-07 17:00

spark学习笔记【一】- 搭建spark开发环境【原创】

zhenggm·2018-08-07 17:00

spark学习笔记【一】- 搭建spark开发环境【原创】

zhenggm·2018-08-07 17:00

Spark集群中使用spark-submit提交jar任务包

转载:蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验-cafuc46wingw的专栏-博客频道-CSDN.NEThttp://blog.csdn.net

Yeung先森·2018-07-27 17:18

PySpark学习笔记（7）——数据清洗

在正式建模之前，数据清洗和特征工程是必不可少的准备工作。其中，数据清洗是将杂乱的原始数据规整化的过程，本文主要介绍数据清洗中的一些小技巧：1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式，是事先定义好的一些特定字符及这些特定字符的组合，这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中，如果遇到特别杂乱的脏数据，可以通过多次使用正则表达式来实现无关信息的过滤和有用信息的规整化

飞鸟2010·2018-07-27 16:46

Spark学习笔记2——RDD编程

1.RDD设计背景在实际应用中，存在许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。虽然，类似Pregel等图计算框架也是将结果保存在内存当中，但是，这些框架只能支持一些特定

建世伟业·2018-07-17 23:03

【Spark学习笔记】Scheduler模块

spark调度模块详解.png调度流程源码分析Spark作业调度源码跟踪.png第一步：准备工作SparkContext中创建DAGScheduler、TaskScheduler和SchedulerBackend对象//Createandstarttheschedulerval(sched,ts)=SparkContext.createTaskScheduler(this,master,deplo

代码足迹·2018-05-11 14:07

【Spark学习笔记】Scheduler模块

spark调度模块详解.png调度流程源码分析Spark作业调度源码跟踪.png第一步：准备工作SparkContext中创建DAGScheduler、TaskScheduler和SchedulerBackend对象//Createandstarttheschedulerval(sched,ts)=SparkContext.createTaskScheduler(this,master,deplo

代码足迹·2018-05-11 14:07

spark学习笔记总结

Spark简介spark可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等核心组件解决了很多的大数据问题，其

kdy·2018-04-27 11:00

Spark学习笔记之二

Spark学习笔记之二一.RDD的五个基本特征AResilientDistributedDataset(RDD),thebasicabstractioninSpark.Representsanimmutable

LittleLawson·2018-04-15 19:57

PySpark学习笔记（6）——数据处理

在正式建模之前，需要非常了解建模所要用到的数据，本文主要介绍一些常见的数据观测和处理方法。1.数据观测（1）统计数据表中每一列数据的缺失率%pyspark#构造原始数据样例df=spark.createDataFrame([(1,175,72,28,'M',10000),(2,171,70,45,'M',None),(3,172,None,None,None,None),(4,180,78,33,

飞鸟2010·2018-04-11 16:11

PySpark学习笔记（5）——文本特征处理

今天有处理文本特征数据，刚开始因为不太熟悉pyspark环境下处理文本数据的流程，导致踩了不少的坑。在这里记录一下，以供以后参考。先写下整个处理的流程：（1）从数据库中提取数据（2）将提取的数据转换成DataFrame格式（3）使用tokenizer分词（4）将文本向量转换成稀疏表示的数值向量（字符频率向量）（5）将tokenizer得到的分词结果转换数字向量实现代码如下所示：%pysparkfr

飞鸟2010·2018-03-30 18:23

PySpark学习笔记（4）——MLlib和ML介绍

SparkMLlib是Spark中专门用于处理机器学习任务的库，但在最新的Spark2.0中，大部分机器学习相关的任务已经转移到SparkML包中。两者的区别在于MLlib是基于RDD源数据的，而ML是基于DataFrame的更抽象的概念，可以创建包含从数据清洗到特征工程再到模型训练等一系列机器学习工作。所以，未来在用Spark处理机器学习任务时，将以SparkML为主。SparkML主要包括如下

飞鸟2010·2018-03-23 18:16

PySpark学习笔记（3）——DataFrame基本操作

DataFrame是一种分布在集群节点中的不可变的分布式数据集，这种数据集是以RDD为基础的，其被组织成指定的列，类似于关系数据库的二维表格和Python中的Pandas.DataFrame。DataFrame本身带有Schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。DataFrame的一个主要优点是：Spark引擎一开始就构建了一个逻辑执行计划，而且执行生成的

飞鸟2010·2018-03-15 16:32

PySpark学习笔记（2）——RDD基本操作

RDD（弹性分布式数据集）是一组不可变的JVM对象的分布集，这些对象允许作业非常快速地执行计算，是ApacheSpark的核心。本文主要结合简单的例子介绍下RDD的基本操作。1.创建一个简单的RDD在PySpark中，有两种方式可以创建RDD，一种是用.parallelize()集合（元素list或array）创建RDD，另一种是通过引用位于本地或外部的某个文件（支持.txt、.csv、parqu

飞鸟2010·2018-03-14 16:20

Spark学习笔记:OutOfMemoryError-Direct buffer memory (OOM)

之前也遇到过几次关于OOM(堆外内存溢出)的问题，但都只是大体上看了看，没有细致的总结，目前了解的还不是特别清楚，只好总结一下我觉得可行的处理方案，另外贴一些原理。首先是当时的一些处理方案：第一次OOM：第一次遇到这个问题时，上网查，发现很多人都说要更改运行内存之类的，但本人是个小白，而且这个job是提交到集群上的，也不敢乱改，一般来说都是够的。我的数据量大约是在千万，接近亿级的数据，其中主要的操

小么额菇·2018-03-14 11:44

PySpark学习笔记（1）

最近工作有需要用到PySpark，而自己对这方面还不太熟悉。有鉴于此，很有必要系统性的梳理下PySpark的基本语法和特性，以供以后参考。1.Spark简介ApacheSpark是一个开源、强大的的分布式查询和处理引擎，最初由MateiZaharia在UCBerkeley读博期间开发的[1]。最早的Spark版本于2012年发布，后来被捐赠给ApacheSoftwareFoundation，成为A

飞鸟2010·2018-03-09 10:58

spark核心编程

Spark学习笔记Spark架构及组件imageimageclient：客户端进程，负责提交job到masterDriver：运行Application，主要是做一些job的初始化工作，包括job的解析

毛豆val·2017-12-27 18:54

Spark学习笔记(转)

本文章根据《Spark快速大数据分析/LearningSpark:Lightning-fastDataAnakysis》一书整理。这篇文章的主要目标和特点：简要、重点、完成后可用于开发1、Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。其一个主要的特点就是能够在内存中进行计算，因此速度更快。原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理，Spark

Dove饭特稀·2017-11-16 21:17

Spark Architecture

OReilly.Learning.Spark学习笔记Spark里所有操作都是对RDD来的。

98Future·2017-11-05 13:13

Spark2.x学习笔记：5、Spark On YARN模式

Spark学习笔记：5、SparkOnYARN模式有些关于SparkonYARN部署的博客，实际上介绍的是Spark的standalone运行模式。

程裕强·2017-09-06 11:11

Spark2.x学习笔记：3、 Spark核心概念RDD

Spark学习笔记：3、Spark核心概念RDD3.1RDD概念弹性分布式数据集(ResilientDistributedDatasets,RDD)，可以分三个层次来理解：数据集：故名思议，RDD是数据集合的抽象

程裕强·2017-08-30 16:59

spark学习笔记

概述Spark快速通用的集群计算平台扩充了MapReduce的计算模型内存计算包含组件sparkcoresparksqlsparkstreamingmlibGraphX部署方式StandaloneDeployMode:simplestwaytodeploySparkonaprivateclusterApacheMesosHadoopYARN集群模式关键概念Spark应用程序作为独立的进程集合运行在

lycium·2017-08-03 16:56

Spark学习笔记--Linux安装Spark集群详解

本文主要讲解如何在Linux环境下安装Spark集群，安装之前我们需要Linux已经安装了JDK和Scala，因为Spark集群依赖这些。下面就如何安装Spark进行讲解说明。一、安装环境操作系统：RedHatEnterpriseLinux664位(版本号6.6)JDK版本：1.8Scala版本：2.12.2Spark版本：2.2.0172.18.3.135主节点172.18.3.136从节点17

a261505·2017-07-25 16:00

Spark学习笔记-windows环境搭建

下载解压下载地址:http://spark.apache.org/downloads.html环境配置先装好java,scala,HDFS配置SPARK_HOME,Path启动Spark-shell启动时出错：Therootscratchdir:/tmp/hiveonHDFSshouldbewritable.Currentpermissionsare:-------解决方案：D:\hadoop-2

chensi6940·2017-07-16 22:00

spark学习笔记-kafka集群搭建(6)

安装scala2.11.411、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。22、对scala-2.11.4.tgz进行解压缩：tar-zxvfscala-2.11.4.tgz。33、对scala目录进行重命名：mvscala-2.11.4scala44、配置scala相关的环境变量5vi.bashrc6exportSCALA_HOME=/us

aams46841·2017-04-17 00:00

spark学习笔记-hive0.13搭建（4）

安装hive包1、将apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。2、解压缩hive安装包：tar-zxvfapache-hive-0.13.1-bin.tar.gz。3、重命名hive目录：mvapache-hive-0.13.1-binhive4、配置hive相关的环境变量vi.bashrcexportHIVE_HOM

aams46841·2017-04-17 00:00

spark 学习笔记

Spark学习笔记DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种DataMining

哎哟喂喽·2017-01-15 10:51

spark 学习笔记

Spark学习笔记DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种DataMining

哎哟喂喽·2017-01-15 10:51

Spark学习笔记－推荐系统（协同过滤算法为用户推荐播放歌手）

这是Spark高级数据分析的第二个项目，基于用户，歌手，播放次数的简单数据记录，来为用户推荐歌手。（1）获取数据miaofu@miaofu-Virtual-Machine:~/user_artist_data$wgethttp://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz--2016-09-1214:14:

Richard_More·2016-09-12 17:35

Spark学习笔记--Spark基础知识

1、RDD表示分布在多个计算节点上的可以并行操作的元素集合，是spark主要的变成抽象。SparkStreaming是Spark提供的对实时数据进行流式计算的组件Spark是一个用于集群计算的通用计算框架，因此被应用于各种各样的应用程序2、从上层来看，每个saprk应用都有一个驱动器程序（driverprogrammer）来发起集群上的各种并行操作。驱动器程序通过一个SparkContext对象来

夜晓楼·2016-09-08 22:56

Spark学习笔记

本文章根据《Spark快速大数据分析/LearningSpark:Lightning-fastDataAnakysis》一书整理。这篇文章的主要目标和特点：简要、重点、完成后可用于开发1、Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。其一个主要的特点就是能够在内存中进行计算，因此速度更快。原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理，Spark

準提童子·2016-08-28 11:35

spark学习笔记

spark定义spark是今年来发展较快的分布式并行数据处理框架，和hadoop联合使用，增强hadoop性能，增加内存缓存，流数据处理，图数据处理等更为高级的数据处理能力，mapreduce是属于hadoop生态体系之一，spark属于bdas生态体系之一，hadoop包含mapreducehdfshbasehivezookeeperpigsgoop等hdas包含sparkshark相当于hiv

小飞侠-2·2016-04-19 11:00

Spark学习笔记8-在eclipse里用Java编写spark程序

程序实现笔记7一样的内容，做一个README.md文件的单词计数，并打印出来，这次只做单机下运行，集群模式可以参考Spark学习笔记7的内容完成。

xummgg·2016-02-13 14:00

Spark学习笔记7-在eclipse里用scala编写spark程序（单机和集群运行）

1.下载eclipse我下载的是带scalaSDK的eclipse，下载地址如下：http://scala-ide.org/download/sdk.html我的要放在ubuntu下写程序，所以下载linux64位的。下载完成后自行解压。2.单机下运行WordCount程序我要测试运行的是单词计数的程序。采用的文件来自/Users/xxm/Documents/soft/spark-1.5.2-bi

xummgg·2016-02-11 21:00

Spark学习笔记6-Spark分布式搭建（5）——ubuntu下Spark分布式搭建

0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。Spark分布式搭建（1）——ubuntu14.04设置root自动登入http://blog.csdn.net/xummgg/article/details/50630583Spark分布式搭建（2）——ubuntu14.04下修改hostname和hostshttp://blog.csdn.net/xummg

XianMing的博客·2016-02-07 00:58

推荐频道

spark学习笔记

Spark学习笔记（一）：关于RDD

pyspark学习笔记（一）：Spark Web UI的使用

Spark学习笔记——1

Spark学习笔记:数据读取和保存

Spark学习笔记二：Spark.SQL

Spark学习笔记

Spark学习笔记------Idea+Scala+Maven项目实例

Spark学习笔记：Spark Streaming数据存储与调优

Spark学习笔记：Spark Streaming与Spark SQL协同工作

Spark学习笔记：SparkSQL

Spark学习笔记：Spark基础

Spark学习笔记（一）——Spark编程

PySpark学习笔记

Spark学习笔记6——数据读取与保存

spark学习笔记【一】- 搭建spark开发环境【原创】

spark学习笔记【一】- 搭建spark开发环境【原创】

spark学习笔记【一】- 搭建spark开发环境【原创】

Spark集群中使用spark-submit提交jar任务包

PySpark学习笔记（7）——数据清洗

Spark学习笔记2——RDD编程

【Spark学习笔记】Scheduler模块

【Spark学习笔记】Scheduler模块

spark学习笔记总结

Spark学习笔记之二

PySpark学习笔记（6）——数据处理

PySpark学习笔记（5）——文本特征处理

PySpark学习笔记（4）——MLlib和ML介绍

PySpark学习笔记（3）——DataFrame基本操作

PySpark学习笔记（2）——RDD基本操作

Spark学习笔记:OutOfMemoryError-Direct buffer memory (OOM)

PySpark学习笔记（1）

spark核心编程

Spark学习笔记(转)

Spark Architecture

Spark2.x学习笔记：5、Spark On YARN模式

Spark2.x学习笔记：3、 Spark核心概念RDD

spark学习笔记

Spark学习笔记--Linux安装Spark集群详解

Spark学习笔记-windows环境搭建

spark学习笔记-kafka集群搭建(6)

spark学习笔记-hive0.13搭建（4）

spark 学习笔记

spark 学习笔记

Spark学习笔记－推荐系统（协同过滤算法为用户推荐播放歌手）

Spark学习笔记--Spark基础知识

Spark学习笔记

spark学习笔记

Spark学习笔记8-在eclipse里用Java编写spark程序

Spark学习笔记7-在eclipse里用scala编写spark程序（单机和集群运行）

Spark学习笔记6-Spark分布式搭建（5）——ubuntu下Spark分布式搭建