Spark学习笔记第2页

Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️

RDD常用transform算子ReadMe❤️Code:本章节代码实现CSDN:wangt的博客☁️Github:https://github.com/lovewangtzq❤️微信公众号:大数据初学者b站:我学不会Spark创建RDD的三种方法valrdd1=sc.parallelize(Array(1,2,3,4,5,6,7,8))valrdd2=sc.textfilerdd之间的转化注意❓

兀坐晴窗独饮茶·2022-06-07 21:35

Spark学习笔记五：组件篇

一、SparkMlib数据类型本地向量LocalVector：密集型、稀疏型标签点LabeledPointMlib中的矩阵其实是向量型的RDD本地矩阵LocalMatrix分布式矩阵：分布式存储在一个或多个RDD。将一个分布式矩阵转换为另一个不同格式的需要Shuffle行矩阵：RDD[Vector]行索引矩阵：RDD[IndexedRow]三元组矩阵：RDD[MatrixEntry]，Matrix

阿毛33·2022-05-17 17:46

spark学习笔记四：spark集群搭建

安装包编译spark官网已经针对hadoop的2.4+版本、2.3版本、1.x版本等提供了编译好的安装包。在某些情况下，需要自己编译spark。用maven编译的方法是：1.安装好maven，下载和解压源码2.设置环境变量在linux下运行：exportMAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M-XX:ReservedCodeCacheSize=512m"不这么做

棉拖先生·2022-02-28 10:29

spark学习笔记【一】- 搭建spark开发环境【原创】

在去年写完[url="http://zhenggm.iteye.com/blog/2367614"]大数据学习笔记（七）-运行spark脚本【原创】[/url]之后，由于工作比较忙，且大数据在负责的项目中一时用不上，所以没有继续学习。这一篇是新的开始，主要学习使用spark的进行开发。spark的源码是scala写的，scala是与Java很像的一种语言，也是基于jvm运行的。spark提供了sc

suifeng201·2022-02-28 10:26

Spark学习笔记(10)——RDD阶段划分和任务划分

一、阶段划分的概念通过前面的学习我们知道RDD转换算子从分区数据是否会重新组合的角度看可分为两类：一类是如map、mapPartitions等，一个分区的数据经过处理后仍然还在同一个分区。各个分区的数据不存在互相依赖的关系，即OneToOne依赖，因此各个分区在处理完自己的任务后就可以直接通过转换算子进入新的RDD，不需要谁等谁。而另一类转换算子如groupBy、reduceByKey等，分区数据

程光CS·2022-02-28 10:38

Spark学习笔记-1.故事要从那三篇论文说起

这年头谁没个故事呢!Spark也有!起源计算机科学大致分为4个领域:人工智能编程语言操作系统计算机理论其中操作系统领域有两个顶级会议ODSI（USENIXconferenceonOperatingSystemsDesignandImplementation）SOSP（ACMSymposiumonOperatingSystemsPrinciples）相当于操作系统的武林大会如果把近几十年关于这两个大

丨像我这样的人丨·2022-02-17 20:32

【Spark学习笔记】Scala语法

学习列表：scala官方文档scalacheattwitterScala课堂有趣的Scala语言:使用递归的方式去思考《scala编程》几乎一切乎都是表达式scala>1+1res0:Int=2复合表达式——{}花括号用于创建复合表达式，复合表达式的返回值是最后一个表达式scala>{|println("helloworld")|"hi"|}helloworldres0:String=hi常量使用

不可能打工·2021-06-11 15:17

Spark学习笔记--环境搭建

文章目录1Local模式2Standalone模式2.1上传软件2.2修改配置文件2.3启动集群3Yarn模式3.1上传软件2.2修改配置文件2.3启动集群4对比Spark部署模式主要有四种：Local模式（单机模式）、Standalone模式（使用Spark自带的简单集群管理器）、YARN模式（使用YARN作为集群管理器）和Mesos模式（使用Mesos作为集群管理器），甚至还可以在学习阶段使用

幼儿园园草·2021-06-06 18:46

Spark学习笔记4

任务的提交以及Standalone集群模式的部署spark-submit首先需要打包代码，如果你的代码需要依赖其他的包环境则需要单独的打包这些依赖，应为cluster会将所有依赖的jar包分发到各个节点上进行使用。推荐的方法是将依赖包和程序都统一的打成一个包，这样就可以直接使用spark-submit方法来运行，具体的pom.xml配置如下：org.apache.sparkspark-core_2

wangmin·2021-05-14 10:53

pySpark学习笔记N——数据的存储

hi各位大佬早啊。我是菜鸟小明哥。在下载用户及item特征的时候出现问题，spark.sql得到的数据已经是dataframe了，但是我用.withColumn增加列后选择了分user或item存储在hdfs，这是种分片存储的方式（不知道我说的啥，详见下面代码吧），但这种就会出现问题：选择的列如果是空值的话，那么它不会以NULL的形式出现在hadoopgetmerge的本地结果中，这就出现了有的行

VideoRec·2021-01-26 15:20

pythonspark安装_Spark学习笔记--Spark在Windows下的环境搭建

本文主要是讲解Spark在Windows环境是如何搭建的一、JDK的安装1、1下载JDK首先需要安装JDK，并且将环境变量配置好，如果已经安装了的老司机可以忽略。JDK(全称是JavaTMPlatformStandardEditionDevelopmentKit)的安装，去Oracle官网下载，下载地址是JavaSEDownloads。上图中两个用红色标记的地方都是可以点击的，点击进去之后可以看到

何宜晖·2021-01-13 09:48

【Spark学习笔记】Spark下的四种中文分词工具

1.Spark下四种中文分词工具使用hanLPansjjiebafudannlp2.获取四种分词工具在maven项目工程下的pom.xml文件中添加点击import即可完成对前三种的获取org.ansjansj_seg5.1.3com.hankcshanlpportable-1.3.4com.huabanjieba-analysis1.0.2fudannlpgithub地址：https://git

不可能打工·2020-09-17 11:21

Spark学习笔记三之RDD是个什么东西

注意一些关于SparkCore的简单的概念理解，请参考一下我的这篇博客：Spark学习笔记二之SparkCore核心概念一网打尽简介定义RDD(ResilientDistributedDatasets)

Shockang·2020-09-16 11:06

Spark学习笔记一之为什么Spark这么牛逼

先来看一组信息：2014年的SortBenchmark测试中，Spark在使用十分之一计算资源的情况下，相同数据排序，Spark比MapReduce快3倍！2015年6月，Spark最大的集群来自腾讯——8000个结点，单个Job最大来自阿里巴巴和Databricks——1PBUseofMapReduceengineforBigDataprojectswilledecline,replacedby

Shockang·2020-09-16 11:06

Spark学习笔记二之Spark Core核心概念一网打尽

上一篇文章主要是描述了Spark的背景历史，也简单的介绍了一下Spark这门技术，这一篇正式开始Spark的学习旅程。Spark是一个非常具有挑战性的框架。当然，首先，Spark很”值钱“，国内大量使用Spark框架的公司不在少数，工资都很高，所以值得花费大量时间去深入理解它。其次，Spark学习起来也不会很容易，各种知识点错综复杂，初入门的人可能会被这些知识点给绕晕了，所以这篇文章主要就是——敲

Shockang·2020-09-16 10:27

Spark学习笔记--Spark在Windows下的环境搭建

本文主要是讲解Spark在Windows环境是如何搭建的一、JDK的安装1、1下载JDK首先需要安装JDK，并且将环境变量配置好，如果已经安装了的老司机可以忽略。JDK（全称是JavaTMPlatformStandardEditionDevelopmentKit）的安装，去Oracle官网下载，下载地址是JavaSEDownloads。上图中两个用红色标记的地方都是可以点击的，点击进去之后可以看到

a261505·2020-09-14 06:10

Spark学习笔记@第一个例子wordcount+Eclipse

编写程序代码使用IDE为Eclipse；1、新建Scalaproject，完成后右击“wordcount”工程，选择properties在弹出的框中，按照下图所示，依次选择“JavaBuildPath”–>“Libraties”–>“AddExternalJARs…”，导入spark依赖的jar包，如下：$SPARK_HOME/lib$HADOOP_HOME/share/hadoop/common

pigcoffee·2020-09-13 05:28

Spark学习笔记

本文整理自《Spark快速大数据分析》，其中SparkSQL还没学习，日后补上第二章Spark入门RDD（弹性分布式数据集）是Spark对分布式数据和计算的基本抽象。每个Spark应用都有一个驱动器程序来发起集群上的并行操作。驱动器程序包含应用的main函数，并且定义了集群上的分布式数据集，还对数据集应用了相关操作。驱动器程序一般要管理多个执行器。如果是本地模式下，则所有的工作都会在单个节点上进行

银色子弹lx·2020-09-12 09:44

hadoop与spark

hadoop与spark参考博客链接参考博客链接1.hadoop与spark学习笔记2.spark介绍3.hadoop与spark区别和联系

Zhouxk96·2020-09-12 08:10

Spark学习笔记：DStream的transformation操作概览

DStream的transformation操作概览一.SparkStreaming开发步骤创建输入DStream，如将Flume、Kafka、HDFS和Socket等作为数据源对输入DStream进行转换操作对转换后的DStream进行输出操作，比如存储到DBMS中二.DStream分类InputDStream，是最原始最初的DStream，它是依据不同的数据源创建的，也是RDD最初诞生的地方T

SetsunaMeow·2020-09-11 21:03

spark学习笔记之一：RDD的五大特性

1.AlistofpartitionsRDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。2.AfunctionforcomputingeachsplitRDD的每个partition上面都会有function，也就是函数应用，其作用是实现RDD之间par

书灯·2020-09-11 16:25

spark学习笔记之二：宽依赖和窄依赖

1.如果父RDD里的一个partition只去向一个子RDD里的partition为窄依赖，否则为宽依赖（只要是shuffle操作）。2.spark根据算子判断宽窄依赖：窄依赖：map,filter,union宽依赖:groupByKey,join3.宽窄依赖用于切割action算子生成的工作（job）：根据宽依赖（shuffle）一个job会被切分成多个stage（阶段）去执行，一个stage包

书灯·2020-09-11 16:25

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记1——第一个Spark程序：单词数统计笔记摘抄自[美]HoldenKarau等著的《Spark快速大数据分析》添加依赖通过Maven添加Spark-core_2.10的依赖程序找了一篇注释比较清楚的博客代码

aou9515·2020-09-11 08:15

Spark学习笔记8-在eclipse里用Java编写spark程序

程序实现笔记7一样的内容，做一个README.md文件的单词计数，并打印出来，这次只做单机下运行，集群模式可以参考Spark学习笔记7的内容完成。

XianMing的博客·2020-09-11 07:26

spark学习笔记总结--算子

Value型Transformation***************************************************************1、集合中创建RDD，Spark主要提供了两中函数：parallelize和makeRDD2、下划线'_'代表集合中所有值3、map、filter为Transformation算子4、parallelize(1to10,6)，位产生1

北京小辉·2020-09-11 03:13

Spark学习笔记

交流学习加群460570824DataSource->Kafka->SparkStreaming->Parquet->SparkSQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种DataMining等1.1Spark集群的安装Spark的运行是构建在hadoop集群之上（默认hadoop集群已经安装好了），在spark集群集群上必须要安装对应版本的scala1.1

专业大数据·2020-09-11 00:36

Spark学习笔记：利用Spark预测回头客行为

预处理test.csv和train.csv数据集一、这是本次实验需要用到的数据集，我在之前发过的文章《Hadoop、Hive实战：淘宝双十一数据分析》已经给出了，有同学需要的话可以去看看。这两个数据集的字段，定义如下：1、user_id：买家id2、age_range：买家年龄分段：1表示年龄=50,0和NULL则表示未知3、gender：性别：0表示女性，1表示男性，2和NULL表示未知4、me

没才艺的华哥·2020-09-02 22:25

Spark学习笔记（一）—— RDD介绍

Spark——RDD介绍一、RDD概述1.什么是RDD2.RDD属性二、RDD特点1.分区2.只读3.依赖4.缓存5.CheckPoint一、RDD概述1.什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素并行计算的集合。2.RDD属性一组分区（Partition），

AidenBrett·2020-08-26 09:18

Spark学习笔记7-在eclipse里用scala编写spark程序（单机和集群运行）

1.下载eclipse我下载的是带scalaSDK的eclipse，下载地址如下：http://scala-ide.org/download/sdk.html我的要放在ubuntu下写程序，所以下载linux64位的。下载完成后自行解压。2.单机下运行WordCount程序我要测试运行的是单词计数的程序。采用的文件来自/Users/xxm/Documents/soft/spark-1.5.2-bi

XianMing的博客·2020-08-24 18:50

Spark学习笔记2：RDD编程

通过一个简单的单词计数的例子来开始介绍RDD编程。importorg.apache.spark.{SparkConf,SparkContext}objectword{defmain(args:Array[String]):Unit={valconf=newSparkConf().setMaster("local").setAppName("word")valsc=newSparkContext(c

wangyunfeis·2020-08-24 16:50

Spark学习笔记

1.standalone模式下的SparkCluster是不能直接处理本地文件的，要么通过addFile接口上传到各个worker机器。2.reduceByKey（func），把具有相同key的字典元素的value进行func的迭代计算3.aggregate（value0，fun1，fun2）函数，指定返回值的类型并代初值value0，首先每个patition会执行fun1函数的迭代，然后通过fu

不材之木·2020-08-23 21:21

spark学习笔记（一）基础

参考链接https://www.jianshu.com/p/3aa52ee3a802https://www.cnblogs.com/Mayny/p/9330436.htmlhttps://www.cnblogs.com/tgzhu/p/5818374.html计算框架Spark架构采用了分布式计算中的Master-Slave模型，Master是对应集群中的含有Master进程的节点，Slave是集

yezhirm7·2020-08-23 04:06

Spark学习笔记：DStream基本工作原理

DStream基本工作原理DStream是SparkStreaming提供的一种高级抽象，英文全称为DiscretizedStream，中文翻译为离散流，它代表了一个持续不断的数据流。DStream可以通过输入数据源（比如从Flume、Kafka中）来创建，也可以通过对其他DStream应用高阶函数（map，flatmap）来创建。在内部实现上，DStream由一组时间序列上连续的RDD来表示，R

SetsunaMeow·2020-08-21 04:20

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO_大个子·2020-08-20 21:30

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream（代理）,本质上就是一系列连续的RDD，DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂，该DStream里面生产都是相同业务逻辑的RDD，只不过是RDD里面要读

EVAO_大个子·2020-08-20 21:30

Spark学习笔记—Spark工作机制

一.Spark执行机制1.执行机制总览Spark应用提交后经历一系列转变，最后成为task在各个节点上执行。RDD的Action算子触发job的提交，提交到Spark的Job生成RDDDAG，由DAGScheduler转换为StageDAG，每个Stage中产生相应的Task集合，TaskScheduler将任务分发到Executor执行。每个任务对应的数据块，使用用户定义的函数进行处理。2.Sp

Mr_zhujin·2020-08-19 08:54

Spark学习笔记 --- SparkStreaming 实现对 TCP 数据源处理

packagedemo1importorg.apache.spark._importorg.apache.spark.streaming._//importorg.apache.spark.streaming.StreamingContext._(spark1.3upperisnotnecessary)/*Usingthiscontext,wecancreateaDStreamthatrepres

杨鑫newlfe·2020-08-18 12:27

Spark学习笔记（三）：SparkStreaming实现对文件夹和socket的监听

SparkStreaming是Spark的一个流式计算框架，它支持对许多数据源进行实时监听，例如Kafka,Flume,Kinesis,TCPsockets，甚至文件夹，并实现实时计算的能力。对文件夹的监听deffileStreaming():Unit={/***监听文件夹的新增文件内容*///至少要启动2个线程以上，1个用于监听，1个用于处理数据valconf=newSparkConf().se

我就算饿死也不做程序员·2020-08-18 10:14

【PySpark学习笔记二】DataFrame用法

DataFrame是一种不可变的分布式数据集。Spark早期的API中，由于JVM和Py4J之间的通信开销，使用Python执行查询会明显变慢。Python到RDD之间的通信在PySpark驱动器中，SparkContext通过Py4J启动一个JavaSparkContext的JVM，所有的RDD转换最初都映射到Java中的PythonRDD对象。这样，Python和JVM之间就存在很多上下文切换

roguesir·2020-08-18 10:42

Spark学习笔记（二）| Spark任务调度机制

文章目录1.Spark任务调度概述2.Spark通信机制3.任务调度过程3.1SparkStage级调度3.2SparkTask级调度3.2.1调度策略3.2.2本地化调度3.2.3失败重试与黑名单机制1.Spark任务调度概述当Driver任务启动之后，Driver则会根据用户程序逻辑准备任务，并根据Executor资源情况逐步分发任务。一个Spark应用程序包括Job、Stage以及Task三

辣鸡翅17·2020-08-17 23:28

Spark学习笔记（四）| Spark内存管理

文章目录1.堆内和堆外内存规划1.1堆内内存1.1.1内存申请与释放1.2堆外内存2.内存空间分配2.1静态内存管理(Spark1.6版本以前)2.2统一内存管理(Spark1.6以后)3.存储内存(Storage)管理3.1RDD的持久化机制3.2RDD的缓存过程3.3淘汰与落盘主要需要学习的Executor上面的内存管理1.堆内和堆外内存规划作为一个JVM进程，Executor的内存管理建立在

辣鸡翅17·2020-08-17 23:28

Spark学习笔记（三）| Shuffle解析

文章目录1.Shuffle核心要点1.1ShuffleMapStage与FinalStage1.2Shuffle中的任务个数1.3reduce端数据读取2.HashShuffle解析2.1未经优化的HashShuffleManager2.2经过优化的HashShuffleManager3.SortShuffle解析3.1普通运行机制3.2bypass运行机制1.Shuffle核心要点1.1Shuf

辣鸡翅17·2020-08-17 23:28

Spark学习笔记（三）——SparkSQL（DataSet、DataFrame、hive集成、连接mysql）

SparkSQLSparkSQL精华及与Hive的集成一、SparkSQL简介1、SQLonHadoop2、SparkSQL前身3、SparkSQL架构4、SparkSQL运行原理5、Catalyst优化器二、SparkDatasetAPI1、创建2、Dataset3、演练三、SparkDataFrameAPI1、介绍2、对比3、创建4、常用操作5、RDD和DataFrame转换四、SparkSQ

throws-Exception·2020-08-17 09:31

[大数据]spark入门 in python（一）HelloWorld

代码开发又或者使用hive来便利分析，但是面对实时计算，就需要跟高一层级的框架了，storm，spark就是对应的技术了，于是自己开始学习spark，作为半路出家的选手自然选用了python作为开发语言下面就是自己的spark

binsfan·2020-08-15 09:49

spark学习笔记总结-spark入门资料精化

Spark学习笔记Spark简介spark可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。

weixin_30763397·2020-08-13 20:06

【spark 学习笔记】Spark学习笔记精华（1）

好记性不如烂笔头，顺便就开始用手机练习打字了，也分享给感兴趣的朋友学习下。1.take可以查看RDD中前面几个元素，而且代价很小。rdd.take(5)2.可以用takeSample对数据进行采样，它的第一个参数表示是否允许重复采样。rdd.takeSample(true,3)3.top返回数据集中按给定ordering方式排序的最大的k条记录，许多场景都要用到它，比如对每条记录打分之后，检查得分

开心果汁·2020-08-13 20:20

spark 学习笔记

spark学习笔记《spakr快速大数据分析》书中例子是以spark1.2为基础写的。第二章启动ipythonPYSPARK_DRIVER_PYTHON=ipython.

振裕·2020-08-13 19:51

Spark 学习笔记

Spark学习笔记SparkSpark介绍Spark安装Spark架构、角色Spark任务执行流程SparkWorldCountSparkRDD什么是RDDRDD的属性创建RDD从内存从文件RDD分区RDD

CoLiuRs·2020-08-13 13:18

Spark学习笔记

Spark平台与业务接入---星星之火，可以燎原Spark官网：http://spark.apache.org/Catalog0.AreYouReadyToBeASparker?!1.Spark平台介绍2.业务接入准备2.1现在有哪些Spark集群？2.2该选用哪个Spark版本？2.3怎么接入Spark计算集群？2.4任务提交账户和数据准备3.业务代码编写与调试3.1Java/Scala任务3.

晓Study·2020-08-13 11:32

20200625大数据spark学习笔记

启动src/redis-serverredis.confsrc/redis-cli-hhadoop000-p6379keys*查询里面的keyHBase特点大:面向列：列族（可以存放很多列），列族/列独立索引稀疏：对于空的列，不会占用存储空间数据类型单一：btye/string无模式：每一行的数据所对应的列不一定相同，每行的列是可以动态添加的数据多版本：比如company可以存放不同的版本的值默认

see you in September·2020-08-11 00:39

推荐频道

Spark学习笔记

Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️

Spark学习笔记五：组件篇

spark学习笔记四：spark集群搭建

spark学习笔记【一】- 搭建spark开发环境【原创】

Spark学习笔记(10)——RDD阶段划分和任务划分

Spark学习笔记-1.故事要从那三篇论文说起

【Spark学习笔记】Scala语法

Spark学习笔记--环境搭建

Spark学习笔记4

pySpark学习笔记N——数据的存储

pythonspark安装_Spark学习笔记--Spark在Windows下的环境搭建

【Spark学习笔记】Spark下的四种中文分词工具

Spark学习笔记三之RDD是个什么东西

Spark学习笔记一之为什么Spark这么牛逼

Spark学习笔记二之Spark Core核心概念一网打尽

Spark学习笔记--Spark在Windows下的环境搭建

Spark学习笔记@第一个例子wordcount+Eclipse

Spark学习笔记

hadoop与spark

Spark学习笔记：DStream的transformation操作概览

spark学习笔记之一：RDD的五大特性

spark学习笔记之二：宽依赖和窄依赖

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记8-在eclipse里用Java编写spark程序

spark学习笔记总结--算子

Spark学习笔记

Spark学习笔记：利用Spark预测回头客行为

Spark学习笔记（一）—— RDD介绍

Spark学习笔记7-在eclipse里用scala编写spark程序（单机和集群运行）

Spark学习笔记2：RDD编程

Spark学习笔记

spark学习笔记（一）基础

Spark学习笔记：DStream基本工作原理

大数据系列——Spark学习笔记Spark Streaming

大数据系列——Spark学习笔记Spark Streaming

Spark学习笔记—Spark工作机制

Spark学习笔记 --- SparkStreaming 实现对 TCP 数据源处理

Spark学习笔记（三）：SparkStreaming实现对文件夹和socket的监听

【PySpark学习笔记二】DataFrame用法

Spark学习笔记（二）| Spark任务调度机制

Spark学习笔记（四）| Spark内存管理

Spark学习笔记（三）| Shuffle解析

Spark学习笔记（三）——SparkSQL（DataSet、DataFrame、hive集成、连接mysql）

[大数据]spark入门 in python（一）HelloWorld

spark学习笔记总结-spark入门资料精化

【spark 学习笔记】Spark学习笔记精华（1）

spark 学习笔记

Spark 学习笔记

Spark学习笔记

20200625大数据spark学习笔记