1-Spark概述

1 大数据技术栈

1-Spark概述_第1张图片
image.png

2 spark是什么

快如闪电般的分布式计算框架:Lightning-fast cluster

3 MapReduce框架局限性

1-Spark概述_第2张图片
image.png

4 Hadoop生态圈中的各种框架

1-Spark概述_第3张图片
image.png

5 Spark的优势

1-Spark概述_第4张图片
image.png

1-Spark概述_第5张图片
image.png

6 SPARK 2新特性

1-Spark概述_第6张图片
image.png

7 Windows开发环境

1-Spark概述_第7张图片
image.png

8 下载anacoda(略)

9 下载安装hadoop2.7

hadoop-2.7.6下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/
进入下载地址后,选择红框里的内容,则会开始自动下载了。

1-Spark概述_第8张图片
image.png

10 下载安装jdk1.8

jdk1.8下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
选择Accept License Agreement,然后下载和自己电脑配置相同的版本,我的是windows64位的,如下图:

1-Spark概述_第9张图片
image.png

11 下载安装spark

spark-2.3.1-bin-hadoop2.7.tgz下载地址:http://spark.apache.org/downloads.html
选择版本,点击下载

1-Spark概述_第10张图片
image.png

12 安装py4j

进入cmd命令框,输入:pip install py4j,即开始下载

13 安装pyspark的扩展包

将D:\spark-2.3.1-bin-hadoop2.7\python(spark\python目录)粘贴到anacoda目录下D:\anaconda3\Lib\site-packages,新建pyspark.pth的文本里

14 配置环境变量

将hadoop2.7、spark、jdk这三个的安装目录添加到环境变量中,分别为
HADOOP_HOME:hadoop安装路径


1-Spark概述_第11张图片
image.png

SPARK_HOME:spark安装路径


1-Spark概述_第12张图片
image.png

JAVA_HOME:jdk安装路径
1-Spark概述_第13张图片
image.png

在Path路径中也要加上刚才添加的三个安装路径
1-Spark概述_第14张图片
image.png

15 启动pyspark

在cmd命令框中输入:pyspark,进入pyspark编辑界面


1-Spark概述_第15张图片
image.png

16 测试wordcount

1、在D盘新建一个测试文件:app.log(随便输入几个word,用空格分割)
2、运行下面命令

sc = spark.sparkContext
doc = sc.textFile('file:///d:/app.log')
words = doc.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).collect()”

你可能感兴趣的:(1-Spark概述)