Windows 上也能玩转 Spark

写这篇博客之前有一个问题一定要明确,那就是 Windows 上其实是不可能玩转 Spark 的,之所以这么说,只是为了让想体验 Spark 的我们也能玩玩这个东西,没有分布式环境真是悲催啊。但是在Windows上面我们还是可以体验一下 Spark 的,不用搭虚拟机, 只需要三样东西。下面讲干货。

 

1、安装 JVM。


1) 下载 JDK 最新版本,或者文档版本,这里下载的是 JDK8,安装到指定目录譬如:D:\java\java8


2) 配置系统环境变量:

JAVA_HOME = D:\java\java8;

PATH = %JAVA_HOME%\bin;%PATH%;

CLASSPATH = %JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\jre\lib\rt.jar


2、安装 SCALA

1) 下载 SCALA 最新版,解压到指定目录 D:\java\scala-version

2) 配置系统环境变量:

SCALA_HOME = D:\java\scala-version;

PATH = %SCALA_HOME%\bin;%PATH%;


3、下载 Spark的预编译版本,随便一个,进入bin目录双击:spark-shell.cmd*

恭喜。一个Spark就跑起来了,里面的很多函数你都可以用了,不过别忘记,只能读取本地数据,和数据库的数据。分布式环境中的东西,你现在没有按照 Hadoop 环境,你啥也干不了。

只要你安装一个预编译版本对应的 分布式环境,你也可以在那些分布式环境里面读取数据,不过这个时候建议你用 Linux,现在只是一个体验一下 Spark 的环境。

 

Scala 语言和 R 语言真的好像,只不过R语言底层都写好了, Scala 底层都需要自己去写,写完了之后,你完全可以按照 R 一样去调用,现在已经有很多项目是完成了底层工作的东西。比如 scalaNLP,将来有一天,你会发现 Scala 真的是个好东西,Spark基于 Scala 现在又出了数据框 DataFrame,会不会将来有一天成为 分布式中的R语言,这些都是我的瞎想。

你可能感兴趣的:(Windows 上也能玩转 Spark)