windows10下安装spark+scala+intellij

1:先安装intellij

https://www.jetbrains.com/idea/download/#section=windows

windows10下安装spark+scala+intellij_第1张图片

下载社区版即可

2:安装java

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

windows10下安装spark+scala+intellij_第2张图片

下载截图里面最底下那一个,因为1.8是个稳定的版本,而且是现在的公司主流版本

安装完成后,如果这个时候就在“命令行”下输入java -version,也会出现你刚安装的那个版本,原因是因为你在安装java的时候,默认往环境变量的path下写入了这样一行 C:\Program Files (x86)\Common Files\Oracle\Java\javapath  而这个目录下有java的映射,导致java现在就可以解析了,

在这块搜索:环境变量

windows10下安装spark+scala+intellij_第3张图片

会出现

windows10下安装spark+scala+intellij_第4张图片

 

先删掉刚刚那个java相关的path

windows10下安装spark+scala+intellij_第5张图片

然后重新搭建配置

环境配置:

1:新建JAVA_HOME  ===  E:\Java\jdk1.8.0_201

2:新建CLASSPATH  ==== E:\Java\jdk1.8.0_201\lib

3:添加E:\Java\jdk1.8.0_201\bin;   E:\Java\jdk1.8.0_201\jre\bin; 到Path里

 

windows10下安装spark+scala+intellij_第6张图片

windows10下安装spark+scala+intellij_第7张图片

3: 安装scala

https://www.scala-lang.org/download/

 -> https://www.scala-lang.org/download/all.html ->

 -> windows10下安装spark+scala+intellij_第8张图片

现阶段下载的版本是2.11.8,记住这个版本,因为后面下载安装spark的时候 需要保证对应spark版本里面的scala的版本也是2.11.8

安装完后,查看系统变量里面的path。发现已经自动写好路径了

windows10下安装spark+scala+intellij_第9张图片

但最好自己检查一下,以免没弄好

 

3.5: 安装python

https://www.anaconda.com/distribution/   -> 

 ->

ctrl+F 找到这个进行下载 Anaconda3-4.2.0-Windows-x86_64.exe (这个对应的是python3.5版本的,是为了之后的时候用到Gpu版本的tf,它不支持高版本的python)

安装完成后,anaconda会自动写好环境变量,这一步在安装的时候可以配置

 

3.6安装git

官网:https://git-scm.com/download/win  现在下载的版本是 2.20.1

添加 E:\Git\bin 到环境变量Path里

 

3.7:安装hadoop2.7.2,下载之后进行解压,然后再找一些辅助的文件进行补充,就可以正常启动起来

http://hadoop.apache.org/releases.html  ->  

  ->

ctrl+F找到  hadoop-2.7.2/  这个链接进行下载,下载完成后,解压到 E:\hadoop-2.7.2

然后配置环境变量HADOOP_HOME中,在PATH里加上%HADOOP_HOME%\bin

点击http://download.csdn.net/detail/wuxun1997/9841472下载相关工具类,直接解压后把文件丢到E:\hadoop-2.7.2\bin目录中去,将其中的hadoop.dll在c:/Windows/System32下也丢一份;(这个csdn资源中的数据也可以从这个github里面找到 https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin    网上找Hadoop 2.7.2的winutils.exe找不到的时候,直接用2.7.1的winutils.exe,照样能用)

 

之后启动hadoop的时候,具体参考这篇文档:https://www.cnblogs.com/wuxun1997/p/6847950.html

**自己在执行上面这篇文档时候的时候,按理说 

E:\hadoop-2.7.2\bin>hadoop namenode -format  进行格式化后,切换到 E:\hadoop-2.7.2\sbin 这个目录下执行  .\start-all.cmd

就可以启动4个窗口,代表4个进程。但是实际上我这边的namenode没有启动起来

windows10下安装spark+scala+intellij_第10张图片

很明显是在格式化的时候,只创建了 E:\hadoop\data\dfs\datanode 这个文件夹,而少了同路径下的namenode,,自己手动把这个文件夹创建好后。再重新格式化  hadoop namenode -format  ,然后再重启所有进程 .\start-all.cmd,这时候再jps就正常了

windows10下安装spark+scala+intellij_第11张图片

 

4:安装spark,要注意spark的版本号和scala并不一致,而是spark依赖scala

http://spark.apache.org/    查看Documentation可以查看对应版本问题

windows10下安装spark+scala+intellij_第12张图片

Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala version (2.11.x).

可以看到现在最新的版本的spark用的是scala2.11.*,所以刚刚安装scala的就要注意了,别安装太高 

http://spark.apache.org/downloads.html

windows10下安装spark+scala+intellij_第13张图片

下载后,解压到 E:\spark,然后吧这个路径 E:\Spark\bin添加到系统环境目录下

检验上面的那些东西是否安装配置正确

windows10下安装spark+scala+intellij_第14张图片

注意是否打印出来这个东西:

Spark context Web UI available at http://YF-11093908.vivo.xyz:4040
Spark context available as 'sc' (master = local[*], app id = local-1551170517885).
Spark session available as 'spark'.

在一些配置文档中还看到有输出:SQL context available as sqlContext.  但是我这个版本却没有输出来

 

5:之后是使用intellij新建个scala项目,参考这篇文档里面的配置(从*******2、intellij 配置*******开始看)

https://blog.csdn.net/u011464774/article/details/76697183

补充1:创建工程后,会在idea的右下角出现 dump project structure from sbt (虽然上面我们没有下载sbt,但是也会执行成功),因为是从国外的服务器拉取文件,所以大概持续10分钟左右,拉取到的文件默认存储在 c:\用户\{你当前的用户名}\vivo\.sbt ,从里面可以看到很多jar包

 

补充2:在创建工程时,需要填写sbt的版本,就照这篇blog文档里面来吧

 

补充3:博主写的这篇文档的整个的安装过程在这篇文档里也是很详细 https://blog.csdn.net/u011513853/article/details/52865076

而且这篇文档阅读量很大

 

6: 在windows下,还是使用xshell或者securtCRT方便开发些,再下载个这个。

7:如果导入公司/实验室 里面的scala项目,参考这篇文档:https://blog.csdn.net/a1066196847/article/details/87939658

你可能感兴趣的:(大数据工程)