安装Hadoop及Spark(Ubuntu 16.04): http://www.cnblogs.com/bovenson/p/5760856.html
管理页面:
hadoop: localhost:50070
yarn: localhost:8088
spark: localhost:8080
这里仅作为补充:
1、通过ln命令创建软连接
这样不会剔除所安装文件的版本信息,方便升级
ln -s hadoop-2.7.3/ hadoop
2、ssh免密码登陆
- root用户下没问题。
- 普通用户没成功, 尝试了多个教程(修改文件夹权限什么的)
3、教程
官网的就很不错:
http://spark.apache.org/docs/latest/quick-start.html
注意:由于我们集成了hadoop,文件必须先上传到hadoop的hdfs文件系统
hadoop文件命令参见: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html
着重注意 copyFromLocal命令
如果我们将README.md 上传到hadoop的根目录,则对应官网教程的创建RDD的命令为:
val lines=sc.textFile("/README.md")
4、打包为jar
安照官网的sbt教程来的,可以成功,但过程缓慢
sbt安装: http://www.scala-sbt.org/download.html
解压生成的jar包,里面也就是自己的几个.class文件而已(eclipse自动编译好的), 就是普通的带main class的java 包,应该可以手动打包,,这部分没尝试
注意:官网教程的 spark-submit 那步, 需要先启动spark服务(运行安装教程中启动spark的脚本); 另外我没指定master参数,不清楚上面教程的安装模式是什么