DT大数据梦工厂- 第6课 精通Spark集群搭建与测试

20160106 课程笔记

Spark上流行的存储框架: Hadoop的 HDFS 和 S3 云存储 


未来三至五年黄金组合框架:Spark+Tachyon+HDFS
Tachyon: 基于内存的分布式文件系统, 不同来源的数据,

安装
VMWare 软件
电脑推荐16G: 两个 KINGSTON 8G, 至少8G内存
系统推荐UbantuKylin
SecureCRT 工具 

使用Hadoop 2.6.0 目前而言,最稳定的版本

Hadoop重要目录

/usr/local/hadoop/
-2.6.0/
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
hadoop-env.sh

bashrc
配置HADOOP_HOME,SPARK_HOME,SCALA_HOME等信息

slaves


安装Spark 1.6.0 略

Coarse Grained 
粗粒度,先配置资源。 细计算时分配
万一有一个任务完成,其他资源闲着浪费。
Yarn: 粗粒度
MESOS 粗、细粒度


作业
安装Hadoop, Spark环境截图
发布PI程序

--------------------------------------------------------------

王家林  中国Spark第一人
DT大数据梦工厂
新浪微博: http://weibo.com.ilovepains/
微信公共号:DT_Spark
博客:http://bolg.sina.com.cn/ilovepains
手机:18610086859
qq:1740415547
邮箱:[email protected]

--------------------------------------------------------------


你可能感兴趣的:(DT大数据梦工厂- 第6课 精通Spark集群搭建与测试)