MapReduce、python3.6、spark

1.启动服务:start-dfs.sh  start-yarn.sh
2.在hadoop文件夹下创建 data1.txt文本
3.vi data1.txt 保存退出
4.cat data1.txt
5.hadoop fs -mkdir -p /user/hadoop  (-p:创建多级目录)

MapReduce、python3.6、spark_第1张图片

MapReduce、python3.6、spark_第2张图片

出现这个情况 需要去 hadoop-2.9.0/bin目录下执行:hadoop dfsadmin -safemode leave

MapReduce、python3.6、spark_第3张图片


6.hadoop fs -put data1.txt  #将本地文件上传到hdfs中

MapReduce、python3.6、spark_第4张图片


MapReduce、python3.6、spark_第5张图片


进入 opt/hadoop-2.9.0/share/hadoop/mapreduce执行命令:
hadoop jar hadoop-mapreduce-examples-2.9.0.jar wordcount /user/hadoop/ /user/output
MapReduce、python3.6、spark_第6张图片

MapReduce、python3.6、spark_第7张图片


执行命令后会生成两个路径,前一个为解析统计文件路径,后一个为文件统计后存放的路径

7.hadoop fs -get/user/output/part-r-00000,将结果下载到工作目录下

MapReduce、python3.6、spark_第8张图片


安装python3.6
  如果运行yum -y install bzip2 不行的话,就去检查网络设置是否出现问题
1.将Anconda3-5.0.1-Linux-86_64.sh 放在hadoop文件夹下
2.在root用户中执行 yum -y install bzip2
MapReduce、python3.6、spark_第9张图片

3.切换hadoop用户 bash Anaconda3-5.0.1-Linux-x86_64.sh  然后回车yes  回车 回车。。。 等待安装
4.source .bashrc 刷新
5.hadoop用户执行 jupyter-notebook --ip python3(需要启动yarn)
复制链接 进入浏览器可以编写python代码

MapReduce、python3.6、spark_第10张图片

MapReduce、python3.6、spark_第11张图片


MapReduce、python3.6、spark_第12张图片


安装spark
 spark中MapReduce运行比hadoop中的MapReduce运行快,但spark不能建立集群,依赖hadoop
1.在hadoop用户下解压spark安装包放在 opt中
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C opt/

    执行yum -y install wget,以后安装不用下载到本地,直接通过网络传输协议,直接安装软件

2.配置spark的环境变量,然后刷新,在执行spark-shell
MapReduce、python3.6、spark_第13张图片


MapReduce、python3.6、spark_第14张图片




你可能感兴趣的:(MapReduce、python3.6、spark)