mapreduce、spark的样例

一、mapreduce任务

hadoop jar /usr/hdp/2.6.0.3-8/hadoop-mapreduce/hadoop-mapreduce-examples-2.7.3.2.6.0.3-8.jar pi 10 1000

指定队列和优先级

hadoop jar /usr/hdp/2.6.0.3-8/hadoop-mapreduce/hadoop-mapreduce-examples-2.7.3.2.6.0.3-8.jar pi -D mapreduce.job.queuename=default -D mapreduce.job.priority=VERY_HIGH -D mapreduce.reduce.memory.mb=1024 10 100

二、spark的任务

cd /spark-2.4.0-bin-hadoop2.7

./bin/spark-submit --class org.apache.spark.examples.SparkPi \

    --master yarn \

    --deploy-mode client \

    --driver-memory 6g \

    --executor-memory 4g \

    --executor-cores 2 \

    --queue default \

    examples/jars/spark-examples*.jar 1000

说明:最后的数字100时计算圆周率的位数,如果想让执行时间长一些,可以将这个数字变大,executor-memory executor-cores 时申请的资源,现在72G内存,18core

三、hive的操作

cd /hdp/2.6.0.3-8/hive

beeline

!connect  jdbc:hive2://ip:port

输入用户名和密码

show databases;

use andrewxiadb;

================tez的wordcount==================

对tez 进行测试

写2个文件上传至hdfs

echo "Hello World Hello Tez" > file01 

echo "Hello World Hello sxw com" > file02

hadoop fs -mkdir -p /usr/tez/{input,output} 

hadoop fs -put file01 file02 /usr/tez/input

hadoop jar /usr/hdp/current/tez-client/tez-examples*.jar  orderedwordcount /usr/tez/input /usr/tez/output


mapreduce、spark的样例_第1张图片

hadoop fs -cat /usr/tez/output/*****


mapreduce、spark的样例_第2张图片

四、hdfs的操作

hdfs dfs -ls /

hadoop fs -du /andrewtest       

hdfs dfs -put /root/source.txt  /andrewtest    

hdfs dfs -rm /andrewtest/source.txt

hdfs dfs -rm  -r /andrewtest  删除文件夹一同文件夹下的文件

hdfs dfs -cat /andrewtest/data2.json   

hadoop fsck /andrewtest

hadoop fs -count /andrewtest

hadoop fs -moveFromLocal /root/kong.txt  /andrewtest

hadoop fs -copyFromLocal /root/out.txt /andrewtest

hadoop fs -text /andrewtest/out.txt

hadoop fs -get /andrewtest/kong.txt  /root

hadoop fs -cp  /andrewtest/kong.txt /andrewtest/kong1.txt

hadoop fs -mkdir /test

hadoop fs -chmod 777 /test

hadoop fs -chown root /test

hdfs dfs -rm /test

五、查看任务类表和杀死任务

hadoop job -list 查看任务列表

hadoop job -kill $JobId 杀死某个任务

有时候会出现杀不死某个任务的情况,这是由于hadoop的新版本不支持上述命令,此时可用下边命令查看和杀死任务

yarn application -list 查看任务列表

yarn application -kill $ApplicationId 杀死某个任务

你可能感兴趣的:(mapreduce、spark的样例)