HDFS上传文件与Spark执行

根据并行度与文件大小设置Block大小,上传脚本:

hadoop dfs -D dfs.block.size=42724400 -D io.bytes.per.checksum=100 /
-D dfs.namenode.fs-limits.min-block-size=324000  -put BytePaviaU /home/zangtt/original-2.txt

 

Spark submit脚本:

spark-submit --class Main --master spark://localhost:7077 /
/home/zangtt/IdeaProjects//FinalParallelFusion/out/artifacts/FinalParallelFusion_jar/FinalParallelFusion.jar /
local[*] /home/zangtt/Data/zqt/PaviaU.txt /home/zangtt/Data/zqt/PaviaU_gt.txt /
/home/zangtt/Data/zqt/index_org.txt 1 4 hdfs://localhost:9000/home/zangtt/original-4.txt

 

你可能感兴趣的:(Spark)