WordCount过程详解

1.HDFS中存储(分布式)数据
helloSpark.txt
2.从HDFS上读取分布式文件并且以数据分片的方式,存在于集群之中
HadoopRDD:
多台机器上
WordCount过程详解_第1张图片
WordCount过程详解_第2张图片
图转自地址
WordCount过程详解_第3张图片
图转自地址

你可能感兴趣的:(分布式,hdfs)