2019-11-01

总结:常用API的练习

1.parallelizePairs的入参中,如果有2个Tuple2的KEY一样,则生成RDD时只有一个,VALUE为位置靠后的元素值。

2.mapToPair和flatMapToPair的区别:前者将每个元素处理成Tuple2,后者处理成Iterator。

3.测试常用方法collectAsMap(),若有KEY相同的TUPLE2,只显示最后一个KV对。



SPARK支持的主流的文件格式

格式名称                结构化                备注

文本文件                否                        一行就是一条纪录

JSON                    半结构化                    -

CSV                      是                        基于文本的表格

SequenceFiles      是                        键值对数据,常见的HADOOP文件格式

parquet                    半结构化            列族式存储

你可能感兴趣的:(2019-11-01)