spark(三):spark的数据读取和保存

一、spark支持的文件格式

1、文本文件,每行一条记录

    使用sc.textFile来读取一个文件,使用saveAsTextFile方法将RDD保存为一个文件

2、JSON格式文件,大多是每行一条记录

    这里需要注意是每一行是一个JSON记录还是跨行的,如果是跨行的那么就要解析整个文件

3、CSV文件

4、SequenceFile基于键值对的hadoop文件格式

5、对象文件,其是基于java的序列化生成的文件

6、hadoop输入输出格式,其支持新旧两套hadoop的api

7、spark支持gzip、lzo、bzip2、zlib、Snappy几种压缩方式

二、文件系统

spark支持本地文件、云服务器文件、hdfs

三、sparkSql之中的结构化数据

再spark之中对某个文件执行sql结果是row组成的RDD文件,同时sparkSql可以读取任何的hive表

四、数据库

1、java数据库连接,需要构建一个jdbcRDD连接,并且将SparkContext传给这个RDD

2、Cassandre连接器,只能再java和scala之中使用

3、spark可以通过hadoop的输入格式来访问hbase

4、ES,使用ES连接器来连接ES

你可能感兴趣的:(spark(三):spark的数据读取和保存)